WFS v1.0.7 发布,海量小文件存储系统


前言:wfs 是高性能海量小文件存储系统 ,支持Linux,Windows,Macos,FreeBSD,solaris 等系统, 可以高效地进行文件存储和读取。wfs 支持文件压缩归档,并提供简洁的数据读取方式和文件后台管理和 以及归档文件的碎片整理等。

WFS官网

在线测试(用户名admin 密码123)

WFS使用文档

Github源码地址

海量小文件问题(LOSF)是一个在大规模数据存储与管理中广泛存在的挑战,尤其是在互联网、物联网、云计算、大数据等领域的应用场景中尤为突出:

  1. 系统调用开销:对每个小文件的操作(如打开、关闭、读写等)都需要单独的系统调用,这些调用的开销在小文件数量巨大时累积起来,成为性能瓶颈。
  2. 元数据管理:每个文件对应一份元数据(如文件名、大小、权限、位置等),海量小文件意味着需要管理大量的元数据。元数据索引、查询和更新的效率直接影响到文件的检索速度和存储系统的整体性能。
  3. 文件查询效率:在大量小文件中查找特定文件时,遍历和筛选的成本很高,尤其是在缺乏高效索引的情况下。
  4. 磁盘数据布局:小文件可能导致磁盘空间利用率低(由于文件系统块大小与小文件大小不匹配造成的内部碎片),以及写放大问题(尤其是在写密集型场景中)。
  5. CPU占用率:处理大量小文件请求时,CPU可能忙于处理I/O调度、元数据操作等,导致CPU资源消耗过大,影响整体系统性能。

wfs针对LOSF问题的实现:

  1. 高效存储布局与合并技术: WFS将多个小文件聚合成大文件存储,以减少元数据开销和提高存储利用率。同时,通过灵活的索引机制,确保每个小文件都能快速定位和提取。
  2. 元数据管理优化: 针对大量小文件元数据管理难题,wfs采用高效元数据索引和缓存策略,减少元数据查询时间,并采用层级目录结构或哈希索引等方法,降低元数据存储的复杂度。
  3. 缓存与预读策略: lru缓存机制,对访问频繁的数据进行缓存,降低I/O操作次数,提高读取速度。
  4. 数据去重与压缩技术: 实现数据去重和数据压缩,去除重复内容,减小存储空间占用,并通过多级压缩算法优化存储效率。

wfs 的应用场景

  1. 海量非结构化数据存储:适用于存储大量的非结构化数据,如图片、视频、日志文件、 备份数据、静态资源文件等。
  2. 高效文件数据读取:wfs存储引擎可以达到100万/每秒 以上的数据读取效率,特别适合文件读取密集型的业务。
  3. 多种图片处理需求:wfs内置图片基础处理,适合对图片处理多种要求的业务,如图片适应多个尺寸,自定义裁剪等。

V1.0.7更新内容

  1. 修复bug
  2. 优化性能
  3. 优化后台管理界面

说明:

wfs的图片处理,有较多url参数,使用图片处理,可以方便显示图片处理的正确参数用法,更多具体的图片处理方式可以参考 使用文档

新增后台图片处理界面:

通过图片处理,界面将显示图片处理参数的正确拼接方式。

说明:后台界面管理只是一种辅助模式,应用到项目中时,高效对图片进行增删改查,建议使用wfs客户端,客户端使用tcp与压缩协议,可以有效提高文件操作效率。

  • go客户端           https://github.com/donnie4w/wfs-goclient
  • rust 客户端        https://github.com/donnie4w/wfs-rsclient
  • java客户端         https://github.com/donnie4w/wfs-jclient
  • python客户端    https://github.com/donnie4w/wfs-pyclient

相關推薦

2024-09-22

免维护等优点。   go-fastdfs 分布式文件系统 v1.4.6 发布,修复删除空目录引起的bug 注意:使用前请认真阅读 使用文档 或 视频教程。 优点 支持 curl 命令上传 支持浏览器上传 支持 HTTP 下载 支持多机自

2024-09-28

无中心、免维护等优点。 go-fastdfs 分布式文件系统 v1.4.7 发布,增加(删除文件名特殊字符)enable_trim_file_name_special_char选项 注意:使用前请认真阅读 使用文档 或 视频教程。 优点 支持 curl 命令上传 支持浏览器上

2023-03-09

1、smart-flow 简介 smart-flow 是一个轻量、灵活的业务流程编排框架,支持业务流程中常见的条件分支控制、子流程、业务组件异步和降级等功能。同时smart-flow也是一款具备可观测性的流程编排框架,流程结构拓扑、执行路径跟踪

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2024-08-29

Pigsty v3.0 正式发布。这是时隔一年半后的又一个大版本更新,带来了海量扩展插件,提供 Oracle 与 SQL Server 兼容性的替换内核,以及完整在本地运行的 SOTA RDS 服务 Pigsty v3 提供了史无前例的 333 个可用扩展插件。包括 121 个扩展 R

2022-12-16

Neuron 2.3.0 版本现已正式发布! 除了新增数据统计、模糊搜索、页面下载日志等功能提升产品易用性外,Neuron 2.3.0 版本还新增了 CIP Ethernet/IP、Mitsubishi Melsec 1E frame E71 和 Fanuc Focas 三个协议驱动,以更强大的能力帮助工业用户实

2024-07-27

,但是 通过 DiskANN 优化后,仅需要 70 MB 的内存就可以对海量数据高效的进行检索;在 MS-MARCO(1024 维)的 1.38 亿条记录里,需要内存更是高达 534GB,这样检索 1.38 亿的数据需要 12 个 64GB 的节点。   按照上面的估算公式

2022-07-24

正加速渗透至我们的日常生活。大数据技术不是为了搜集海量的数据,而是为了利用专家技术,从海量的数据中抽取出相关的信息,以满足用户的需要。在“十四五”的发展规划中,工信部提出了大数据产业在2025年达到3万亿元

2023-03-03

经过近一年的开源研发工作,时序数据库 CeresDB 1.0 正式发布,达到生产可用标准。 CeresDB 1.0 官方中文文档:https://docs.ceresdb.io/cn/ CeresDB 1.0 核心特性介绍 存储引擎 支持列式混合存储 高效 XOR 过滤器 云原生分布式

2023-03-17

sp;的核心竞争力 openGemini 开源后持续版本迭代,现已发布 v1.0.0 版本,在高性能、高安全、企业级特性、可扩展性、功能、应用开发等六个方面已全面具备生产环境可使用的完整能力。 高性能 openGemini 针对物联网、运

2023-01-06

照亮开源之路 https://github.com/apache/incubator-seatunnel 版本发布 今天,Apache SeaTunnel(incubating) 正式推出 2.3.0 正式版本,并正式发布自己的核心同步引擎 Zeta!此外,SeaTunnel 2.3.0 还带来了许多大家期待已久的新特性,包括支持 CDC、

2024-08-27

年立项开始开发 Thanos 的企业级发行版 Whizard 并于 2022 年发布了第一版,至今已发布了 8 个大小版本。自 KubeSphere Enterprise v3.3.1 基于 Whizard 发布了可对海量 K8s 集群及边缘节点进行监控告警的 Whizard 可观测中心以来,经过 KubeSpher

2021-11-22

er端消费日志并入库 worker端是调优的重点,由于要接收海量客户端发来的日志,解析后入库,所以worker需要具备很强的缓冲能力。 我们都能看出来,系统的瓶颈点肯定在入库这个阶段,解析日志,抽取字段都是效率很高的

2023-10-24

啦!1028 苏州源创会,一起寻宝 AI 时代 大家好,禅道18.8发布啦,本次发布主要实现了度量项的图形化展示,度量数据筛选、分类或组合查看度量项等功能。支持多个范围下的度量项,包括项目、产品、执行、个人、系统范围,