JuiceFS 社区版 v1.1 正式发布,大规模数据管理更轻松


历时 13 个月, JuiceFS v1.1 今天正式发布了!

这是继 v1.0 版本后,第二个长期维护的稳定版(LTS),与 v1.0 完全兼容。

JuiceFS 是为云环境设计的分布式文件系统,元数据和数据都可以借助已有的成熟组件来实现,避免重复造轮子,大大降低了复杂度,可以给用户提供简单易用且稳定可靠的统一文件存储方案。

目前,JuiceFS 支持 10 种以上元数据引擎和 30 种以上数据存储引擎,丰富的元数据和数据引擎选择使得用户可以灵活应对多变的企业环境和数据存储需求;同时,JuiceFS 兼容 POSIX、 HDFS、S3、WebDAV 访问协议,也可以在 Kubernetes 中作为持久卷(PV) 使用,完善的兼容性让数据能够在各个应用中流通自如。

新功能快速浏览:大规模数据管理更轻松

JuiceFS 在大数据、机器学习等场景中被广泛使用,用户的数据规模不断扩大,其中不乏文件数超过 100 亿的集群,如何管理好这海量的文件是目前的挑战。

为此,JuiceFS v1.1 引入了以目录为单位的空间使用统计,并新增如下功能:

  • 目录配额:为目录设置配额限制,控制其大小和文件数,以防止个别用户占用过多资源影响整个系统的稳定性;
  • 目录克隆:在需要复制大量文件的情境下,使用此功能可以仅拷贝元数据,实现快速复制目录及其内容,从而节省时间和空间;
  • 快速查看用量信息:可以快速查看存储空间和文件数量的统计信息;
  • 支持 FoundationDB 作为元数据引擎:这是一款由 Apple 公司开源的分布式数据库,具有高性能、高扩展性和高容错性的特点;
  • 支持 GlusterFS 作为数据存储:进一步简化自建对象存储的扩容和运维问题,关于这个功能的详细介绍,请参考:JuiceFS 社区版 v1.1-beta2 发布:新增 Gluster 作为对象存储

更安全

  • 减少权限安全隐患和防止误操作:在 mount 时通过 --root-squash 选项来将 root 用户映射为一个非特权用户;
  • 可设置特殊标记位来控制文件的行为:在 mount 时通过 --enable-ioctl 选项开启对 ioctl 的部分支持,如 append only (a)  immutable (i) 
  • 防止因硬件异常导致的缓存数据错误:为本地缓存文件增加了完整性校验。

更稳定

解决与对接组件的兼容问题:

  • 为 TiKV 添加独立的 GC 线程,解决其在没有部署 TiDB 组件时无法自行 GC 的问题
  • 提升以 gateway 方式使用 JuiceFS,以及在 Hadoop 生态中使用时的兼容性

调整特定场景下的使用策略:

  • 修复了高配机器上 FUSE 占用过多 CPU 问题
  • 重构了数据对象清除控制方式,能更好地调节待删除对象的清理速度
  • 增加了cache-scan-internal 选项来自定义本地缓存的扫描时间,并且可以选择只在启动时扫描一次或完全关闭扫描
  • 增加了 cache-eviction 选项来调整本地缓存清理策略
  • 增加了 skip-dir-nlink 选项来减少在同一目录下并发创建目录导致的元数据事务冲突

修复可能导致客户端奔溃的 Bugs:

  • 元数据引擎中某些值异常会导致客户端 panic
  • 客户端在并发执行 truncate 和 release 操作时可能会死锁

更易用

  • 一键收集诊断信息:提供一键生成诊断报告的功能,方便排查问题和提供反馈意见;
  • 一键恢复回收站文件:可以一次性地恢复某段时间内所有被删除的文件,无需逐个操作;
  • 无需挂载就可以进行数据同步:在使用 sync 工具时,新支持了 jfs:// 前缀来访问 JuiceFS 中的数据;
  • 自动添加开机启动:在 mount 时加上 --update-fstab 选项,会自动在系统中添加相同挂载参数的开机启动;
  • 提升了查看文件内部结构 info 命令的性能,且展示更多丰富有用的信息;
  • 增强了 fsck 命令,使其在一定条件下能修复损坏的目录信息;
  • 增强了垃圾回收 gc 命令,当待删除对象积累过多时可用其来执行手动清理;
  • 进一步提升了数据同步命令 sync 的性能,并添加了多个策略参数来应对不同的需求。

更多生产环境验证:社区使用规模成倍增长

JuiceFS 社区版于 2021 年 1 月正式开源,在全球范围内获得了众多用户的关注与应用。在文件存储领域,JuiceFS 已经成为增长速度最快的项目之一,目前在 GitHub上已获得 8.5K 颗星标 。 相比去年发布 JuiceFS v1.0 时,匿名上报的用户使用指标都有了大幅增长。

JuiceFS 最初为大数据平台上云设计,同时随着 AI 技术的持续发展,JuiceFS 在 AI 领域也有了越来越多的应用和案例,包括自动驾驶、 AIGC、大语言模型等场景。目前,将 JuiceFS 应用于生产环境的用户包括有移动云、航天宏图、小米、vivo、百度、携程旅行、大疆、理想汽车、思谋科技、上汽集团、地平线、云知声、深势科技、商汤、Shopee、知乎、网易游戏、一面数据等企业,还有济南超算中心、国家天文数据中心等。

这些社区用户也分享了他们在不同场景的实践:

  • 理想汽车:从 Hadoop 到云原生的演进
  • 乾象投资:基于JuiceFS 构建量化投研平台
  • 金山云:基于JuiceFS 的 Elasticsearch 冷热数据管理实践
  • 云知声: 基于 JuiceFS 的超算平台存储实践
  • 中国电信:JuiceFS 在日均 PB 级数据场景的应用
  • 豆瓣:使用 JuiceFS 实现统一的数据存储
  • 之江实验室:如何为异构算力集群构建存储层
  • 一面数据: 存算分离架构设计与实践
  • 思谋科技:构建易于运维的 AI 训练平台
  • 网易游戏:大数据平台上云架构设计与实践
  • 多点DMALL :大数据存算分离下的存储架构探索与实践

社区持续活跃,共建云原生生态

在过去的 13 个月中,社区版 JuiceFS 一直保持着高度活跃的状态。新增的 issue 数量达到 410 个,合并的 PR 数量为 920 个,贡献者人数更是达到了 102 人,较前一年增长100% 。

社区用户的规模也在不断壮大,中文社区已建立了第 6 个微信群。社区交流活动也在积极推进,每两周举行一次线上 Office Hours 活动,每月举办一次 Meetup,确保用户可以通过多种渠道交流问题。

值得一提的是,在过去一年中,JuiceFS 在海外也获得了越来越多的关注,海外用户贡献了 30% 的 Issues 和 24% 的 Pull Requests;在使用社区版的用户中,海外用户占比超 30%,其中美国 16.9%,欧洲 8.1%,亚洲 6.1%(中国大陆以外地区)。

JuiceFS 社区版采用 “Apache 2.0” 许可,使用户可以放心将 JuiceFS 应用于各种商业环境。这不仅允许用户根据自身需求进行二次改进,还便于与上下游应用进行更深度的融合,共建云原生生态。在 v1.1 版本中,JuiceFS 和 Fluid 在数据迁移、目录配额和 JuiceFSRuntime 等方面进行了多项优化。

以下这些备受期待的功能将在未来的版本中逐步实现,欢迎大家一起来共建:

  • 分布式数据缓存
  • 支持 Kerberos 和 Ranger
  • 挂载点平滑升级
  • POSIX ACLs
  • 用户和组配额

🔗JuiceFS v1.1 下载链接:https://github.com/juicedata/juicefs/releases/tag/v1.1.0

👀 升级注意事项:https://juicefs.com/docs/zh/community/release_notes#juicefs-v11

在开源的两年多时间里,JuiceFS 走进了全球上百家企业,衷心感谢每一位社区成员! 谢谢你们反馈的问题、解答的疑问、贡献的代码、分享的实践经验,都让 JuiceFS 变得更强大、更易于使用。


相關推薦

2023-08-10

是一款基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。 具体更新内容如下: Features Console v1.0

2022-11-22

而不会出现中央资源瓶颈,从而确保满足SLA ,并简化元数据管理操作。 Alluxio 2.9版本新增了用于Kubernetes的Alluxio operator 。管理员现在可以通过新增的带 CRD(自定义资源)的Alluxio operator在Kubernetes上轻松部署及管理 Alluxio。使

2023-11-18

更新主要增加了数据库集群批量上线和离线的功能,管理大规模的数据库集群更加方便,并优化了一下代码。 更新 增加数据库集群批量上线功能。 增加数据库集群批量离线功能,方便停机维护。 优化了代码,增加代

2022-08-11

化算法不需要可微的成本函数,并且更适合现代硬件上的大规模并行化。这意味着可以更高效地解决从学习机器人控制器到优化计划或产品设计的更广泛的问题。但目前尚缺少一个可以轻松地以任何规模试验 EA,而无需担心底层

2023-07-13

KubeVirt 社区宣布发布 KubeVirt v1.0,此版本展示了社区和用户在过去几年中所取得的成就,对于所有参与者来说都是一个重要的里程碑。 KubeVirt 项目于 2016 年底在红帽启动,提出的问题是:虚拟机 (VM) 可以在容器中运行并由 Kuberne

2023-07-20

布式设计的低成本优势,又具有集中式的易用性,可满足大规模应用场景需求。 2021年,阿里云把数据库开源作为重要战略方向,正式开源自研核心数据库产品 PolarDB ,助力开发者和客户通过开源版本快速使用阿里云数据库产品

2024-08-20

容器。快速语义分析技术可处理大量的代码库,并且在更大规模的代码库中也能在百毫秒级别完成 IDE 响应。 现今大多数编程语言的 IDE 是为桌面操作系统设计的,未能很好地适应云原生环境和边缘端的需求。MoonBit 则通过采用

2023-10-17

基于企业版的CLup 5.0发布开源版OpenCLup 5.0,并将持续提供社区支持。OpenCLup融合了中启乘数科技团队在CLup企业版上多年积累的经验,在初始版本提供了PostgreSQL流复制高可用集群和PolarDB共享存储高可用集群的部署与管理以及数据

2024-08-14

G 系统,多种向量算法引擎 随着业务的增长,为了满足大规模内部业务和外部客户的需求,团队对向量检索能力进行了持续迭代。特别是在 To B 场景下,用户的业务场景各不相同,数据规模也千差万别,他们的关注点也不一样

2023-12-02

sp;正式版的主要功能介绍和 Release Notes。 主要功能介绍 社区版 1、工单支持上传 ZIP 文件 本周我们进一步优化了工单审核的文件支持范围! 现在,您可以通过上传 ZIP 格式文件的方式,轻松审核压缩包中包含的 SQL 语句。 Z

2023-11-18

DataCS 首款计算引擎,PieCloudDB Database 再度升级,推出全新社区版本。 目前,PieCloudDB 云原生虚拟数仓全面支持 πDataCS 云上云版、社区版、企业版及一体机多个产品版本,提供公有云、私有云以及裸硬件三种部署方式,满足企业

2023-09-14

于其优秀的单机吞吐量,非常适合对于可靠性要求较高的大规模在线业务场景。 RocketMQ 社区最新发布的 5.x 新架构,在功能和弹性上也给我们带来了新的惊喜,尤其是云原生 Serverless 能力的增强,使得 RocketMQ 能够更好地实时适

2024-10-24

6.0 发布,本次发布会同时带来企业版和云上版本更新。 社区版 📋 更新指南 * 🏷️ pip:pip install 'xinference==0.16.0’ * 🐳 Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新 🆕 更新日志 * 新功能     * 🏎

2022-09-16

索更强大的开发工具,更丰富的学习资源,构建更多元的社区生态,更广阔的全球舞台。 主旨演讲嘉宾概览 Google Developer X 和开发技术推广部副总裁兼总经理 Jeanine Banks 表示帮助开发者打造面向当今和未来的产品是谷歌