全球首发|原生开源大模型托管项目 CSGHub


关于CSGHub

大模型百花齐放的时代,数据和模型已成为企业和个人用户最核心的数字资产。然而,当前面临的挑战是模型文件和数据集的管理工具分散、管理手段单机化碎片化等问题。这些问题不仅带来了安全运营的巨大风险,也成为企业大模型能力更新迭代的阻力。

如果您像我们一样坚信大模型将成为信息革命的最重要推动力,您可能也会思考如何更高效、更安全、更可靠地管理大模型的核心资产:模型、数据以及代码。正是出于对这一挑战的深刻认知,我们推出了CSGHub  ——  一个旨在解决大模型相关资产治理难题的开源项目。

CSGHub的使命是为用户提供一个开源开放的、针对大模型原生设计的资产管理平台,支持私有化部署和离线运行。我们的目标是为用户创造一个安全、高效且可信赖的环境,使其能够更好地管理和运用大模型核心资产数据。

CSGHub实现了类似私有化Huggingface的功能,以类比OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及Sonatype Nexus管理制品的方式,以开源软件的方式实现对LLM资产的安全、高效管理。

CSGHub 官网:https://portal.opencsg.com/

CSGHub 源码:https://github.com/OpenCSGs/csghub   (欢迎Star🌟

CSGHub 帮助用户治理LLMLLM应用生命周期

CSGHub是一个开源、可信的大模型资产管理平台,帮助用户治理LLMLLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。

  1. 基于CSGHub,用户可以通过Web界面、Git命令行或者自然语言Chatbot等方式,实现对模型文件、数据集、代码等资产的操作,包括上传、下载、存储、校验和分发;

2.同时平台提供微服务子模块和标准化API,便于用户与自有系统集成。

CSGHub具有以下功能特性:

  • 资产统一管理: 一站式Hub统一管理模型文件、数据集、大模型应用代码。
  • 研发生态兼容: 同时支持HTTPSSSH协议的Git命令和Web界面操作, 确保不同用户均可方便使用。
  • 大模型能力扩展:原生支持版本化管理、模型格式转化、数据自动预处理、数据集预览等功能。
  • 权限与安全: 支持与企业用户系统集成、支持资产可见范围设置、外部内部零信任的鉴权接口设计, 最大化满足企业安全。
  • 私有化部署支持: 无互联网依赖、无云厂商依赖等外部依赖,可一键启动私有化部署。
  • 大模型原生设计: 支持自然语言交互、支持模型一键微调与部署、支持AgentCopilot应用。

关于CSGHub技术架构

在技术架构上,CSGHub是一个综合了先进技术的资产管理平台,具有以下技术特点:

  • CSGHub整合了开源Git ServerGit LFS大文件存储协议和对象存储OSS等技术,提供可靠的数据存储层、灵活的基础设施接入层和高兼容的研发工具支持。
  • 通过服务化的架构, CSGHub提供CSGHub Server后台服务和CSGHub Web Service的管理界面,普通用户可以快速使用Docker composeKubernetes Helm Chart启动服务,实现生产级的资产管理。具备自研能力的用户可利用CSGHub Server进行二次开发,将核心管理功能集成到外部系统或自定义高级功能。
  • CSGHub借助Apache ArrowDuckDB等优秀开源项目,支持Parquet数据文件格式的预览,便于算法研究人员和爱好者进行本地化数据集管理。
  • CSGHub提供直观的Web界面和面向企业组织架构的权限设计,用户可通过Web UI实现版本控制管理、在线浏览和下载,也可以设置数据集和模型文件的可见范围,实现数据安全隔离,还可以对模型和数据集发起用户讨论话题。

我们持续更新

我们致力于将CSGHub打造为一个高效、易用的大模型资产管理平台,未来我们将继续实现以下技术/功能点:

  • 资产管理
  • 多源同步: 支持配置并启用远端仓库, 自动数据同步,支持OpenCSG传神社区、Huggingface等远端源。
  • 代码仓库内置代码Repo管理功能,可关联模型、数据集、Space空间应用的代码。
  • AI能力增强
  • 一键微调: 支持与OpenCSG llm-finetune集成,一键启动模型微调训练。
  • 一键推理: 支持与OpenCSG llm-inference集成,一键启动模型推理服务。
  • 应用与企业功能
  • 应用空间: 支持托管Gradio/Streamlit应用并发布到Space应用空间
  • 细粒度权限面向企业架构的细粒度权限和访问控制设置
  • 安全合规
  • 资产元数据: 资产的元数据管理机制,支持自定义元数据类型和对应的AutoTag规则。
  • 合规验证: 模型和License的合规性校验与溯源验证

 

选择 CSGHub 开源项目

  • 开源许可证友好、可商用,Apache2
  • 开放式合作:我们欢迎大家加入我们开源项目的建设,贡献自己的想法、建议或代码。
  • 持续更新与改进:我们承诺不断更新CSGHub,并积极采纳社区反馈,不断改进项目。
  • 传统DevOps快速适配最佳选择,通过原生大模型项目与传统DevOps工具结合和集成。
  • 无论您是开发者、数据科学家,还是热衷于这个领域的爱好者,您都可以参与其中:
  • 贡献代码:浏览我们的GitHub仓库,提交您的代码或修复bug
  • 提供反馈:提交问题或建议,帮助我们改进和发展项目。
  • 分享经验:在社交媒体上分享您使用CSGHub的经验和见解。

 

共建 共享 开源

CSGHub 中, C 代表Converged,我们将利用混合云的优势,算力降本增效,充分释放混合云的算力及存储资源;S 代表Software refined,我们将利用自然语言技术,发掘LLM的潜力,重新定义软件的交付方式。通过大模型编程,人力降本增效;G 代表Generative,我们将致力于大模型的民主化和大众化,让大模型更易于访问、更廉价、更容易定制,更适合垂直行业使用。

CSGHub 是一个刚刚起步的项目,我们相信它将在解决大模型资产管理方面能够发挥积极作用。OpenCSG 旨在成为中国开源领域和软件开发领域的新变革者,推出的首个大模型原生托管平台,这一举措标志着中国大模型开源社区发展已经迈入新的里程碑。加入我们的社区,共同创造更美好的未来!

CSGHub 官网:https://portal.opencsg.com/

CSGHub 源码:https://github.com/OpenCSGs/csghub  


相關推薦

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2022-09-24

库开源社区,在数据库产业新一轮变革发展中,积极参与全球竞争,抢占话语权和主导权。 目前,TiDB 项目聚集了全球 1895 位贡献者 ,覆盖了 45 个国家与地区。其中,PingCAP 以外的贡献者占比超过 75%,其中近 20% 为企业决策者

2024-08-17

近日,在openKylin社区RV64G SIG的共同努力下,openKylin操作系统已基于64位高性能RISC-V CPU成功运行,并顺利完成了对中科通量RISC-V AI PC的兼容适配,这一成就为RISC-V架构在通用高性能领域的进一步优化和快速增长奠定了坚实基础,

2024-09-26

持续投入生态建设。鼓励初学者参与华为开发者计划,与全球编程和数学大赛冠军交流,共同推动应用创新。 (华为计算产品线昇腾领域人工智能生态总经理 刘伟)   聚合资源,协同创新 openMind应用使能套件致力于聚

2023-06-14

人工智能技术的迅猛发展正推动着全球创新的浪潮。在AI创新的背后,人工智能框架作为AI根技术,为开发者提供强大的工具和资源,扮演着至关重要的角色。备受瞩目的人工智能框架生态峰会2023即将召开,本次峰会将聚集顶尖A

2024-07-27

全球开源技术峰会(Global Open-source Technology Conference,简称 GOTC)始于 2021 年,是面向全球开发者的开源技术盛会。 GOTC 2024 与上海浦东软件园联合举办,并结合 “GOTC(全球开源技术峰会)” 与 “GOGC(全球开源极客嘉年华

2023-07-25

AI行业应用进行了相关分享。开源PHP创立于 2008 年,收录全球知名开源项目近 10 万款,涉及几百个不同的分类,并于 2022 年发布了中国开源社区 Landscape,收录 200+ 开源社区;同年收购日本老牌开源社区 OSDN,该社区前身为 Sou

2023-10-13

是大模型和相应的产品多半名称不同。 知名大模型:在全球范围内,已经发布了多款知名大模型,这些大模型在各个领域都取得了突破性的进展。 知名大模型应用:LLM 已经在多种应用场景中得到了应用,包括文本生成、机

2023-11-17

增长,同比增长 38%,占 GitHub 上所有活动的 80% 以上。 全球开发者社区继续增长。美国拥有 2020 万开发者,开发者人数在去年增长了 21%,仍然是全球最大的开发者社区。亚太地区、非洲、南美洲和欧洲的开发者社区规模逐年

2024-08-13

8 月 15 日至 16 日,2024 全球开源技术峰会 GOTC x GOGC 全球开源极客嘉年华将于上海张江科学会堂举行。 全球开源技术峰会(Global Open-source Technology Conference,简称 GOTC)始于 2021 年,是面向全球开发者的开源技术盛会。 GOTC 2

2023-03-02

组织,推动国内外开发者协同创新。通过开源开放方式,全球开发者可以自由探索、共同贡献、协同创新。未来,FlagOpen也将支撑全球AI企业、机构基于FlagOpen构建AI大模型软件发行版本、平台、商业软件等。 FlagOpen开源平台入

2024-09-30

2024年9月19日,飞致云旗下开源项目MaxKB成功加入Gitee平台主导的GVP计划,入选2024年GVP——Gitee最有价值开源项目。MaxKB也是继MeterSphere、DataEase和1Panel之后,飞致云旗下第四个入选GVP的开源项目。 ▲图1 MaxKB入选2024年Gitee最有价

2024-06-29

等多个章节。 直达链接: 点击了解详情 拓数派亮相全球互联网架构大会 5月24日~25日,拓数派受邀参与了 2024 GIAC 全球互联网架构大会,并在大会中发表了主题演讲《大模型时代下向量数据库的设计与应用》,介绍了大模

2024-09-21

中国杭州,2024年9月19日 —— 全球知名的软件开发工具提供商JetBrains在2024云栖大会上正式发布基于阿里云通义大模型的JetBrains AI Assistant,标志着JetBrains在完善其开发工具产品生态方面迈出了重要一步。JetBrains AI Assistant与多款Jet