Hugging Face 发布 AI 编程模型,对抗 GitHub Copilot


Hugging Face 日前联合 ServiceNow 发布了一个免费的大型语言模型 StarCoder(150 亿参数),该模型经过训练主要用途是可以生成代码,目的是为了对抗 GitHub Copilot 和亚马逊 CodeWhisperer 等基于 AI 的编程工具。

目前像是 GitHub Copilot 这样的 AI 编程工具都是偏商业化的产品,开发者需要付费订阅才能使用,而 StarCoder 可以让任何人(包括企业)免费使用。

AI 编程工具面临的另一个问题是,开发 AI 工具的这些科技公司通常都会使用网上公开的源代码来训练 AI,但这些数据集并没有获得授权,产生的代码也面临着法律、道德,以及代码归属等问题。比如 GitHub 现在就面临 Copilot 的集体诉讼。

为了避免这样的问题,StarCoder 则是在这两家公司获得授权的源代码上进行的训练,旨在以开放和负责任的方式为代码创建最先进的人工智能系统,授权的源代码涵盖了 80 种编程语言。

为了训练这样的模型,Hugging Face 使用了一个由 512 个 Nvidia V100 GPU 组成的内部计算集群来训练 StarCoder。

StarCoder 并不是严格意义上的开源 LLM 模型,它是在 OpenRAIL-M 许可下发布的,其中包括适用于修改模型和使用模型的限制,以及对分发恶意代码的限制。StarCoder 相关的支持代码目前已发布在 GitHub 上。


相關推薦

2023-08-27

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> HuggingFace 宣布推出代码助手 SafeCoder,帮助企业提高软件开发效率。 据介绍,SafeCoder 是 HuggingFace 基于StarCoder 模型开发的编程辅助工具,针对企业自托管使用进行了优化,

2022-07-16

的语言模型。 该项目始于去年,由人工智能初创公司 Hugging Face Inc.(最近融资了 1 亿美元)与法国研究机构 CNRS 和 GENCI 合作,他们共同成立了一个名为 BigScience 的研究小组来领导 Bloom 的开发。该项目汇集了 70 多个国家/地区

2025-03-22

后台,同时利用后台模型加载功能安装攻击者提前上传在Hugging Face的投毒模型文件,以便利用模型加载时的pickle反序列化逻辑,控制受害者机器,进一步渗透目标内网。 本次事件攻击者主要利用了ComfyUI 控制台无身份鉴权的配

2023-08-09

PyTorch 基金会宣布 Hugging Face 已加入为首要成员。与此同时,Hugging Face 开源负责人 Lysandre Debut 也成为了 PyTorch 基金会治理委员会的一员。 Hugging Face 是一个致力于降低机器学习和深度学习入门门槛的社区和公司,其模型

2023-10-24

一起寻宝 AI 时代 根据 Yahoo 新闻的报道,人工智能公司 Hugging Face 发言人在周五的一封电子邮件中写道: 中国的人工智能社区非常出色,我们希望他们能更好地访问 HF,但目前我们对于政府的法规无能为力。 The Chinese AI

2023-08-24

科技媒体 The Information 的报道,开源模型库公司 Hugging Face 正进行一轮新的融资,本轮融资由 Salesforce 旗下投资机构 Salesforce Ventures 领投,Salesforce CEO Marc Benioff 在推特证实了这一消息。Hugging Face 此次融资预计将筹集约

2023-06-29

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的

2023-08-05

IBM 宣布在 Hugging Face 上开源其 watsonx.ai 地理空间基础模型 -- 基于美国国家航空航天局 (NASA) 的卫星数据构建。这将是 Hugging Face 上最大的地理空间基础模型,也是首个与 NASA 合作构建的开源 AI 基础模型。 公告指出,作为与 NASA

2023-10-04

调,如编程辅助或其他专用应用。 开源:该模型已在 Hugging Face 平台上开源 (https://huggingface.co/stabilityai/stablelm-3b-4e1t),方便开发者使用和改进。 训练细节:该模型在 Stability AI 的集群上进行了训练,使用了 256 个 NVIDIA A100 40GB

2023-06-16

上下文窗口长度为 4096。 目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。 Hugging Face:https://huggingfac

2025-03-21

纹理」(如水面) 的图像时。 目前,Stable Virtual Camera 在 Hugging Face 平台上以非商业许可的形式供研究使用,用户可以下载体验。 GitHub :https://github.com/Stability-AI/stable-virtual-camera

2023-09-22

到他们特定的领域,并从用户反馈中改进。开发者正在从Hugging Face下载开源模型,并进行微调以实现高质量的性能。 3、检索增强生成:为业务或用户引入上下文,减少幻觉并增加真实性和实用性。像Pinecone这样的公司提供的向

2025-03-25

但他并不认为 AI 能真正帮助人类创造全新的知识,这与 Hugging Face 联合创始人托马斯·沃尔夫(Thomas Wolf)近期的一篇文章观点一致。相反,克里希纳认为,量子计算才是加速科学发现的真正关键技术,而这也正是 IBM 长期以来重

2023-04-06

研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。 论文地址:https://arxiv.org/abs/2303.17580 该系统提出了一种让 LLM 充当控制器的新方