百川智能发布 53B 大模型,预计今年内追上 GPT-3.5


搜狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。

模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是使用闭源让大家网上调用的方式。在我们的官网,大家已经可以申请内测试用了。在我们的计划里,我们后续 53B 也不会开源。

目前 Baichuan-53B 已在官网开放内测申请,并将在下个月开放 API。按照计划,今年四季度,百川智能将发布千亿参数的大模型,预计将追上 GPT-3.5 的水平。此外王小川对 Founder Park 透露,百川智能的开源模型也将在今年内发布升级版本。

百川强调了 Baichuan-53B 的三个技术优势:预训练数据、搜索增强和对齐能力,其中前两者与百川团队中丰富的搜索引擎经验有较强相关性。

预训练数据

预训练阶段,王小川表示,此前团队做搜索引擎的经验,让百川能够又快又好地完成前期数据积累,这也是百川此前两款开源模型能够迅速推出的原因之一。

  • 百川希望构建一个全面的世界知识体系,覆盖各个领域和学科的知识,通过整合各类信息源,确保文化、科学、技术等方面广泛的知识覆盖。

  • 目前百川已经建立了一套系统的数据质量体系,包括低质、优质、类别等,确保整个预训练过程中维持高标准的数据质量,以让数据为最终模型训练的目标服务。

  • 为保证数据的多样性并有效处理重复信息,百川设计了一个多粒度的大规模聚类系统。通过使用先进的聚类算法和方法,识别和整合相似或相关的数据,为去重、采样提供支撑。

  • 百川还开发了一种细粒度的自动化匹配算法,自动配比各类任务,例如课程学习。从而实现个性化的模型学习,使预训练数据能够更精确地匹配用户需求。

搜索增强 

这次 Baichuan-53B 的开发过程中,百川应用了更多搜索相关的技术,实现模型优化与改进。

  • 动态响应策略,依赖 Prompt,将指令任务细化为 16 个独立类别,覆盖各种用户指令的场景。

  • 智能化搜索词生成,通过对问答样本进行精细化的人工标注,捕捉和理解用户多元化的志林需求。

  • 高质量搜索结果筛选,百川构建了一个搜索结果相关性模型,对从搜索内容和知识库中获取的信息进行相关性频分,从而筛选出高质量的搜索引用内容,减少在知识抽取阶段引入的无关、低质量的信息。

  • 回答结果的搜索增强,RLHF,让 Baichuan 大模型参照搜索结果,针对用户请求生成高价值且具有实时性的回答。


相關推薦

2023-11-08

义千问,文心一言,讯飞星火,商汤日日新,腾讯混元,百川 53B ,360 智脑 开源模型:Llama2 ,ChatGLM2 ,AquilaChat 7B ,Bloomz 7B 等,后续还将开放更多 文生图、图生图、超分辨率、黑白图片上色等功能,集成 Stable Diffusion 模型,

2024-07-27

百川智能已于近期完成了A轮融资,总融资金额达50亿元人民币,并且将以200亿估值开启B轮融资。 A轮的投资方有阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构,也包括北京市人工智能产业投资基金、上海人

2023-10-18

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 百川智能宣布已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参与了本轮融资。加上天使轮的5000万美元,百川智能的融资金额

2023-10-27

能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。 本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大

2023-10-31

10月30日,百川智能发布Baichuan2-192K大模型,其上下文窗口长度高达192K,是目前全球最长的上下文窗口。 上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息

2023-09-08

8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京

2023-03-16

g Cable"适配器的包装,总共包含三个部分。 面板1:一部智能手机,其充电端口插着一个 VGA 接口(大的蓝色 15 针接口,通常用于电脑显示器)。 面板2:"Lightning Cable"适配器的包装上有一张 VGA 接口的图片。 面板3:VGA 连接

2023-08-06

要从0到1的打造自己的大模型,可以基于文心大模型打造智能应用,避免重复造轮子,把精力放在自己擅长的创新上。谁先做出来满足用户需求的应用,谁就抢占了发展先机。

2024-08-22

市场格局也主要还是由早期投入者如百度、商汤、智谱、百川等公司构成。 进入2024年,头部互联网公司加大对大模型的投入且发起价格战,为早期的大模型初创企业带来一定的竞争压力。预计未来 2-3 年,市场格局将发生多轮

2023-06-16

6月15日,搜狗创始人王小川创立的百川智能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2023-10-20

纳-香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心发布了一款面向大语言模型的综合可信度评估平台——DecodingTrust,对大模型的毒性、刻板偏见、对抗稳健性、分布稳健性、对抗演示稳健性、隐私、机器伦理

2023-11-07

31 日首批通过备案的 AI 大模型包括百度文心一言、百川智能、商汤商量 SenseChat、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、上海 MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模

2023-07-19

继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之