百川智能发布 Baichuan2-192K 大模型,上下文窗口全球最长


10月30日,百川智能发布Baichuan2-192K大模型,其上下文窗口长度高达192K,是目前全球最长的上下文窗口。

上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。

据介绍,Baichuan2-192K能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的 4.4倍,更是 GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍。Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。

此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。

今年9月25日,百川智能已开放了Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。


相關推薦

2023-06-16

1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。 目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议,模型权重采用了免费商用协议,只需进

2023-07-19

放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空

2023-06-29

1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark (C-EVAL/MMLU) 上均取得同尺寸较好的效果。 即刻体验百川-7B 模型: https://hf.co/spaces/ysharma/baichuan-7B ChatGLM2-6B 重磅发

2023-08-10

搜狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是

2024-08-08

万物。 如今的“大模型六小虎”(智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰),正以惊人的速度,跨过200亿元的估值大关。 2024年8月5日,据彭博社报道,月之暗面刚交割一轮超过3亿美元的融资,投后估值

2023-10-18

发人员占比超80%。 目前,百川智能已发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,平均每 28 天发布一款新的大模型。 公告称,Baichuan-7B/13B两款开源大模型在多个权威

2024-07-27

百川智能已于近期完成了A轮融资,总融资金额达50亿元人民币,并且将以200亿估值开启B轮融资。 A轮的投资方有阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构,也包括北京市人工智能产业投资基金、上海人

2023-09-08

8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京

2023-11-07

31 日首批通过备案的 AI 大模型包括百度文心一言、百川智能、商汤商量 SenseChat、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、上海 MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模

2023-10-10

中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触,比如当想和大模型讨论一些稍长的内容,需要拆分输入,而前面输入的要点,很快就会被大模型忘

2024-08-22

市场格局也主要还是由早期投入者如百度、商汤、智谱、百川等公司构成。 进入2024年,头部互联网公司加大对大模型的投入且发起价格战,为早期的大模型初创企业带来一定的竞争压力。预计未来 2-3 年,市场格局将发生多轮

2024-07-05

以上方法接入。 下面为部分大模型厂商的API说明: 百川:https://platform.baichuan-ai.com/docs/api 通义千问:https://help.aliyun.com/zh/dashscope/developer-reference/compatibility-of-openai-with-dashscope 零一万物:https://platform.lingyiwanwu.com/docs#api

2023-06-15

增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比) 最先进的嵌入模型的价格降低了 75% gpt-3.5-turbo输入 token 的价格降低了 25% 公布gpt-3.5-turbo-0301和gpt-4-0314模型的弃用时间线 1. 

2024-06-27

型外,MiniMax、月之暗面、智谱AI、猎户星空、零一万物、百川智能六家大模型厂商已与钉钉达成合作。目前,钉钉生态伙伴总数超过5600家,其中AI 生态伙伴已经超过100家;钉钉AI每天调用量超1000万次。 钉钉总裁叶军表示:“模