百川智能发布 Baichuan2-192K 大模型,上下文窗口全球最长


10月30日,百川智能发布Baichuan2-192K大模型,其上下文窗口长度高达192K,是目前全球最长的上下文窗口。

上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。

据介绍,Baichuan2-192K能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的 4.4倍,更是 GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍。Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。

此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。

今年9月25日,百川智能已开放了Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。


相關推薦

2023-06-16

1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。 目前 baichuan-7B 大模型已在 Hugging Face、GitHub 以及 Model Scope 平台发布。baichuan-7B 代码采用 Apache-2.0 协议,模型权重采用了免费商用协议,只需进

2023-07-19

放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空

2023-06-29

1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark (C-EVAL/MMLU) 上均取得同尺寸较好的效果。 即刻体验百川-7B 模型: https://hf.co/spaces/ysharma/baichuan-7B ChatGLM2-6B 重磅发

2023-08-10

搜狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是

2023-10-18

发人员占比超80%。 目前,百川智能已发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,平均每 28 天发布一款新的大模型。 公告称,Baichuan-7B/13B两款开源大模型在多个权威

2023-09-08

8 月 31 日,百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京

2023-11-07

31 日首批通过备案的 AI 大模型包括百度文心一言、百川智能、商汤商量 SenseChat、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、上海 MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模

2023-10-10

中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触,比如当想和大模型讨论一些稍长的内容,需要拆分输入,而前面输入的要点,很快就会被大模型忘

2023-03-02

“大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态

2023-06-15

增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比) 最先进的嵌入模型的价格降低了 75% gpt-3.5-turbo输入 token 的价格降低了 25% 公布gpt-3.5-turbo-0301和gpt-4-0314模型的弃用时间线 1. 

2023-06-14

人工智能技术的迅猛发展正推动着全球创新的浪潮。在AI创新的背后,人工智能框架作为AI根技术,为开发者提供强大的工具和资源,扮演着至关重要的角色。备受瞩目的人工智能框架生态峰会2023即将召开,本次峰会将聚集顶尖A

2023-10-18

越来越多的人试图用更小的模型、更好的数据集、更长的上下文来克隆或击败专有模型; 目前还不清楚人类生成的数据能维持人工智能扩展趋势多久(有人估计,到 2025 年,数据将被 LLM 耗尽),也不清楚添加合成数据会产

2023-10-26

谷歌推出新工具“关于此图像”,可验证图像来源、提供上下文信息,旨在增强搜索结果的可信度。【AiBase提要】:🔍 谷歌推出“关于此图像”工具,帮助验证图像来源和提供上下文信息。📷 用户可从搜索和 Google 图片结果中

2023-11-10

vivo 已在 Hugging Face 上正式开源蓝心大模型 BlueLM-7B。 地址:https://huggingface.co/vivo-ai BlueLM-7B 开源大模型包括 7B 基础模型和 7B 对话模型,vivo 还开源了支持 32K 的长文本基础模型和对话模型。 据介绍,BlueLM 采用