百川开源大模型 Baichuan-13B 评测


继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。

目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。

那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何?

中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Chat进行了测评。

测评结果如下:

结论

1. 目前是中文百亿参数最好的模型吗?

目前认为对于同等量级开源模型 ,在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。

2. 与ChatGPT3.5接近了吗?

与ChatGPT3.5比较,在SuperCLUE开放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空间。

以下是从定量角度对模型进行的测评分析。

定量分析

  • SuperCLUE-Open(开放式多轮测评):

  • SuperCLUE-Open(开放式多轮测评)十大能力:以Baichuan-13B-Chat为例

可以看到,在SuperCLUE开放式多轮测评基准的十大能力评估中,百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现(以胜和率为指标),部分任务有比较大的改进空间。

点此查看详情。


相關推薦

2023-10-18

占比近70%,研发人员占比超80%。 目前,百川智能已发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型,平均每 28 天发布一款新的大模型。 公告称,Baichuan-7B/13B两款开源大模

2023-06-16

能公司宣布推出 70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口

2023-10-31

10月30日,百川智能发布Baichuan2-192K大模型,其上下文窗口长度高达192K,是目前全球最长的上下文窗口。 上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息

2023-08-10

狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是使

2023-09-08

办法》备案,并面向全社会开放服务。用户可以登录 www.baichuan-ai.com,感受百川大模型在知识问答、文本创作等领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan

2023-10-31

昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。 除模

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-11-06

、以及模型能力均达到了“4+级”。 10月30日,昆仑万维开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。「天工」Skywork-13B系列目前包括130亿参数的两大模型,Skywork-13B-Ba

2023-10-27

行榜 三大能力客观题OPT排行榜 十大基础能力榜单 开源模型排行榜 SuperCLUE 观点 国内第一梯队大模型经过11个月的努力,已经与GPT3.5极为接近。但与GPT4的距离依然巨大,尚未发现有对标和媲美GPT4的迹象。 国内大模

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c

2023-07-22

tGLM(内测版)发布。 相关阅读: 清华系公司智谱 AI 开源 ChatGLM-6B 大模型,千亿基座对话模型开启内测 360 合作智谱 AI,共研千亿级大语言模型 360GLM 智谱 AI 官宣:ChatGLM2-6B 可免费商用

2023-09-22

发 30 岁就要被干掉? 36氪从多名独立信源处获悉,大模型公司“智谱AI”于近日完成 B-4 轮融资。其中,腾讯战投、阿里巴巴战投等多家机构参与投资。该轮融资完成后,智谱AI的估值达到约10亿美金。 对此,智谱 AI 方不予置

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2023-10-21

【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 北京智谱华章科技有限公司(简称“智谱AI”)宣布,今年已累计获得超 25 亿人民币融资。 参与方主要包括社保基金中关村自主创新基金(君