SuperCLUE 10 月榜单:vivo 自研大模型位列国内第一


SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。

SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。

本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。

评测发现,国内第一梯队大模型格局已基本形成,在过去11个月的成绩令人振奋,头部几个中文大模型已经与GPT3.5极为接近。但与GPT4的距离依然遥远,尚未发现有对标和媲美GPT4的迹象。

10月评测数据集为全新的3754道测试题,其中包括606道多轮简答题和3148道客观选择题。

总排行榜

注:本次评测的GPT3.5版本为gpt-3.5-turbo-16k;文心一言4.0和SenseChat3.0由于分数非常接近(在0.05分以内)认定为并列。

多轮开放问题OPEN排行榜

三大能力客观题OPT排行榜

十大基础能力榜单

开源模型排行榜

SuperCLUE 观点

  • 国内第一梯队大模型经过11个月的努力,已经与GPT3.5极为接近。但与GPT4的距离依然巨大,尚未发现有对标和媲美GPT4的迹象。
  • 国内大模型多数擅长做选择题,在三大能力客观题OPT分数上有不少已经超过GPT3.5。SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势。
  • 国内大模型厂商从算力、数据、人才层面上做了很多努力,SuperCLUE预计在接下来一个季度内将会出现全面超越GPT3.5的通用大模型。但如何赶超GPT4,又会成为摆在所有中文模型研发机构面前新的难题。
  • SuperCLUE国内大模型能力成熟度:在语言理解与生成能力、大模型安全性防护能力上,国内一线模型已经相对成熟、表现优异;在专业技能与知识上,已能满足一些应用需求;在Agent智能体能力上,还相对落后、成熟度低。

榜单地址:https://www.superclueai.com/


相關推薦

2023-11-06

面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知榜单排名第二。 2023年9月16日,在权威推理榜单Benchmark GSM8K 测试中,昆仑万维“天工

2022-02-10

TIOBE 公布了 2022 年 2 月的编程语言排行榜。 从 5 月 1 日起,Alexa 网站流量排名引擎将停止其服务。一直以来,Alexa 都被用来为 TIOBE 指数选择搜索引擎。鉴于此,TIOBE CEO Paul Jansen 表示,其决定选择 Similarweb 作为 Alex

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2023-06-07

TIOBE 公布了 2023 年 6 月的编程语言排行榜。 受益于数据科学和人工智能领域的推动,Python 编程语言的受欢迎程度实现了疯狂增长;在过去 5 年中曾成功斩获 3 次 TIOBE 年度编程语言。TIOBE CEO Paul Jansen 指出,Python 的这一

2023-09-07

面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们

2023-03-08

编程语言做出决策。 TIOBE 指数的定义方式,以及 TIOBE 3 月榜单的详细信息均可查看官网。

2023-04-08

TIOBE 公布了 2023 年 4 月的编程语言排行榜。 受市场需求影响,高性能编程语言正蓬勃发展。鉴于此,C 和 C++ 在 top 10 中均保持着不错的表现;尤其是 C++,在摘得了 2022 年度编程语言增势不减,其增幅高达 4.68%

2024-09-28

上,哔哩哔哩(简称B站)董事长兼CEO陈睿宣布,该公司自研的大语言模型“index”已成功上线,并应用于AI字幕功能。 陈睿表示,AI已成为年轻人在B站上最为关注的内容之一,也是增长最快的科技内容。数据显示,中国68%的90

2023-11-02

2023 vivo 开发者大会今天正式开始。大会上,vivo 发布了自研操作系统蓝河 (BlueOS)。 vivo 称「蓝河操作系统」是面向通用人工智能时代的自研智慧操作系统 —— 底层接入了 AI 大模型,支持基于自然交互方式的应用开发。 vivo

2022-10-11

高领先同类产品近 11 倍,呈现巨大的领先优势。 登顶榜单只是 SelectDB 前进道路上的小目标之一,作为基于 Apache Doris 打造的运行于多云之上的新一代云原生数仓,SelectDB 具备了极速、易用、实时、统一的核心特性,并提供了

2024-08-17

ace 的Open LLM Leaderboard开源模型榜单。中文大模型测评基准SuperCLUE在2024上半年报告中指出,Qwen2-72B成为排名第一的中国大模型,也是全球最强的开源模型,“超过众多国内外闭源模型”,“引领全球的开源生态”。目前,通义千

2023-07-19

,表现如何? 中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Chat进行了测评。 测评结果如下: 结论 1. 目前是中文百亿参数最好的模

2022-10-12

TIOBE 公布了 2022 年 10 月的编程语言排行榜。 截至今日,Python、Java、C 和 C++ 语言已经在 TIOBE 榜单的前 4 位盘踞了相当长的一段时间。TIOBE CEO Paul Jansen 指出,这四种语言在榜单中远远领先于其他语言,且差距似乎只

2023-05-07

编程语言做出决策。 TIOBE 指数的定义方式,以及 TIOBE 5 月榜单的详细信息均可查看官网。