中文大模型基准测评上半年报告:GPT-4o 排名第一、通义千问“国服最强”


中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。

从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为77。

通义千问(Qwen2-72B)既是排名最高的中国大模型,也是全球最强的开源大模型,性能超越文心一言4.0、讯飞星火V4.0、Llama-3-70B等开闭源大模型。

SuperCLUE报告认为通义千问“超过众多国内外闭源模型”,“引领全球的开源生态”。

中文大模型基准SuperCLUE介绍

中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。

来源:https://mp.weixin.qq.com/s/Ke18lStd_hkdM8gXOc6dag

《中文大模型基准评测2024上半年报告》


相關推薦

2024-08-17

Leaderboard开源模型榜单。中文大模型测评基准SuperCLUE在2024上半年报告中指出,Qwen2-72B成为排名第一的中国大模型,也是全球最强的开源模型,“超过众多国内外闭源模型”,“引领全球的开源生态”。目前,通义千问开源模型下

2024-08-10

,使用了同样的过滤方法 Qwen2-Math还计划推出支持英文和中文的双语模型,并开发多语言模型,这一举措将进一步扩大Qwen2-Math的应用范围。

2023-08-11

三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本次评估选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,围绕生成质

2023-12-02

天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B

2023-09-07

面提升显著。 Skywork-MM还通过适当的数据构造,增强了中文的指令追随能力、中文相关场景的识别能力,减轻了文化偏差对于多模态理解的影响。例如,对于典型的中文场景中的电视节目《非诚勿扰》,现有大模型难以准确识

2023-08-26

、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。 用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内

2023-11-06

、AI写作等常用功能,帮助用户提升工作效率,全面重塑中文搜索体验。 2023年9月,昆仑万维多模态大模型Skywork-MM在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评MME中,综合得分排名第一。该评测首次对全球范围

2023-09-27

混元大模型 开源大模型 Llama2 70B 开源大模型 Llama2 7B 中文版 开源大模型 ChatGLM2 6B 开源大模型 AquilaChat 7B 开源大模型 BLOOMZ 7B 下载体验地址 Android/IOS APP: https://aidea.aicode.cc/ Mac/Windows 桌面端: https://github.com/mylxsw/aide

2023-10-27

SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包

2023-11-01

在10月31日2023云栖大会现场,作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。 据介绍,通义千问2.0模型参数达到千亿级别,不管是在阅读理解还是逻辑思维、数据等方面,都有大幅度提升,能够全面达到国际先

2023-07-19

e和chat对齐模型Baichuan-13B-Chat,同时支持商用。 目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。 那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与

2023-09-14

者大会精彩演讲回顾 阿里云9月13日宣布,通义千问大模型已首批通过备案,正式向公众开放。 用户可登录通义千问官网 (https://qianwen.aliyun.com) 体验,企业用户可以通过阿里云调用通义千问 API (https://dashscope.console.aliyun.com/mod

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2024-08-14

。 多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。 Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段,依次进行ASR、AAC等多任