首个 AI 翻译实战榜单发布，GPT-4o 领跑市场

2025-05-24 發表於开源资讯

在全球 AI 翻译技术迅速发展的背景下，首个应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出，旨在为行业提供标准化的翻译质量评估。

传统翻译评测不同，TransBench 引入了幻觉率、文化禁忌词和敬语规范等新指标，专注于大模型翻译中的关键问题。这些指标来源于真实使用场景的反馈，力求反映翻译的实用性和文化适应性。比如，翻译结果虽然流畅，但若存在 “编造” 信息的情况，便会被标记为 “幻觉”;同样，翻译不符合当地文化或缺乏必要的礼貌用语，也会影响评估结果。

根据榜单的最新评测结果，GPT-4o 稳居翻译 AI 的 “天花板”，在多语言翻译中表现出色，综合得分最高。紧随其后的是 DeepL Translate 和 GPT-4-Turbo。其中，DeepL Translate 是专为机器翻译设计的模型，其最新版本刚于上月发布，显著提升了翻译质量。在电商行业中，DeepSeek-R1的表现同样突出，显示了其在特定领域的竞争力。

在文化特性方面，Qwen 系列模型表现亮眼，Qwen2.5-0.5B-Instruct 和 Qwen2.5-1.5B-Instruct 分列前两位，展示了其在跨文化翻译中的优势。此系列模型是由多个研究机构联合开发，支持多种语言，旨在提升翻译的文化适应性。

在中文翻译方面，GPT-4o 再次名列第一，DeepSeek-V3和 Claude-3.5-Sonnet 紧随其后。尤其在电商领域，DeepSeek-V3以其优异的得分引起了广泛关注。

TransBench 的评测方法和数据集现已开源，鼓励各大 AI 翻译机构参与，进行横向比较和性能评估。

阿里国际 AI Business 团队表示，随着翻译技术的不断进步，行业对翻译模型的要求愈加严格，TransBench 正是响应这一需求而推出的评测标准。未来，阿里国际还将继续致力于 AI 技术的应用，帮助更多企业实现全球化发展。

首个 AI 翻译实战榜单发布，GPT-4o 领跑市场

相關推薦

法国 AI 初创公司 Mistral 将发布推理模型 Magistral

Java 语言赋能能源管理数字化革命：从开源实践看 zhitan-EMS 如何领跑行业

OpenAI 改进 GPT-4o 模型，带来更强的智能和个性

最强开源 AI 搜索框架 —— OpenDeepSearch 超越 GPT-4o

OpenAI 对 GPT-4o Mini 模型进行免费微调

GPT-4o 出现“谄媚烦人”倾向，突变“赛博舔狗”，奥尔特曼称在一周内修复

昆仑万维开源 Skywork-R1V 3.0

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

昆仑万维「天工」大模型正式向全社会开放

原生的来了！OpenAI 在 API 中引入 JSON 结构化输出功能

首发！优刻得云平台上新 DeepSeek-V3-0324 模型

阿里发布 Qwen2-Math，超越 GPT-4o

Skywork-R1V 2.0 版本再开源，最强高考数理解题利器

中文大模型基准测评上半年报告：GPT-4o 排名第一、通义千问“国服最强”