Tilde AI 发布开源 TildeOpen LLM

2025-09-09 發表於开源资讯

Latvian 语言技术公司 Tilde 发布了 TildeOpen LLM，这是一个开源的基础大语言模型（LLM），旨在支持欧洲语言，特别是那些较少被代表的国家和地区语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要的一步。

TildeOpen LLM 是一个拥有300亿参数的稠密解码器模型，采用了 CC-BY-4.0的宽松许可证，能够支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。该模型的训练是在欧洲的超级计算机 LUMI（芬兰）和 JUPITER 上进行的，使用了欧盟委员会的大型人工智能大奖挑战赛所提供的200万 GPU 小时的计算资源。

在技术细节方面，TildeOpen LLM 通过受 EleutherAI 启发的 GPT-NeoX 脚本进行训练，共进行了45万次更新，使用了约2万亿个令牌。其训练过程包含三阶段采样：首先在语言间均匀分布，其次是对高数据量语言的自然分布进行增强，最后再进行均匀的扫查以确保平衡。模型的超参数包括60层、嵌入维度6144、48个注意力头、8192-token 的上下文窗口，以及使用 SwiGLU 激活、RoPE 位置编码和 RMSNorm 层规范化。

在语言公平和数据主权方面，传统的主流模型往往侧重于英语和其他主要语言，导致在处理波罗的海、斯拉夫及其他较小的欧洲语言时表现不佳，常常出现语法错误和奇怪的措辞。而 TildeOpen 通过引入 “公平的标记器”，使得不同语言的文本以相似方式进行表示，从而减少标记数量，提高较少代表语言的推理效率。此外，组织可以选择在本地数据中心或符合欧盟要求的安全云中自我托管，确保遵循 GDPR 及其他数据保护法规，从而解决了与美国或亚洲托管模型相关的主权问题。

TildeOpen 作为基础模型，预计会推出更多专门化版本，例如经过指令调优的翻译模型，这将进一步增强其功能。拉脱维亚通过 Tilde 的努力，期望在全球科技领域占据一席之地，同时致力于保护语言多样性。

Tilde AI 发布开源 TildeOpen LLM

相關推薦

Arthur 发布开源 AI 模型评估工具，为特定用例确定最佳 LLM

微软开源 JARVIS（贾维斯）：用 ChatGPT 控制 AI 模型

开源中国发布大模型技术图谱（LLM Tech Map）

英伟达发布 Windows 版 TensorRT-LLM 库，为本地运行大模型提速

LangKit：首个专为 LLM 构建的监控解决方案

Databricks 开源 LLM，训练只需三个小时、30 美元

Web LLM：将语言模型聊天直接带到 Web 浏览器中

Zed 编辑器团队发声：LLM 为何无法真正构建软件？

基于 Java 的 LLM 应用开发及编排框架，Agents-Flex beta.7 发布

Docker 与 Neo4j 等合作推出 GenAI Stack

OpsPilot 0.1 发布：AI 时代下的智能运维领航员

Docker 将原生支持运行 LLM

JetBrains IDE 集成 LLM —— AI 助手 (AI Assistant) 上线

OpsPilot 0.2 发布：LLM联网知识问答能力