Tilde AI 发布开源 TildeOpen LLM


Latvian 语言技术公司 Tilde 发布了 TildeOpen LLM,这是一个开源的基础大语言模型(LLM),旨在支持欧洲语言,特别是那些较少被代表的国家和地区语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要的一步。

TildeOpen LLM 是一个拥有300亿参数的稠密解码器模型,采用了 CC-BY-4.0的宽松许可证,能够支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。该模型的训练是在欧洲的超级计算机 LUMI(芬兰)和 JUPITER 上进行的,使用了欧盟委员会的大型人工智能大奖挑战赛所提供的200万 GPU 小时的计算资源。

在技术细节方面,TildeOpen LLM 通过受 EleutherAI 启发的 GPT-NeoX 脚本进行训练,共进行了45万次更新,使用了约2万亿个令牌。其训练过程包含三阶段采样:首先在语言间均匀分布,其次是对高数据量语言的自然分布进行增强,最后再进行均匀的扫查以确保平衡。模型的超参数包括60层、嵌入维度6144、48个注意力头、8192-token 的上下文窗口,以及使用 SwiGLU 激活、RoPE 位置编码和 RMSNorm 层规范化。

在语言公平和数据主权方面,传统的主流模型往往侧重于英语和其他主要语言,导致在处理波罗的海、斯拉夫及其他较小的欧洲语言时表现不佳,常常出现语法错误和奇怪的措辞。而 TildeOpen 通过引入 “公平的标记器”,使得不同语言的文本以相似方式进行表示,从而减少标记数量,提高较少代表语言的推理效率。此外,组织可以选择在本地数据中心或符合欧盟要求的安全云中自我托管,确保遵循 GDPR 及其他数据保护法规,从而解决了与美国或亚洲托管模型相关的主权问题。

TildeOpen 作为基础模型,预计会推出更多专门化版本,例如经过指令调优的翻译模型,这将进一步增强其功能。拉脱维亚通过 Tilde 的努力,期望在全球科技领域占据一席之地,同时致力于保护语言多样性。


相關推薦

2023-08-19

一些旨在帮助公司更有效地使用 LLM 的工具。该公司最新发布了一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。 Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到了大众对生成式 AI 和 LLM 的浓厚兴趣,因

2023-04-06

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。 论文地址:https://arxiv.org/abs/2303.17580 该系统提出了一种让 LLM 充当控制

2023-10-13

产品多半名称不同。 知名大模型:在全球范围内,已经发布了多款知名大模型,这些大模型在各个领域都取得了突破性的进展。 知名大模型应用:LLM 已经在多种应用场景中得到了应用,包括文本生成、机器翻译、问答、自

2023-10-19

两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿台 Windows

2023-06-16

大语言模型 (LLM) 的可观察性和安全标准。LangKit 能够检测开源和专有 LLM 中的风险和安全问题,包括有毒语言、越狱、敏感数据泄露和幻觉。 根据介绍,LangKit 的一个核心卖点是它能够检测所谓的 AI 幻觉;还可以检测有毒的 AI

2023-03-28

司 Databricks Inc 近日也加入了生成式 AI 领域的竞争之中,发布了一个名为 Dolly 的开源大型语言模型,将模型命名为 Dolly 是为了向第一只克隆羊多莉致敬。 像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上

2023-04-17

陈天奇团队新发布了一个可将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目 —— Web LLM。“一切都在浏览器内运行,无需服务器支持,并使用 WebGPU 加速。这开辟了许多有趣的机会,可以为每个人构建 AI 助手,并

2025-08-18

近日,开源代码编辑器Zed的开发团队发布了一篇引人深思的博文,标题直击要害:《为什么LLM无法真正构建软件》。这篇由Conrad Irwin撰写的文章不仅在技术圈引发热议,更是在Hacker News上掀起了一场关于AI辅助编程本质的深度讨

2024-07-06

Agents-Flex: 一个基于 Java 的 LLM(大语言模型)应用开发及编排框架。 基本能力 LLM 的访问能力 Prompt、Prompt Template 定义加载的能力 Function Calling 定义、调用和执行等能力 记忆的能力(Memory) Embedding Vector Store 文

2023-10-08

PT-4,以快速启动 AI 项目。 Ollama 管理:Ollama 简化了开源 LLM 的本地管理,让你的 AI 开发过程更加顺畅。 Neo4j 作为默认数据库:Neo4j 作为默认数据库,提供图形和原生向量搜索功能。这有助于揭示数据模式和关系,最终提

2023-07-07

OpsPilot 是WeOps 团队开源的一个基于Rasa 和LLM 技术的,专注于运维领域的AI 领航员,支持以ChatBot 的形态与Web 应用集成,主要提供以下能力: * 运维能力沉淀:通过将运维的知识、运维技能、排查动作进行沉淀,在解

2025-03-27

,保障运行环境的安全性。 当前开发者普遍使用ollama开源工具部署AI模型。相比而言,Docker Model Runner对已在使用容器技术的开发者具有天然适配优势。而ollama作为成熟的开源工具,拥有丰富的模型支持和活跃的社区资源。 有

2023-06-29

文档 命名建议 生成 commit 信息 详情查看发布公告。

2023-07-10

OpsPilot 是WeOps 团队开源的一个基于Rasa 和LLM 技术的,专注于运维领域的AI 领航员,支持以ChatBot 的形态与Web 应用集成,主要提供以下能力: * 运维能力沉淀:通过将运维的知识、运维技能、排查动作进行沉淀,在解