RWKV7-G1 2.9B 推理模型开源发布,展示数学/代码/全球语言能力,已适配手机 App


2025 年 5 月 20 日,RWKV 基金会开源了 RWKV7-G1 2.9B 推理模型(Reasoning Model)。

RWKV7-G1 2.9B 具备其它同尺寸模型不具备的推理能力任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 2.9B 模型能够完成有难度的多语言、数学和代码任务

RWKV7-G1 2.9B 推理模型基于 World v3.5 数据集训练,包含更多小说、网页、数学、代码和 reasoning 数据,总数据为 5.16T tokens。

快速体验 G1 2.9B :https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace

我们也开源发布了 RWKV 模型端聊天 APP,方便大家体验 RWKV-7 G1 模型,APP 下载链接在本文靠后位置。

模型客观指标评测

英语和多语言能力

RWKV7-G1 2.9B 的英语和多语言能力显著强于同规模的开源模型

3B-LM-EVAL

此外,RWKV7-G1 2.9B 的 MMLU 准确度为 58%,比 RWKV-7 World 3B 的 54.56% 有继续提升。

RWKV-7 World 和 RWKV7 G1 系列均为预训练模型,没有针对任何评测进行数据调优没有使用各类退火技巧 ,也没有做任何 SFT、RLHF 等 post-training

无法作弊的评测

Uncheatable Eval 是"无法作弊的评测",它使用最新的论文和新闻文章等实时数据,评估开源大语言模型的真实建模能力和泛化能力。

G1 2.9B 的 Uncheatable Eval 综合得分在 3B 参数规模的开源模型中处于领先地位,超越 Qwen2.5 3B、Llama-3.2 3B 等知名模型。

uncheatable-eval

模型使用体验实测

注意以下测试案例均基于 RWKV7 G1 2.9B 基底模型 ,后续我们会做 SFT(监督学习) 和 RL(强化学习) 等 post-training ,会显著增加模型的各种能力

数学能力测试

我们从 HuggingFaceH4/MATH-500 数据集中选取了部分数学题目测试 RWKV7 G1 2.9B 模型。

MATH-500 测试题涵盖以下数学领域:代数基础(Prealgebra)、代数(Algebra)、中级代数(Intermediate Algebra)、微积分预备(Precalculus)、数论(Number Theory)、计数与概率(Counting & Probability)、几何(Geometry),题目难度分为 1~5 共五级。

RWKV7 G1 2.9B 模型可以稳定回答许多难度 3 及以下的题目,最高可以正确回答难度 5 的问题。

数学题目建议把 Top-p和所有 Penalty 解码参数都设为 0

几何Geometry

代数-Algebra

中级代数-Intermediate-Algebra

组合计数-Counting-Probability

组合排列计数-Counting-Probability

多语言能力

RWKV7-G1 2.9B 支持全球 100 多种自然语言,比同参数量的 Transformer 模型更强。

下面是 G1 2.9B 把中文诗句"清泉石上流"翻译为小语种的推理过程和翻译结果,翻译结果完全准确:

poem-translation

把中文翻译成其他五种语言:

multilang-translation

代码能力

G1 2.9B 拥有良好的代码能力,比如刷 Leetcode Palindrome Number 题目

Code-Leetcode-Palindrome-Number

或者写一个增强工作效率的脚本:

Code-rename-script

小说能力

G1 2.9B 直接续写传统小说或网文(使用 RWKV Runner 续写),有较好的网感和文风

下图中黑色背景是用户输入的前文,其余为模型续写的段落:

续写西游记段落

续写网文小说

常识和日常对话

日常对话或者一些常识问答,准确且干练

knowledge-dream

knowledge-cold-fruits

knowledge-atmosphere

knowledge-AI-assistant

模型试用

我们提供了多个 RWKV-7 模型的在线 demo,也提供移动端聊天 APP。

【推荐】用在线 demo(聊天模式)

为了方便社区体验 RWKV-G1 模型,我们提供了聊天模式的在线 demo。

  • Hugging Face:https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace
  • 魔搭 demo:https://modelscope.cn/studios/RWKV-Red-Team/RWKV-LatestSpace/summary

可在此体验已完成训练的 RWKV7-G1 系列模型。

chat-mode-demo

这个精美的 RWKV 对话界面由 RWKV 社区成员 @Leon 开发,并在 GitHub 仓库 web-rwkv-realweb 中开源。

使用在线 demo(续写模式)

可以在 RWKV 官方 Demo 中试用 RWKV7-G1 2.9B 模型:

  • **Hugging Face Gradio Demo:**https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2

RWKV7-G1 的整体 prompt 格式与 RWKV-7-World 模型类似,可选使用 <think> 标签开启 reasoning 功能:

User: 我可以抽干太平洋的水然后下去抓鱼吗?

Assistant: <think>

使用 RWKV 端侧聊天 APP

我们也开发了处于内测阶段的 RWKV 端侧聊天 APP(Android 和 iOS 版本),可在下列地址下载 APP:

  • Android : https://www.pgyer.com/rwkvchat
  • iOS (TestFlight) : https://testflight.apple.com/join/DaMqCNKh

贯彻开源开放的宗旨,RWKV 端侧聊天 APP 也已开源 ,在 GitHub rwkv_mobile_flutter 仓库中可以看到项目代码。

模型下载

下载已完成训练的 RWKV7-G1 模型:

  • Hugging Face:https://huggingface.co/BlinkDL/rwkv7-g1/tree/main
  • 魔搭社区:https://modelscope.cn/models/RWKV/rwkv7-g1/files
  • WiseModel:https://wisemodel.cn/models/rwkv4fun/RWKV-7-G1/file

G1 7B 模型进度

我们已经准备更大更优的数据集 World v3.7,正在基于 World v3.7 数据集训练 RWKV7-G1 7B 模型。

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。

  • 📖 RWKV 中文文档:https://www.rwkv.cn
  • 💬 RWKV 论坛:https://community.rwkv.cn/
  • 🐧 QQ 频道:https://pd.qq.com/s/9n21eravc
  • 📺 BiliBili 视频教程:https://space.bilibili.com/3546689096910933

欢迎大家基于 RWKV-7 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。

如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"[email protected]"。)


相關推薦

2025-05-01

2025 年 4 月 29 日,RWKV 基金会开源了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。 RWKV7-G1 1.5B 具备其它同尺寸模型不具备的推理能力 和任务能力 ,同时还支持现实世界 100+ 种语言。在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,

2025-03-29

mer(RWKV 时序预测) RWKV 模型新闻动态 新模型:RWKV7-G1 0.1B/0.4B 更大的 RWKV7-G1 正在训练中 RWKV 社区活动 RWKV 团队参加 NVDIA GTC 2025 RWKV 社区项目动态 RWKV 端侧 APP 发布并开源 新项目:WorldRWKV(RWKV 多模

2025-06-10

如 shortconv)。 RWKV-7 的实践验证: 模型规模:RWKV7-G1(2.9B/1.5B)是训练 token 最多的纯 RNN 架构模型(10+ T tokens)。 数据压缩能力:在未知数据(2025年4月)的字节压缩测试中表现优异(见 UncheatableEval)。

2025-04-30

B 为 Mixture-of-Experts(MoE)模型,覆盖从轻量部署到高性能推理的多元应用需求,助力开发者轻松拥抱新一代大模型能力。 在线体验:https://ai.gitee.com/serverless-api?model=Qwen3-30B-A3B 全面升级的 Qwen3 模型性能表现 1. 基准测试结果

2025-06-11

平台中集成的广泛智能功能。这些模型提升了工具使用和推理能力,能够理解图像和文本输入,运行更快且更高效,并且支持15种语言。我们的最新基础模型经过优化,可在Apple芯片上高效运行,包括一个紧凑型的、约30亿参数的

2025-04-26

数为 20B,低于业界同类模型参数规模的 50%,具备显著的推理成本优势。 据称在数学、代码、科学等专业领域推理任务中表现出色,已经达到或接近全球第一梯队水平;在创意写作等非推理任务中,模型也展示出优秀的泛化能

2025-03-27

思考即可体验。API 接口和使用方式保持不变。 如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。 模型能力提升一览 推理任务表现提高 新版 V3 模型借鉴 DeepSeek-R1 模型训练过程

2025-05-15

30万亿token上训练,序列长度4096,构建通用知识基础; 推理阶段(S2)在约5万亿更高质量的STEM、代码、推理和合成数据上进一步训练,序列长度4096,提升推理能力; 长文本阶段(S3)在数千亿长文本数据上训练,将上下文长

2023-09-26

据,整体训练数据超过3万亿Token,使得模型具备更强大的推理、认知、规划和记忆能力。 Qwen-14B-Chat 是在基座模型上经过精细SFT得到的对话模型。借助基座模型强大性能,Qwen-14B-Chat生成内容的准确度大幅提升,也更符合人

2024-08-02

切。 在产业化层面,框架又需要具备支持训练、压缩、推理一体化的全流程能力。这意味着,从模型的训练到优化,再到实际部署和推理,框架应当提供一套完整、高效的解决方案,才能满足产业界对于深度学习技术的实际需

2025-05-08

方向,而且模型的训练成本大幅降低,且也不会增加模型推理成本。 在数据筛选方面,项目团队加大了筛选力度,离线训练了多种数据筛选模型,对不同种类的数据进行分档打分,显著提升了数据质量。其次还进一步加大了数

2023-07-19

水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何? 中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Cha

2025-05-23

模型混元T1升级,并基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视觉生成等一系列多模态模型同步“上新” 混元TurboS模型在全球公认的Chatbo

2024-07-18

与更常见的基于 Transformer 的模型不同,基于 Mamba 的模型推理时间更快,上下文时间更长。 包括 AI21 在内的其他公司和开发者已经发布了基于 Mamba 的新人工智能模型。 现在,Mistral 的 Codestral Mamba 7B 采用了这种新架构,