微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」:响应 99% 敏感提示、风险降 50%


微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进:

MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这对于政治学术研究、社会问题、伦理道德研究等帮助巨大;但在安全风险大幅度降低,比原版 R1 降低了 50%。

据介绍,MAI-DS-R1 是后训练优化的 DeepSeek-R1 模型,微软在训练 MAI-DS-R1 的过程中,从大约 350000 个被屏蔽的主题示例中,收集和筛选查询关键词,将这些关键词转化为多个问题,并翻译成不同语言;还通过 DeepSeek R1 和内部模型为这些问题生成答案和思维链。

此外,训练数据中还纳入了来自Tulu3 SFT数据集的 110K 个安全和违规示例,这些示例涵盖了 CoCoNot、WildJailbreak 和 WildGuardMix 等内容。

https://huggingface.co/microsoft/MAI-DS-R1

随后,微软对 MAI-DS-R1 进行了综合评估。在敏感话题响应方面,MAI-DS-R1 能够成功响应 99.3% 的敏感话题提示,这一表现显著优于 DeepSeek R1 和 R1-1776。

在安全性评估方面,MAI-DS-R1 在 HarmBench 评估中表现出色,相比 DeepSeek R1 和 R1-1776,在减少有害内容方面降低了 50% 风险。这说明虽然 MAI-DS-R1 能响应更多的敏感话题,但还是在安全控制范围之内。

总而言之,那些想体验一下“放飞自我”版 R1 的小伙伴们可以试试这个,体验一下打开全新世界。


相關推薦

2025-04-01

”,通过整合百度自研的文心X1、文心4.5等模型,并接入DeepSeek-R1等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升

2023-03-12

,网络钓鱼活动通过在合法和受信任的域名(如 Google、微软、AWS、GitHub 等)上托管钓鱼网站来欺骗 URL 过滤供应商。 根据研究,在 2021 年 6 月至 2022 年 6 月之间,在合法的 Saas 平台上托管的新发现的网络钓鱼 URL 的比率增加了

2023-06-16

大语言模型 (LLM) 的可观察性和安全标准。LangKit 能够检测开源和专有 LLM 中的风险和安全问题,包括有毒语言、越狱、敏感数据泄露和幻觉。 根据介绍,LangKit 的一个核心卖点是它能够检测所谓的 AI 幻觉;还可以检测有毒的 AI

2025-03-25

降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。 事件背景: 蚂蚁集团的 Ling 团队近日在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》的

2024-08-04

多种应用能从上下文硬盘缓存中受益: 具有长预设提示词的问答助手类应用 具有长角色设定与多轮对话的角色扮演类应用 针对固定文本集合进行频繁询问的数据分析类应用 代码仓库级别的代码分析与排障工具 公

2023-03-17

是由华为云数据库创新实验室自行设计、研发并面向全球开源的一款云原生分布式时序数据库。主要面向物联网和运维监控等场景,提供海量时序数据库处理和分析的开源解决方案,以进一步降低企业运营和运维成本,提升产品

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2023-08-04

使用第三方数据集、预训练的模型和插件会增加漏洞。 敏感信息泄露。LLM可能在其回应中透露机密数据,导致未经授权的数据访问、隐私侵犯和安全漏洞。为减少这种情况的发生,实施数据清理和严格的用户政策至关重要。

2024-07-30

的 Windows 全球大面积蓝屏死机问题,两个直接当事方——微软和 CrowdStrike 均已发布了相关技术报告。 7 月 24 日,CrowdStrike 发布 Windows 大范围蓝屏事件初步审查报告,并表示即将在公开发布的根本原因分析中详细说明全面调查结

2025-03-26

eek-V3-0324以53.5%平均得分领跑,领先Claude 3.7/GPT-4o,仅次于DeepSeek-R1。 »实测表现 X博主「@KuittinenPetri」表示,更新后的DeepSeek-V3-0324可以轻松免费地创建漂亮的HTML5、CSS和前端。 提示词如下,大家也可以自行尝试:为AI公司「Nexus

2023-09-20

云安全初创公司 Wiz 的研究人员报告了一起发生在微软 AI GitHub 存储库上的数据泄露事件,其中包括 3 万多条内部 Microsoft Teams 消息的泄露;而这一切都是由一个配置错误的 SAS 令牌所引起。 Wiz 指出,数据泄露源于微软人工智能

2022-11-30

产系统,其主要贡献者来自腾讯、小红书、谷歌、eBay、微软、特斯拉等知名公司。

2023-10-09

s 11中引入密钥支持功能 作为Windows 11重大更新的一部分,微软今天推出了密钥支持功能。用户将能使用设备PIN或生物识别信息登录网站和应用,而无需提供用户名和密码。【Microsoft is Rolling out Support for Passkeys in Windows 11 (thehackerne

2024-09-26

penMind副总经理 胡晓曼,天翼云智算产品线总监 张安发,开源PHPCTO 刘冬)   极致易用,激发潜能 人工智能已进入加快推进应用落地的关键阶段,中国电信联合华为发布魔乐(Modelers)开发者社区,进一步驱动产业发展,加