GPT 模型容易被误导从而输出问题内容

2023-10-20 發表於开源资讯

【源创会预告】1024 程序员节（的前两天），相约开源PHP办公室，我们一起聊 AI！>>>

微软研究院近日发布文章介绍了他们对 GPT 模型可信度的研究。文章称 GPT 模型很容易被误导，产生有毒和有偏见的输出，并泄露训练数据和对话历史中的隐私信息。

▲ https://arxiv.org/abs//2306.11698

微软联合伊利诺伊大学厄巴纳-香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心发布了一款面向大语言模型的综合可信度评估平台——DecodingTrust，对大模型的毒性、刻板偏见、对抗稳健性、分布稳健性、对抗演示稳健性、隐私、机器伦理和公平性等内容进行评估。

根据测试，研究者发现GPT 模型很容易被误导，产生有毒和有偏见的输出，并泄露训练数据和对话历史中的隐私信息。

研究还发现，虽然在标准基准上，GPT-4 通常比 GPT-3.5 更值得信赖，但在越狱系统或用户提示的情况下，GPT-4 更容易受到攻击，这些提示是恶意设计来绕过 LLM 的安全措施的，这可能是因为 GPT-4 更精确地遵循了（误导性的）指令。

相關推薦

OWASP Top 10 for LLM 公布，了解大模型语言风险

2023-08-04

作，最新发布了 Top 10 for LLM 的 1.0 版本，专门针对大语言模型（LLM）应用相关风险。旨在为开发人员、数据科学家和安全专家提供实用、可操作和简明的安全指南，帮助他们驾驭复杂多变的 LLM 安全领域。 “急于利用 LLM 潜力的

清华报告：文心一言稳坐国内第一，超越 ChatGPT

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示，百度文心一言在三大维度20项指标中综合评分国内第一，超越ChatGPT，其中中文语义理解排名第一，部分中文能力超越GPT-4。据了解，报告本

OpenAI 正在打造“最强”开源模型，计划今年初夏发布

2025-04-25

旬，OpenAI宣布将在年内推出自GPT-2以来的首个"开源"语言模型。随着该公司与AI开发者社区的交流持续推进，关于这款模型的更多细节也逐步浮出水面。据 TechCrunch 报道，知情人士透露，OpenAI研究副总裁艾丹·克拉克（Aidan Clark）

警惕 AI 数据投毒，0.01% 虚假训练文本可致有害内容增加 11.2%

2025-08-06

的三大核心要素是算法、算力和数据，其中数据是训练AI模型的基础要素，也是AI应用的核心资源。提供AI模型的原料。海量数据为AI模型提供了充足的训练素材，使其得以学习数据的内在规律和模式，实现语义理解、智能决

OpenAI 发布重磅更新：增加函数调用能力、支持处理更长上下文、降低价格

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。值得关注的亮点： Chat Completions API 中新的函数调用功能更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本（与标准 4k 版本对比

低成本开源聊天机器人 Vicuna：可达到 ChatGPT/Bard 90% 以上水平

2023-04-04

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统，从而实现了前所未有的智能水平，譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚，阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发

苹果设备端和服务器端基础语言模型的更新

2025-06-11

开发者大会（WWDC）上，我们推出了一代全新的语言基础模型，这些模型专门设计用于增强我们最新软件版本中的 Apple Intelligence 特性。我们还推出了新的 Foundation Models 框架，该框架让应用开发者可以直接访问 Apple Intelligence 核心

OpenAI 正式发布 GPT-4

2023-03-16

enerative Pre-trained Transformer 4 的缩写，即生成型预训练变换模型 4。公告写道，GPT-4 是一个多模态大型语言模型（支持接受图像和文本输入，以文本形式输出），也是 OpenAI 努力扩展深度学习的最新里程碑。虽然 GPT-4 对于许多现

OpenAI 发布 GPT-4.1 提示工程指南

2025-04-16

GPT-4.1 mini和超轻量的GPT-4.1 nano。 OpenAI 发布 GPT-4.1 系列模型这次更新的焦点并非面向大众用户，仅通过API接口提供服务，OpenAI官方文档直言不讳地指出，这批新模型在各项能力上全面超越了此前的GPT-4o和GPT-4o mini，在编码能

2025 年 7 月《大模型 SQL 能力排行榜》发布

2025-08-07

一、本月导览与核心看点 2025 年 7 月，AI 大模型在代码生成与理解领域，特别是数据库 SQL 能力上的竞争日趋白热化。本期 SCALE 评测我们迎来了备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，同时 Gemini 2.5 系列也正式迈

“复旦大学 GPT”MOSS 重新上线

2023-04-22

复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线，成为国内首个插件增强的开源对话大语言模型。MOSS 相关代码、数据、模型参数已在 GitHub 和 Hugging Face 等平台开放，供科研人员下载。体验地址：https://moss.fastnl

OpenAI Responses API 支持 MCP

2025-05-23

Responses API 已支持 MCP，开发者只需几行代码就能将 OpenAI 模型连接到 Cloudflare、HubSpot、Stripe 等任何远程 MCP 服务器，帮助开发者构建更智能的智能体应用。 Responses API 是 OpenAI 的状态化 API，支持包括网络搜索、文件搜索

原生的来了！OpenAI 在 API 中引入 JSON 结构化输出功能

2024-08-08

OpenAI 在其 API 中引入了结构化输出功能，这意味着模型的输出可以可靠地遵循开发人员提供的 JSON 模式。对复杂 JSON 模式进行评估时，具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下，gpt-4-0613 得分不到 40%。这

GeekAI v4.1.4 发布，支持最强大的 GPT O1 模型，新增易支付支持

2024-09-24

GeekAI 基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案，自带运营管理后台，开箱即用。支持AI写作，AI生图，AI生音乐，AI生成视频，AI智能体等功能。 GeekAI v4.1.4 更新内容功能优化：用户文件列表组件增加分页功

熱門推薦