GPT 模型容易被误导从而输出问题内容


【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>>

微软研究院近日发布文章介绍了他们对 GPT 模型可信度的研究。文章称 GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄露训练数据和对话历史中的隐私信息。

▲ https://arxiv.org/abs//2306.11698

微软联合伊利诺伊大学厄巴纳-香槟分校与斯坦福大学、加州大学伯克利分校、人工智能安全中心发布了一款面向大语言模型的综合可信度评估平台——DecodingTrust,对大模型的毒性、刻板偏见、对抗稳健性、分布稳健性、对抗演示稳健性、隐私、机器伦理和公平性等内容进行评估。

根据测试,研究者发现GPT 模型很容易被误导,产生有毒和有偏见的输出,并泄露训练数据和对话历史中的隐私信息。

研究还发现,虽然在标准基准上,GPT-4 通常比 GPT-3.5 更值得信赖,但在越狱系统或用户提示的情况下,GPT-4 更容易受到攻击,这些提示是恶意设计来绕过 LLM 的安全措施的,这可能是因为 GPT-4 更精确地遵循了(误导性的)指令


相關推薦

2023-08-04

作,最新发布了 Top 10 for LLM 的 1.0 版本,专门针对大语言模型(LLM)应用相关风险。旨在为开发人员、数据科学家和安全专家提供实用、可操作和简明的安全指南,帮助他们驾驭复杂多变的 LLM 安全领域。 “急于利用 LLM 潜力的

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2023-04-04

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发

2023-03-16

enerative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学习的最新里程碑。虽然 GPT-4 对于许多现

2023-04-22

复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线,成为国内首个插件增强的开源对话大语言模型。MOSS 相关代码、数据、模型参数已在 GitHub 和 Hugging Face 等平台开放,供科研人员下载。 体验地址:https://moss.fastnl

2024-08-08

OpenAI 在其 API 中引入了结构化输出功能,这意味着模型的输出可以可靠地遵循开发人员提供的 JSON 模式。 对复杂 JSON 模式进行评估时,具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下,gpt-4-0613 得分不到 40%。 这

2024-09-24

GeekAI 基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。支持AI写作,AI生图,AI生音乐,AI生成视频,AI智能体等功能。 GeekAI v4.1.4 更新内容 功能优化:用户文件列表组件增加分页功

2022-04-13

微软宣布推出一种可以提高大型语言模型性能的新工具 Jigsaw。“大型的预训练语言模型(如 GPT-3、Codex 等),可以被调整为从程序员意图的自然语言规范中生成代码。这种自动化模型有可能提高世界上每个程序员的生产力;但

2023-08-10

搜狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B;但不同于此前发布的 7B 和 13B 模型,Baichuan-53B 并没有走开源路线。 “模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就是

2023-10-27

SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。 SuperCLUE是中文通用大模型多层次的综合性测评基准,包

2023-05-07

能之间的关系出现了很多看法转变。过去,他认为计算机模型不如大脑,其目的主要是为了改进模型以更多地了解大脑。但现在 GPT-4 等模型的性能让他惊觉,计算机模型以与大脑不同的方式工作 —— 它们使用反向传播,而大脑

2023-04-02

与修复:在编程过程中,NGPTL++ 能够借助 GPT-4 的深度学习模型实时检测潜在的错误和漏洞,并提供相应的修复建议。这有助于降低程序出错的风险,确保软件质量。 自然语言编程:NGPTL++ 结合了 GPT-4 的自然语言处理技术,使

2023-08-17

工智能辅助审核系统。” OpenAI 声称,他们的大型语言模型(例如 GPT-4)可以理解并生成自然语言,使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。 一项新的内容政策发布后,首先得人工了解