论文：大模型代码生成服务的稳定性和可靠性研究

2023-08-29 發表於开源资讯

8 月 26 日「源创会」北京站，聊聊 AI 大模型与底层技术 >>>

加州大学两名华人学生发表论文《A Study on Robustness and Reliability of Large Language Model Code Generation》，研究了大模型 (LLM) 生成的代码的稳定性和可靠性。

论文提到，生成的代码中滥用 API 可能会导致严重的问题，例如资源泄漏、程序崩溃等。

更糟糕的是，使用 LLM 代码生成服务的用户实际上是最容易受到这些看似正确的代码影响的开发者——他们不熟悉 LLM 生成代码的 API。因此，他们很难分辨出 LLM 生成的代码中存在的误用，这进一步放大了错误代码在实际软件中的应用。

现有的代码评估基准和数据集主要集中在制作编码面试的编程问题等小任务上，但这与开发者向 LLM 寻求实际编码帮助的问题有所偏差。为了弥补这一缺失，研究者在这项工作中提出了一个数据集 RobustAPI，用于评估 LLM 生成的代码的可靠性和稳定性。

他们从 StackOverflow 收集了 1208 个具有代表性的编码问题，涉及到了 24 个常用的Java API 。研究人员总结了这些 API 的常见误用模式，并在当前流行的 LLM 上对其进行了评估。评估结果表明，即使是 GPT-4，也有 62% 的生成代码包含 API 误用，如果将这些代码引入实际软件中，将会造成意想不到的后果。

论文地址：https://arxiv.org/pdf/2308.10335

论文：大模型代码生成服务的稳定性和可靠性研究

相關推薦

“猫”可干扰大模型推理能力

揭秘 AI 思维：Anthropic 科学家成功「窥探」大语言模型内部运作机制

RWKV 社区七月动态：RWKV7-G0 7.2B 模型发布，8 篇高质量论文

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

苹果发布论文揭示推理大模型存在显著局限性

图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进

微软开源 JARVIS（贾维斯）：用 ChatGPT 控制 AI 模型

清华大学推出 D-Bot，用大模型协助管理数据库

基于昇思 AI 框架的全模态大模型“紫东·太初 2.0”正式发布

中国科学院软件所提出智能合约漏洞检测新模型

技术平权：大模型如何颠覆技术普及的传统模式？

中英双语多模态对话模型 LLaSM，李开复零一万物参与

北京智源研究院联合牛津大学等推出 3D-GPT

数字经济与开源创新共舞，开启经管法教育新篇章——第一届数字经济开源创新学术会议暨经管法高校开源创新教育论坛在上经贸大举行