论文:大模型代码生成服务的稳定性和可靠性研究


8 月 26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>>

加州大学两名华人学生发表论文《A Study on Robustness and Reliability of Large Language Model Code Generation》,研究了大模型 (LLM) 生成的代码的稳定性和可靠性。

论文提到,生成的代码中滥用 API 可能会导致严重的问题,例如资源泄漏、程序崩溃等。

更糟糕的是,使用 LLM 代码生成服务的用户实际上是最容易受到这些看似正确的代码影响的开发者——他们不熟悉 LLM 生成代码的 API。因此,他们很难分辨出 LLM 生成的代码中存在的误用,这进一步放大了错误代码在实际软件中的应用。

现有的代码评估基准和数据集主要集中在制作编码面试的编程问题等小任务上,但这与开发者向 LLM 寻求实际编码帮助的问题有所偏差。为了弥补这一缺失,研究者在这项工作中提出了一个数据集 RobustAPI,用于评估 LLM 生成的代码的可靠性和稳定性。

他们从 StackOverflow 收集了 1208 个具有代表性的编码问题,涉及到了 24 个常用 的Java API 。研究人员总结了这些 API 的常见误用模式,并在当前流行的 LLM 上对其进行了评估。评估结果表明,即使是 GPT-4,也有 62% 的生成代码包含 API 误用,如果将这些代码引入实际软件中,将会造成意想不到的后果。

论文地址:https://arxiv.org/pdf/2308.10335


相關推薦

2025-03-30

项研究不仅具有科学意义,还代表着理解AI系统并确保其可靠性的重大进展。解释性研究是Anthropic投资组合中风险最高、回报最大的投资之一,面临着重大科学挑战,但有潜力提供确保AI透明性的独特工具。 尽管当前方法仍有局

2023-10-10

大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。 对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!它代表着业界对长文本大语言模型的重新

2023-04-06

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。 论文地址:https://arxiv.org/abs/2303.17580 该系统提出了一种让 LLM 充当控制

2024-07-17

ker 和 CMU 知名教授 Andrew Pavlo (Andy) 教授联合发表了数据库论文《What Goes Around Comes Around... And Around》。过去 20 年,数据库领域诞生了众多新技术,这对数据库届的王炸组合对这些技术的看法是怎样的呢? 由图灵奖得主 Michael S

2023-08-16

清华大学研究团队发表的《LLM As DBA》论文介绍了用大模型管理数据库的技术。 论文地址:Arxiv  根据论文的内容,该团队开发了一款名为 D-Bot 的大语言模型工具,可以帮助对数据库进行管理。D-Bot 从文本来源中持续获取

2023-06-17

与240家科研院所展开合作,开源模型达400多个,发表顶会论文超过900篇。 为了更好推进昇思社区快速发展,在大会现场,昇思社区理事会正式宣布成立,首批成员单位包括AI芯片企业、AI应用企业、高校与学术机构共计18家单位

2025-04-16

著提升智能合约漏洞检测的准确性与可解释性。相关成果论文Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection被CCF-A类软件工程领域国际顶级会议ISSTA 2025接收,第一作者为博士生于磊,通讯作者为

2025-04-10

到这个水平后,再多花一点钱,也无法显著提升其性能、可靠性或自主性。钱买不来更好的 ChatGPT,比尔·盖茨跟你我一样用着 GPT-4o。 但这种情况能一直持续下去吗?通过扩大模型参数和数据进行训练时扩展、增加推理时间进

2023-09-05

是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 Link

2023-10-24

提供了基本框架。”       详情可查看完整论文。

2024-10-19

和发展方向。经过专家评审,本次会议共评选出多篇优秀论文。其中,《开源创新:理论内涵、分析框架与未来展望》、《开源对传统经济学的修正与理论发展》等论文荣获优秀论文奖。这些论文在开源创新的理论与实践方面做

2024-08-01

包括但不限于 RWKV 架构的介绍、RWKV 多模态等研究和相关论文、RWKV 的本地部署和推理教程、RWKV 的全参/微调训练教程,以及 RWKV 最新新闻动态等信息。 RWKV 社区的新项目/更新 RWKV RAG 项目 RWKV_RAG 是 RWKV 的本地 RAG 项目,实现了

2023-09-13

制的大模型 NExT-GPT。 项目主页:https://next-gpt.github.io/ 论文地址:https://arxiv.org/pdf/2309.05519.pdf Demo:https://89bb30ddbe725cdcd7.gradio.live/ 研究者表示,他们将大语言模型与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够

2025-04-17

科技评论调查,加入字节以来,吴永辉已在字节署名三篇论文,均在强化学习方向。吴永辉于上月在 Seed 内部新建虚拟小组、缩短了汇报流程,创建一个更扁平的汇报体系,此次 AI Lab 将全部并入 Seed,也是吴永辉调整内部组织