论文:大模型代码生成服务的稳定性和可靠性研究


8 月 26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>>

加州大学两名华人学生发表论文《A Study on Robustness and Reliability of Large Language Model Code Generation》,研究了大模型 (LLM) 生成的代码的稳定性和可靠性。

论文提到,生成的代码中滥用 API 可能会导致严重的问题,例如资源泄漏、程序崩溃等。

更糟糕的是,使用 LLM 代码生成服务的用户实际上是最容易受到这些看似正确的代码影响的开发者——他们不熟悉 LLM 生成代码的 API。因此,他们很难分辨出 LLM 生成的代码中存在的误用,这进一步放大了错误代码在实际软件中的应用。

现有的代码评估基准和数据集主要集中在制作编码面试的编程问题等小任务上,但这与开发者向 LLM 寻求实际编码帮助的问题有所偏差。为了弥补这一缺失,研究者在这项工作中提出了一个数据集 RobustAPI,用于评估 LLM 生成的代码的可靠性和稳定性。

他们从 StackOverflow 收集了 1208 个具有代表性的编码问题,涉及到了 24 个常用 的Java API 。研究人员总结了这些 API 的常见误用模式,并在当前流行的 LLM 上对其进行了评估。评估结果表明,即使是 GPT-4,也有 62% 的生成代码包含 API 误用,如果将这些代码引入实际软件中,将会造成意想不到的后果。

论文地址:https://arxiv.org/pdf/2308.10335


相關推薦

2023-10-10

大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。 对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!它代表着业界对长文本大语言模型的重新

2023-04-06

微软亚洲研究院和浙江大学的研究团队近日发布的一篇论文——《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace》介绍了一个大模型协作系统。 论文地址:https://arxiv.org/abs/2303.17580 该系统提出了一种让 LLM 充当控制

2023-08-16

清华大学研究团队发表的《LLM As DBA》论文介绍了用大模型管理数据库的技术。 论文地址:Arxiv  根据论文的内容,该团队开发了一款名为 D-Bot 的大语言模型工具,可以帮助对数据库进行管理。D-Bot 从文本来源中持续获取

2024-07-17

ker 和 CMU 知名教授 Andrew Pavlo (Andy) 教授联合发表了数据库论文《What Goes Around Comes Around... And Around》。过去 20 年,数据库领域诞生了众多新技术,这对数据库届的王炸组合对这些技术的看法是怎样的呢? 由图灵奖得主 Michael S

2023-06-17

与240家科研院所展开合作,开源模型达400多个,发表顶会论文超过900篇。 为了更好推进昇思社区快速发展,在大会现场,昇思社区理事会正式宣布成立,首批成员单位包括AI芯片企业、AI应用企业、高校与学术机构共计18家单位

2023-09-05

是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 Link

2023-10-24

提供了基本框架。”       详情可查看完整论文。

2024-10-19

和发展方向。经过专家评审,本次会议共评选出多篇优秀论文。其中,《开源创新:理论内涵、分析框架与未来展望》、《开源对传统经济学的修正与理论发展》等论文荣获优秀论文奖。这些论文在开源创新的理论与实践方面做

2024-08-01

包括但不限于 RWKV 架构的介绍、RWKV 多模态等研究和相关论文、RWKV 的本地部署和推理教程、RWKV 的全参/微调训练教程,以及 RWKV 最新新闻动态等信息。 RWKV 社区的新项目/更新 RWKV RAG 项目 RWKV_RAG 是 RWKV 的本地 RAG 项目,实现了

2023-09-13

制的大模型 NExT-GPT。 项目主页:https://next-gpt.github.io/ 论文地址:https://arxiv.org/pdf/2309.05519.pdf Demo:https://89bb30ddbe725cdcd7.gradio.live/ 研究者表示,他们将大语言模型与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够

2023-03-28

势:并行模式全、运行效率高、分布式易用、资源节省、稳定性强。 OneFlow 深度学习框架是一流科技的核心产品,据称拥有完全自主知识产权,已获得十余项发明专利授权。一流科技创始人袁进辉(微博人称老师木),2008年7月

2023-07-25

训练版本。 更多关于JIANG大模型的详细内容可参考具体论文。 发布会上还演示了知未智能现有产品“KDF智讯”商业信息资讯工具、“KDF绝未”交易数据系统、“KDF中书”知识管理系统与大模型协作在资管和税务方面的具体应

2024-07-30

续发表了 7 篇基于 RWKV 架构、在各个领域进行深入研究的论文。 新的 RWKV 学术研究主要聚焦于具身智能、图像处理、模型架构三个方面。 机器人/具身智能 Decision-RWKV 论文名称:Optimizing Robotic Manipulation with Decision-RWKV: A Recur

2024-09-26

fle 量非常大(每天超 500PB,一些作业达几百 TB), ESS 的稳定性是一个比较大的挑战,经常出现很高的 Shuffle Read Block Time 导致 CPU/Memroy 空闲,而且会有大量的 FetchFailure 导致 Stage 频繁 Retry 重算,也浪费了大量资源。 粗粒