斯坦福等顶尖大学联手开源 LocAgent——用于定位代码问题的智能体


斯坦福大学、耶鲁大学、南加州大学等研究人员联合开源了用于定位代码问题的 AI Agent —— LocAgent。

开源地址:https://github.com/gersteinlab/LocAgent

论文地址:https://arxiv.org/pdf/2503.09089

在软件开发和维护领域,代码定位是开发者日常工作中的核心任务之一,需要开发者根据问题描述,例如,错误报告、功能请求或性能问题等,快速、准确地找到需要修改的代码片段。

但传统代码定位方法在处理复杂代码库时,面临复杂代码库导航困难,问题描述与代码实体之间的语义鸿沟,多跳推理的困难等。而LocAgent可以有效解决这些难题,能自动、快速精准定、遍历代码。

LocAgent的核心在于其“图基代码”表示,能将代码库解析为一个有向异构图,从而捕捉代码的层次结构和依赖关系。

在这个图中,节点代表代码库中的实体,包括文件、类、函数等,而边则表示这些实体之间的关系,例如文件之间的导入关系、函数之间的调用关系以及类之间的继承关系,还能够揭示出隐藏在代码中的复杂依赖关系。

LocAgent首先会解析代码库中的每个文件,识别出其中的类、函数等代码元素,并将它们作为节点加入到图中。随后,会分析这些代码元素之间的关系,并将这些关系作为边添加到图中。

例如,如果一个函数调用了另一个函数,那么在图中就会有一条从调用函数指向被调用函数的边。通过这种方式,LocAgent能够构建出一个全面且详细的代码库图表示,为后续的代码定位任务提供了坚实的基础。

LocAgent还通过稀疏层次实体索引来增强其搜索能力。这种索引机制为图中的每个节点创建了多个索引,包括基于实体ID的索引、基于实体名称的索引以及基于BM25算法的倒排索引。

这些索引能帮助LocAgent在几秒钟内快速定位到与问题描述相关的代码实体,即使在大型代码库中也能保持高效的性能。

在构建了图基代码表示之后,LocAgent框架的下一步是如何利用这一结构化索引进行高效的代码搜索。为此,LocAgent引入了基于Agent的代码搜索,可以通过一系列工具来探索代码库,并找到与问题描述相关的代码片段。

LocAgent为Agent提供了三种主要的工具,这些工具共同支持Agent在代码库中的高效搜索和推理。

首先是SearchEntity工具,允许Agent通过关键词搜索代码库中的相关实体。当Agent接收到一个自然语言描述的问题时,它会首先提取出问题中的关键词,然后利用SearchEntity工具在代码库的索引中查找与这些关键词相关的代码实体。这不仅能够处理精确匹配的关键词搜索,还能通过模糊搜索找到与输入关键词相关的代码片段,从而为Agent提供更广泛的搜索范围。

第二个工具是TraverseGraph,允许Agent从一个给定的实体出发,沿着图中的关系进行多跳遍历。这一工具的设计灵感来自于代码库中复杂的依赖关系,很多时候,问题的根源可能隐藏在与问题描述中提到的代码片段相隔数层的其他代码中。

通过TraverseGraph工具,Agent可以沿着调用链、继承链等关系逐步深入代码库,探索问题的潜在源头。TraverseGraph工具支持自定义遍历方向和跳数,使得Agent能够灵活地探索代码库中的复杂依赖关系,从而更全面地理解问题的上下文。

第三个工具是RetrieveEntity,用于检索指定实体的完整属性。当Agent通过SearchEntity和TraverseGraph工具定位到可能相关的代码实体后,需要获取这些实体的详细信息,以便进一步分析和判断。RetrieveEntity能够提供实体的完整代码内容、文件路径、行号等关键信息,为Agent的推理提供了充分的依据。


相關推薦

2025-03-27

根据《南华早报》的报道,屡获殊荣的人工智能(AI)专家和计算机科学家齐国君在美国工作十几年后,已回国加盟位于杭州的西湖大学领导 “MAPLE 实验室” 团队。 据西湖大学官网介绍,齐国君,安徽合肥人,国际电气和电子

2025-03-26

根据《科创板日报》的独家报道,阿里云近日在全球顶尖高校招募AI技术储备人才,为近年来规模最大的AI人才校园招聘。 据了解,此次校招面向清华大学、北京大学、浙江大学、麻省理工大学、斯坦福大学等全球顶尖高校,

2025-04-09

东南亚等地区也推出了引人注目的新模型。 图|美国顶尖模型与中国顶尖模型在 LMSYS 聊天机器人竞技场中的表现 5.负责任的 AI 生态系统不断发展,但不均衡 人工智能相关事件急剧上升,但在主要工业模型开发者中,标准化

2023-10-21

稠密千亿大模型 GLM-130B 正式上线,是同年亚洲唯一入选斯坦福评测的全球主流大模型。同年 9 月,智谱 AI 完成数亿元 B 轮融资,并发布 130 亿参数规模的代码生成模型 CodeGeeX。2023 年 3 月,对话模型 ChatGLM-6B 及千亿对话模型 ChatG

2025-04-08

自动驾驶、人机交互等前沿技术发展。 3月10日,斯坦福大学李飞飞团队公布了具身智能领域最新研究成果——行为机器人套件框架,并公布了搭载该框架的保姆型人形机器人实操画面。视频中,具备双臂、轮式底盘以及灵活躯

2023-07-22

稠密千亿大模型 GLM-130B 正式上线,是同年亚洲唯一入选斯坦福评测的全球主流大模型。同年 9 月,智谱 AI 完成数亿元 B 轮融资,并发布 130 亿参数规模的代码生成模型 CodeGeeX。2023 年 3 月,对话模型 ChatGLM-6B 及千亿对话模型ChatGL

2023-09-08

9年的智谱AI,是国内最早一批研发大模型的企业,由清华大学知识工程实验室(KEG)技术成果转化。 智谱清言在线体验:https://chatglm.cn/ 百川智能(百川大模型) 8 月 31 日,前搜狗 CEO 王小川创立的百川智能宣布率先通过《

2025-03-22

本国企业在技术研发能力上的不足,印度政府借助与世界顶尖人工智能研究机构和企业合作,利用世界现有先进技术实现应用层面的创新,加速自身技术突破。近年来,谷歌、微软、亚马逊、AMD等国际科技企业高层频频造访印度

2025-04-10

知名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。 DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench

2023-09-22

稠密千亿大模型 GLM-130B 正式上线,是同年亚洲唯一入选斯坦福评测的全球主流大模型。同年 9 月,智谱 AI 完成数亿元 B 轮融资,并发布 130 亿参数规模的代码生成模型 CodeGeeX。2023 年 3 月,对话模型 ChatGLM-6B 及千亿对话模型 ChatG

2024-10-31

定制 RISC-V 内核在 英伟达硬件中的普遍性。 高通与三星联手 高通加倍致力于 RISC-V,并利用此次峰会介绍了改进 RISC-V 指令集架构的新方法。该公司还参加了与英伟达和其他技术领导者的小组讨论,探讨了 AI 开发与安全计算之

2023-11-09

ge Agent Society)的研究论文 [3] 中,来自阿卜杜拉国王科技大学、瑞士人工智能实验室、牛津大学以及苏黎世联邦理工学院等知名研究机构的科学家们共同探讨了智能体社群的可能性。 他们提出,构建成由语言驱动的智能体社区

2023-08-10

原理是什么?近期,深度赋智 联合 厦大、港中深、南京大学、宾夕法尼亚大学、及UC伯克利联合发布相关论文。 论文探讨了通过使用由大型语言模型(LLMs)驱动的多智能体系统进行自动任务解决的进展。现有的基于LLM的多智

2023-06-17

来人工智能框架的最新进展与系列重磅发布,包括18家AI顶尖企业、学会、高校与科研院所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位