0

0

谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

WBOY

WBOY

发布时间:2023-06-07 17:25:12

|

1528人浏览过

|

来源于51CTO.COM

转载

任何一个大型软件都不是一开始就构思完善的,而是通过开发人员的一次次改进、编辑、单元测试、修复构建错误、解决代码审查,再循环解决问题,直到满足上线需求后才能把代码合并到仓库中。

控制整个过程的学问就叫做软件工程

软件工程并非一个独立的过程,而是由开发人员、代码审查员、错误报告员、软件架构师和各种开发工具(如编译器、单元测试、连接器、静态分析器)之间的交流组成。

最近,Google公布了自家的DIDACT(Dynamic Integrated Developer ACTivity,动态集成开发人员活动)框架,用AI技术增强软件工程,将软件开发的中间状态作为训练数据,辅助开发人员编写、修改代码,并实时了解软件开发的动态。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

DIDACT是一个多任务模型,在编辑、调试、修复和代码审查在内的开发活动上进行训练

研究人员在内部构建并部署了三个DIDACT工具,注释解析、构建修复和提示预测,每个工具都集成在开发工作流程的不同阶段。

软件工程=交互日志

几十年以来,Google的软件工程工具链都是将与代码相关的每个操作都存储为工具和开发人员之间的交互日志。

原则上,用户可以使用这些记录来详细重放软件开发过程中的关键变更过程,即Google的代码库是如何形成的,包括每一次的代码编辑、编译、注释、变量重命名等。

Google的开发团队会将代码存放于monorepo(单仓库,mono repository)中,即包含所有工具和系统的代码存储库。

软件开发人员通常在云中客户端(Clients in the Cloud, CitC)系统管理的本地写时复制(copy-on-write)工作空间中对代码修改进行实验。

当开发者准备好将一组代码变更打包在一起实现某个任务时(比如修复某个bug),需要在Google的代码审查系统Critique中创建了一个变更列表(changelist, CL)。

与常用的代码评审系统一样,开发人员与同行评审者会就功能和风格进行交流,然后编辑CL以解决评审注释时提出的问题。

最终,审查员宣布代码“LGTM!”后合并CL到代码库中。

当然,除了与代码评审员的对话之外,开发人员还需要维护大量与其他软件工程工具的「对话」,包括编译器、测试框架、链接器、静态分析器、模糊测试工具等。

谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

软件开发中涉及的复杂活动网络的说明:开发人员的活动、与代码评审员的交互以及对编译器等工具的调用。

软件工程中的多任务模型

DIDACT利用工程师和工具之间的交互对机器学习模型赋能,通过建议或优化开发人员在执行软件工程任务时的行动,来辅助Google开发人员参与软件工程过程。

为此,研究人员定义了一些关于单个开发人员活动的任务:修复损坏的构建、预测代码审查注释、处理代码审查注释、重命名变量、编辑文件等。

然后为每个活动定义一个通用的形式:获取某个State(代码文件)、某个Intent(特定于某个活动的注释,例如代码评审注释或编译器错误),并生成一个Action(用于处理任务的操作)。

其中Action就像一个迷你编程语言,可以扩展为新添加的活动,涵盖了编辑、添加注释、重命名变量、标记代码错误等内容,也可以称这种语言为DevScript。

唱鸭
唱鸭

音乐创作全流程的AI自动作曲工具,集 AI 辅助作词、AI 自动作曲、编曲、混音于一体

下载

DIDACT模型的输入提示为任务、代码片段和与该任务相关的注释,输出为开发动作,如编辑或评论

状态-意图-行动(State-Intent-Action)的定义形式能够以通用的方式捕捉不同的任务,更重要的是,DevScript可以简洁地表达复杂动作,不需要像动作发生后那样输出整个状态(原始代码),使得模型更有效且更可解释。

比如重命名可能会修改代码文件中的多处地方,但模型只需要预测一个重命名操作即可。

给AI模型配个程序员

DIDACT在个人辅助任务上运行得非常好,比如下面的例子中演示了DIDACT在功能完成后的代码清理工作,先输入代码审查员的最终注释(图片中标记为human),然后预测解决注释中提出问题所需要的操作(用diff展现)。

谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

给定代码的初始片段和代码审查员附加到代码片段的注释,DIDACT的Pre-Submit Cleanup任务生成处理这些注释的编辑操作(文本的插入和删除)

DIDACT的多模态性质也产生了一些随规模增大而涌现出的全新行为,其中一种能力是历史增强(history augmentation),可以经由提示来启用这种能力,了解开发人员最近做了什么可以让模型更好地预测开发人员下一步应该做什么。


谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

历史增强代码补全的演示

历史增强代码补全任务可以展现这种能力,上图的例子中,开发人员添加了一个新的函数参数(1),并将光标移动到文档中(2)。根据开发人员的编辑历史和光标位置,模型能够准确预测新参数的文档字符串条目并完成第三步。

在难度更大的历史增强编辑预测任务中,模型能够以历史一致的方式选择下一步编辑的位置。

谷歌公开自家「AI+软件工程」框架DIDACT:数千名开发者内部测试,用了都说生产力高

在多个链式迭代上的编辑预测的演示

如果开发人员删除了函数参数(1),则模型可以根据历史正确地预测对删除参数的文档字符串(2)的更新(而无需人类开发人员手动地将光标放置在那里),并且在语法上(也可以说是语义上)正确地更新函数(3)中的语句。

有了历史后,模型可以明确地决定如何正确地继续「编辑代码过程」,而如果没有历史记录,模型就无法知道丢失的函数参数是故意的(因为开发人员正在进行更长的编辑操作以删除参数)还是意外情况(模型应该重新添加参数以修复问题)。

除此之外,模型还可以完成更多的任务,比如从一个空白文件开始,要求模型连续预测接下来的编辑操作,直到编写出一个完整的代码文件。

最重要的是,该模型能够以一种对开发人员来说很自然的、循序渐进的方式辅助编写代码:

首先创建了一个具有导入、标志和基本main函数的完整工作框架;然后再逐步添加新功能,例如从文件中阅读和写入结果,并添加基于用户提供的正则表达式来过滤某些行的功能。

结论

DIDACT将Google的软件开发过程转变为机器学习开发人员助理的训练演示,并使用这些演示数据来训练模型,以循序渐进的方式构建代码,与工具和代码审查人员交互。

DIDACT方法补充了Google和其他公司的大型语言模型所取得的巨大成就,可以减少工作量,提高生产力,并提高软件工程师的工作质量。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

508

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

724

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

209

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

343

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

229

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

526

2023.12.06

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号