AI+代码生成与质量管理

本论坛聚焦于智能编码方向的探索,在代码自动生成、编译纠错、测试代码等方向上的研究成果,针对代码大模型优化、多智能体,AI程序员、AI+低代码平台等热门方向,分享该领域最新研究成果,探讨多智能体落地应用场景。        
出品人:秦思思
中国信息通信研究院人工智能研究所高级业务主管,AIIA智能化软件工程(AI4SE)工作组组长、人工智能关键技术与应用评测工信部重点实验室的人工智能研发运营组组长。主要研究方向为大模型工程化、智能化软件工程、MLOps、MaaS等,牵头多项系列标准的编制、评测、咨询等工作。
中国信息通信研究院 人工智能研究所高级业务主管
从“代码编写”到“需求编译”:
AI智能体驱动下的软件工程演进与前沿探索
林 云
上海交通大学副教授、系副主任、
博士生导师
内容简介:
在生成式AI以前所未有的速度重塑代码生成的今天,传统软件工程正面临从“代码编写”向“需求定义”与“质量约束”转移的深刻范式变革。本次报告将结合教学实践与科研探索,分享这一演进过程中的一线经验。首先,报告将回顾2025年秋季在上海交大IEEE试点班的教学改革,探讨如何通过引入测试驱动开发(TDD)和面向智能体的领域特定语言(DSL)建模,引导学生从“代码工人”转型为“智能体架构师”,指挥多智能体复现12306等复杂核心业务,实现软件工程概念与底层编码的彻底解耦。其次,针对大模型在处理复杂多模态需求文档时易产生的幻觉与遗漏痛点,报告将深入介绍旨在突破“复杂性高墙”的ARC(Agentic Requirement Compilation)需求编译框架。该框架模拟经典V模型构建双向测试驱动引擎,实现自顶向下的可测试架构构建与自底向上的约束代码生成,通过轻量级图结构DSL与全链路追溯机制,成功将包含50-200个场景的需求文档编译为可运行的Web系统,并在GUI测试通过率上较主流基线平均提升50.6%。最后,报告将剖析当前AI编程的“马太效应”与调试痛点,并展望大模型在工业界落地实践。    
博士生导师,原新加坡国立大学助理教授(研究岗),入选国家海外高层次青年人才计划、华为x-explore人才计划。研究方向包括自动编程、可解释AI、网络反诈等,获ICSE2018杰出论文奖,及多次中国软件大会原型研究奖。ICSE、FSE、USENIX Security等重要国际会议的程序委员会委员。主持国家自然科学基金委海外优青项目及面上项目和多项校企合作。自动编程技术落地于豆包代码模型以及Trae IDE,GUI测试相关研究入选信通院优秀案例等。
货拉拉 AI Coding 规模化落地:从普及到 Agentic 的工程实践
万深高
货拉拉 资深研发工程师
内容简介:
随着大模型能力的持续跃迁,AI Coding 已从""提效插件""演变为研发范式重构的核心驱动力。货拉拉工程团队自 2025 年起系统性推进 AI Coding 落地,历经工具选型、上下文工程建设、度量体系搭建等完整旅程,逐步构建起以 AIBOX 为底座、Cursor + Qoder 双引擎模式为核心的 AI 研发体系。 本分享将结合货拉拉企业研发人员的真实规模化实践,从 AI Coding 规模化推广阶段的""古法编程""向""目标驱动开发""的范式迁移出发,重点介绍上下文工程成熟度建设、AI 代码占比度量方法、Agentic AI 嵌入 CI/CD 流水线的工程实践,以及企业级风险防控与工具平替方案。

演讲提纲:
1. 背景与挑战
1.1 货拉拉研发规模与 AI Coding 的引入背景
1.2 AI Coding 工具生态演进:从 AI 增强 IDE → AI 原生 IDE → Agentic IDE
1.3 企业级落地的三大核心挑战:工具治理、效果度量、组织变革
2. 货拉拉 AI Coding 的三阶段演进实践
2.1 一阶段:AI Coding 普及
- 工具选型决策:Cursor + Qoder 双引擎模式 & AIBOX 底座建设
- 上下文工程建设:全场景覆盖的路径
- 风险防控机制:境外工具受阻时完成无缝切换的预案设计
- Token 效率优化:Token 转化率提升路径
2.2 二阶段:Agentic AI Coding
- AI Agent 嵌入 CI/CD 流水线:代码自动审查、单测自动补齐、存量技改
- 端到端自动化 Agent:从理解需求到上线部署的全流程自动化探索
2.3 三阶段:AI Native Coding(规划中)
- 按业务维度重组团队,跨技术栈开发愿景
- 研发流程从""面向人""到""面向 AI""的组织转型思考
 3. 效果度量方法论与评价体系
3.1 AI 编程普及率:定义口径与推广策略的方法论探讨
3.2 AI 代码占比度量方法与计算模型:货拉拉的度量体系设计与行业对比思考
3.3 深度依赖开发者识别:两种口径的定义
3.4 代码采纳率
3.5 首次正确率(行业新指标):探索方向与挑战
3.6 质量安全:千行 Bug 率对比、单测覆盖率自动化增长
4. 踩坑经验与关键决策
4.1 text2Code 还是 Agentic Workflow?不同场景的选择边界
4.2 上下文准确率 vs. 上下文覆盖度的平衡取舍
4.3 工程师 AI 能力培养:深度用户培育方法与梯队建设
4.4 AI 生成代码的安全与合规边界管控
5. 总结与展望
5.1货拉拉 AI Coding 2026 核心目标:Agentic AI 嵌入研发全链路
5.2 对""AI Native 研发组织""演进的思考

听众收益:
1. 理解企业级 AI Coding 规模化落地的完整路径与关键决策节点
2. 获得可直接参考的 AI 代码占比、Token 效率等度量方法论与指标体系
3. 了解 Agentic AI 嵌入研发流水线的工程实现思路
4. 掌握上下文工程建设的核心方法与踩坑经验
5. 获得企业级工具风险防控与平替方案设计思路
现负责公司 AI Coding 基础设施与研发效能相关技术工作。深度参与货拉拉 AI Coding 从 0 到 1 的规模化落地实践,主导构建了 AIBOX 核心底座、上下文工程体系及 AI 研发效能度量平台。在 AI Coding 工具链建设、Agentic AI 落地、研发范式转型等方向具备大规模工程实践经验。
严肃软件中基于大模型代码设计范式质量门
丁 辉
中兴通讯 资深架构师
内容简介:
随着大模型编程能力日益增强,大模型在生成代码越来越广泛。但由于大模型推理时短路的特点,大模型生成代码的隐患也越发突出。语法语言层面故障很容易识别,大模型代码走查智能体也很普遍,但深层次的设计层面缺陷带来的可靠性故障很难发现,特别是针对高可靠性场景下的严肃软件,可靠性问题更是不能接受。针对这种情况,我们构建了一种大模型可以轻易理解的领域约束-》设计范式-》语言机制的三层思维链结构,对大模型生成的代码从领域/设计/语言层面就行抽象和匹配,发现深层次设计问题和连带引发的可靠性故障的概率,大幅提升大模型在“严肃软件”中的应用效果。        

演讲提纲:
1. 大模型在编码中的应用类型
2. 大模型在严肃软件中设计问题带来可靠性故障的现象和类型、危害
3. 构造基于设计范式的三层思维链检查机制
4. 落地应用效果
5. 经验沉淀和总结

听众收益:
1. 了解大模型大规模生成代码中的隐患和造成的危害
2. 了解隐患产生的现象和类型
3. 了解如何构建三层思维链方式审查代码
4. 获得在自己项目对应的编程语言中应用的场景和落地思路。

中兴通讯资深架构师,在软件行业超过20年的从业经验,在高可靠性架构设计/架构形式化验证/rust程序设计,特别大模型编程提效方面有非常丰富的实践经验和落地案例。
京ICP备2020039808号-4 京公网安备11011202100922号