出品人:汪晟杰
腾讯资深技术产品专家
目前担任腾讯云产品专家,负责腾讯云AI代码助手、Cloud Studio云端IDE等产品,历任阿里高级技术专家,从事钉钉云效核心业务线、Teambition 合伙人、Autodesk 首席软件架构师、十多年 SAP 云平台、SuccessFactors HCM、Sybase 数据库 PowerDesigner 等产品的开发经理,在软件架构设计、产品管理和项目工程管理、团队敏捷提效等方面拥有逾 18 年的经验。     

LLM驱动编程与单测

本论坛聚焦于大模型时代下的代码生成与理解,包括代码补全、代码自动生成、单元测试代码自动生成、针对代码的大模型构建等话题,分享该领域最新研究成果,探讨真实落地应用场景。        
基于大模型的代码生成:数据、模型与微调
高翠芸
哈尔滨工业大学(深圳)副教授、博导
内容简介:
演讲围绕基于大模型的代码生成这一主题展开,探讨在软件开发流程中使用大模型进行代码生成时所面临的数据、模型与微调等方面选择。将首先概述大模型服务于软件开发的过程。随后将深入分析数据对模型性能的重要影响;并讨论在模型规模的选择上是否遵循“越大越好”的原则。此外,还将关注私有数据与公共数据在分布上的差异,探讨如何在这些差异下制定有效的模型训练策略。最后,将展望基于大模型的代码生成在未来实践中的应用前景。

演讲提纲:
1、代码大模型服务软件开发的流程
2、数据显著影响模型性能,探讨数据的不同视角对于代码大模型性能的影响
3、模型选大还是选小,探讨是否一定是大力出奇迹
4、私有数据与共有数据分布上存在显著差异,探索私有数据上的模型训练策略
5.、代码大模型的实践落地展望

听众受益:
1、了解代码大模型的流程与实践落地瓶颈
2、初步地了解数据、模型和训练策略的选择
                                                                                                                          
哈尔滨工业大学(深圳校区)计算机科学与技术学院副教授,哈工大青年拔尖人才。主要研究方向为智能化软件工程、软件可靠性、软件安全。近年来在TSE、TOSEM、ICSE、FSE、ASE等会议和期刊上发表论文60余篇,是多个顶级会议如FSE、ISSTA、ASE等的评审委员会成员。荣获ASE2023杰出论文奖和其Industry Challenge Track杰出论文奖、指导学生获得ACAIT2022最佳学生论文奖,授权发明专利10余项。
业务领域代码大模型深度探索与实践
顾小东
上海交通大学副教授
内容简介: 
代码大模型在程序生成等任务上不断取得新的突破。然而现有技术通常面向通用领域、常规算法和开源数据,缺乏特定业务领域(如游戏、网络、数据库等)的知识和数据,从而在专用领域上表现欠佳。本报告介绍我们在专用领域代码大模型方面的探索,包括知识融合、数据增强、任务适配等。为代码大模型在业务领域上的落地提供经验和建议。        

演讲提纲:
本演讲将分享我们在专用领域代码大模型方面的研究经验。首先,分析现有大模型在专用领域程序生成上面临的问题和挑战。接着,介绍我们针对大模型面向业务领域提出的几点改进方案:
1、领域知识增强:设计自动化知识提示,将领域知识和大模型代码生成相融合;
2、业务知识增强:将程序分解为任务流(思维链), 微调思维链而不是目标程序, 提高表达式生成的准确率;
3、领域数据增强: 采用程序嫁接思想扩充领域代码数据,提高代码检测任务的准确度。最后,分析业务领域代码大模型面临的挑战并对未来工作作出展望。

听众受益: 
1、获得代码大模型在专有业务领域的最新研究进展
2、代码大模型与领域知识融合的经验        

上海交通大学软件学院副教授,博士生导师。
长期从事智能软件工程领域的研究工作,包括代码大模型、程序自动生成、代码翻译、代码搜索等。在ICSE、FSE、ASE、TOSEM等顶级学术会议和期刊上发表学术论文30余篇,主持和参与多项国家自然科学基金、国家重点研发计划、国防课题等。并与华为、宁德时代、腾讯等企业开展广泛的产学研合作。
基于大模型的软件缺陷定位与修复
罗 丹
杭州逻界科技有限公司 CEO
内容简介:
在当今快速发展的软件行业中,软件缺陷不仅影响用户体验,还可能导致严重的安全问题。这些缺陷可能源于编码错误、设计缺陷或与预期使用场景的不匹配。因此,软件缺陷的准确定位与有效修复是提升产品质量和安全性的关键。
本研究项目旨在探索如何利用大型语言模型(LLM)来增强软件缺陷检测与修复的能力。LLM通过其庞大的参数和深度学习算法,已经在自然语言处理领域取得了显著成就。我们将借鉴这些成果,将其应用于软件工程的程序修复领域,特别是在代码分析和缺陷预测方面,以提高缺陷检测的准确性和修复建议的相关性。

演讲提纲:
1、引言:软件缺陷的挑战
2、大语言模型在软件工程中的应用
3、代码理解与缺陷定位技术
4、自动化修复建议的生成
5、结论:技术前景与行业影响

听众受益:
1、深入理解软件缺陷的影响与挑战
2、了解大语言模型在程序修复中的前沿应用
3、掌握自动化修复建议的生成机制        

杭州逻界科技有限公司创始人,长期从事程序分析和编译优化领域的研究,研制多款特定领域的编译优化与缺陷修复工具。              
漫谈关联仓库级上下文的代码生成:评估与优化
王焱林
中山大学助理教授
内容简介:
本次演讲主要聚焦关联仓库级上下文的代码生成,深入探讨大模型时代下代码生成范式的变革。揭示当前存在的关键问题,如数据集难以真实映射实际场景、生成精度与效率亟待提高等。通过分享 HumanEvo 数据集、RLCoder 框架和 CodeFast 算法等前沿研究成果和创新解决方法,旨在全面提升大模型代码生成的评测效果、精准度和效率,为听众展现该领域的最新进展和未来发展方向,引发对代码生成技术的深入思考和探索热情。        

演讲提纲:
1、基于大模型的关联仓库上下文的代码生成:研究概览
2、演化感知的仓库级代码生成基准数据集及构建方法 HumanEvo
3、基于强化学习的仓库级代码生成框架 RLCoder
4、基于阻止多余代码生成的代码生成加速算法 CodeFast
5、总结和展望        

听众受益:
1、深入理解大模型时代代码生成范式的转变,以及当前存在的问题和解决方法。
2、深入了解关联仓库级上下文的代码生成的相关技术和研究成果。
3、掌握 HumanEvo 数据集、RLCoder 框架和 CodeFast 算法等具体的技术和工具,为实际应用提供参考。

中山大学软件工程学院助理教授、硕士生导师,2022年入选中山大学百人计划。2019年博士毕业于香港大学计算机系,2019~2022年在微软亚洲研究院任研究员、主管研究员。主要研究领域为智能软件工程,尤其是与大模型结合的代码智能,包括代码搜索、代码摘要、代码生成等。已在ICSE、ISSTA、AAAI、ACL等软件工程及人工智能领域的高质量会议和期刊上发表二十余篇学术论文。在多个国际学术会议如ICSE,ISSTA,FSE industry等担任程序委员会委员,是TOSEM,TSE,JSS,EMSE等国际期刊的审稿人。  
京ICP备2020039808号-4 京公网安备11011202100922号