论坛主席:神秘嘉宾

敬请期待

Harness Engineering(驾驭工程)

本论坛探讨如何通过驾驭工程搭建AI Agent的可控运行框架,平衡AI自主执行与安全合规的核心矛盾。聚焦驾驭工程核心体系,分享OpenAI、Anthropic等企业在沙箱环境搭建、结构化知识注入、刚性约束定义等实践案例。重点剖析如何构建“沙箱环境+工具赋能+自动反馈+持续治理”一体化体系,实现“人定方向、Agent执行”的人机协同模式,让AI稳定、高效完成复杂任务,推动AI技术从实验室走向规模化产业应用。
Claude Code + Superpowers 实战:
把 AI 编码助手驯成单人全栈生产力
魏 帅
北京火山动力网络技术 高级架构师
内容简介:
AI 编码助手让"单人全栈"重新变得可行,但默认用法常常带来新的混乱:规范不统一、流程被跳过、测试事后补、Bug修复夹带无效代码,效率被返工吃掉。
本议题分享基于 Claude Code + Superpowers 沉淀的一套工程化规则体系——通过分层规则、强制TDD、子代理双轮独立审查、测试粒度分级等机制,让单人也能稳定交付 Java/Node 后端 + Vue/React 前端 + iOS/Android/Flutter移动端的完整业务闭环。
内容包含可复用规则模板、Claude Code + Superpowers 的真实项目落地案例与效能数据。

演讲提纲:
1. 问题:AI 让全栈可行,也带来新混乱
2. 方法论:规则即法律 —— AI 编码的"治理"范式
核心论点:AI 交付不稳,不是模型能力问题,而是缺治理。用法要从"提示词工程"升级为"流程治理"——给 AI 一部可执行的宪法 + 执法 +审计。具体落成一套"AI 治理四权模型":
  - 立法:分层规则按作用域自动叠加(全局 → 语言级 → 项目级),只写"为什么"而非"做什么",让 AI 能泛化。
  - 执法:不可逆的破坏性操作不托付给 AI 自觉,用 Hook 在执行层物理拦截——文档里的是建议,Hook 里的才是法律。
  - 司法:实现者不能当自己的法官,需求审查与代码审查由两个独立子代理分别完成。
  - 传递:子代理读不到宪法,规则只有被注入 prompt 才生效——"规则没送达执行者"是多代理协作最隐蔽的事故源。
3. 贯穿前后端 + App 的六条核心规则
这六条能跨栈通用,因为它们治理的是"AI 该怎么干活",而非"某语言怎么写"——这正是单人全栈稳定交付的关键:
3.1 TDD 铁律:没有亲眼跑出的失败测试,不写一行生产代码。
3.2 删除而非注释 + 重构即清理:去功能连根删,不留注释尸体。
3.3 Bug 修复最小改动:逐行自查 diff,回滚所有失败尝试代码再提交。
3.4 删除前安全检查:删文件先查全部引用与配置声明,不可逆操作交 Hook 兜底。
3.5 逻辑复用与分层约束:重复逻辑强制抽取,工具类下沉禁止越层 import。
3.6 子代理护栏与规则传递:派子代理必带文件操作护栏,返回后强制 diff 验证。
贯穿全局的元规则是测试粒度分级:按改动"爆炸半径"决定测试范围,让严格纪律的成本可控,单人也能长期维持——这是"单人全栈可持续"的真正支点
4. 完整案例实战:用 Claude Code + Superpowers 从 0 到 1 交付一个全栈业务模块
5. 量化收益与避坑        

听众收益:
1. 覆盖前后端 + App 的可复用规则模板,会后可直接 fork
2. AI 编码工具从"提示词调优"升级到"流程治理"的方法论
3. Claude Code + Superpowers 在单人全栈场景下的真实操作范式
4. 子代理协同与双轮独立审查最佳实践        

16 年研发经验,前京东 T8。早年主攻 iOS 客户端,主导过多个大型 C 端 App 的架构演进;近两年深入 Flutter跨端开发,负责招聘业务三端(iOS / Android / 鸿蒙)统一架构落地。
过去一年专注于 AI 编码助手的工程化实践,基于 Claude Code + Superpowers 沉淀了一套覆盖 Java/Node 后端、Vue/React前端、iOS/Android/Flutter移动端的规则体系,通过分层规则、强制TDD、子代理双轮审查等机制,让单人也能稳定交付完整业务闭环。
从静态检索到动态自进化:ContextSeek 如何让 Agent 持续提升
汤 庆
北京奥星贝斯 OceanBase技术专家
内容简介:
本分享聚焦 Agent 系统的上下文核心瓶颈:数据接入在增长,能力却难以持续提升。我们提出 ContextSeek,通过统一语义层将 memory、trace、knowledge、skill 映射为可检索、可追溯、可关联的上下文对象,并沿 raw→extracted→knowledge→skill 持续进化。你将看到它如何把一次性任务产出转化为长期可复用资产,降低重复错误,提升多 Agent 协作质量与系统级复利

演讲提纲:
第一章:为什么 Agent 需要“动态上下文”
1.现状:数据接入越来越多,但能力增长缓慢
2.症状:重复犯错、经验难复用、协作链路断裂
3.根因:静态检索补信息,但不沉淀可复用能力
第二章:ContextSeek 的自进化方法与实践
1.统一语义层:将 memory / trace / knowledge / skill 映射到统一对象
2.ContextItem 能力:可检索、可追溯、可关联
3.演进路径:raw → extracted → knowledge → skill
4.工程实践:渐进式接入、证据链治理
第三章:总结与展望——从“可用”走向“持续进化”
1.总结:ContextSeek 的核心价值不在“接更多数据”,而在通过统一语义层让上下文可检索、可追溯、可关联、可进化,把一次性任务结果沉淀为长期能力资产。
2.展望:
-从单体优化到群体学习:一个 Agent 的有效经验可被其他 Agent 继承,而不是重复试错。
-从知识演进到系统涌现:多个 Agent 在统一上下文层上协作,形成跨任务、跨角色的整体智能增益。
3.结语:让 Agent 从“任务执行器”升级为“能力成长体” 。

听众收益:
1. 学会用统一语义层重构 Agent 上下文,把 memory/trace/knowledge/skill 从“信息碎片”变成“可进化能力资产”。
2. 掌握一条可落地的演化路径:从静态检索升级到动态自进化,并进一步走向多 Agent 的群体智能协作。
曾任职于商汤科技,现就职于OceanBase,主要从事OceanBase 数据库的 AI 生态建设工作,包括技术布道、AI 生态探索、开发者赋能、工具链优化等工作。
Harness 工程在企业研发中的落地实践与效能提升
郭 涛
浪潮 云计算研发技术负责人
 高级架构师 
内容简介:
本议题聚焦生成式 AI 时代下,规范驱动开发(SDD) 如何解决企业研发中的需求模糊、沟通低效、AI 生成代码质量不稳定等痛点。内容将从 SDD 核心理念出发,剖析其 “先规范后实现” 的方法论如何重构传统开发流程,形成以规范为唯一事实来源的协作模式。结合金融、互联网等行业的真实落地案例,讲解企业从试点验证到全团队推广的三阶段实施路径,包括规范模板设计、评审流程搭建、AI 工具链适配等关键实践。同时探讨 SDD 在降低 API 契约漂移、减少返工、提升并行开发效率上的量化收益,并分析落地过程中的常见挑战与应对策略,为企业实现研发效能跃升提供可复用的实践范式。        

演讲提纲:
理念重构:AI 时代为何需要 SDD? 对比传统开发与 SDD 的核心差异,解析 SDD 如何解决需求歧义、沟通损耗与 AI 生成代码不可控的问题。
实践拆解:企业级 SDD 落地的关键动作 包括可复用规范模板库搭建、跨角色评审机制建立、Spec-Kit 等工具链适配与 AI 辅助规范生成技巧。
效能量化:SDD 带来的真实业务价值 分享案例中集成周期缩短 75%、返工率降低、并行开发效率提升等量化成果,以及长期维护成本的优化效果。
避坑指南:SDD 落地的挑战与应对方案 剖析规范编写成本、团队接受度、AI 适配难题等常见障碍,提供可落地的应对策略与组织文化建设建议。

听众收益:
1. 理解 SDD 的核心理念与方法论,掌握其在 AI 辅助开发场景下的核心价值与适用边界。
2. 获得一套可直接复用的企业 SDD 落地方案,包括实施路径、流程模板与工具选型建议,降低团队引入成本。
3. 学习如何通过 SDD 优化团队协作模式,减少需求与实现偏差,提升 AI 生成代码质量,实现研发效能的可量化提升。
拥有 10 年以上企业级软件研发与架构设计经验,长期负责云计算和AI相关的产品研发。主导过多个大型团队的敏捷转型与规范驱动开发实践,对 SDD 方法论在不同行业的落地有深刻理解与丰富经验。擅长将前沿技术理念转化为企业可执行的实践方案,帮助团队解决需求沟通低效、代码质量不稳定、AI 开发难以规模化等痛点,助力组织实现研发效率与交付质量的双重提升。
Harness 驱动的质量闭环:
一个 QA 在全员 AI Coding 团队的实战
贾澄臻
记忆张量 测试负责人
内容简介:
我们团队全员 Vibe Coding——需求 AI 写、方案 AI 审、代码 AI 出。听着效率拉满,但出了 Bug 才发现老流程兜不住:AI 写的代码更分散、Bug 更隐蔽,传统""测完提单等排期""的节奏根本跟不上。
怎么办?我们的做法是把交付闭环压到一个人身上。先是用我们自研的基于记忆能力的意图驱动框架,用例不写裸 HTTP,而是 Intent → Spec → Step → 语料四层分工,接口文档直接当契约,成功响应自动做 key 级结构对比,漂移当场现形。基础契约用例跑完之后,集成回归这步也交给 AI——AI 根据代码 Diff 和已有的业务经验库,生成回归建议和场景用例草稿,人来 check 哪些要跑、哪些要补、哪些可以跳过,不再靠拍脑袋决定回归范围。第二个是拿 AI 打 AI:测出 Bug,把报错和代码 Diff 喂给 AI 做定位,实测一段业务逻辑bug,样式等问题,AI 10 秒就能锁定到具体行号。第三个是 QA 直接拉代码改:借助AI改完bug后,本地 build + 重启 + 跑用例验证,全程 5 分钟,一个人干了测试、定位、修复、验证四个角色的活。踩过的坑和契约约束沉淀成特性矩阵,搜索隔离这种 P1 盲区就是矩阵审计时探索出来的,随着业务迭代场景用例不断完善,保持新鲜。

演讲提纲:
1. 全员 AI 团队的质量困境
1.1 AI 写代码大家都会了,但写完谁兜底——传统流程太慢,等排期等到下个版本都出了
1.2 我们踩过的坑:契约悄悄变、数据写进代码、前置里藏业务动作
2. 意图驱动框架:验什么和怎么调分开
2.1 意图—契约—步骤—数据,各管一摊
2.2 从「想测什么」到可跑用例,最短路径怎么走
2.3 一条原则:上下文可以隐掉,动作必须能看见
3. 契约左移:文档不是摆设
3.1 文档末尾 JSON 块就是契约,成功响应后自动对结构,漂移当场打告警
3.2 没契约别合并——有人写完用例忘了 Spec 文件,漂移检测直接失效
3.3 契约层和场景层怎么分:单接口形态归 contracts,用户旅程归 scenarios
4. AI 生成集成回归,人做 check
4.1 契约跑完后,AI 根据 Diff + 业务经验库生成回归建议和场景用例草稿
4.2 人怎么 check:3 分钟挑出真正要盯的,决定权在人
4.3 踩坑:AI 给的建议面面俱到但重点不突出,没经验的人会全跑一遍白费时间
5. 魔法打魔法:AI 定位 + QA 直接修
5.1 报错 + 代码喂 AI,10 秒定位到行号——靠谱和不靠谱的场景各是什么
5.2 QA 改代码的边界:样式,业务逻辑错误直接改,底层先对齐再修改
5.3 改完跑用例验证,5 分钟闭环——一个人串起四个角色的活
6. 覆盖不靠感觉,靠矩阵
6.1 特性矩阵:一眼看出哪里没盖住,搜索隔离就是审计时逮出来的
6.2 手工验收和自动化各管哪一段,不重叠
7. 经验别只活在聊天窗口里
7.1 踩过的坑沉淀进记忆系统,下次不用从头问
7.2 飞轮怎么量:对话轮数、生成符合率、重复踩坑次数
8. 收尾
8.1 几个具体坑:前置滥用、语料里写调用、契约没进流水线、AI 建议不删减
8.2 框架核心层业务无关,怎么和现有 CI 共存

听众收益:
1. 一套交付闭环的完整拆解:从 Diff 分析到意图测试、到 AI 出回归建议人做 check、到 AI 定位 Bug 到 QA 直接改代码验证——每一步怎么做、边界在哪、踩过什么坑,会讲得很具体,我们团队现在就是这么在实践的,不是方法论是每天在跑的流程。
2. 契约左移 + AI 辅助回归的可操作做法:文档变契约 + 自动对结构 + 合并门禁,找一个接口就能在自己团队试。集成回归怎么让 AI 出草稿、人怎么 3 分钟挑重点删废话,带团队的人可以直接参考。
3. AI 辅助的真实边界:AI不是万能,会讲清楚 AI 生成用例、定位 Bug、给修复方案各自靠谱和不靠谱的场景,以及用什么机制(门禁、矩阵、人工 review)兜住 AI 不靠谱的部分。
记忆张量 MemTensor测试负责人,全面负责公司产品质量体系的规划、建设与落地。将意图驱动测试(Intent-Driven Testing)方法论引入团队并结合业务深度实践,面向 AI 记忆系统"意图理解—记忆存储—检索召回—个性化响应"的核心链路,建立了一套适配 AI 原生产品特性的质量评估体系。在此基础上,主导搭建了基于业务域分层的意图驱动自动化测试框架,并积极探索人机协同的质量工程新范式——将AI深度融入业务交付全周期,持续推动框架的开源化演进,致力于填补 AI 记忆系统测试领域的工具与方法空白。此前拥有 7 年+互联网大厂质量工程经验,曾在美团负责商家履约业务质量保障,在百度担任用户增长效能负责人,主导无人值守交付体系建设及春晚红包等大型运营活动质量保障,沉淀输出《用增运营活动质量白皮书》。兼具测试架构设计、技术方案落地与团队管理的综合能力。
京ICP备2020039808号-4 京公网安备11011202100922号