基于eBPF和Agent构建LLM 训练推理优化体系
内容简介:
LLM 的训练和推理需要处理海量的模型参数和数据,当缺乏可观测性时,提高 GPU 利用率非常困难。然而,现有的工具例如 Nsight 缺少 CPU Context,PyTorch Profiler 依赖精巧的插桩。使用 eBPF 可以实现零侵扰、全栈的 LLM 训练过程和推理服务可观测性,本次分享将会介绍使用 eBPF 实现零侵扰的 CPU+GPU 全栈持续剖析以及分布式追踪的实践经验,并介绍如何结合 AI Agent 建设 LLM 训练推理优化的自动驾驶机制。
演讲提纲:
1、LLM 的性能瓶颈以及现有可观测性方法的缺陷
2、使用 eBPF 构建零侵扰、全栈的可观测性
3、在 PyTorch 中的 Profiling 和 Tracing 效果
4、结合智能体实现 MFU、MBU 提升的自动驾驶机制
5、LLM 零侵扰可观测性的演讲方向
听众受益:
1、了解使用 eBPF 实现零侵扰可观测性的方法
2、了解零侵扰可观测性对训练推理过程的优化效果
3、了解如何结合可观测性与智能体建设自动驾驶机制
清华大学博士,云杉网络研发 VP,DeepFlow 开源社区负责人。曾在国际顶级学术会议 ACM SIGCOMM、ACM IMC 上发表可观测性方向的学术论文,现负责可观测性产品 DeepFlow,致力于打造一款为云原生和 AI 应用而生的零侵扰可观测性产品。