大模型时代的流程编排工具——从Aether到Promptflow
内容简介:
数据挖掘、治理与知识工程中涉及大量的日趋复杂的数据处理工作流;而流程编排工具可以用于设计、管理、监控和优化这些复杂的工作流。本演讲主要介绍数据处理过程中使用的流程编排工具逐步演进的过程,分析流程编排工具的功能与数据处理需求的关系,进而对流程编排工具的未来进行展望。
演讲提纲:
1、首先介绍流程编排的基本概念以及流程编排与数据处理之间的关系
1)流程编排的定义
2)整体而言,机器学习技术越是发展和广泛应用,对数据的需求越高——更大的规模,更好的即时性,更高的准确度
3)流程编排工具可以赋能从业者更好地进行数据处理工作流的生命周期管理
2、随后介绍数据处理中使用的流程编排工具的演进过程
1)基础的流程编排工具通过模块化和自动化提升数据处理在设计上的灵活性和执行上的效率
2)随着数据处理流程变得复杂,类似于Aether 这样的工具提供了可视化界面来使得数据处理流程更加易于理解;提供了原始的模块社区来提高模块的可复用性
3)当数据处理流程复杂到需要多方协作迭代时,类似于AzureML SDK的工具提供了代码优先的体验,提升了版本管理和多人协作的体验
4)在大模型时代,数据处理流程中需要加入有大模型参与的节点。在这些节点上,由于大模型结果的不确定性,需要通过快速迭代来确定节点的处理逻辑。类似于Promptflow的工具为此提供了更好的支持,如高级的抽象,丰富的预置模块,更好的测试体验等;同时,这样的特殊节点也可以加入原有的数据处理流程,作为一个可复用的单独模块存在
5)尽管整体的数据处理流程保留了原本的复杂性,当目标限定为需要大模型参与的节点时,节点的复杂性往往并不高。在Promptflow中新增了FlexFlow这样的概念,使得任意的函数也可以利用Promptflow中丰富的预置模块,享受更好的测试体验,从而进一步提升数据处理的灵活性
3、最后根据未来数据处理流程发展的几个可能走向对流程编排工具的未来进行展望
1)如果通用大模型/领域大模型不够便宜/效果不够好,流程编排工具可能需要更好地整合推理与训练的工作流
2)如果出现了更加标准化的方法,使得从业者可以借助领域知识干涉数据处理过程进而大幅度提升数据处理效果,会对流程编排工具的易用性提出更高的要求
听众受益:
1、了解流程编排工具在数据处理中起到的作用,从而更多地在日常实践中使用流程编排工具,提高工作效率
2、了解流程编排工具中各种功能设计的出发点,从而可以更好地根据实践中的具体需求选择甚至开发流程编排工具
前Bing算法工程师,后转向流程编排工具的开发与落地,现AI Platform研发工程师,参与开发了微软的两代流程编排工具AzureML和Promptflow