xLLM Technical Report


TL;DR

本文提出了一种名为 xLLM 的智能高效的大语言模型推理框架,其采用创新的服务-引擎解耦架构,通过智能调度与系统级协同优化,专为高性能、大规模的企业级服务而设计,解决了混合负载、资源利用率低和硬件适配性差等核心挑战。

关键定义

本文提出或深度应用了以下几个核心概念:

相关工作

当前主流的大语言模型推理框架在企业级服务场景中面临严峻挑战。

本文提出的 xLLM 框架旨在系统性地解决上述服务层和引擎层的挑战,实现高效、智能、可靠的企业级LLM推理服务。

本文方法

xLLM框架的核心设计是服务-引擎解耦架构 (service-engine decoupled design)。xLLM-Service负责智能调度和资源管理,而xLLM-Engine则负责高效执行推理计算。

xLLM整体架构图

xLLM-Service

xLLM-Service 旨在实现高效、弹性和高可用的请求调度与资源管理。其工作流程如下图所示,主要包括请求预处理、智能调度和资源层。

xLLM-Service工作流程图

其主要创新点包括:

弹性实例池 (Elastic Instance Pools)

集群中的实例被划分为三个弹性的逻辑池:Prefill池、Decode池和为多模态设计的Encode池。实例本身是无状态的(stateless),可以根据处理的请求类型在不同角色(如处理Prefill或Decode任务)之间灵活切换,而无需物理迁移或重启,实现了资源的动态调度。

智能调度策略

调度层包含三个核心策略,以应对不同场景:

其他关键设计

xLLM-Engine

xLLM-Engine负责执行具体的推理计算,通过系统和算法层面的协同优化,充分压榨硬件性能。

系统层优化

算法层优化

实验结论