Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 京东开源xLLM:国产芯片AI推理框架,服务-引擎分离架构实现端云一体高效部署
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 京东开源xLLM:国产芯片AI推理框架,服务-引擎分离架构实现端云一体高效部署
AI 工具AIGC 资讯

京东开源xLLM:国产芯片AI推理框架,服务-引擎分离架构实现端云一体高效部署

站外新闻
最近更新: 2026年6月7日 下午8:15
MoE优化 xLLM 京东开源 国产芯片 大模型推理
SHARE

💡 站外导读:在国产大模型蓬勃发展的浪潮中,如何将强大模型高效、低成本地部署在国产算力上,成为制约产业规模化落地的核心痛点。传统推理框架往往在异构硬件适配、显存管理、计算效率上存在瓶颈。京东开源的xLLM框架应运而生,它直击这一痛点,通过创新的服务-引擎分离架构,为国产芯片提供了高性能、易部署的智能推理引擎,旨在打通从模型训练到业务应用的‘最后一公里’。

xLLM是什么

xLLM 是京东开源的高效智能推理框架,专为国产芯片优化,支持端云一体部署。框架用服务-引擎分离架构,服务层负责请求调度与容错,引擎层专注运算优化,具备多流并行、图融合、动态负载均衡等特性。xLLM 支持大模型、多模态模型及生成式推荐等多种场景,提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片上的规模化应用。

阅读目录
  • xLLM是什么
  • xLLM的主要功能
  • 如何使用xLLM
  • xLLM的项目地址
  • xLLM的应用场景
      • 📝 站长洞察 (Editor’s Insight)

xLLM

xLLM的主要功能

  • 全图化 / 多层流水线执行编排:通过框架层异步解耦调度、模型图层计算通信异步并行及算子内核层深度流水优化,实现多层流水线执行编排,减少计算空泡并提升整体推理效率。
  • 动态 Shape 的图执行优化:用参数化与多图缓存方法实现动态尺寸适配,结合受管控的显存池和自定义算子集成,提升静态图灵活性并保障显存安全复用,优化动态输入处理性能。
  • MoE 算子优化:针对 MoE 模型,实现 GroupMatmul 和 Chunked Prefill 算子优化,分别提升计算效率和长序列输入的处理能力,增强模型推理性能。
  • 高效显存优化:采用离散物理内存与连续虚拟内存的映射管理,按需分配内存空间,智能调度内存页复用,减少内存碎片与分配延迟,适配国产芯片算子,提升显存利用效率。
  • 全局多级 KV Cache 管理:实现多级缓存的 KV 智能卸载与预取,构建以 KV Cache 为中心的分布式存储架构,优化多节点间 KV 的智能传输路由,提升缓存效率和数据传输性能。
  • 算法优化:通过投机推理优化和 MoE 专家动态负载均衡,实现多核并行提升效率,动态调整专家分布,优化算法性能,提升推理吞吐量和负载均衡能力。

如何使用xLLM

  • 环境准备:
    • 下载镜像:根据硬件设备(如 A2、A3 等)和架构(x86 或 arm),选择合适的 Docker 镜像。例如,对于 A2 设备(x86 架构),可以下载 xllm/xllm-ai:0.6.0-dev-hb-rc2-x86 镜像。如果下载失败,尝试备用源 quay.io/jd_xllm/xllm-ai:0.6.0-dev-hb-rc2-x86。
    • 创建容器:创建启动容器时,需要挂载必要的设备和目录,确保容器能访问硬件资源和数据。包括设备文件(如 /dev/davinci0、/dev/davinci_manager 等)、模型文件路径、驱动路径等。
  • 安装编译:
    • 安装依赖:
      • 克隆仓库:进入容器后,克隆 xLLM 的官方仓库,初始化子模块。
      • 配置 vcpkg:如果镜像中没有预装 vcpkg,手动克隆 vcpkg 仓库,设置环境变量 VCPKG_ROOT 指向 vcpkg 的安装路径。
      • 安装 Python 依赖:用清华大学的 Python 镜像源安装 xLLM 所需的 Python 依赖,升级 setuptools 和 wheel。
    • 编译:
      • 编译生成可执行文件:运行编译命令,生成可执行文件。默认情况下,编译目标是 A2 设备。如果需要编译为其他设备(如 A3 或 MLU),通过添加参数指定设备类型。
      • 生成 whl 包:如果需要生成 Python 的 whl 包,运行相应的编译命令,生成的 whl 包将保存在 dist/ 目录下。
  • 模型加载:
    • 准备模型文件:将模型文件准备好,放置在容器可以访问的路径中,例如 /mnt/cfs/9n-das-admin/llm_models。
    • 加载模型:使用 xLLM 提供的接口加载模型。模型加载后,即可进行推理任务。
  • 推理调用:通过 xLLM 提供的推理接口,输入文本或其他数据,即可获得推理结果。推理接口根据加载的模型进行计算,返回结果。

xLLM的项目地址

  • 项目官网:https://xllm.readthedocs.io/
  • GitHub仓库:https://github.com/jd-opensource

xLLM的应用场景

  • 智能客服:快速响应用户咨询,提供准确的解答和建议,提升客户满意度和客服效率。
  • 实时推荐:基于用户行为数据,实时生成个性化推荐内容,提高用户参与度和转化率。
  • 内容生成:xLLM 能生成高质量的文本内容,如新闻、文章、创意文案等,助力内容创作。
  • 多模态应用:支持多模态模型(如文本 + 图像),用在图像描述生成、视觉问答等场景。
  • 生成式推荐:结合生成式技术,生成更丰富、更个性化的推荐结果,提升用户体验。

📝 站长洞察 (Editor’s Insight)

xLLM的开源,标志着头部互联网厂商正从‘用模型’向‘造基础设施’深度进军。它不仅仅是又一个推理引擎,而是瞄准了‘国产算力生态’这一战略高地。其‘服务-引擎分离’设计极具前瞻性,将分布式调度与单卡极致优化解耦,这正是应对未来模型规模指数增长和异构计算常态化的关键。特别值得关注的是其对MoE(混合专家)架构的深度优化,这直指下一代大模型的核心范式。结合其‘端云一体’的野心,xLLM很可能成为连接云端大模型与边缘/终端设备的关键中间件,其影响将远超单一工具范畴,是观察中国AI基础设施自主化进程的一个重要样本。

GPT-5.3 Instant:OpenAI免费轻量模型发布,告别啰嗦说教,联网搜索深度解析更智能
字节联合南洋理工开源StoryMem:破解AI视频生成跨镜头一致性难题,打造电影级多镜头叙事
SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集
omp – 开源的 AI 终端编程智能体,能与 IDE 深度联动
MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型
TAGGED:MoE优化xLLM京东开源国产芯片大模型推理
分享
Email 复制链接 打印
Share
上一篇 Meta ARE: Meta发布AI Agent动态环境评估平台 Gaia2基准测试引领行业新标准
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Meta ARE: Meta发布AI Agent动态环境评估平台 Gaia2基准测试引领行业新标准
AI 工具 AIGC 资讯
小红书开源FireRedChat:全双工语音交互系统,实现可控打断与私有化部署
AI 工具 AIGC 资讯
三星开源TRUEBench:AI性能基准测试新标准,覆盖12种语言46项企业任务
AI 工具 AIGC 资讯
AIMangaStudio:开源AI漫画生成工具全解析,从脚本到分镜的一站式创作指南
AI 工具 AIGC 资讯

相关推荐

量子芯片科技感占位特色图
AI 工具AIGC 资讯

高考公平守护战!豆包、文心等主流大模型集体禁用拍题功能

站外新闻
AI工具 拍题 行业惯例 高考
AIGC 资讯

DeepSeek R1-Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练

站外新闻
AIGC 资讯

MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

站外新闻
AIGC 资讯

Flex.2-preview – Ostris 推出的文本到图像扩散模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.