Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: KTransformers – 清华开源的大语言模型推理优化框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > KTransformers – 清华开源的大语言模型推理优化框架
AIGC 资讯

KTransformers – 清华开源的大语言模型推理优化框架

站外新闻
最近更新: 2026年6月8日 下午10:33
SHARE

KTransformers是什么

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU/CPU异构计算策略,用MoE架构的稀疏性,支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版,预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。项目用基于计算强度的offload策略、高性能算子和CUDA Graph优化等技术,显著提升推理速度。

阅读目录
  • KTransformers是什么
  • KTransformers的主要功能
  • KTransformers的技术原理
  • KTransformers的项目地址
  • KTransformers的应用场景

KTransformers

KTransformers的主要功能

  • 支持超大模型的本地推理:支持在仅24GB显存的单张显卡上运行DeepSeek-R1等671B参数的满血版大模型,打破传统硬件限制。
  • 提升推理速度:预处理速度最高可达286 tokens/s,推理生成速度达14 tokens/s。
  • 兼容多种模型和算子:支持DeepSeek系列及其他MoE架构模型,提供灵活的模板注入框架,支持用户切换量化策略和内核替换,适应不同优化需求。
  • 降低硬件门槛:将大模型的显存需求大幅降低,让普通用户和中小团队能在消费级硬件上运行千亿级参数模型,实现“家庭化”部署。
  • 支持长序列任务:整合Intel AMX指令集,CPU预填充速度可达286 tokens/s,相比传统方案快28倍,将长序列任务的处理时间从“分钟级”缩短到“秒级”。

KTransformers的技术原理

  • MoE架构:将稀疏的MoE矩阵卸载到CPU/DRAM上处理,稠密部分保留在GPU上,大幅降低显存需求。
  • offload策略:根据计算强度将任务分配到GPU和CPU:计算强度高的任务(如MLA算子)优先分配到GPU,计算强度低的任务分配到CPU。
  • 高性能算子优化:
    • CPU端:用llamafile作为CPU内核,结合多线程、任务调度、负载均衡等优化,提升CPU推理效率。
    • GPU端:引入Marlin算子,专门优化量化矩阵计算,相比传统库(如Torch)实现3.87倍的加速效果。
  • CUDA Graph优化:基于CUDA Graph减少Python调用开销,降低CPU/GPU通信的断点,实现高效的异构计算协同。每次decode仅需一个完整的CUDA Graph调用,显著提升推理性能。
  • 量化与存储优化:采用4bit量化技术,进一步压缩模型存储需求,仅需24GB显存即可运行671B参数模型。同时优化KV缓存大小,减少存储开销。
  • 模板注入框架:提供基于YAML的模板注入框架,支持用户灵活切换量化策略、内核替换等优化方式,适应不同场景的需求。

KTransformers的项目地址

  • GitHub仓库:https://github.com/kvcache-ai/ktransformers

KTransformers的应用场景

  • 个人开发与中小团队:在消费级硬件上运行大模型,进行文本生成、问答系统等开发,降低成本。
  • 长序列任务:高效处理长文本、代码分析等任务,将处理时间从分钟级缩短到秒级。
  • 企业级应用:本地部署大模型,用于智能客服、内容推荐等,节省云服务费用。
  • 学术研究:在普通硬件上探索和优化MoE架构模型,加速研究进程。
  • 教育与培训:作为教学工具,帮助学生实践大模型应用,理解优化技术。
面壁智能MiniCPM-V 4.5开源:8B参数端侧多模态模型,高刷视频理解与OCR性能超越闭源巨头
Heygem – 硅基智能推出的开源数字人模型
Google DeepMind发布Lyria 3:AI音乐生成模型重大突破,一句话生成带人声的30秒完整歌曲
DeepSeek-R1T-Chimera – TNG开源的语言模型
GPT-5-Codex深度解析:OpenAI Agent编程模型实现7小时独立编码,代码审查错误率仅4.4%
分享
Email 复制链接 打印
Share
上一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
下一篇 TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

零乐理基础男子利用AI写歌实现月入十几万40秒可生成全曲风歌曲

站外新闻
AI 工具AIGC 资讯

上交大小红书联手打造LoopTool:自动化数据进化框架,显著提升大模型工具调用能力

站外新闻
上海交通大学 大语言模型 小红书 工具调用 数据进化
AI 工具AIGC 资讯

GPT-5.3 Codex发布:OpenAI最强编程AI模型,性能飙升25%并重新定义软件工程

站外新闻
GPT-5.3 Codex openai SWE-Bench 编程AI模型 软件工程
AIGC 资讯

LangGraph WhatsApp Agent – 用于构建与 WhatsApp 用户互动的 AI Agent

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.