Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: UniTok – 字节联合港大、华中科技推出的统一视觉分词器
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > UniTok – 字节联合港大、华中科技推出的统一视觉分词器
AIGC 资讯

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

站外新闻
最近更新: 2026年6月8日 下午4:29
SHARE

UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

阅读目录
  • UniTok是什么
  • UniTok的主要功能
  • UniTok的技术原理
  • UniTok的项目地址
  • UniTok的应用场景

UniTok

UniTok的主要功能

  • 统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。
  • 高质量图像重建:在保持图像细节的同时进行高效的图像重建。
  • 语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。
  • 支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

UniTok的技术原理

  • 多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。
  • 注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。
  • 统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。
  • 多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

UniTok的项目地址

  • 项目官网:https://foundationvision.github.io/UniTok/
  • GitHub仓库:https://github.com/FoundationVision/UniTok
  • HuggingFace模型库:https://huggingface.co/FoundationVision/unitok_tokenizer
  • arXiv技术论文:https://arxiv.org/pdf/2502.20321

UniTok的应用场景

  • 多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
  • 高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
  • 视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。
  • 多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。
  • 跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。
AutoBE – AI驱动的后端服务器代码生成工具
星火纪要 – 科大讯飞推出的会议交流总结和分析平台
DreamActor-M1 – 字节跳动推出的 AI 图像动画框架
Magic 1-For-1 – 北大、英伟达等推出的高效视频生成模型
MedRAX – AI医学推理Agent,用于胸部X光检查和解决复杂医学问题
分享
Email 复制链接 打印
Share
上一篇 TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术
下一篇 LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

谷歌发布Gemini 3.1 Flash Live:实时语音AI新标杆,情绪感知与低延迟引爆多语言交互革命

站外新闻
Gemini SynthID水印 实时语音模型 语音交互 谷歌AI
AIGC 资讯

H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型

站外新闻
AIGC 资讯最新趋势

微软Build大会重磅出击:自研代码AI平价替代Claude,多场景模型矩阵挑战OpenAI

站外新闻
AI模型矩阵 Azure GitHub Copilot 微软 自研大模型
AI 工具AIGC 资讯

谷歌重磅开源MedASR:医疗语音识别专用大模型,5000小时临床数据训练,识别率再突破

站外新闻
Conformer架构 MedASR 临床对话转录 医疗语音识别 谷歌开源
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.