Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: UniTok – 字节联合港大、华中科技推出的统一视觉分词器
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > UniTok – 字节联合港大、华中科技推出的统一视觉分词器
AIGC 资讯

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

站外新闻
最近更新: 2026年6月8日 下午4:29
SHARE

UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

阅读目录
  • UniTok是什么
  • UniTok的主要功能
  • UniTok的技术原理
  • UniTok的项目地址
  • UniTok的应用场景

UniTok

UniTok的主要功能

  • 统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。
  • 高质量图像重建:在保持图像细节的同时进行高效的图像重建。
  • 语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。
  • 支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

UniTok的技术原理

  • 多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。
  • 注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。
  • 统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。
  • 多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

UniTok的项目地址

  • 项目官网:https://foundationvision.github.io/UniTok/
  • GitHub仓库:https://github.com/FoundationVision/UniTok
  • HuggingFace模型库:https://huggingface.co/FoundationVision/unitok_tokenizer
  • arXiv技术论文:https://arxiv.org/pdf/2502.20321

UniTok的应用场景

  • 多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
  • 高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
  • 视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。
  • 多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。
  • 跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。
AI-Infra-Guard – 腾讯开源的 AI 基础设施安全评估工具
三菱日联金融携手OpenAI:3.5万员工全面部署ChatGPT Enterprise,开启AI原生银行新时代
EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型
xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
OpenAI GPT-Realtime-Whisper 实时语音转文字模型发布:低至每分钟0.017美元,实现边说边出字的超低延迟转录
分享
Email 复制链接 打印
Share
上一篇 TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术
AIGC 资讯
AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架
AIGC 资讯
OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型
AIGC 资讯
Asyncflow v1.0 – Podcastle 推出的 AI 文本转语音模型
AIGC 资讯

相关推荐

AIGC 资讯

员工反弹与技术翻车:Meta 缩减“监控员工训练 AI”计划

站外新闻
AIGC 资讯

Animate Anyone 2 – 阿里通义推出的高保真角色图像动画生成技术

站外新闻
AIGC 资讯

Toonflow – 开源的一站式 AI 短剧创作工具

站外新闻
AIGC 资讯

Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.