Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
AIGC 资讯

Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

站外新闻
最近更新: 2026年6月8日 上午11:19
SHARE

Liquid是什么

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。Liquid摒弃传统外部视觉模块,用LLM的语义理解能力进行多模态任务,显著降低训练成本(相比从头训练节省100倍),在视觉生成和理解任务中表现出色,超越部分扩散模型。Liquid揭示了多模态任务的尺度规律,证明随着模型规模增大,视觉与语言任务的冲突逐渐消失,且两者能相互促进。

阅读目录
  • Liquid是什么
  • Liquid的主要功能
  • Liquid的技术原理
  • Liquid的项目地址
  • Liquid的应用场景

Liquid

Liquid的主要功能

  • 视觉生成:根据文本描述生成高质量的图像,支持多种分辨率和风格。
  • 视觉理解:处理图像相关的任务,如视觉问答(VQA)和图像描述生成。
  • 多模态融合:将视觉和语言任务无缝结合,支持同时处理文本生成、图像生成和视觉理解任务。
  • 高效扩展:基于现有的大型语言模型(LLM),用少量数据和低成本训练,快速扩展多模态能力。
  • 语言能力保留:在增加视觉生成能力的同时,保持强大的语言生成和理解能力,适用于多模态混合任务。

Liquid的技术原理

  • 图像分词器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)将图像编码为离散的视觉token。视觉token与文本token共享同一词汇表空间,让图像和文本用统一的方式处理。
  • 统一的特征空间:视觉token和文本token在同一个特征空间中学习,基于“下一token预测”任务进行训练。支持模型在视觉和语言任务之间无缝切换和优化。
  • 基于LLM的生成:Liquid扩展现有的大型语言模型(LLM),基于强大的语义理解能力进行视觉生成和理解。在LLM中添加视觉token的嵌入,处理视觉任务,无需额外的视觉模块(如CLIP或扩散模型)。
  • 多模态数据训练:用混合数据(文本数据、图文对数据)进行预训练,模型同时学习语言和视觉任务。基于调整数据比例,优化模型在不同任务上的表现。
  • 双向促进机制:视觉生成和视觉理解任务共享统一的token空间,优化目标一致,两者能相互促进。增加视觉生成或理解任务的数据,提升模型在另一任务上的表现。

Liquid的项目地址

  • 项目官网:https://foundationvision.github.io/Liquid/
  • GitHub仓库:https://github.com/FoundationVision/Liquid
  • HuggingFace模型库:https://huggingface.co/Junfeng5/Liquid
  • arXiv技术论文:https://arxiv.org/pdf/2412.04332
  • 在线体验Demo:https://huggingface.co/spaces/Junfeng5/Liquid_demo

Liquid的应用场景

  • 创意设计:根据文字描述生成高质量图像,辅助艺术创作、广告设计和游戏美术。
  • 内容创作:自动生成与文本相关的图片,用于社交媒体、博客和新闻报道。
  • 视觉问答:理解图像内容并回答相关问题,用于教育、客服和智能助手。
  • 多模态对话:结合图像和文字进行智能交互,提升对话系统的自然性和实用性。
  • VR/AR应用:生成虚拟场景和物体,增强沉浸感和交互体验。
GPT-5.6意外曝光:150万token上下文窗口破纪录,商用级前端生成引发AI巨头新一轮遭遇战
Miras – 谷歌推出的深度学习架构设计通用框架
字节跳动Seed3D 2.0发布:单图生成生产级3D资产,几何精度与PBR材质双SOTA
AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成
昆仑万维Matrix-Game 2.0开源:首个通用实时交互世界模型,25FPS分钟级生成,开启AI游戏与VR新范式
分享
Email 复制链接 打印
Share
上一篇 AI-Researcher – 香港大学推出的开源自动化科学研究工具
下一篇 Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

SmolDocling – 轻量级的多模态文档处理模型

站外新闻
AI 工具AIGC 资讯

开源桌面AI设计工具Open CoDesign:免费替代Claude Design,支持20+模型BYOK,数据完全本地化

站外新闻
AI设计工具 BYOK Open CoDesign 开源 本地化AI
AIGC 资讯

EvoAgentX – 开源的AI Agent自动化生成与优化框架

站外新闻
AI 工具AIGC 资讯

阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体

站外新闻
A11y Tree Qwen WebWorld 世界模型 智能体
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.