Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
AIGC 资讯

Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

站外新闻
最近更新: 2026年6月8日 上午11:19
SHARE

Liquid是什么

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实现视觉生成与理解。Liquid摒弃传统外部视觉模块,用LLM的语义理解能力进行多模态任务,显著降低训练成本(相比从头训练节省100倍),在视觉生成和理解任务中表现出色,超越部分扩散模型。Liquid揭示了多模态任务的尺度规律,证明随着模型规模增大,视觉与语言任务的冲突逐渐消失,且两者能相互促进。

阅读目录
  • Liquid是什么
  • Liquid的主要功能
  • Liquid的技术原理
  • Liquid的项目地址
  • Liquid的应用场景

Liquid

Liquid的主要功能

  • 视觉生成:根据文本描述生成高质量的图像,支持多种分辨率和风格。
  • 视觉理解:处理图像相关的任务,如视觉问答(VQA)和图像描述生成。
  • 多模态融合:将视觉和语言任务无缝结合,支持同时处理文本生成、图像生成和视觉理解任务。
  • 高效扩展:基于现有的大型语言模型(LLM),用少量数据和低成本训练,快速扩展多模态能力。
  • 语言能力保留:在增加视觉生成能力的同时,保持强大的语言生成和理解能力,适用于多模态混合任务。

Liquid的技术原理

  • 图像分词器(Image Tokenizer):VQGAN(Vector Quantized Generative Adversarial Network)将图像编码为离散的视觉token。视觉token与文本token共享同一词汇表空间,让图像和文本用统一的方式处理。
  • 统一的特征空间:视觉token和文本token在同一个特征空间中学习,基于“下一token预测”任务进行训练。支持模型在视觉和语言任务之间无缝切换和优化。
  • 基于LLM的生成:Liquid扩展现有的大型语言模型(LLM),基于强大的语义理解能力进行视觉生成和理解。在LLM中添加视觉token的嵌入,处理视觉任务,无需额外的视觉模块(如CLIP或扩散模型)。
  • 多模态数据训练:用混合数据(文本数据、图文对数据)进行预训练,模型同时学习语言和视觉任务。基于调整数据比例,优化模型在不同任务上的表现。
  • 双向促进机制:视觉生成和视觉理解任务共享统一的token空间,优化目标一致,两者能相互促进。增加视觉生成或理解任务的数据,提升模型在另一任务上的表现。

Liquid的项目地址

  • 项目官网:https://foundationvision.github.io/Liquid/
  • GitHub仓库:https://github.com/FoundationVision/Liquid
  • HuggingFace模型库:https://huggingface.co/Junfeng5/Liquid
  • arXiv技术论文:https://arxiv.org/pdf/2412.04332
  • 在线体验Demo:https://huggingface.co/spaces/Junfeng5/Liquid_demo

Liquid的应用场景

  • 创意设计:根据文字描述生成高质量图像,辅助艺术创作、广告设计和游戏美术。
  • 内容创作:自动生成与文本相关的图片,用于社交媒体、博客和新闻报道。
  • 视觉问答:理解图像内容并回答相关问题,用于教育、客服和智能助手。
  • 多模态对话:结合图像和文字进行智能交互,提升对话系统的自然性和实用性。
  • VR/AR应用:生成虚拟场景和物体,增强沉浸感和交互体验。
AI自主迭代闭环已成?孙正义断言超级智能两年内引爆科技临界点
X-Fusion – 加州大学联合Adobe等机构推出的多模态融合框架
AI抓虫革命!Anthropic Project Glasswing首月战报:1万+高危漏洞被揪出,效率暴增10倍
SurveyGO卷姬 – 清华联合面壁智能开源的AI论文写作工具
Absolute Zero – 清华大学等机构推出的语言模型推理训练方法
分享
Email 复制链接 打印
Share
上一篇 AI-Researcher – 香港大学推出的开源自动化科学研究工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

AI-Researcher – 香港大学推出的开源自动化科学研究工具
AIGC 资讯
InternVL – OpenGVLab 推出的多模态大模型
AIGC 资讯
DeepSeek-R1T-Chimera – TNG开源的语言模型
AIGC 资讯
披着便利外衣的陷阱!国安部鸣枪警告:警惕“AI中转站”四大致命风险
AIGC 资讯

相关推荐

AIGC 资讯

Ideogram 4 – Ideogram 开源的文本到图像生成模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

OpenAI 紧急修复 ChatGPT 与 API 高延迟故障:服务已恢复,部分功能仍待优化

站外新闻
AI基础设施 API服务 chatgpt openai 高延迟
AI 工具AIGC 资讯

恶意开发者滥用Claude生成超670个恶意npm包:AI成供应链攻击新武器,开源安全告急!

站外新闻
AI安全 Claude npm 供应链攻击 恶意软件
AIGC 资讯

MAI-Voice-2 – 微软推出的新一代文本转语音模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.