Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: WeGen – 中科大联合上海交大等推出的统一多模态生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > WeGen – 中科大联合上海交大等推出的统一多模态生成模型
AIGC 资讯

WeGen – 中科大联合上海交大等推出的统一多模态生成模型

站外新闻
最近更新: 2026年6月8日 下午12:19
SHARE

WeGen是什么

WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型(MLLM)和扩散模型,处理文本到图像生成、条件驱动生成、图像编辑、风格迁移等多种任务。WeGen 的核心优势能在用户指令较模糊时提供多样化的创意输出,在用户有具体需求时保持生成结果与指令和参考图像的一致性。WeGen 基于动态实例一致性(DIIC)数据管道和提示自重写(PSR)机制,解决实例身份一致性和生成多样性两大挑战,展现出作为用户友好型设计助手的潜力。

阅读目录
  • WeGen是什么
  • WeGen的主要功能
  • WeGen的技术原理
  • WeGen的项目地址
  • WeGen的应用场景

WeGen

WeGen的主要功能

  • 文本到图像生成:根据文本描述生成高质量的图像。
  • 条件驱动生成:基于特定条件(如边缘图、深度图、姿态图)生成图像。
  • 图像编辑与修复:对现有图像进行修改、修复或扩展。
  • 风格迁移:将一种图像的风格应用到另一张图像上。
  • 多主体生成:在生成图像时保留多个参考对象的关键特征。
  • 交互式生成:基于自然对话与用户交互,逐步优化生成结果。
  • 创意设计辅助:为用户提供多样化的生成选项,激发创意。

WeGen的技术原理

  • 多模态大语言模型(MLLM)与扩散模型结合:基于CLIP作为视觉编码器,将图像转化为语义特征;用扩散模型(如SDXL)作为解码器,生成高质量图像。,LLM(如LLaMA)处理自然语言指令,实现文本与视觉信息的融合。
  • 动态实例一致性(DIIC):用视频序列跟踪对象的自然变化,保持其身份一致性。DIIC数据管道解决传统方法在实例身份保持上的不足,让模型在修改图像时保留关键特征。
  • 提示自重写(PSR)机制:基于语言模型重写文本提示,引入随机性,生成多样化的图像。PSR用离散文本采样,让模型探索不同的解释,保持语义一致性。
  • 统一框架与交互式生成:WeGen将多种视觉生成任务整合到一个框架中,基于自然对话与用户交互,逐步优化生成结果,保留用户满意的部分。
  • 大规模数据集支持:WeGen从互联网视频中提取的大规模数据集进行训练,数据集包含丰富的对象动态和自动标注的描述,帮助模型学习一致性和多样性。

WeGen的项目地址

  • GitHub仓库:https://github.com/hzphzp/WeGen
  • arXiv技术论文:https://arxiv.org/pdf/2503.01115

WeGen的应用场景

  • 创意设计:帮助设计师快速生成创意概念图,激发灵感,适用于广告、包装、建筑等领域。
  • 内容创作:为影视、游戏、动漫等行业生成场景、角色或道具的概念图,加速创作流程。
  • 教育辅助:生成与教学内容相关的图像,帮助学生更直观地理解抽象概念。
  • 个性化定制:根据用户需求生成定制化的设计方案,如服装、家居装饰等。
  • 虚拟社交与娱乐:生成虚拟形象、场景或道具,增强虚拟社交和游戏的体验感。
谷歌重磅开源!Computer Use Preview:用自然语言指挥AI操控浏览器,零代码实现网页自动化
PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
MAETok – 港大联合北大等机构推出的自动编码器
月之暗面开源Kimi Linear架构:6倍解码提速、长文本处理效率革命
分享
Email 复制链接 打印
Share
上一篇 子曰翻译2.0 – 网易有道推出的最新翻译大模型
下一篇 MoLing – 本地AI办公自动化助手,基于 MCP 服务器
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

昆仑万维开源Skywork-R1V 3.0:多模态推理模型横扫高考数学142分,逼近人类专家水平

站外新闻
MMMU评测 多模态大模型 开源模型 推理模型 昆仑万维
AI 工具AIGC 资讯

蚂蚁灵波LingBot-VA论文入选RSS2026:全球首个开源因果世界模型如何让机器人‘边想边做’?

站外新闻
LingBot-VA RSS2026 具身智能 因果世界模型 蚂蚁灵波
AIGC 资讯

Fourier N1 – 傅利叶推出的首款开源人形机器人

站外新闻
AI 工具AIGC 资讯

YC总裁亲测开源GBrain:打造AI Agent永生记忆,万级文件知识图谱实战解析

站外新闻
AI Agent Y Combinator 开源 知识图谱 长期记忆
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.