Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里通义发布OmniAudio:从360°视频生成专业级空间音频,开启沉浸式体验新纪元
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里通义发布OmniAudio:从360°视频生成专业级空间音频,开启沉浸式体验新纪元
AI 工具AIGC 资讯

阿里通义发布OmniAudio:从360°视频生成专业级空间音频,开启沉浸式体验新纪元

站外新闻
最近更新: 2026年6月7日 下午8:27
AIGC FOA OmniAudio 空间音频 通义实验室
SHARE

💡 站外导读:在VR、元宇宙和沉浸式娱乐飞速发展的今天,高质量3D空间音频的生成却始终是行业痛点。传统方法依赖昂贵的硬件采集或复杂的后期制作,难以规模化应用。阿里通义实验室推出的OmniAudio模型,首次实现了从普通360°视频直接生成专业级FOA空间音频,不仅解决了声源精准定位的难题,更通过构建大规模数据集和创新的两阶段训练范式,为整个沉浸式内容生产流程带来了革命性的效率提升。

OmniAudio是什么

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监督学习;以及基于双分支视频表示的有监督微调,强化模型对声源方向的表征能力。

阅读目录
  • OmniAudio是什么
  • OmniAudio的主要功能
  • OmniAudio的技术原理
  • OmniAudio的项目地址
  • OmniAudio的应用场景
      • 📝 站长洞察 (Editor’s Insight)

OmniAudio

OmniAudio的主要功能

  • 生成空间音频:能直接从360°视频生成FOA音频,这种音频是一种标准的3D空间音频格式,能捕捉声音的方向性,实现真实的3D音频再现。采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。在头部旋转时,可以确保声音定位的准确性得以保持。
  • 提升沉浸式体验:为虚拟现实和沉浸式娱乐带来了全新的可能性。可以解决传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求的问题。

OmniAudio的技术原理

  • 自监督的 coarse-to-fine 流匹配预训练
    • 数据处理:由于真实FOA数据稀缺,研究团队利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),将立体声转换为“伪FOA”格式。具体来说,W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。
    • 模型训练:将转换后的“伪FOA”音频送入四通道VAE编码器获得潜在表示,然后以一定概率进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。
  • 基于双分支视频表示的有监督微调
    • 数据利用:仅使用真实的FOA音频数据,继续沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。
    • 模型强化:通过对真实FOA潜在序列进行更高概率的掩码,强化了对声源方向(W/X/Y/Z四通道之间的互补关系)的表征能力,在解码端提升了对高保真空间音频细节的重建效果。
    • 双分支结合:完成自监督预训练后,将模型与双分支视频编码器结合。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件,局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。
    • 微调与输出:在保持预训练初始化参数大致走向的前提下,高效微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的项目地址

  • 项目官网:https://omniaudio-360v2sa.github.io/
  • Github仓库:https://github.com/liuhuadai/OmniAudio
  • arXiv技术论文:https://arxiv.org/pdf/2504.14906

OmniAudio的应用场景

  • 虚拟现实(VR)和沉浸式体验:OmniAudio 能为 VR 内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感。
  • 360°视频配乐:为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。
  • 智能语音助手:集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。
  • 机器人和自动驾驶领域:OmniAudio 可以应用于机器人和自动驾驶领域,为这些系统提供更准确的声音定位和环境感知。

📝 站长洞察 (Editor’s Insight)

OmniAudio的发布,标志着AIGC在音频生成领域进入了“空间化”和“专业化”的新阶段。其核心价值在于三点:一是技术路径创新,通过“自监督预训练+有监督微调”的两阶段模式,巧妙解决了高质量空间音频数据稀缺的行业瓶颈;二是定义了从视频到空间音频的端到端生成范式,将极大降低XR内容生产门槛;三是应用前景广阔,不仅限于VR娱乐,更可延伸至智能座舱、机器人听觉等未来关键赛道。这不仅是阿里在多模态技术上的重要落子,更预示着“所见即所听”的沉浸式体验将加速成为现实,推动整个数字内容产业向更高维度的感官体验演进。

谷歌 Nano Banana Pro 实测:Gemini 3 Pro 图像模型如何重新定义 2K/4K 高分辨率 AI 创作与编辑
Caden AI
零API成本!LocoreMind开源4B参数代码探索Agent,本地部署效率飙升
小鹏人形机器人量产时间表敲定:2026年底量产,2027年进店导购,全栈自研引领具身智能商业化
InfiniteYou – 字节跳动开源的身份保持图像生成框架
TAGGED:AIGCFOAOmniAudio空间音频通义实验室
分享
Email 复制链接 打印
Share
上一篇 OpenAudio S1重磅发布:Fish Audio 200万小时数据训练,支持13种语言与50+情感标记的革命性TTS模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAudio S1重磅发布:Fish Audio 200万小时数据训练,支持13种语言与50+情感标记的革命性TTS模型
AI 工具 AIGC 资讯
MoonCast:零样本AI一键生成播客,从文本到自然语音的革命性突破
AI 工具 AIGC 资讯
谷歌DeepMind开源全栈AI研究助手:Gemini+LangGraph快速构建智能研究工具
AI 工具 AIGC 资讯
DecipherIt: AI多智能体研究助手,深度整合全球多源信息与智能分析
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯最新趋势

AI重新定义智能座舱!Rivian高管断言:CarPlay投屏时代已彻底终结

站外新闻
AI智能体 CarPlay Rivian 智能座舱 软件定义汽车
AI 工具

Quick Replai

remaker
AI 工具AIGC 资讯

蚂蚁开源Ming-Flash-Omni 2.0全模态大模型:MoE架构激活6B参数,统一理解生成引领SOTA

站外新闻
AIGC MoE架构 全模态 蚂蚁集团
AI 工具

Bitskout

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.