Ad image
Ad image

最近更新

蚂蚁集团开源Ming-Lite-Omni:统一多模态大模型,支持文本、图像、音视频全模态交互与生成

💡 站外导读:随着AIGC技术的爆发,单一模态的AI模型已难以满足复杂、多样化的实际应用需求。行业亟需一种能够无缝理解和生成文本、图像、音频、视频等多种信息形式的统一智能体,以打通数据孤岛,提升交互的自然度与效率。蚂蚁集团开源的Ming-L…

MagicTryOn:浙大联手vivo推出视频虚拟试穿新框架,扩散Transformer实现超逼真时空一致性

💡 站外导读:在AI生成内容浪潮中,虚拟试穿正成为电商与时尚行业的下一个关键战场。然而,现有技术常面临两大痛点:一是单张…

南开大学发布SearchAgent-X:LLM搜索Agent吞吐量提升3.4倍,延迟降低80%的革命性推理框架

💡 站外导读:随着大语言模型在复杂推理任务中的应用日益深入,搜索Agent成为连接模型与外部知识的关键桥梁。然而,其效率…

WebAgent:阿里开源自主搜索AI Agent,重新定义信息检索与推理能力

💡 站外导读:在信息爆炸的时代,如何从海量、多源的网络数据中快速获取有价值的信息,已成为个人、研究者乃至企业的核心痛点。…

Hume AI EVI 3发布:实时情感语音交互模型,超越GPT-4o的表现力与速度

💡 站外导读:在AI语音交互领域,如何实现既自然流畅又富有情感表达的对话,一直是核心挑战。传统模型往往在响应速度与情感细…

Resemble AI开源Chatterbox:0.5B参数TTS模型,5秒克隆语音+情感控制,性能叫板闭源系统

💡 站外导读:随着AIGC浪潮席卷内容产业,对高质量、个性化且可控的语音合成需求激增。然而,现有许多TTS模型要么是不开源的“黑箱”,要么在零样本克隆和情感表达上表现平平。开发者和内容创作者渴望一个既强大又灵活的开源解决方案,以打破技术壁垒,赋能千行百业。正是在这一背景下,Resemble AI开源的Chatterbox应运而生,直击性能、可控性与易用性的核心痛点。 Chatterbox是什么 C…

百川智能Baichuan-M3开源发布:医疗AI大模型问诊能力超GPT-5.2及人类医生,医疗幻觉率全球最低

💡 站外导读:随着人工智能在医疗领域的渗透,如何提升问诊准确性、降低医疗幻觉成为行业核心痛点。百川智能开源发布Baich…

ClipSketch AI:开源AI视频工具,自动提取B站小红书关键帧生成手绘故事板,免费使用

💡 站外导读:短视频和社交媒体内容创作需求爆发,但手动提取关键帧、设计分镜、撰写文案耗时费力,成为创作者和运营人员的共同…

突破传统Token架构!字节跳动DLCM动态大概念模型:推理效率提升34%、准确率+2.69%的下一代LLM新范式

💡 站外导读:大模型推理成本居高不下,已成为制约AI规模化落地的核心瓶颈。传统Transformer架构以token为基…

谷歌D4RT:4D重建模型速度提升300倍,动态场景AI追踪与预测的革命

💡 站外导读:传统计算机视觉模型在处理动态场景时,常面临重建精度低、计算耗时长、无法有效预测运动轨迹等核心痛点,限制了其…

斯坦福&英伟达发布TTT-Discover:测试时强化学习实现低成本AI科学发现

💡 站外导读:当前AI模型在科学发现等复杂任务中往往依赖海量数据与天价算力训练,且模型在部署后性能固定,无法从具体问题中…

清华×斯坦福重磅开源:Ctrl-World具身世界模型登顶全球第一,0.986一致性重构机器人开发范式

💡 站外导读:机器人研发长期面临“仿真到现实”的鸿沟——虚拟环境中训练的策略部署到真实物理世界后,常因物理规律模拟不精确…