D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
D-DiT是什么 D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成…
Mureka O1 – 昆仑万维推出的音乐推理大模型
Mureka O1是什么 Mureka O1是昆仑万维发布的全球首款音乐推理大模型,全球首个引入“思维链”(Chain of Thought,CoT)技术的音乐模型,Mu…
Lumina-Video – 上海 AI Lab 和港中文推出的视频生成框架
Lumina-Video是什么 Lumina-Video是上海 AI Lab 和香港中文大学推出的视频生成框架,基于Next-DiT架构,针对视频生成中的时空复杂性进行优…
A2A – 谷歌开源的首个标准智能体交互协议
A2A是什么 A2A(Agent2Agent Protocol)是谷歌开源的首个标准智能体交互协议,让不同框架和供应商构建的AI智能体相互协作。A2A基于标准化的通信方式…
ART – 微软联合清华和北大等推出的多层透明图像生成技术
ART是什么 ART(Anonymous Region Transformer) 是新型的多层透明图像生成技术,能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层…
PartEdit – KAUST推出的细粒度图像编辑方法
PartEdit是什么 PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记(称为“部分标记”),让扩散模型精准…
Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型
Seedream 2.0是什么 Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自…
GR00T N1 – 英伟达开源的人形机器人基础模型
GR00T N1是什么 GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T…
Firefly Image Model 4 – Adobe 推出的图像生成模型
Firefly Image Model 4是什么 Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 F…
Agent Squad – 开源的多 Agents 对话编排框架
Agent Squad是什么 Agent Squad 是轻量级、开源的多 Agents 框架,用在协调多个 AI Agents 处理复杂对话。Agent Squad支持 …
Runway Gen-4 – Runway 推出最新的AI视频生成模型
Runway Gen-4是什么 Runway Gen-4 是 AI 初创公司 Runway 推出的高保真AI视频生成模型。支持在多个场景中保持人物、物体和环境的一致性,无…
VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架
VideoGrain是什么 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain…
留学申请不再“盲人摸象”!AI 留学平台 UniPilot 正式上线,开启透明化教育新时代
近日,总部位于香港的国际教育科技企业——优派科技集团(UniPilot),正式宣布旗下 AI 智能留学平台UniPilot全面上线。该平台的推出,不仅为学生、院校及中介机…
Step-Audio – 阶跃星辰开源的语音交互模型
Step-Audio是什么 Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用…
GoodWeBot – 基于 RPA 技术开源的 AI 微信机器人
GoodWeBot是什么 GoodWeBot 是开源的基于 RPA 技术开发的 AI 微信机器人, 支持一键免安装运行,用户下载后即可直接使用。工具已接入 Coze 等主…
OOMOL – 基于 VSCode 的 AI 工作流集成开发环境
OOMOL是什么 OOMOL (悟墨)是基于 VSCode 打造的现代化集成开发环境(IDE),专为工作流自动化而设计。通过拖拽式图形化界面,让用户能直观地搭建复杂的工作…
