A2A – 谷歌开源的首个标准智能体交互协议
A2A是什么 A2A(Agent2Agent Protocol)是谷歌开源的首个标准智能体交互协议,让不同框架和供应商构建的AI智能体相互协作。A2A基于标准化的通信方式…
ART – 微软联合清华和北大等推出的多层透明图像生成技术
ART是什么 ART(Anonymous Region Transformer) 是新型的多层透明图像生成技术,能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层…
PartEdit – KAUST推出的细粒度图像编辑方法
PartEdit是什么 PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记(称为“部分标记”),让扩散模型精准…
Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型
Seedream 2.0是什么 Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自…
GR00T N1 – 英伟达开源的人形机器人基础模型
GR00T N1是什么 GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T…
Firefly Image Model 4 – Adobe 推出的图像生成模型
Firefly Image Model 4是什么 Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 F…
Agent Squad – 开源的多 Agents 对话编排框架
Agent Squad是什么 Agent Squad 是轻量级、开源的多 Agents 框架,用在协调多个 AI Agents 处理复杂对话。Agent Squad支持 …
Runway Gen-4 – Runway 推出最新的AI视频生成模型
Runway Gen-4是什么 Runway Gen-4 是 AI 初创公司 Runway 推出的高保真AI视频生成模型。支持在多个场景中保持人物、物体和环境的一致性,无…
VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架
VideoGrain是什么 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain…
留学申请不再“盲人摸象”!AI 留学平台 UniPilot 正式上线,开启透明化教育新时代
近日,总部位于香港的国际教育科技企业——优派科技集团(UniPilot),正式宣布旗下 AI 智能留学平台UniPilot全面上线。该平台的推出,不仅为学生、院校及中介机…
Step-Audio – 阶跃星辰开源的语音交互模型
Step-Audio是什么 Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用…
GoodWeBot – 基于 RPA 技术开源的 AI 微信机器人
GoodWeBot是什么 GoodWeBot 是开源的基于 RPA 技术开发的 AI 微信机器人, 支持一键免安装运行,用户下载后即可直接使用。工具已接入 Coze 等主…
OOMOL – 基于 VSCode 的 AI 工作流集成开发环境
OOMOL是什么 OOMOL (悟墨)是基于 VSCode 打造的现代化集成开发环境(IDE),专为工作流自动化而设计。通过拖拽式图形化界面,让用户能直观地搭建复杂的工作…
COMET – 字节开源的通信优化系统
COMET是什么 COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信…
NoteLLM – 小红书推出的笔记推荐多模态大模型框架
NoteLLM是什么 NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM…
Mureka V6 – 昆仑万维推出的AI音乐创作基座模型
Mureka V6是什么 Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的ICL(in-context…
