MeshPad – 草图驱动的AI 3D网格生成与编辑工具
MeshPad是什么 MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加…
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3是什么 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude S…
TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
TripoSR是什么 TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Tr…
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
FantasyTalking是什么 FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象…
X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
X-Dancer是什么 X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且…
Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
Open-Sora 2.0是什么 Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0…
Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析
Umi-OCR是什么 Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可…
DreamO – 字节联合北大推出的图像定制生成框架
DreamO是什么 DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型…
Veo 3 – 谷歌推出的新一代视频生成模型
Veo 3是什么 Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型,能合成画面,能为鸟鸣、街头交通等场景配上相应的…
EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型
EasyControl Ghibli是什么 EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face…
VidSketch – 浙江大学推出的视频动画生成框架
VidSketch是什么 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频…
卢伟冰剧透发布会彩排:小米17T系列将登场,机器人互动成瞩目亮点
小米17T系列国行版发布会于6月8日14点正式举行,届时将推出小米17T和小米17T Pro两款全新机型。在此前一日,小米集团总裁卢伟冰通过视频公开了发布会主讲人TJ的彩…
AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体
AutoAgents是什么 AutoAgents 是基于大型语言模型(LLM)的自动智能体生成框架,能根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务…
OpenUtau – 开源的AI歌声合成工具,自动适配系统语言
OpenUtau是什么 OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省…
告别单轮傻瓜问答!云知声发布原生智能体大模型U2,自主攻克百步复杂工作流
生成式人工智能正在加速从“只会聊天”的问答工具,演变为能够卷起袖子干活的“超级数字员工”。6月8日,云知声(9678.HK)正式发布了新一代通用大语言模型——U2。作为一…
TANGLED – 上海科大联合华中科大等推出的3D发型生成方法
TANGLED是什么 TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3…
