站外新闻 – 第 125 页 – Prompt 语宙

站外新闻

5047 .

MovieDreamer – 专为长视频研发的AI视频生成框架

MovieDreamer是什么 MovieDreamer是浙江大学联合阿里巴巴专为长视频研发的AI视频生成框架。结合自回归模型和扩散渲染技术，能生成具有复杂情节和高视觉质…

PyVideoTrans – 开源的视频翻译和配音工具，支持多种语言

PyVideoTrans是什么 PyVideoTrans 是开源的视频翻译配音工具，将视频内容从一种语言自动翻译成另一种语言，并添加相应的字幕和配音。PyVideoTra…

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

LATTE3D是什么 LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。…

Sapiens – Meta推出的AI视觉模型，能理解图片和视频中的人类动作

Sapiens是什么 Sapiens是Meta实验室推出的AI视觉模型，专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务，…

LanceDB – 为AI应用设计的无服务器向量数据库，降低运维成本

LanceDB是什么 LanceDB 是一款专为人工智能应用设计的无服务器向量数据库，支持向量搜索、全文搜索和SQL查询，优化了多模态数据处理。它采用向量索引技术，实现高…

琴乐大模型 – 腾讯推出的AI音乐创作大模型

琴乐大模型是什么琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型，该模型通过输入中英文关键词、描述性语句或音频，能够直接生成立体声音…

AnimateDiff – 扩展文生图模型生成动画的框架

AnimateDiff是什么？ AnimateDiff是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架，…

一个普通摄像头就能自主导航：Mistral发布8B模型Robostral Navigate，性能碾压多摄像头方案

法国AI企业Mistral发布首款面向机器人导航的AI模型Robostral Navigate，总参数量仅8B。这款模型让机器人仅凭单个普通RGB摄像头，就能在复杂环境中…

MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型

MV-Adapter是什么 MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本…

Glyph-ByT5 – 多语言视觉文本渲染项目

Glyph-ByT5是什么 Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10…

LongCite – 清华推出的开源模型，提升LLMs的精准引用减少幻觉

LongCite是什么 LongCite是由清华大学推出的项目，旨在提升大型语言模型（LLMs）在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用，使用…

BrushNet – 腾讯推出的高质量图像照片修复模型

BrushNet是什么 BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复（Inpainting）模型，通…

TrackGo – 先进的可控AI视频生成技术

TrackGo是什么 TrackGo是一种先进的可控AI视频生成技术，通过用自由形状的遮罩和箭头，为用户提供了一种灵活而精确的机制来控制视频中对象的运动。技术的核心是Tr…

NanoFlow – 优化大语言模型推理吞吐量的服务框架

NanoFlow是什么 NanoFlow 是一个高性能的服务框架，专为大型语言模型（LLMs）设计，以提高模型的推理吞吐量。它通过在单个设备内部并行使用计算、内存和网络资…

Diffutoon – 阿里推出的AI将视频转卡通风格的框架

Diffutoon是什么 Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架，基于扩散模型的可编辑卡通着色技术，能够将真实感视…

Depth Anything – Tiktok等推出的单目深度估计模型

Depth Anything是什么？ Depth Anything是由来自Tiktok、香港大学和浙江大学的研究人员推出的一个为单目深度估计（Monocular Dept…