💡 站外导读:在学术界,将深奥的论文转化为生动、易懂的演示视频,一直是研究人员面临的核心痛点。随着AIGC技术的爆发,自动化内容生成正重塑知识传播方式。新加坡国立大学Show Lab推出的Paper2Video项目,正瞄准这一需求,通过先进的多智能体框架,将一篇完整的学术论文自动转化为包含幻灯片、字幕、语音乃至虚拟演讲者的高质量演示视频,极大地降低了学术成果可视化与公众传播的门槛。
Paper2Video是什么
Paper2Video 是新加坡国立大学 Show Lab 开发的项目,从学术论文自动生成演示视频。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。框架包含幻灯片构建器、字幕构建器、光标构建器和演讲者构建器四个模块,分别负责幻灯片生成、字幕生成、光标定位和演讲者视频生成。Paper2Video 提供了首个高质量的学术演示视频基准,包含 101 篇论文及其对应的作者演讲视频、幻灯片等数据。基准还设计了 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四个评估指标,用于衡量视频是否能准确传达论文的核心思想、是否易于理解、是否突出作者的贡献以及是否增强研究的影响力。

Paper2Video的主要功能
-
自动视频生成:从学术论文自动生成演示视频,将复杂的学术内容转化为易于理解的视觉和听觉形式。
-
多智能体框架:通过PaperTalker框架,整合幻灯片生成、字幕生成、光标定位、语音合成和演讲者头像渲染等多个模块,实现高效且高质量的视频制作。
-
高质量基准数据集:提供包含101篇论文及其作者演讲视频、幻灯片等数据的基准,为学术演示视频的研究和评估提供标准。
-
定制化评估指标:设计了Meta Similarity、PresentArena、PresentQuiz和IP Memory等评估指标,从不同角度衡量演示视频的质量和效果。
-
易于使用的工具:提供完整的代码和详细的使用指南,方便研究人员和开发者使用该工具生成自己的演示视频。
Paper2Video的技术原理
-
幻灯片生成与优化:从论文的 LaTeX 源文件中提取内容,生成 Beamer 格式的幻灯片草稿。采用“树搜索视觉选择”方法优化布局,系统会生成多种布局候选,然后让视觉语言模型(VLM)来评判最佳版本。
-
字幕与光标生成:为幻灯片生成对应的讲稿(字幕),并规划出模拟演讲者在讲解时移动鼠标光标的轨迹。光标的移动和语音在时间和空间上精确对齐,引导观众的注意力。
-
演讲者生成:利用作者的一张肖像照和一小段声音样本,通过文本到语音(TTS)和说话人脸生成技术,合成一个带有作者个人特征、口型与语音同步的虚拟人像。
-
并行化处理:将视频生成任务按幻灯片拆分,并进行并行处理,大大缩短了总生成时间。
Paper2Video的项目地址
-
项目官网:https://showlab.github.io/Paper2Video/
-
Github仓库:https://github.com/showlab/Paper2Video
- arXiv技术论文:https://arxiv.org/pdf/2510.05096
Paper2Video的应用场景
-
学术会议:为研究人员提供快速生成高质量演讲视频的工具,节省准备时间,提升演讲效果。
-
在线课程:帮助教育工作者将学术论文内容转化为生动的视频课程,增强教学互动性和吸引力。
-
社交媒体传播:使学术成果能够以更通俗易懂的视频形式在社交媒体上分享,扩大研究影响力。
-
学术报告:便于研究人员快速制作学术报告视频,用于内部汇报或公开讲座。
-
研究推广:为科研机构和学者提供一种新的研究成果展示方式,提升研究的可见度和公众认知度。
📝 站长洞察 (Editor’s Insight)
Paper2Video的出现,标志着AIGC在垂直专业领域的深度落地。它不仅仅是简单的工具,而是构建了一个从内容理解、多模态生成到质量评估的完整闭环。其“树搜索视觉选择”等创新方法,展示了AI在理解论文结构、逻辑并进行创造性呈现上的巨大潜力。这预示着未来学术传播将更加自动化、个性化。更关键的是,该项目同步开源了代码、基准数据集和评估方法,为整个学术社区提供了标准化的工具和评估标尺,有望催生一个围绕学术视频生成的新研究子领域。这不仅是技术的突破,更是推动科研成果普惠化、加速知识流动的重要基础设施。
