站外新闻 – 第 135 页 – Prompt 语宙

站外新闻

4997 .

Wav2Lip – 开源的唇形同步工具

Wav2Lip是什么 Wav2Lip是开源的唇形同步工具，支持用户将音频文件转换成与口型同步的视频，广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型…

Realtime API – OpenAI推出的实时语音交互API

Realtime API是什么 Realtime API是OpenAI推出的一种低延迟、多模态的对话式API，支持文本和音频作为输入和输出。Realtime API允许开…

Faster Whisper – 一款高效语音识别工具，实现高速转写和快速推理

Faster Whisper是什么 Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具，运用CTranslate2引擎实现快速推理…

edge-tts – 开源的AI文字转语音项目

edge-tts是什么 edge-tts是开源的AI文字转语音项目，支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Servi…

Surya – 开源的OCR工具包，支持90+语言、布局分析等识别

Surya是什么 Surya是一款功能强大的开源OCR（光学字符识别）工具包，专门设计用在文档识别，支持超过90种语言的识别。Surya能准确识别出文档中的文本，分析文本…

LinFusion – 新加坡国立推出图像生成模型，单GPU一分钟生成16K图像

LinFusion是什么 LinFusion 是新加坡国立大学研究团队开发的一种创新图像生成模型，基于线性注意力机制来处理高分辨率图像生成任务。使模型在处理大量像素时的计…

SafeEar – 浙大和清华联合开源的AI音频伪造检测框架

SafeEar是什么 SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检测框架，保护用户隐私的同时检测音频伪造。采用基于神经音频编解码器的解耦模型，分离语音的声…

AgentScope – 阿里开源的多智能体开发平台

AgentScope是什么 AgentScope是阿里巴巴集团开源的多智能体开发平台，帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分…

AuraFlow – Fal团队推出的开源AI文生图模型

AuraFlow v0.1是什么 AuraFlow v0.1是Fal团队推出的开源AI文生图模型，拥有6.8B参数量。优化了MMDiT架构，提升了模型的计算效率和可扩展性…

Laminar – 分析与优化LLM应用程序的开源平台

Laminar是什么 Laminar是一个开源的可观测性和分析平台，专为大型语言模型（LLM）应用程序设计。Laminar提供一套完整的工具追踪、评估、注释和分析LLM数…

SwiftBrush V2 – 文本到图像的单步扩散模型，性能与多步模型相媲美

SwiftBrush V2是什么 SwiftBrush V2 是文本到图像的单步扩散模型，通过改进训练方法和模型融合技术，实现与多步Stable Diffusion扩散模…

LM Studio – 开源、傻瓜、一站式部署本地大模型 (LLM) 的应用平台

LM Studio是什么 LM Studio 是一个本地大语言模型 (LLM) 应用平台，开源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等，…

Illuminate – 谷歌推出将学术论文转化为音频讨论的AI项目

Illuminate是什么 Illuminate 是一个由谷歌开发的项目，能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini，将论文内容转…

Deepfake Defenders – 中科院开发的识别Deepfake伪造内容的AI模型

Deepfake Defenders是什么 Deepfake Defenders是由中国科学院自动化研究所的团队VisionRush开发的一款开源AI模型，旨在识别和防御…

PDF2Audio – 将PDF文档转换成音频博客的开源工具

PDF2Audio是什么 PDF2Audio 是一个开源工具，能将 PDF 文档转换成音频内容，适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚…

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor是什么 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3…