站外新闻 – 第 75 页 – Prompt 语宙

站外新闻

4978 .

SynthID – DeepMind推出能嵌入数字水印和检测AI生成内容的工具

SynthID是什么 SynthID 是 DeepMind 推出的技术工具，基于在 AI 生成的内容中嵌入数字水印帮助识别内容。水印对人类是不可感知的，但能被机器检测到，…

Whispo – AI语音转录工具，一键录音与转写

Whispo是什么 Whispo是AI驱动的语音转录工具，支持用户按住Ctrl键录制语音，在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据…

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

AutoGLM-Web是什么 AutoGLM-Web是模拟用户操作的AI浏览器助手，基于大型语言模型构建，能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指…

OmniGen – 统一图像生成的扩散模型，支持多模态输入

OmniGen是什么 OmniGen是用于统一图像生成的新扩散模型，能在单一框架内处理多种图像生成任务，如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。Omn…

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

CogAgent是什么 CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型，专注于图形用户界面（GUI）的理解和导航。通过视觉模态对GUI界面进行感知，非传统…

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

OMNE Multiagent是什么 OMNE Multiagent是天桥脑科学研究院（Tianqiao and Chrissy Chen Institute，TCCI）…

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

DuoAttention是什么 DuoAttention是新型的框架，由MIT韩松团队提出，用在提高大型语言模型（LLMs）在处理长上下文时的推理效率。基于区分“检索头”…

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

HuggingChat macOS是什么 HuggingChat macOS是Hugging Face推出的开源聊天应用程序，专为macOS用户设计，基于强大的开源语言模…

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

OmniParser是什么 OmniParser是微软研究院推出的屏幕解析工具，将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型（如GPT-4V…

Ditto – AI应用程序生成器，零编码自动规划和构建应用

Ditto是什么 Ditto是基于Flask的应用程序生成器，用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程…

Flux.1 Lite – Freepik推出的轻量级AI模型

Flux.1 Lite是什么 Flux.1 Lite是Freepik团队推出的轻量级AI模型，目前处于alpha版本。Flux.1 Lite是基于80亿参数的transf…

Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架

Phidata是什么 Phidata是开源的AI智能体框架，帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能协同工作的代理团队，提供用户界面实现与代…

Allegro – Rhymes AI推出文本生成高质量视频内容的模型

Allegro是什么 Allegro是由Rhymes AI推出的先进的文本到视频生成模型，能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内…

FakeShield – 北大推出检测图像伪造的多模态大语言模型框架

FakeShield是什么 FakeShield是北京大学研究人员推出的多模态大型语言模型框架，能检测和定位图像伪造。框架能评估图像的真实性，生成被篡改区域的掩码，提供基…

MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

MaskGCT是什么 MaskGCT是趣丸科技与香港中文大学（深圳）合作推出的语音合成大模型，基于掩码生成模型与语音表征解耦编码的技术，实现在声音克隆、跨语种合成、语音控…

GLM-4-Voice – 智谱AI推出的端到端情感语音模型

GLM-4-Voice是什么 GLM-4-Voice是智谱AI推出的端到端情感语音模型，能直接理解和生成中英文语音，支持实时语音对话，能根据用户指令灵活调整语音的情感、语…