SuperGPQA – 豆包大模型联合 M-A-P 开源的知识推理基准测试集
SuperGPQA是什么 SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准…
BitsAI-CR – 字节跳动推出的自动化代码审查工具
BitsAI-CR是什么 BitsAI-CR是字节跳动团队推出的基于大型语言模型(LLM)的自动化代码审查工具,通过两阶段处理流程实现高效代码审查:RuleChecker…
Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具
Textoon是什么 Textoon是阿里巴巴集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型,能在一分钟…
MV-MATH – 中科院推出的基准数据集,评估模型处理多视觉信息的数学推理能力
MV-MATH是什么 MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言模型(MLLMs)在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学…
Chirp 3 – 谷歌云推出的高清语音合成模型
Chirp 3是什么 Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音…
MangaNinja – 基于参考图像的线稿着色技术
MangaNinja是什么 MangaNinja是基于参考图像的线稿上色方法,具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案,提升了上色的准确性与图…
Hummingbird-0 – Tavus 推出的AI口型同步模型
Hummingbird-0是什么 Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型开发,支持实现零样本学习,无需额外训练…
ScaleMCP – 普华永道推出的动态MCP工具检索器
ScaleMCP是什么 ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP…
GLM-4-Air-0414 – 智谱推出的基座模型
GLM-4-Air-0414是什么 GLM-4-Air-0414是智谱公司推出的拥有320亿参数的基座模型,是AutoGLM沉思背后的模型。GLM-4-Air-0414在…
R1-Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调
R1-Onevision是什么 R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,…
仿生手再升级!小米人形机器人亮相发布会,自主抓握手机拍照
小米于今日下午举办Xiaomi17T 系列手机新品发布会。发布会上,小米人形机器人惊艳亮相,现场演示了自主抓握 Xiaomi17T Pro 手机并操控音量键进行变焦拍照,…
unsloth – 开源的大语言模型微调工具
unsloth是什么 unsloth 是开源的大语言模型(LLM)微调工具,基于优化计算步骤和 GPU 内核,显著提升模型训练速度减少内存使用。Unsloth支持多种主流…
Codex CLI – OpenAI 开源的AI编程智能体
Codex CLI是什么 Codex CLI 是 OpenAI 推出的轻量级AI编程智能体。Codex CLI基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版…
Sitcom-Crafter – 北航联合港中文等高校推出的 3D 人类动作生成系统
Sitcom-Crafter是什么 Sitcom-Crafter 是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生…
IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
IMAGPose是什么 IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多…
ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型
ProtGPS是什么 ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,…
