Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Tarsier2 – 字节跳动推出的视觉理解大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Tarsier2 – 字节跳动推出的视觉理解大模型
AIGC 资讯

Tarsier2 – 字节跳动推出的视觉理解大模型

站外新闻
最近更新: 2026年6月9日 上午5:49
SHARE

Tarsier2是什么

Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。 在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。

阅读目录
  • Tarsier2是什么
  • Tarsier2的主要功能
  • Tarsier2的技术原理
  • Tarsier2的项目地址
  • Tarsier2的应用场景

Tarsier2

Tarsier2的主要功能

  • 详细视频描述:Tarsier2能生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
  • 视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。
  • 视频定位:Tarsier2可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
  • 幻觉测试:通过优化训练策略,Tarsier2显著减少了模型生成虚假信息的可能性。
  • 多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。

Tarsier2的技术原理

  • 大规模预训练数据:Tarsier2将预训练数据从1100万扩展到4000万视频-文本对,提升了数据的规模和多样性。数据包括来自互联网的短视频、电影或电视剧的解说视频,通过多模态LLM自动生成的视频描述和问答对。
  • 细粒度时间对齐的监督微调(SFT):在监督微调阶段,Tarsier2引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力,同时减少了生成幻觉。
  • 直接偏好优化(DPO):Tarsier2通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练。基于模型生成的正负样本对,进一步优化模型的生成质量,确保生成的视频描述更符合人类的偏好。

Tarsier2的项目地址

  • GitHub仓库:https://github.com/bytedance/tarsier
  • arXiv技术论文:https://arxiv.org/pdf/2501.07888

Tarsier2的应用场景

  • 视频描述:Tarsier2 能生成高质量的详细视频描述,涵盖视频中的各种细节,包括动作、场景和情节。
  • 幻觉测试:Tarsier2 在减少生成幻觉方面表现出色。通过直接偏好优化(DPO)和细粒度时间对齐的训练,Tarsier2 显著降低了生成虚假信息的可能性。
  • 多语言支持:Tarsier2 支持多语言的视频描述生成,能满足不同语言环境下的需求。
  • 具身问答:Tarsier2 在具身问答(Embodied QA)任务中也表现出色,能结合视觉和语言信息,为具身智能体提供准确的指导。
百度MEG组织架构调整:升级数字人业务并成立大商业事业部
VerseCrafter:复旦腾讯联手开源,4D几何控制重塑动态视频生成新范式
VACE – 阿里通义推出的视频生成与编辑框架
名创优品Q1营收猛增28.5%,8.75亿AI投资收益撑起利润,主业承压背后藏着什么秘密?
GPT-Realtime-2:OpenAI 第二代实时语音模型发布,GPT-5级推理能力定义AI语音Agent新高度
分享
Email 复制链接 打印
Share
上一篇 SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术
下一篇 GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

谷歌重磅开源 TranslateGemma:Gemma 3 系列翻译模型,支持 55 种语言与多模态图像翻译
AI 工具 AIGC 资讯
FLUX.2 [klein] 开源:Black Forest Labs 推出亚秒级图像生成模型,4B版仅需13GB显存
AI 工具 AIGC 资讯
OpenWork:开源AI桌面工作流平台,打造高效自动化办公新体验
AI 工具 最新趋势
Prompt Manager(PromptX):开源AI提示词管理神器,智能分类+版本控制,解锁AIGC工作流效率革命
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Aero-1-Audio – LMMs-Lab 推出的轻量级音频模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌 Gemini 算力计费引爆全球用户怒火!紧急宣布额度永久翻 3 倍补偿

站外新闻
AI 工具 开发者工具 算力计费 谷歌 DeepMind 谷歌 Gemini
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

《AI伦理安全指引1.0》重磅发布:阿里华为等联合起草,为大模型落地装上“安全闸”,开启合规新纪元

站外新闻
AI伦理安全 AI幻觉 人工智能 深度求索
AIGC 资讯

OpenThinker-32B – 斯坦福、UC 伯克利等机构联合开源的推理模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.