Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Tarsier2 – 字节跳动推出的视觉理解大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Tarsier2 – 字节跳动推出的视觉理解大模型
AIGC 资讯

Tarsier2 – 字节跳动推出的视觉理解大模型

站外新闻
最近更新: 2026年6月9日 上午5:49
SHARE

Tarsier2是什么

Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。 在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。

阅读目录
  • Tarsier2是什么
  • Tarsier2的主要功能
  • Tarsier2的技术原理
  • Tarsier2的项目地址
  • Tarsier2的应用场景

Tarsier2

Tarsier2的主要功能

  • 详细视频描述:Tarsier2能生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
  • 视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。
  • 视频定位:Tarsier2可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
  • 幻觉测试:通过优化训练策略,Tarsier2显著减少了模型生成虚假信息的可能性。
  • 多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。

Tarsier2的技术原理

  • 大规模预训练数据:Tarsier2将预训练数据从1100万扩展到4000万视频-文本对,提升了数据的规模和多样性。数据包括来自互联网的短视频、电影或电视剧的解说视频,通过多模态LLM自动生成的视频描述和问答对。
  • 细粒度时间对齐的监督微调(SFT):在监督微调阶段,Tarsier2引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力,同时减少了生成幻觉。
  • 直接偏好优化(DPO):Tarsier2通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练。基于模型生成的正负样本对,进一步优化模型的生成质量,确保生成的视频描述更符合人类的偏好。

Tarsier2的项目地址

  • GitHub仓库:https://github.com/bytedance/tarsier
  • arXiv技术论文:https://arxiv.org/pdf/2501.07888

Tarsier2的应用场景

  • 视频描述:Tarsier2 能生成高质量的详细视频描述,涵盖视频中的各种细节,包括动作、场景和情节。
  • 幻觉测试:Tarsier2 在减少生成幻觉方面表现出色。通过直接偏好优化(DPO)和细粒度时间对齐的训练,Tarsier2 显著降低了生成虚假信息的可能性。
  • 多语言支持:Tarsier2 支持多语言的视频描述生成,能满足不同语言环境下的需求。
  • 具身问答:Tarsier2 在具身问答(Embodied QA)任务中也表现出色,能结合视觉和语言信息,为具身智能体提供准确的指导。
DeepSeek-V4 百万上下文大模型发布:Agent代码能力首超闭源,Pro/Flash双版开源引领普惠AI
MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架
一键鞭打AI!OpenWhip:开源桌面神器,专治Claude Code死循环与卡顿
Windows-MCP:开源AI Agent无缝操控Windows系统,释放大模型自动化生产力
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
分享
Email 复制链接 打印
Share
上一篇 SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术
下一篇 GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

FlexiAct – 清华联合腾讯推出的动作迁移模型

站外新闻
AIGC 资讯

Roop-Unleashed – AI换脸工具,支持批量换脸、VR换脸、直播换脸

站外新闻
AIGC 资讯

Ideogram 4 – Ideogram 开源的文本到图像生成模型

站外新闻
AI 工具AIGC 资讯

Hailuo 2.3 AI视频生成模型发布:MiniMax重磅升级,支持动漫水墨等多种画风,精准动作生成!

站外新闻
AIGC AI视频生成 Hailuo 2.3 MiniMax 海螺AI
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.