Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]
强化 AI 学习

利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:32
SHARE

这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。GPT-4 无法直接接收视频作为输入,但我们可以通过视觉识别功能以及全新的 128K 上下文窗口,一次性描述视频中的所有静态画面。我们将通过两个实例来演示如何操作:

阅读目录
  • 1. 利用 GPT 的视觉能力描述视频
  • 2. 用 GPT-4 和 TTS API 制作视频旁白
  1. 利用 GPT-4 来描述一个视频的内容
  2. 结合 GPT-4 和 TTS API 为视频创造旁白
from IPython.display import display, Image, Audio
import cv2 # We're using OpenCV to read video
import base64
import time
import openai
import os
import requests

1. 利用 GPT 的视觉能力描述视频

我们首先利用 OpenCV 技术从一个展示野牛和狼的自然 视频 中提取画面:

video = cv2.VideoCapture("data/bison.mp4")
base64Frames =[]
while video.isOpened():
success, frame = video.read()
ifnot success:
break
_,buffer= cv2.imencode(".jpg", frame)
base64Frames.append(base64.b64encode(buffer).decode("utf-8"))
video.release()
print(len(base64Frames),"frames read.")
618 frames read.

确保我们正确捕获了画面,我们将它们展示出来:

display_handle = display(None, display_id=True)
for img in base64Frames:
display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))
time.sleep(0.025)

获得视频画面后,我们构建了一个提示并发送请求给 GPT(注意,我们不需要发送每一帧画面给 GPT,它能理解整个视频的情况):

PROMPT_MESSAGES =[
{
"role":"user",
"content":[
"These are frames from a video that I want to upload. Generate a compelling description that I can upload along with the video.",
*map(lambda x:{"image": x,"resize":768}, base64Frames[0::10]),
],
},
]
params ={
"model":"gpt-4-vision-preview",
"messages": PROMPT_MESSAGES,
"api_key": os.environ["OPENAI_API_KEY"],
"headers":{"Openai-Version":"2020-11-07"},
"max_tokens":200,
}
result = openai.ChatCompletion.create(**params)
print(result.choices[0].message.content)

标题:生存本能:野牛与狼在冰原上的史诗般对峙

描述: 在被雪覆盖的平原上,一场原始且扣人心弦的生存戏剧正在上演,这里,强壮的野牛与一群决心捕食的狼群展开对决。视频在冬日的银装素裹中捕捉到了这场惊心动魄的捕食者与猎物之间的互动。在生死存亡的边缘,每一个移动都是大自然舞台上的生与死的较量。观众将看到这些庄严的生物进行永恒的斗争,它们展示出野生世界中的力量、坚韧和不屈的精神。和我们一起,进入自然恢复力的心脏地带,见证动物王国中生命循环的最真实写照。#Wildlife #Nature #Survival #BisonVsWolves

2. 用 GPT-4 和 TTS API 制作视频旁白

我们将尝试用大卫·艾登堡的风格,为一段视频制作旁白。就用视频中同样的画面,引导 GPT 来帮我们撰写一段简短的文本:

PROMPT_MESSAGES =[
{
"role":"user",
"content":[
"These are frames of a video. Create a short voiceover script in the style of David Attenborough. Only include the narration.",
*map(lambda x:{"image": x,"resize":768}, base64Frames[0::10]),
],
},
]
params ={
"model":"gpt-4-vision-preview",
"messages": PROMPT_MESSAGES,
"api_key": os.environ["OPENAI_API_KEY"],
"headers":{"Openai-Version":"2020-11-07"},
"max_tokens":500,
}
result = openai.ChatCompletion.create(**params)
print(result.choices[0].message.content)

在无边无际的冬日白雪中,自然界的生生不息上演着永恒而赤裸的生存戏码。在这片考验生物存亡的严苛舞台上,一群灰狼已经将目光锁定在了牛群中的一头野牛——一场关乎生命和食物的搏斗即将拉开序幕。

这场狼群的围猎行动策划严密,每一只狼都了然于心它的任务。在严寒的空气中,它们的肌肉绷紧,呼吸可见,悄无声息地靠近猎物,伺机找到破绽。而野牛,这个庞然大物,依靠千百万年锻造的本能站稳脚跟,其巨大的身影在刺眼的白雪中投下了一道孤影。

这是一场生与死的交响乐,每一个动作,每一次虚晃,都关乎着生命的重量。狼群交替发起攻势,一边保持体力,一边逐渐削弱猎物。曾经是野牛坚实后盾的牛群,如今已经逃之夭夭,远远散开,这生动地告诉我们,在这野性的领地里,生存的法则永远高于血缘的羁绊。

随着一阵紧张的活动——狼群开始收网。尽管野牛力大无穷,但它已经力不从心,喘息急促,行动迟缓。狼群嗅到了胜利的气息。它们不懈地追击,这正是自然法则残酷而又壮丽的见证。

当这场斗争走向它不可避免的结局时,我们再次认识到这片野生天地的精妙平衡。生与死,斗争与生存——这循环永续,每个故事都在雪地上一笔一划地被书写,只要狼还在这片冰原上巡行,野牛还在这片土地上漫步。

现在我们可以把这段文本交给 TTS API,让它帮我们把这段旁白变成 mp3 音频。

response = requests.post(
"https://api.openai.com/v1/audio/speech",
headers={
"Authorization":f"Bearer {os.environ['OPENAI_API_KEY']}",
},
json={
"model":"tts-1",
"input": result.choices[0].message.content,
"voice":"onyx",
},
)
audio =b""
for chunk in response.iter_content(chunk_size=1024*1024):
audio += chunk
Audio(audio)
福布斯采访 Perplexity 创始人:Perplexity 让你在互联网上找到更好的答案 [译]
半人马与赛博格:在未来工作的前沿 [译]
发现提示工程——提示工程就是为了从生成式 AI 中获取有用输出而设计有效提示词的过程 [译]
GPT-4V(视觉版) 系统卡片 [译]
如何选择你的人生伴侣 [译]
分享
Email 复制链接 打印
Share
上一篇 通过知识蒸馏实现的隐式思维链推理 [译]
下一篇 提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

禁用12小时后全面恢复!Notion 澄清 Anthropic 模型下线传闻:仅为技术性故障
AIGC 资讯
全息流体渐变通用占位特色图
“聊天已死”?OpenAI 秘密推进 ChatGPT 重大改版,拟打造全能“超级应用”
AIGC 资讯
全息流体渐变通用占位特色图
AI自主迭代闭环已成?孙正义断言超级智能两年内引爆科技临界点
AIGC 资讯
全息流体渐变通用占位特色图
“纯聊天模式已死”!OpenAI 酝酿史上最大改版,ChatGPT 转型“超级智能体”
AIGC 资讯

相关推荐

强化 AI 学习

数学队——及其他你为了进入斯坦福而做出的疯狂之举 [译]

宝玉的分享

使用 AI 学习编程时,切记还需独立思考 [译]

宝玉的分享
(攻击者在其控制的网站上使用白色文字进行的隐蔽攻击)
强化 AI 学习

利用间接提示注入技术从 Writer.com 窃取数据 [译]

宝玉的分享

大语言模型应用价值创造与发展的四个阶段 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.