Ad image
Ad image

最近更新

腾讯云重磅开源Cube Sandbox:AI Agent安全沙箱新标杆,60ms启动+硬件级隔离

💡 站外导读:随着AI Agent应用的爆发式增长,其代码执行环境面临安全与性能的双重挑战。传统容器技术存在共享内核导致的逃逸风险,而完整虚拟机则启动缓慢、资源开销大,难以满足高频次、大规模的Agent调用需求。腾讯云开源的Cube San…

预计阅读时间: 45

Realtime TTS-2:Inworld AI 实时语音合成模型革新,多轮感知与跨语言控制引领下一代对话AI

💡 站外导读:在AI驱动的交互体验中,传统语音合成常因缺乏上下文感知、情绪单一和跨语言音色不一致而显得机械,难以满足游戏…

GPT-Realtime-Translate:OpenAI 实时语音翻译模型,70+语言端到端直译,成本仅为人类同传万分之一

💡 站外导读:传统机器翻译的痛点在于延迟高、生硬且成本昂贵。在全球化加速的背景下,实时、自然的跨语言沟通成为刚需。Ope…

OpenAI GPT-Realtime-Whisper 实时语音转文字模型发布:低至每分钟0.017美元,实现边说边出字的超低延迟转录

💡 站外导读:随着实时交互需求爆发,传统“录音-上传-识别”流程已无法满足会议记录、直播字幕、客服质检等场景对即时性的要…

GPT-Realtime-2:OpenAI 第二代实时语音模型发布,GPT-5级推理能力定义AI语音Agent新高度

💡 站外导读:随着AI应用从文本交互全面转向多模态,实时语音交互成为下一个关键战场。企业与开发者普遍面临现有语音助手“听…

xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%

💡 站外导读:随着企业客户服务与销售自动化需求的激增,传统语音AI常面临延迟高、理解不准确、多任务处理能力弱等痛点,难以应对复杂真实场景。xAI此时推出Grok Voice Think Fast 1.0,正瞄准这一市场缺口。这款旗舰级语音智能体模型,在权威基准测试中排名第一,旨在通过低延迟响应、实时后台推理和强大的工具编排能力,重塑电话支持与销售领域的交互效率与可靠性,标志着语音AI进入实战强、高…

腾讯联合中科院、故宫博物院推出 Chronicles-OCR:首个覆盖汉字’七体之变’的视觉大模型跨时间评测基准

💡 站外导读:随着AI大模型深入应用,一个关键瓶颈浮现:当前的视觉大语言模型在面对跨越三千年的中国汉字形态剧变时,感知能…

CloudDM:一站式开源数据库管控平台,30种数据源、54条SQL审核规则,企业级权限与脱敏能力全免费

💡 站外导读:在数字化转型浪潮下,企业数据库架构日趋复杂,多数据源并存成为常态。DBA、开发与运维团队面临数据查询分散、…

大语言模型的“破解”研究:仅需二十次尝试 [译]

随着人们越来越关注如何让大语言模型(LLMs)与人类的价值观保持一致,人们发现这些模型很容易受到“破解”攻击的威胁,这种…

OpenAI 联合创始人 Andrej Karpathy 在 2024 年加州大学伯克利分校人工智能黑客马拉松颁奖典礼上的主题演讲 [译]

OpenAI 联合创始人 Andrej Karpathy 解释了新的计算范式:“我们正在进入一个新的计算范式,大语言模型…

HeyGen CEO 徐卓(Joshua Xu)访谈 [译]

AI 视频生成模型在制作引人入胜和复杂视频方面还有很长的路要走,但 HeyGen 团队正在通过使用语言、视频和语音模型来…

马克·扎克伯格前几天接受了 Robin Kallaway 的采访,讨论了未来的技术发展,尤其是智能眼镜、神经腕带和 AI 技术在创作者和小企业中的应用 [译]

马克·扎克伯格前几天接受了 Robin Kallaway 的采访,讨论了未来的技术发展,尤其是智能眼镜、神经腕带和 AI…