Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 多面性:大语言模型的语言回音室 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Quora 页面中嵌入的 ChatGPT 小组件的截图
Prompt 语宙 > 强化 AI 学习 > 多面性:大语言模型的语言回音室 [译]
强化 AI 学习

多面性:大语言模型的语言回音室 [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:30
SHARE

这个话题非常有趣。

我花了很多时间仔细观察大语言模型(LLM)的输出。有一个现象引起了我的注意:LLM 生成的文本似乎带有一种特殊的…气息。这种气息很难具体描述,但在大语言模型的早期,当你阅读 AI 生成的文章时,通常可以明显地感受到。

一个我注意到的明显特征是这样一种表达方式:

“文化是一个复杂而多面的……”
“智力是复杂而多面的……”
“技术是一个复杂而多面的……”

从达尔文主义的真实含义来看,‘复杂而多面’ 这个短语已经变成了一个流行语。我在 GPT 的输出中反复看到了这个短语,为了进一步确认,我进行了一些 GPT-3.5 的生成实验(代码在此)。在生成“’复杂且……’”的提示时,我发现了以下结果:

x
x

‘多面性’ (Multifaceted) 这个词语的频繁出现非常奇怪。这是为什么呢?

为了探究这个短语及其特定词语*’多面性’* 是否是近期变得流行,或者已有一段历史,我首先查看了 Google 趋势。我发现,在过去的一年中,这个词的搜索量出现了惊人的上升:

谷歌趋势图显示去年“多面性”一词的搜索量急剧上升
谷歌趋势图显示去年“多面性”一词的搜索量急剧上升

为了探究这个短语及其特定词语*’多面性’* 是否是近期变得流行,或者已有一段历史,我首先查阅了 Google 趋势。结果我发现,在过去的一年中,这个词的搜索量急剧上升:

谷歌趋势图显示去年“多面性”一词的搜索量急剧上升
谷歌趋势图显示去年“多面性”一词的搜索量急剧上升

我此时想探究的是,这个趋势是否仅限于网络。虽然这很难确定,但我尝试了 Google Books 的 N-gram 查看器,希望能找到答案。果然如我所料,我们并没有看到明显的变化点,尽管随时间有轻微上升。

稍微岔开一下话题:我认为这是一个有点奇怪的说法。它其实是种重复,因为“复杂”和“多面性”几乎是同义的。这让我想到了法律中的双重表达,比如“无效与作废”和“停止与禁止”。不过,这种表达方式确实很好,给人一种肯定和智慧的感觉,这正是大语言模型(LLM)想要传达的氛围。

总之,我想进一步确认这确实是一种网络上新兴的流行表达。单凭 Google 趋势还不够说服人。因此,我寻找了其他可以查询长期语言趋势的地方。我发现网络档案馆保存了多年来的各种 PDF,从白皮书到网络上的参考资料,还可以搜索特定关键词。

我从 2006 年到 2022 年进行了一系列关键词搜索,包括“多面性”。同时,我也关注了另一个流行词汇“复杂”。为了保持科学的严谨性,我还将这些词与其他术语作为对照进行了比较。

类似
类似 ‘多面性’ 和 ‘复杂’ 这样的词从 2021 年开始,即 GPT 和其他大语言模型(LLM)开始流行的时期,其出现频率显著上升,不像 ‘有效’ 和 ‘共生’ 这样的对照术语,其频率保持稳定

正如我们所见,从 2021 年开始,即大约在 GPT 和其他大语言模型 (LLM) 开始引起全球关注的时候,我们的关键词“多面性”的普及程度显著提高,从只在 0.05% 的 PDF 中出现增加到了 0.23%。

现在,让我们稍微放宽视角来看这个问题。我发现,“复杂而多面”(a complex and multifaceted)这个短语在网上大约有 800,000 个使用实例。

进一步细分,我们发现这个短语在以下一些特定网站上的使用频率高于其他地方:

Quora.com: 48,000
LinkedIn.com: 30,700
Facebook.com: 9,500
Instagram.com: 7,330
Medium.com: 6,250
Reddit.com: 1,370
CourseHero.com: 7,340
jstor.org: 1,320
wikipedia.org: 400
twitter.com: 798
classace.io: 842 (*特别是作为论文库的网站*)
chegg.com: 930 (*特别是作为论文库的网站*)

令人惊讶的是,Quora 网站占据了这个短语在线出现次数的 5.7%!如果说它不是这个流行语的起源地,那至少也是它的繁殖地。

值得注意的是,我们还可以看到 Quora 在理论上 应该 占据的比例。例如,“系统性”(systemic)这个词在网上出现了 445 million 次,但在 Quora 上只出现了 272,000 次,占比仅为 0.06%。因此,Quora 对我们这个流行短语的 5.7% 占比完全是不成比例的。这一点并不令人意外,因为 Quora 因其垃圾信息机器人而闻名。它们现在就像是机械地重复着同样的句式:

大量重复的句式,如“哲学是一个复杂而多面的概念,涵盖了......”
大量重复的句式,如“哲学是一个复杂而多面的概念,涵盖了……”

另一个不容忽视的事实是,Quora 最近在几乎每个页面上都嵌入了一个 ChatGPT 小组件,这些小组件的内容是预先生成的、静态的,容易被搜索引擎抓取。因此,它们很可能被用作这种大语言模型和其他模型的额外训练材料。

Quora 页面中嵌入的 ChatGPT 小组件的截图
Quora 页面中嵌入的 ChatGPT 小组件的截图

ChatGPT 显然对“一个复杂而多面的[概念 | 理论 | 过程]”这个表达格外偏爱,频繁地用它来阐释复杂的高层次概念。最典型的用法是把某个[名词]描述为“一个复杂而多面的[概念 | 理论 | 过程]”。在 Quora 上,这样的用法及其数量如下:

  • “一个复杂而多面的概念” – 4590
  • “一个复杂而多面的问题” – 4420
  • “一个复杂而多面的过程” – 3550
  • “一个复杂而多面的现象” – 2230
  • “一个复杂而多面的情感” – 1650
  • “一个复杂而多面的特征” – 1560

(这些数字在不同地区有所不同)

如果我们选择其中一个短语,在网络上进行普遍搜索,我们会发现它们随着时间显著增长。例如,“一个复杂而多面的现象”在网上的出现次数达到 74,900,但在 2010 年前仅有 73 次。仅仅 13 年,增长了约 1000 倍。

可以看出,ChatGPT 把这个梗玩得不亦乐乎。这个有趣的大语言模型(LLM)把这个表达当成了我们语言的核心成分,尽管它原本只是个使用范围狭窄、有些生硬的短语。


那么,这个荒诞的探索究竟告诉我们了什么?

我们了解到,GPT 最初版本的训练资料大量来自于 Reddit,很可能还有其他少数网站被用来加强后续模型。

过分专注于特定网站的训练会导致明显的偏见。比如,过多关注学术内容或像 Quora 这样的网站,这些网站上的机器人会机械性地重复使用某些短语(这种情况甚至出现在大语言模型时代之前)。

此外,随着这些模型变得流行,人们开始将其输出内容重新发布到互联网上。这可能导致了一种反馈循环:大语言模型无意中在训练自己之前的输出内容。这种情况不可避免。

因此,最初的一些细微的训练决策,可能就由少数工程师启动了一连串不可逆转的语言进化链条。了解这些模型在改变语言本质方面的强大影响力,真是让人叹为观止。

商业报道记者指南 [译]
蔡崇信访谈 —— 从阿里巴巴到 NBA 的跨界人生[译]
大语言模型的类比推理能力[译]
生成式 AI 与微波炉 [译]
Mobile ALOHA: 利用低成本全身远程操作系统学习复杂的双手移动操作技能 [译]
分享
Email 复制链接 打印
Share
上一篇 AI 工程师的崛起 [译]
下一篇 局外人/边缘人(Outsider)思维与人工智能时代 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Prompt Optimizer:开源AI提示词优化神器,一键提升大模型回复质量,支持MCP协议无缝集成
AI 工具
华南理工与微信AI联手发布ComoRAG:模拟人脑推理的下一代RAG框架,长文本理解能力飙升
AI 工具 AIGC 资讯
苹果推出SlowFast-LLaVA-1.5:轻量化长视频理解模型,1B-7B参数赋能移动AI应用
AI 工具 AIGC 资讯
FutureX:字节复旦斯坦福联手打造,LLM动态实时预测基准,破解AI评估数据污染难题
AI 工具 AIGC 资讯

相关推荐

强化 AI 学习

在 iPad 或 iPhone 上本机离线运行大语言模型 [译]

宝玉的分享

福布斯采访 Notion 创始人:用“乐高”式创新挑战 Google Docs 和 Microsoft Office [译]

宝玉的分享
强化 AI 学习

2023 年创业公司成长的 10 个经验教训 [译]

宝玉的分享
强化 AI 学习

提示工程指南 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai prompt RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.