我们都清楚互联网的运作方式——充斥着各种“爆款观点”,极端分裂的意见,恶搞和无知现象屡见不鲜。
最近,大家对于人工智能(AI)特别是大语言模型(LLMs)和生成式 AI(GenAI)都有各种各样的看法。我不打算在这里讨论那些借“淘金热”炒作自己的意见领袖、骗子、围绕 ChatGPT 套壳做生意的人,或是那些无知而贪婪的投资人——他们理应受到谴责,而且已经有人在谴责他们了。
对当前人工智能可能存在的问题,有许多合理的批评或讨论点,比如创作者权利和版权的边界、何为合理使用、许多职业可能面临的失业风险、一些工作自动化导致的“质量恶性竞争”、进一步自动化的垃圾邮件问题,或是某些单一企业对关键技术和信息的控制。我在这篇文章中也不打算去讨论或争辩这些问题;有些批评是合理的,我也同意,而有些则是基于误解、情绪化或夸大的,但这不是本文的重点。
然而,我确实想要回应并反驳一些特别是无知的批评。所谓的“无知批评”是什么?就是那些宣称大语言模型是毫无用处的“抄袭机器”、“胡言乱语生成器”等等的言论。这种批评显然是无知的,因为这些人明显没有真正尝试过使用它们。
这种说法是完全错误的。有时,这是出于恶意和单纯的负面情绪。有时,则是因为人们不理解大语言模型适合做什么,以及它们目前能够提供哪些帮助。或许有人尝试了一次,用错了方法,然后就将这一次不佳的体验笼统地推广到整个模型上。我在这里想要说服那些没有深入了解 ChatGPT Plus,无法想象它合法使用场景的人群。
我每天在专业和个人生活中都使用大语言模型,我发现它们是极好的工具——它们不仅提高了我的工作效率,更让我在使用技术时感到愉快和满足,经常让我会心一笑。
如果它们对我有帮助,那它们就不可能是无用的(除非我的经验毫无价值,那么你也就没必要读这篇文章了)。而那些怀着好意参与这类讨论的人会问我,“那么,你是怎么使用这些工具的呢?”因此,我查看了我过去一个月的 ChatGPT 使用记录,并将在这里列举一些用途。
首先,先来几点说明和免责声明
说明: 我是 ChatGPT Plus 的订阅用户。我认为这非常值得,因为大部分我下文将提到的应用在没有它的情况下效果并不理想。如果你对免费版本不满意,不妨试试 Plus 版本。我曾经对 ChatGPT 很失望,后来一位同事说服我尝试 ChatGPT Plus —— 对此我非常感激。🙂
说明: 如果你把大语言模型主要当做一个知识模型来使用,可能会感到失望。
说明: 有时候,仅仅提出一个问题是不够的。它更像是一种“对话式”的交流方式。
说明: 我的使用方式很基础。我不使用任何技巧或高级提示技术,对我介绍的使用场景来说这些并非必需。我就像对同事指示一样来编写命令,只不过有时会更加精确。
说明: 如果你认为程序或某人出现错误是不可接受的,那么你可能会感到失望。错误总会发生(但一经指出便会立即修正)。顺便问一句,如果你是这样的人,你怎么能信任自己或你的同事呢?
说明: 我最近开始使用 Github Copilot(目前仅限于个人使用,不涉及职业方面),并且尝试使用 perplexity.ai 来处理一些更专业的任务,如编程、研究特定话题,甚至是作为 Google 搜索的真正替代品。然而,由于我尚缺乏足够经验,所以不会在此详细讨论它们。不过,两者都显示出了很大的潜力!
免责声明和利益冲突披露: 尽管这篇文章充满了我的个人热情,但这完全是我的个人观点。我与 OpenAI 没有任何关联。我只是非常喜爱他们的产品,并认为每月花费 20 美元非常值得。我的确在实时计算机图形学的机器学习领域有所工作,但我的工作更倾向于传统方向 —— 比如用于数据压缩或图像去噪的小型模型,并非生成式 AI 或大语言模型。此外,作为附加说明,AI 的成功显然是我所在公司市场成功的一个重要推动力,所以我的观点可能带有一定的偏见。
说明: 这篇文章可能会不断更新和修改。
应用案例 —— 编程和控制台工具
编写 ffmpeg/ImageMagick 命令行
我对 ffmpeg 既有喜爱之情又有些许厌恶,因为它实在太万能、灵活并且强大了。不过,我对命令行一直不太在行;相比于使用控制台,我更偏爱直观的点击和图形界面。每次上网搜索如何执行基本操作,然后尝试着把各种选项组合起来,总是令人头疼。对于 ImageMagick 也是同样的问题。
但 ChatGPT 完全帮我解决了这些难题。回顾过去一个月的使用历史,我用它做了很多事情,从简单的“把 AAC/HEIC 文件转换成 WAV/JPEG”,到“把一张图片横切成两半然后纵向拼接”,乃至更复杂的任务,比如**“从这段音频中截取一个 30 秒的片段,从特定时间戳开始,然后把它放到一个符合 Instagram 故事格式和分辨率的视频中,并在视频中央放置一个正方形图片”**。ChatGPT 能生成所有必要的操作步骤和命令。
这真是太神奇了。它为我节约了好几个小时,还帮助我完成了一些我原本因懒惰不愿意尝试的创作。更棒的是,它还会解释每一个步骤和选项的用途,让我能够学习和理解这些操作。它不仅有趣,还富有教育意义,并且互动性很强。
我记得只有一次,它提出的解决方案出现了小错误。我向它说明了这个错误的具体情况,它立刻就对其进行了修正。
写小段脚本(Python、Javascript)
作为一名研究科学家,我每天都在使用 Python。不过,类似文件系统操作这样的任务,通常一个月才会遇到一次。至于 os.walkdir() 的文档,我估计已经翻看了无数次。至于处理 mp3 文件,可能一年才做一次。
现在,不再需要花费 15-30 分钟来编写一个脚本来处理文件夹中所有的 mp3 文件,识别出那些标题符合特定格式或包含特定词汇的文件,然后对它们重命名并复制到指定文件夹。我只需向 ChatGPT 提出问题,然后复制答案(阅读并核实它是否达到我的要求),运行它,通常这样就足够了。它还会推荐一些我不熟悉的库或包,比如读取 mp3 元数据的工具。
去年,我甚至写了一篇博客,介绍了我是如何使用 ChatGPT 来帮我编写一些 Javascript 代码的(因为我不懂 Javascript)。
我利用它编写了从 Spotify 下载播放列表歌曲标题、YouTube 播放列表和 HTML 页面的脚本。以前,我需要花费数小时来寻找并使用合适的库,往往还要学习新的概念。但有了大语言模型(LLM),这些问题都能一次性解决。它们甚至还会告诉我需要获取哪些开发者密钥,并为更复杂的应用提供了起点。
对于更小的任务,比如寻找匹配特定模式的文件,我现在不再使用“find”命令、Windows 查找或 Everything。对于文本处理,我也不去摸索编辑器的各种功能。我只需向 ChatGPT 提出我的需求,用自然语言描述,它就会生成 Python 代码 – 我可以看到以自然且人类可读的语法输出的 Python 结果。像 sed 和 find 这样的工具虽然在打字上很简洁,但它们为了适应控制台的有限列而设计(并不考虑可读性),因此长时间后看起来又丑又难懂(对我来说也难以使用)。但现在,当这些命令行/代码能被直接为我生成时,它们唯一的优势——简洁性——就不复存在了,没有什么能比得上 Python 的清晰、可读和易于修改的特点。
虽然有时候会出现一些错误,但我可以阅读并修正这些代码,或者继续与 ChatGPT 进行交互修改。正因为此,目前我并不追求“操作系统级别的自动驾驶”,而是更倾向于代码生成和亲自执行。
这是一个极大节省时间的方法。虽然有些人能够轻松自如地运用批处理命令和脚本,但我并非如此。这并不是因为我不会学习——我对这些东西还是相当熟悉的,只是如果我一个月只用它们一次,我就很容易忘记,需要重新来过。而且,顺便提一句,使用这个 ChatGPT 代码学习和复习,或是探索新知识,同样是一件非常有趣的事情,也颇为令人兴奋。
编写正则表达式
对于正则表达式的学习也是同样的情况。我已经学过好几次了(真的,哈哈),我能够解读它们,或者在有手册或 Regex 101 的帮助下编写一个新的正则表达式。但是,由于我每两个月才使用它们一次,我发现每次都需要重新学习。ChatGPT 为我提供了一个很好的起点。它还能逐步解释正则表达式的原理,这不仅是一个学习的机会,也帮助我复习了之前的知识。
用不同的语言/框架重写代码片段
至于用不同的编程语言或框架重写代码片段,我有些犹豫,因为这可能会触及到“虚构”的领域——但我已经尝试了几次,目前还没有失望过。我曾请求 ChatGPT 将我不太熟悉的 TensorFlow 代码重写为 PyTorch 代码,结果运行得很好。尽管 ChatGPT 不是一个知识库或专门的代码模型,我预计它可能会出现一些创造性的错误。然而,对于小规模的问题,它表现得非常出色;我完全没有不满!它是一种工具,你可以根据自己的选择使用或不使用,或者选择使用的程度。
制作 LaTeX 图表与表格
我经常使用 LaTeX 编写发表的文章和需要包含大量数学方程的内部文件。坦白说,我并不太喜欢 LaTeX,它既过时又令人头疼。不过,ChatGPT 在这里能提供帮助 — 它能够编写 LaTeX 代码,根据描述或原始数据来创建表格和图形(比如,你可以将格式混乱的表格数据粘贴过来,让它帮你整理成完整的表格)。它还能帮助你解决布局问题,提供有用的建议。
你从这个过程中得到的图形不仅仅是简单的“插入 PNG 图片”,还可以是使用 Tikz(一种绘图工具)制作的复杂图形。我自己对 Tikz 一窍不通,但借助 ChatGPT 的帮助,在我最近的论文中,我创建了一些漂亮的 LaTeX 图形。这些论文目前还在审查中,所以我现在还不能展示这些图形,但以后可能会展示。
在这个过程中,有个体验让我大吃一惊。有时候,描述一个图形既困难又没多大意义——如果你尝试向同事或同学描述它,你就会知道没有图表辅助是多么的困难。一张图形的草图比光说要有效得多。所以,为什么不用 ChatGPT 来做类似的事情呢?
比如,你可以在 Google 幻灯片或 PowerPoint 中简单地草绘一个图形,然后将截图发送给 ChatGPT,让它帮你转换成 LaTeX 代码。是的,这确实可行!
这个过程不是百分之百准确的,有时会出现错误,但它能够将图形转换为代码,这本身就令人震惊。它既是一种语言模型,又有一定的图像识别能力。如果你遇到错误,你可以将错误描述给 ChatGPT,它通常能够进行修正。虽然要让一个复杂的图形达到你的预期可能需要半个小时,但这半小时相比于花费数小时还是放弃来说,已经大大节省了时间。
实用技巧:我建议你将整个过程分解成多个步骤和层次;如果一个图形包含两个部分,可以分别对它们进行修改和优化。
实用技巧:当你两次描述了同一个错误,而 ChatGPT 无法修正或引入了新的错误时,这时候我会选择放弃,并重新思考或改变问题。通常,这样的调整足以帮助你取得进展。我认为,在未来的更大型模型中,这些问题都会得到解决。
数据转换与可视化呈现
ChatGPT 在数据转换方面表现出色,无论是格式不当还是近乎原始的数据都能处理。比如,你有一个 CSV 格式的表格,想用 Python 来进行绘图或数据提取?或者,你想处理来自科学论文的原始文本?你可以选择在喜欢的文本编辑器里花几分钟进行正则表达式和替换操作,处理诸如换行、逗号和特殊情况等(如果有些行由于某些原因不符合格式,可能还需反复修改)。
另一种方式是,直接将数据贴到 ChatGPT,让它帮你转换成任何你想要的格式。甚至你可以要求 ChatGPT 用 Python 脚本将数据绘制成你喜欢的图表,并立即执行这个脚本!你可以查看它编写并执行的代码,复制并自己进行进一步的迭代。
这就是 ChatGPT 的作用:它帮助你处理日常、重复性的任务,让你可以专注于更有趣、更富有创造性的工作。
从图像和图表中提取数据
考虑到前面的功能,结合 ChatGPT 的 OCR 技术和图像输入怎么样?
我会截图文档或网页中的表格和图表,把这些图片上传到 ChatGPT,并让它转换成 Python 列表、字典或者重新绘制的图表。这样,我就可以进一步处理、分析这些数据,或保存以便将来使用。
我第一次尝试这种方法并成功时,真是大开眼界。而且,它甚至对 PDF 文件也同样有效。
应用案例 – 语言、图像和知识
英语语法纠错
现在,我们进入了“自然语言处理”和“大语言模型”这一领域,ChatGPT 在这方面做得非常出色,对于非程序员用户来说也许更有吸引力。我不是英语母语者,如果你读过我早期的博客文章,你会发现很多语言错误、用词不自然,还缺少冠词(波兰语中没有冠词,而是依赖复杂的变化和上下文)。虽然通过在美国生活和几乎只用英语交流(包括在家)使我的英语有了很大提升(对于较长的文章,我还会使用 Grammarly,我相信它也采用了某种语言模型和机器学习技术),但我的英语仍不完美。有时,我需要在关键的沟通和论文(特别是摘要部分)中表达得更准确、更自然。
这时,我会请 ChatGPT 不仅帮我重写,还要求它突出并解释我的错误。这样一来,我不仅改进了写作,还在学习过程中不断提高。 它对错误的突出显示和解释非常有帮助,之前没有一个讲英语的同事能这样帮助我(虽然有两位推荐了《风格的要素》给我)。
精简和重塑段落
我利用 ChatGPT 来半自动化地缩短学术论文摘要,以此来辅助我的自动笔记记录——关于这一点,我甚至写了一篇博客文章。
此外,ChatGPT 也能在非自动化的方式下大显身手,尤其是在需要控制字数或提高文本精准度及可读性的写作中。我在撰写学术论文(比如摘要和提案)及其他类似文档时,发现它在帮助我清晰、简洁地表达观点方面极为有效。
将想法转化为文字
只需几个要点,你就能得到一封内容丰富的电子邮件、信件或一段文字。对有些人来说,这似乎有些荒谬,甚至成了笑柄。
如果你喜欢 Slavoj Zizek,你可能见过一个关于他原本关于“关系”的玩笑和言论的模因。大意是:“学生使用他们的 ChatGPT 来写论文,我用我的 ChatGPT 来评价,我们的超我和学术导师都感到满意,真正的教学和学习终于可以开始了!”
这当然是个笑话。不过,某些人对于有人仅根据两三个要点就写出一封长邮件,然后又有人把它浓缩成几个要点感到不满。我想知道他们是否意识到我们生活在一个社会中,所有的交流都是经过编码的,用以传达超出原始思想的内容。你不可能只给政府机构发送两个简单的要点而不加任何形式或结构。
但我有些跑题了。在需要依赖模板的情况下,我会使用它。如果你处理过美国移民事务(不论是作为签证国的访客、技术工作者、寻求移民签证/永久居留,或是帮助他人办理这些事务——我都经历过!),你可能需要请求(或亲自撰写)签证或入学推荐信。这些信件通常很刻板、公式化,要么由律师撰写(如果有人聘请他们的话),要么就是从网上的模板中复制。我甚至遇到过这样的情况:有人给我一份签名的扫描件,让我自己写信并用上这个签名。他说他不在乎。这让我感到不舒服,因为即使得到了对方的同意,使用别人的签名似乎有点欺诈……这还暗示着那个人并不真正关心我。但不管怎样,ChatGPT 对于撰写这些官方文件来说是一个极好的节省时间的工具。我只需要花 10 分钟列出一个人获得签证或绿卡的理由(因为我了解他们的成就,并且我真心关心他们),然后 AI 智能体会根据这个模板为我写出信件。我稍作编辑,确保这确实是我想说的,然后一切就绪。双方都受益。
我有时也会在与不太熟悉的人沟通时使用这种方法,例如,当我需要提醒他们曾经对我作出的承诺时。我患有轻度的自闭症谱系障碍(ASD)(早期被诊断为阿斯伯格综合征),这让我在理解他人以及根据不同情境和上下文调整沟通方式方面遇到了难题。这种情况加上偶尔的不安全感和焦虑,意味着我有时甚至会为了一封短短三行的电子邮件纠结和压力过大,花费长达一个小时。我担心自己的语气是否得体?这样写会不会显得被动攻击?是否显得太没有自信?是否不够正式,或者反而过于正式?然而,大语言模型(LLM)却能在短短 30 秒内帮我完成这样的邮件撰写。
(顺便说一句,这篇博客文章并非借助任何 AI 撰写,😅 仅用了 Grammarly 辅助。实际上,我很享受写作和博客的过程。但至于发邮件,那就真的要看具体情况了。)
这种情况同样适用于许多其他非个人性的情境和互动。对于那些建议你“只需要学会语言、写作并付出努力”的说法,我认为这是种极其糟糕且排他性的忠告,特别是针对移民和非母语者而言。
还有一个趣事:我记得在谷歌工作时,每个人每年都要花费两周时间进行无聊的同事评价(对于经理来说至少是两倍时间)。没人会写真实的评价。在我的第一个评价周期,我诚实地为几位同事写下评价——我赞扬了他们的优点,同时也指出了需要改进的地方。毕竟评价表上有这样的栏目,我以为这会帮助他们成长,不是吗?结果,我却因此被我的经理严厉批评,他非常生气地告诉我,永远不要对任何人做出哪怕是轻微的批评。我不禁好奇,现在有多少谷歌员工会用大语言模型来撰写这些毫无意义的评价呢?😉
总结文章
我偶尔会用这个功能作为开始。我本人非常喜欢阅读,让 ChatGPT 来概括所有文章,感觉就像身处于但丁描述的地狱的某个层次那样痛苦。然而,有时一些文章实在是太啰嗦、无聊,或者写得让人不愉快(比如一个无趣记者对一个让人讨厌的人进行的漫无焦点的采访)。我需要获取这些文章中的一些信息,以便保持信息的更新和了解。在晚期资本主义的广告经济下,很多文章只在一个段落里提供新信息,其余都是无聊的填充内容,只是为了展示糟糕的广告,这实在是对人们的时间和生命的一种浪费。
我有几次利用 ChatGPT 来总结文章的 PDF 打印版,提取文章的主要观点。它能够用项目符号列出要点,总结文章中的论点,我甚至可以请求它提供可能的反驳观点,或者告诉我如何深入了解某个特定话题或问题。
此外,如果你面对的是一位专家撰写的长达 30 页的文章,而你对该主题虽感兴趣但又缺乏足够的背景知识,ChatGPT 也可以帮助你。只需让大语言模型 (Large Language Model) 来概括这篇文章,它可以为你提炼出文章的精华。
总结 YouTube 视频
我第一次尝试这种方法时非常兴奋。相比之下,YouTube 视频中由于充斥着广告和冗长内容,找到需要的信息变得更加困难,不是吗?
ChatGPT 本身无法直接总结 YouTube 视频,但有些免费服务可以帮助转录或下载视频的自动生成字幕。这样你就得到了一大段文字,其中不乏“嗯”、“呃”这样的语气词,还有赞助商的广告内容。你可能并不愿意阅读这些。只需保存这些文字,作为文档上传,然后让 ChatGPT 帮你将 YouTube 视频的字幕转化为简洁的要点。
我用过这个方法几次,尤其是对于那些我已经观看过且包含高技术性内容的视频,比如关于如何操控 wavetable 的技巧,在我最喜爱的 VST 音频合成器中。我本可以手动记录,一边看视频一边写笔记,暂停,切换窗口,这样可能会浪费一个小时。但借助 ChatGPT,我只用了五分钟来弄清楚如何转录视频,接着又用五分钟来编辑笔记,使其符合我的需求。
对于那些为了变现而故意拖长至 10 分钟,实际内容却只有一分钟的视频,你也可以采用同样的方法。不要让别人浪费你宝贵的时间;毕竟时间是你无法挽回的珍贵资源。而且,如果你真的关心那些优秀的内容创作者的经济状况,可以通过 Patreon 或购买他们的产品来支持他们。他们中的大多数会告诉你,广告收入几乎微不足道。(我就是这么做的,希望你也能一起!)
解释学习过程中遇到的错误
你甚至可以利用 ChatGPT 来解释你自己的错误或程序中的 bug!我知道有人利用它成功找出了代码中的多线程问题,但我使用它来做的事情更简单 — 学习西班牙语。
我使用 Duolingo 学习(虽然它不能教我流利地说话或组织思维,但至少让我能够阅读西班牙语报纸),而它通常不会解释更高级阶段的语法。每当我对某个错误答案感到困惑时,我会在手机上截屏,然后直接粘贴到 ChatGPT 中,就能得到非常详细的错误分析和语法概念解释**!**
我不需要在手机上输入文字或复制粘贴,这样做非常方便;我只需将应用的截图作为图片粘贴进来。
翻译
提到学习语言,我用它做过几次翻译。在我有限的体验中,相比谷歌翻译,它在跨越文化差异和表达方式上的表现要出色得多。因此,它的翻译并非逐字逐句的机械复制,而是更贴近目标语言使用者的期望和习语,显得更加“自然”。通过简单的提示,我还能在保持文化适应性和原文忠实度之间做出调整。
私人导师
ChatGPT 可以成为你在常见或半专业主题上的私人教师或导师(尽管我不建议用于小众主题)。我曾这样使用过它,效果非常好 — 让 ChatGPT 主动出击,向你提出逐渐增加难度的问题,并对你试图掌握的主题上的回答进行评价。你可以回答这些问题,请求它评估你的答案,并指出哪里可以改进或你理解错误的部分。接着,就这样持续对话下去。不用做任何复杂的设置,就像和一个老师交谈一样自然(无需过分客气)。
在你略有了解的新领域尝试一下。让它用一种新语言扮演不同的角色,或者出一些简单的数学题让你解答,然后评估你的解答。
如果你正在学习的主题不太偏门,而且你已有一定的基础,它绝对能带来卓越而引人入胜的体验。我曾沉浸其中好几个小时。我上一次对新技术如此着迷,还是在我十几岁发现维基百科的时候,那时我沉迷于链接之间的跳转,乐此不疲地学习。
它会不会产生错误的回答?当然,尤其是在处理小众主题时。但即便是价格昂贵、资质深厚的私人导师也可能犯错。我想大家都遇到过这样的老师:在某些方面无知却自信满满。但据我所见,对 ChatGPT 错误回答的指责有些夸大。它通常会直接告诉你“我不知道”。网上很多指出它错误的例子,要么是来自较旧的非 Plus 版本,要么是基于过时的老模型。
生成图像 – 音乐封面
除了工作和计算机图形学,我最热爱的就是音乐制作 – 从声音设计、音乐制作、作曲、编曲到最近的 DJing。虽然我没直接用 AI 制作音乐,但实际上间接用到了。我惊讶地发现,为了分离音轨,Rekordbox 复制了许多 Tensorflow 的 DLL 文件,而且越来越多的 VST 也开始采用机器学习模型。最近,出于娱乐,我用 DALL-E 生成的图像作为我的虚拟“单曲”封面。这些作品能称为世界顶级艺术吗?并不是,它们既实惠又有些俗气。但它们确实增添了乐趣;在制作音乐的过程中使用它们,能激发我对音乐氛围和情感的新想法,帮助我更有目的地创作,而不是毫无方向地尝试。
这些图像是我单曲的封面,比如这首和那首。可能有些俗气和廉价,但这正是我娱乐和创作的一部分,我在制作这些封面时乐在其中。
最近我完成了四首曲目,两位独立的听众告诉我,他们最喜欢的是这一首,可能是因为它的“封面”让人印象深刻。
这样做是否意味着我取代了插画家的工作?当然不是。在以前,我根本不会这样做。如果将来我的作品正式发行(而不仅仅是我不断投资的爱好),唱片公司肯定会聘请专业的艺术家和设计师。
生成图像 – 灵感集和参考资料
在电子游戏工作室与艺术家合作的过程中,我总是对他们的“参考”文件夹充满好奇。他们储存了成太字节的(未经授权的!)下载图片,用以激发灵感,适应某一特定主题,比如在设计某个特定道具或关卡时。接着,他们会和艺术总监一起,创建“心情板”(mood boards) – 这是一系列图像的组合,用以启发设计中的形状、颜色、图案和主题。
(注意: 有时,这种随意下载图片并过度“寻找灵感”的做法可能会带来麻烦。你可能听说过“电子游戏工作室抄袭其他艺术家作品”的案例。但实际上,这并非“大型工作室与小型创作者的对抗”,而是工作室中的一名艺术家,通常是新手,处理事情不够谨慎和努力,忘记了他们从何处获取了某张参考图片,也没去仔细核查。而且管理层也没有去检查。)
虽然我除了摄影外,在视觉艺术方面没有任何背景或经验,甚至无法画出一条直线,但我**发现和 ChatGPT 一起制作‘心情板’**在提升视觉创意方面特别有帮助。我使用 AI 生成的图像来设计“心情板”,以此来获取纹身创意(这也便于我与会做出最终独特设计的艺术家沟通)、与妻子共同规划我们想要装饰的房间,或者像我之前提到的,用于音乐等其他创意活动。
在圣诞周,我的妻子使用了 Adobe Express 和多种 AI 图像生成器,为我们制作了一款艺术装饰风格/新艺术风格的卡通纽约主题日历,仅供我们个人使用,成果令人喜爱。
创意头脑风暴 – 挑选标题和主题
我总是觉得给东西起名字是一项挑战(如果你看过我发表的论文标题,就会明白;它们描述性强,但创造性不足)。毕竟,英语不是我的母语,我可能会不自觉地用上一些生硬的语言结构或是其他语言里的老生常谈,所以我宁愿保守一些。
不过,我发现可以借助大语言模型 (LLMs) 来激发一些更富创意的命名灵感。比如说,ChatGPT 能给我提供十个备选标题,我可以从中挑一个来改造(或者即使不用,但至少能激发出我想要走的新方向!)。
同样地,它也能快速帮我产生一些随机的主题想法。比如我和我妻子最近就在用 ChatGPT 帮忙,头脑风暴出一些关于纽约主题的日历创意。这样做会让我失去自主性和创造力吗?当然不会!
这其实就像创作生成式音乐一样(可以是完全随机的,也可以是程序化的)。你先产生许多随机的创意,然后挑选一个最打动你的作为起点,接着手动进行迭代发展。 在这个选择和迭代的过程中,你的创造力和主观能动性依然得到了充分的体现。即使是最具创造力的人,在面对创意障碍或是启动新项目时,也会运用这样的方法(翻阅任何一本关于创意音乐作曲或制作的课程书籍,都能找到类似的建议)。
知识库 – 龙潭之地
我们应该尽量避免这样做(记住 – “语言模型不等同于知识模型!”),但遗憾的是,过去两年左右,谷歌搜索的质量大幅下降。我们经常只能搜到来自 Quora 的结果(用广告拦截时几乎用不了,而且答案经常全错),还有误导性的信息框、广告和充斥着 SEO 的无用内容。
这简直是一场灾难。对于热门话题,要在谷歌上找到真正的信息(非广告或商业内容)几乎是不可能的,除非你搜索“搜索词 reddit”。否则,搜索结果的第一页不是广告,就是 SEO 填充的内容。如果谷歌不改进,他们可能只有一年时间了,此后用户可能会永远离开(当服务质量下降时,即使是公司喜欢的 A/B 测试——它们让公司觉得自己是基于数据和“客观”的——也不会立刻显示问题,就像那个慢慢被煮熟的青蛙。而现在,这个比喻里的青蛙恐怕已经煮熟了。)
有时,我会向 ChatGPT 提出技术问题,并得到可靠的答案 – 但我始终抱着怀疑的态度。不过,通过这些答案,我知道了进一步查找的方向,而且成果不错。
我开始转而使用 perplexity.ai 来搜索信息,到目前为止效果非常好!答案简洁、精准,还附有参考链接。如果它找不到答案,它会直接告诉你:“很少有资源能回答这个问题。”而不是胡乱猜测。不过它的缺点是,答案来源于网上的内容,这些内容的可靠性有时候是个问题。
专业提示: 用 LLMs 来解答一些关于流行文化的松散问题、联想或不确定的事物,是一种有趣、合法且风险较低的使用方式。比如它可以回答“90 年代那首‘嘟嘟嘟 嘟 嘟 嘟嘟’的歌是什么?”,即使它答不出来,这也是个无害而有趣的尝试。
结论 – 我的观点和对未来的展望
从我之前的描述中,你可能已经明白,我并不经常把大语言模型 (LLM) 当作搜索工具或知识库来使用。
我不会用它们来完整地自动处理一个任务,它们也不是我生活中的自动化工具。
我不依赖生成式 AI 来取代我的创造力。
我更喜欢与它们进行互动,我的决策和专注始终贯穿于这个过程。
大语言模型并没有让我一夜之间成为超级程序员。
那些认为大语言模型和自动化可以替代员工的 CEO 和 AI 界的意见领袖,我认为他们的想法很短视。
但是。
大语言模型给了我极大的快乐,我非常享受与它们的互动。
它们激发了我对所参与的每件事情的兴趣和热情 – 对我来说,它们不仅仅是一个工具或自动化的替代品,而是一个充满乐趣的助手,帮助我学习和进步。
至少在过去十年中,没有任何技术能像现在这样让我感到这么多快乐和敬畏。
虚拟现实?让人不适和恶心。增强现实?让你时刻被工作、通知和广告所困扰。加密货币?无用,滋生犯罪,充斥着欺诈。Web3?只不过是资本家的小把戏,试图将我们的生活完全商品化。过去的十年,我们见证了太多被过分吹噜的平庸技术。
但是,在我看来,AI 才是真正的下一个(或者说已经是当前的)重大飞跃。我现在所讲的只是大语言模型,还没提到机器学习已在计算机图形和视觉等领域带来的革命性变化。对我而言,大语言模型和生成式 AI 的魅力不在于商业或生产力,而在于它们的趣味性和愉悦感 – 是的,技术应该是有趣的,令人享受的。我想重温我七岁时的那种兴奋,当时我正在探索 DOS、Windows 3.11,学习 Turbo Pascal 编程,并且开始接触 Web 1.0,制作我的第一个“无用”HTML 主页。我们的价值不应该只是在于提高生产力和为资本增值。这也是为什么我坚信,应该发展和推广开源大语言模型,让全球每个人都能平等地接触这些技术(最好是在他们自己的本地设备上,不受任何公司的控制)。
尽管对大语言模型存在一些技术上和社会上的担忧和批评,我仍然保持乐观态度。这些问题看起来是可以解决的,而且这样做是值得的。大语言模型会继续进步,但即便它们不再有太大的变化,我也会满足于现有的模型,因为它们已经在很大程度上丰富了我的生活。我希望这篇文章能展示给你大语言模型的这些乐趣,并鼓励你以新的方式去体验和享受它们。