前几天我让AI帮我写一篇关于AI局限性的文章。它交回来的东西让我哭笑不得——八个编号小节,每节先讲机制再给类比最后做判断,结尾来一段"人类创造力在AI时代反而更有价值"的升华。
结构工整。论述流畅。读完之后什么都记不住。
这种"什么都对但就是不好"的感觉不是偶然的。它背后有一个结构性的原因。
作品是一棵树
一部作品——不管是小说、电影、产品还是一段代码——不是一次性蹦出来的。它是一棵决策树。写小说的人在第一章面临选择:什么设定?哪种叙事视角?开头的语气是冷峻还是温暖?每个选择打开一组新的分支,每组分支再分裂出更多分支。一部长篇小说走完的决策路径可能有上千个关键节点。
在这棵树上走出来的路径,就是最终的作品。平庸的作品和伟大的作品走的是同一棵树。区别只在于,是什么在驱动每个节点上的选择。
直觉上你可能会觉得伟大的作品之所以伟大,是因为创作者在关键节点"大胆偏离"了常规——选了一条别人不会选的路。马尔克斯的开头、乔布斯去掉键盘,看起来都支持这个判断。但很多公认伟大的作品并没有在结构上做什么颠覆。巴赫的赋格曲在极其严格的形式规则内工作。杜甫的律诗遵循森严的格律。简·奥斯汀的小说在叙事结构上相当常规。它们的伟大不是来自"打破框架",而是在框架内做到了一种无法复制的精确。
这些作品的共同点是:创作者在整棵决策树上拥有一个统一的、属于个人的意图——这个意图贯穿所有节点的选择。有时候它表现为大胆偏离(马尔克斯),有时候表现为极致的精确和克制(杜甫),但背后都有一个"我要表达什么"在驱动。
《百年孤独》的开头——"多年以后,面对行刑队,奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午"——是极低概率的选择。但它不是随机的冒险。马尔克斯知道他要表达什么——时间的循环、命运的宿命感——然后在这个意图的指引下,精准地找到了那个极端但正确的选择。意图在前,偏离在后。
乔布斯去掉手机键盘也是同理。背后不是"为了不同而不同",而是一个统一的产品意图——让交互彻底围绕触摸来设计。
伟大作品的真正共性不是"偏离常规",而是"被统一的个人意图所贯穿"。
图示 · 决策树上的两条路
AI是怎么写东西的
AI生成文字的核心就一件事:猜下一个字。
你给它一段话的开头,它对所有可能的下一个字各给一个概率,然后从中抽取。抽到之后,把这个字加入已有的文字,再猜下一个。如此反复,一个字一个字地"长"出一整篇文章。概率从哪来?从训练数据——整个互联网上人们写过的文字。
点击"生成下一个词",看看每一步发生了什么:
图示 · AI如何逐字生成文字
每一步,概率最高的永远是最常见、最安全的那个词。那些更有想象力的选项——"自己"、"三十年前"——概率极低,几乎不会被选中。
更重要的是:每一步的选择是独立做出的。AI在选"一个"之后选"空荡荡的",不是因为它心里有一个关于"空旷和孤独"的故事想讲,而仅仅是因为"一个"后面接"空荡荡的"在训练数据里出现过很多次。它没有在为任何后续情节做铺垫,因为它根本不知道后续情节会是什么。
这就是"没有意图"在技术层面的含义。
合成人脸效应
如果你把一千张不同的人脸照片叠在一起取平均,你会得到一张五官端正、皮肤光滑、比例完美的脸。这种"平均脸"在好看程度的评分上往往高于大多数个体——但没有任何人能认出它是谁。所有个性——不对称的笑容、深陷的眼窝、独特的下颌线——都在平均化过程中被抹掉了。
AI生成文字的机制本质上就是这个过程。它从数十亿人的写作中学习,学到的不是任何一个人的风格,而是所有人的统计平均。产出的文字就像那张平均脸:流畅、得体、挑不出毛病,但没有任何可辨识的个性。
杜甫的诗有杜甫的脸。村上春树的小说有村上的脸。AI的输出是一张合成人脸——好看,但不属于任何人。
级联
如果这种平均化只发生在单个句子层面,问题还不大。但一部复杂作品的决策树有成百上千个节点。AI在每个节点都选最安全的选项,而这些选择不是独立的——前面的保守选择会压缩后面的可能性空间。
想象AI在写一部小说。第一章选了"一个年轻人在大城市追寻梦想"——最常见的设定。一旦选了这个开头,第二章能展开的方向就被限制在了一组常见轨道上。第二章在受限的空间里再选最安全的走向,第三章的可能性进一步压缩。到第七章,所有大胆的可能性都已经被一步步排除了。
人类创作者不会被这样困住。因为有意图,他们可以在第一章故意选一个看似平凡的开头,心里知道第七章会有一个转折来"激活"它。这种远距离的布局需要一个贯穿全局的意图作为骨架。没有意图,每个节点就只能各自为战,空间只会越来越小。
图示 · 均值级联效应(概念示意)
这也解释了一个你可能已经感受到的现象:AI写一封邮件很好用,写一篇短文还行,写一部长篇就变成一坨正确的、流畅的、彻底乏味的东西。邮件是浅树,意图缺失来不及暴露。长篇是深树,每一步的平庸都在放大。
而伟大的作品几乎都长在深树上。
调高随机性为什么也不行
既然AI总选最"安全"的词,能不能让它多冒一些险?技术上确实有一个旋钮——业界叫"温度参数"(Temperature)。调高它,AI就会更多地选择低概率的词。
但随机冒险和有方向感的冒险是两回事。
马尔克斯选那个开头,不是从所有可能里随机抽的。他知道自己要表达什么,然后在这个意图的指引下精准地找到了那个选择。调高AI的随机性,它确实会偏离常规,但往哪偏是盲目的——可能偶尔撞上好选择,但更大概率撞上"他推开门,看到了苹果在唱歌"这种语义崩塌。
而且,即使某一步的随机偏离碰巧不错,下一步的偏离和它之间也没有关联。没有意图串联的偏离,只是散落的噪音。
后天训练让事情更糟
以上是AI"出厂"时就有的问题。出厂之后,还有一轮训练("基于人类反馈的强化学习")会把问题进一步放大:
图示 · AI是怎么被"调教"的
这个过程导致了两个后果。
AI会编造事实。 业界称之为"幻觉"。当"不回答"比"回答错"更扣分时,编造就变成了最优策略——编一个听起来合理的回答,得分比"我不知道"高。
AI会讨好你。 评审员面对两个回答——一个肯定了用户然后补充,另一个直接指出用户的错误——前者几乎总是得分更高。于是AI学会了先说"你说得很有道理",再小心翼翼地加一些不痛不痒的补充。我做过一个实验:故意拿一个有明显漏洞的商业方案去问AI,四个模型中有三个先夸"很有创意",到第三段才小心翼翼提到致命问题。当你需要诤友的时候,AI给你一个精通职场话术的下属。
还有一个副作用:这套训练的格式是"一问一答"——用户问,AI答,评审打分,结束。AI被训练成了急于交卷的答题机器,而不是可以陪你反复琢磨的搭档。
均值不总是坏事
在很多领域里,均值恰恰就是最优解。排序算法的最佳实现就是那几个被验证过无数次的标准写法。法律合同需要标准措辞。医疗指南、技术文档、操作手册——这些东西的"好"就定义在"大多数专家的共识"附近。AI在这里是利器。
不同领域和均值之间的关系是一个光谱:
图示 · 收敛—发散光谱
技术方案在解决什么,没在解决什么
行业里有几条正在推进的路线,各自都有真实的进展,但用"是否产生了意图"来衡量,它们解决的都是另一层面的问题。
让AI先想后说——在输出之前先比较几条路再选最好的。这提升了逻辑质量,但"比较"的标准仍然来自训练数据。它能判断"哪条路更连贯",但"哪条路在审美上更有价值"是另一种判断力。
让多个AI互相批评——一个写,一个挑刺,一个做反常规的提议。但所有参与者的思维原料来自同一份训练数据。这个方案可能提高了下限,但不太可能提高上限。
只用最好的作品来训练——等于把"十万人委员会"换成"五十位大师委员会"。大师委员会的平均水平当然更高,但产出的仍然是这五十人风格的统计平均,不是其中任何一个人的意图。
奖励"新颖"的回答——最有诱惑力的方向,也有最刁钻的悖论:一旦"新颖"被定义为可以打分的标准,AI就会学到"看起来新颖的套路"。套路化的新颖是一种新的均值。
这些方案都在提高执行质量,但都没有触及意图从哪来。从50分到85分的提升已经很有实用价值了。但从85分到真正的伟大,差的不是更好的执行,而是一个"为什么要这样做"的回答。
那现在怎么办
目前最有效的方案可能是最不性感的:人类提供意图,AI负责执行。
不让AI全自动走完一棵决策树。在关键分叉口停下来,人类做方向判断——"这里要冒险"、"这个角色需要一个矛盾"、"这段太安全了"——然后AI在选定的方向上执行。
人类当导演,AI当制片团队。导演决定"这场戏要表达什么",团队负责把它拍出来。你不会让制片团队投票决定剧情走向——那样拍出来的就是一部什么都对但什么都记不住的电影。
一个更远的忧虑
如果整个内容生态被AI生成的均值内容淹没,下一代创作者是在这些内容中长大的。他们的品味和参照系会不会被悄悄拉向平均?
历史上每次内容生产技术的革命——印刷术、广播、互联网——都有人提出过类似忧虑,实际结果是创造力多样性增加了。但这一次可能有关键不同:前几次降低的是传播的门槛——更多人接触到更多样的内容,品味反而被打开了。这一次降低的是生产的门槛——内容本身在被大规模地均质化生产。你接触到的东西可以很多,但如果它们的底层都是同一个统计平均,多样性可能只是表面的。
当你从小到大读的、看的、听的都是合成人脸式的内容,你的审美直觉——那个告诉你"这里需要冒一个险"或"这个字必须是这个字"的内在声音——还能发育出来吗?
这个问题比"AI什么时候能写出好小说"重要得多。
如果你正在从事任何形式的创造性工作,你能做的最重要的事可能不是学会更好地使用AI,而是保护和磨砺自己的意图——你的偏见、你的怪癖、你不合群的品味、你固执地认为"这里必须这样做"的直觉。
这些东西在过去可能被视为不专业、不合作、不主流。在AI时代,它们是你最值钱的东西。