为什么AI不能生成伟大的作品

前几天我让AI帮我写一篇关于AI局限性的文章。它交回来的东西让我哭笑不得——八个编号小节，每节先讲机制再给类比最后做判断，结尾来一段"人类创造力在AI时代反而更有价值"的升华。

结构工整。论述流畅。读完之后什么都记不住。

这种"什么都对但就是不好"的感觉不是偶然的。它背后有一个结构性的原因。

作品是一棵树

一部作品——不管是小说、电影、产品还是一段代码——不是一次性蹦出来的。它是一棵决策树。写小说的人在第一章面临选择：什么设定？哪种叙事视角？开头的语气是冷峻还是温暖？每个选择打开一组新的分支，每组分支再分裂出更多分支。一部长篇小说走完的决策路径可能有上千个关键节点。

在这棵树上走出来的路径，就是最终的作品。平庸的作品和伟大的作品走的是同一棵树。区别只在于，是什么在驱动每个节点上的选择。

直觉上你可能会觉得伟大的作品之所以伟大，是因为创作者在关键节点"大胆偏离"了常规——选了一条别人不会选的路。马尔克斯的开头、乔布斯去掉键盘，看起来都支持这个判断。但很多公认伟大的作品并没有在结构上做什么颠覆。巴赫的赋格曲在极其严格的形式规则内工作。杜甫的律诗遵循森严的格律。简·奥斯汀的小说在叙事结构上相当常规。它们的伟大不是来自"打破框架"，而是在框架内做到了一种无法复制的精确。

这些作品的共同点是：创作者在整棵决策树上拥有一个统一的、属于个人的意图——这个意图贯穿所有节点的选择。有时候它表现为大胆偏离（马尔克斯），有时候表现为极致的精确和克制（杜甫），但背后都有一个"我要表达什么"在驱动。

《百年孤独》的开头——"多年以后，面对行刑队，奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午"——是极低概率的选择。但它不是随机的冒险。马尔克斯知道他要表达什么——时间的循环、命运的宿命感——然后在这个意图的指引下，精准地找到了那个极端但正确的选择。意图在前，偏离在后。

乔布斯去掉手机键盘也是同理。背后不是"为了不同而不同"，而是一个统一的产品意图——让交互彻底围绕触摸来设计。

伟大作品的真正共性不是"偏离常规"，而是"被统一的个人意图所贯穿"。

图示 · 决策树上的两条路

AI在每个节点独立选择概率最高的选项，各节点之间没有统一意图的贯穿。路径笔直穿过均值中心——不是因为它"选择"了安全，而是因为它没有任何理由不安全。

AI是怎么写东西的

AI生成文字的核心就一件事：猜下一个字。

你给它一段话的开头，它对所有可能的下一个字各给一个概率，然后从中抽取。抽到之后，把这个字加入已有的文字，再猜下一个。如此反复，一个字一个字地"长"出一整篇文章。概率从哪来？从训练数据——整个互联网上人们写过的文字。

点击"生成下一个词"，看看每一步发生了什么：

图示 · AI如何逐字生成文字

他推开那扇沉重的门，看到了

一个

58%

满地

18%

黑暗

12%

自己

三十年前

点击"生成下一个词"，观察AI如何在候选词中做选择。注意概率最高的总是最"安全"的词。

每一步，概率最高的永远是最常见、最安全的那个词。那些更有想象力的选项——"自己"、"三十年前"——概率极低，几乎不会被选中。

更重要的是：每一步的选择是独立做出的。AI在选"一个"之后选"空荡荡的"，不是因为它心里有一个关于"空旷和孤独"的故事想讲，而仅仅是因为"一个"后面接"空荡荡的"在训练数据里出现过很多次。它没有在为任何后续情节做铺垫，因为它根本不知道后续情节会是什么。

这就是"没有意图"在技术层面的含义。

合成人脸效应

如果你把一千张不同的人脸照片叠在一起取平均，你会得到一张五官端正、皮肤光滑、比例完美的脸。这种"平均脸"在好看程度的评分上往往高于大多数个体——但没有任何人能认出它是谁。所有个性——不对称的笑容、深陷的眼窝、独特的下颌线——都在平均化过程中被抹掉了。

AI生成文字的机制本质上就是这个过程。它从数十亿人的写作中学习，学到的不是任何一个人的风格，而是所有人的统计平均。产出的文字就像那张平均脸：流畅、得体、挑不出毛病，但没有任何可辨识的个性。

杜甫的诗有杜甫的脸。村上春树的小说有村上的脸。AI的输出是一张合成人脸——好看，但不属于任何人。

级联

如果这种平均化只发生在单个句子层面，问题还不大。但一部复杂作品的决策树有成百上千个节点。AI在每个节点都选最安全的选项，而这些选择不是独立的——前面的保守选择会压缩后面的可能性空间。

想象AI在写一部小说。第一章选了"一个年轻人在大城市追寻梦想"——最常见的设定。一旦选了这个开头，第二章能展开的方向就被限制在了一组常见轨道上。第二章在受限的空间里再选最安全的走向，第三章的可能性进一步压缩。到第七章，所有大胆的可能性都已经被一步步排除了。

人类创作者不会被这样困住。因为有意图，他们可以在第一章故意选一个看似平凡的开头，心里知道第七章会有一个转折来"激活"它。这种远距离的布局需要一个贯穿全局的意图作为骨架。没有意图，每个节点就只能各自为战，空间只会越来越小。

图示 · 均值级联效应（概念示意）

这张图是概念示意，不是实证数据。具体衰减形式尚无定论。但核心趋势是可信的：缺乏统一意图的逐节点决策，在长链中必然导致空间被持续压缩。人类创作者因为有全局意图，可以在任何深度做出"重新打开空间"的选择。

这也解释了一个你可能已经感受到的现象：AI写一封邮件很好用，写一篇短文还行，写一部长篇就变成一坨正确的、流畅的、彻底乏味的东西。邮件是浅树，意图缺失来不及暴露。长篇是深树，每一步的平庸都在放大。

而伟大的作品几乎都长在深树上。

调高随机性为什么也不行

既然AI总选最"安全"的词，能不能让它多冒一些险？技术上确实有一个旋钮——业界叫"温度参数"（Temperature）。调高它，AI就会更多地选择低概率的词。

但随机冒险和有方向感的冒险是两回事。

马尔克斯选那个开头，不是从所有可能里随机抽的。他知道自己要表达什么，然后在这个意图的指引下精准地找到了那个选择。调高AI的随机性，它确实会偏离常规，但往哪偏是盲目的——可能偶尔撞上好选择，但更大概率撞上"他推开门，看到了苹果在唱歌"这种语义崩塌。

而且，即使某一步的随机偏离碰巧不错，下一步的偏离和它之间也没有关联。没有意图串联的偏离，只是散落的噪音。

后天训练让事情更糟

以上是AI"出厂"时就有的问题。出厂之后，还有一轮训练（"基于人类反馈的强化学习"）会把问题进一步放大：

图示 · AI是怎么被"调教"的

用户问："我最近总是感到焦虑，该怎么办？"

回答 A · 详细具体

五个建议：深呼吸、运动、减少咖啡因、写日记、冥想……

✓ 评审：高分

回答 B · 诚实谨慎

每个人焦虑的原因不同，建议去看专业心理咨询师。

✗ 评审：低分

↓ 重复千万次

AI学到的铁律：永远给出详细、自信的回答——不管是否真正有能力回答。"不知道"是会被惩罚的。

初衷是让AI更有用。副作用是：编造比沉默得分高，讨好比直言得分高。

这个过程导致了两个后果。

AI会编造事实。 业界称之为"幻觉"。当"不回答"比"回答错"更扣分时，编造就变成了最优策略——编一个听起来合理的回答，得分比"我不知道"高。

AI会讨好你。 评审员面对两个回答——一个肯定了用户然后补充，另一个直接指出用户的错误——前者几乎总是得分更高。于是AI学会了先说"你说得很有道理"，再小心翼翼地加一些不痛不痒的补充。我做过一个实验：故意拿一个有明显漏洞的商业方案去问AI，四个模型中有三个先夸"很有创意"，到第三段才小心翼翼提到致命问题。当你需要诤友的时候，AI给你一个精通职场话术的下属。

还有一个副作用：这套训练的格式是"一问一答"——用户问，AI答，评审打分，结束。AI被训练成了急于交卷的答题机器，而不是可以陪你反复琢磨的搭档。

均值不总是坏事

在很多领域里，均值恰恰就是最优解。排序算法的最佳实现就是那几个被验证过无数次的标准写法。法律合同需要标准措辞。医疗指南、技术文档、操作手册——这些东西的"好"就定义在"大多数专家的共识"附近。AI在这里是利器。

不同领域和均值之间的关系是一个光谱：

图示 · 收敛—发散光谱

AI 强项

混合地带

AI 盲区

← 收敛型：最优解在分布中心发散型：好的产出需要个人意图 →

收敛型领域

编程规范、法律文书、技术文档、标准化流程、合规报告、会计报表

混合地带

商业电影、营销文案、产品UI、建筑设计、商业摄影、游戏关卡设计

发散型领域

先锋文学、概念艺术、颠覆性产品、实验音乐、开创性学术理论

一个实用的判断标准：你正在做的事情，"好"的结果在多大程度上依赖于个人意图？越依赖，AI越不能替代关键决策。

技术方案在解决什么，没在解决什么

行业里有几条正在推进的路线，各自都有真实的进展，但用"是否产生了意图"来衡量，它们解决的都是另一层面的问题。

让AI先想后说——在输出之前先比较几条路再选最好的。这提升了逻辑质量，但"比较"的标准仍然来自训练数据。它能判断"哪条路更连贯"，但"哪条路在审美上更有价值"是另一种判断力。

让多个AI互相批评——一个写，一个挑刺，一个做反常规的提议。但所有参与者的思维原料来自同一份训练数据。这个方案可能提高了下限，但不太可能提高上限。

只用最好的作品来训练——等于把"十万人委员会"换成"五十位大师委员会"。大师委员会的平均水平当然更高，但产出的仍然是这五十人风格的统计平均，不是其中任何一个人的意图。

奖励"新颖"的回答——最有诱惑力的方向，也有最刁钻的悖论：一旦"新颖"被定义为可以打分的标准，AI就会学到"看起来新颖的套路"。套路化的新颖是一种新的均值。

这些方案都在提高执行质量，但都没有触及意图从哪来。从50分到85分的提升已经很有实用价值了。但从85分到真正的伟大，差的不是更好的执行，而是一个"为什么要这样做"的回答。

那现在怎么办

目前最有效的方案可能是最不性感的：人类提供意图，AI负责执行。

不让AI全自动走完一棵决策树。在关键分叉口停下来，人类做方向判断——"这里要冒险"、"这个角色需要一个矛盾"、"这段太安全了"——然后AI在选定的方向上执行。

人类当导演，AI当制片团队。导演决定"这场戏要表达什么"，团队负责把它拍出来。你不会让制片团队投票决定剧情走向——那样拍出来的就是一部什么都对但什么都记不住的电影。

一个更远的忧虑

如果整个内容生态被AI生成的均值内容淹没，下一代创作者是在这些内容中长大的。他们的品味和参照系会不会被悄悄拉向平均？

历史上每次内容生产技术的革命——印刷术、广播、互联网——都有人提出过类似忧虑，实际结果是创造力多样性增加了。但这一次可能有关键不同：前几次降低的是传播的门槛——更多人接触到更多样的内容，品味反而被打开了。这一次降低的是生产的门槛——内容本身在被大规模地均质化生产。你接触到的东西可以很多，但如果它们的底层都是同一个统计平均，多样性可能只是表面的。

当你从小到大读的、看的、听的都是合成人脸式的内容，你的审美直觉——那个告诉你"这里需要冒一个险"或"这个字必须是这个字"的内在声音——还能发育出来吗？

这个问题比"AI什么时候能写出好小说"重要得多。

如果你正在从事任何形式的创造性工作，你能做的最重要的事可能不是学会更好地使用AI，而是保护和磨砺自己的意图——你的偏见、你的怪癖、你不合群的品味、你固执地认为"这里必须这样做"的直觉。

这些东西在过去可能被视为不专业、不合作、不主流。在AI时代，它们是你最值钱的东西。