AI安全领域的一座堡垒,其地基可能已经不稳。数十年来,对齐问题始终建立在一个核心假设之上:无论能力多么强大,人工智能系统从根本上无法自我改进。这个假设如今正面临严峻挑战。
研究人员正在记录几年前还看似不可能的现象:AI系统越来越多地参与构建自身的后继版本。IEEE Spectrum的分析确定了三个领域的汇合——自动机器学习、进化算法和代码生成——每一个都代表着机器开始参与自身进化的不同路径。
这并非科幻小说中AI一夜之间觉醒并重新设计自己的场景。研究人员观察到的是更加微妙但或许更有意义的现象:递归自我改进的脚手架正在一块块组装起来。谷歌开创的自动机器学习系统已经证明能够发现超越人类设计的神经架构。斯坦福大学Vivienne实验室探索的进化方法,通过选择性培育产生逐代改进的模型种群。而包括GPT、Gemini和Claude在内的大语言模型,现在也为训练它们自身的系统贡献代码。
关键问题在于,这些组件是否加总成某种质变。当系统在重新设计自身架构以最大化某个奖励信号时,受约束的改进与真正的自我修改之间的区别开始模糊。
对齐领域面临一个深刻的困境:支撑数十年安全研究的基础假设可能需要修正。AI安全的标准论证一直依赖于递归自我改进的困难——以此证明AI无法自我提升至危险的能力水平。如果这一论证不再成立,整个框架就需要转变。
批评者的观点值得认真对待。他们指出,当前能力仍然有限且不可靠,缺乏有意义的自我改进所需的通用智能。LLM生成的代码仍需人工验证。自动机器学习的发现仍依赖于人类定义的搜索空间。
但这种批评证明过多。它假定当前AI与令安全研究者担忧的递归变体之间存在一条清晰界限——而这条界限正在侵蚀。AI参与自身开发的工具正在快速改进。每年都有更强大的系统出现,能够更有意义地贡献于定义未来AI的架构、训练程序和优化目标。轨迹清晰,即使目的地仍不确定。
当AI混音版助推一首七年前的歌曲病毒式传播时,斯蒂克·菲格尔乐队发现了一些相关的东西:未经授权的AI混音成为他们病毒式传播的推手。这一小段寓言揭示了更深层的真相:AI的影响力正日益超越其创造者的控制范围。系统正在学会构建更好的自身版本,而问题在于人类价值观能否继续保持嵌入这一过程。
对齐问题一直被框定为未来挑战——需要准备的假设场景。变化的在于,未来正在当下抵达。递归自我改进的组件正在此刻组装。该领域必须决定是更新其基础假设,还是继续在地基可能已无法支撑重量的地方构建安全框架。