Chess-GPT 的内部世界模型 [译]
在机器学习 (ML) 的众多近期进展中,有两个特别吸引我的。第一个是 gpt-3.5-turbo-instruct 在国际象棋中达到 1800 ELO 水平。一个大语言模型 (LLM) 能够仅凭网络上随机抓取的文本就学会下好棋,这似乎不可思议。第二个是 Kenneth Li 的论文《生成世界表示》。The Gradient 上有一篇精彩的摘要,以及 Neel Nanda 的后续分析。他们训练了一个含有 2500 万参数的 GPT,用于预测奥赛罗游戏中的下一步棋。它不仅能在训练数据集未覆盖的游戏中准确落子,而且通过线性和非线性的探测发现,这个模型能准确追踪棋盘的状态。然而,这一成果仅限于使用奥赛罗游戏树上均匀采样得到的合成数据集训练的模型。当他们尝试将相同的技术应用于使用人类对弈数据训练的模型时,结果并不理想。在我看来,这是该论文发现的一个重要限制,可能会影响其在现实世界的应用性。比如,我们无法仅通过从代码树均匀采样来生成代码。因此,我对此进行了深入研究。我训练了一些国际象棋游戏模型,并对这些训练好的模型进行了线性探测。我的研究结果非常正面,解答了我之前的所有疑问(当然,这也带来了更多新的问题)。
January 6, 2024
View Article