Sutton的The Bitter Lesson閱讀筆記

Published

October 13, 2024

The Bitter Lesson是Sutton在2019年發佈的一篇文章。文章指出“充分運用計算量的方法終能勝出”，“在通用方法中，學習（learning）和搜索（search）是兩種能隨著計算力增長發揮更強能力的方法。”

過去GPT系列模型的成功已經體現了learning的規模效應。近來openai發佈的o1模型是The Bitter Lesson思想的又一實踐，我認為它體現了search在大規模數據合成方面的作用。

The Bitter Lesson筆記

能充分利用算力的通用方法最終是更有效的。根本原因在於摩爾定律，以及計算代價的指數下降。大多數AI研究限制可用的計算量為一常數，從而公平比較不同方法。在這一前提下，一般越多引入人類見解效果越好。但是長期來看，隨著計算成本的下降，能夠充分利用算力的通用方法終能勝出；而過多引入人類知識，使模型複雜化，不能適應算力增長的方法終究會落後。

一些例子：1997年，許多研究人員沮喪地看到，那個擊敗了國際象棋冠軍的算法是基於“暴力搜索”的，而非基於人類的象棋知識。類似的，在圍棋領域，當計算量上來以後，那些依賴人類知識減少搜索，利用遊戲的特殊特征的方法就失去優勢。這時通過自我博弈（self-play）學習價值函數的方法也顯示出重要性，體現出學習和搜索是能夠充分利用大規模算力的兩種方法。20世紀七十年代，基於統計學和大規模計算的隱馬爾科夫模型主導了語音識別領域。後來深度學習推動了語音識別效果，又再次印證了這一規律。在計算機視覺領域，人們早期構造和識別各種人造特征，例如SIFT特征。但現在人們基本已經淘汰了這些方法。用簡單的基於卷積的模型就能表現得更好。

即使是現在，人們還是經常犯同樣的錯誤，試圖在方法中加入更多人類知識和規則。這樣做短期有用，但隨著算力的增長，總是會有能充分利用算力的通用方法出現，從而改變局面。

Sutton還認為人類的心智是無比複雜的，其內容規模是巨大的，不能用簡單的方法去解釋。世界的複雜度是無窮的，我們應該尋找一種元方法來發現和建模任意的複雜度，去自己尋找對世界的一個良好的近似，而不是僅僅灌輸人類認識到的規律。

讀後感

The Bitter Lesson指出的一些規律在文章發佈後還一直起著作用。猶記得CLIP和SAM這些文章發佈後，我的研究生導師抱怨著這對現在的工作有著多麼重要的影響，研究方式要改變，許多已有的工作變得不再重要了……大模型的出現尤其如此，顛覆了許多舊的工作方式。這樣的顛覆對大家來說常常是帶來困擾的，因為超大算力往往是大公司、大實驗室才能擁有，而小實驗室、小公司或者個人只能做些低成本的工作。

O1的發佈也許意味著OpenAI在探索如何大規模利用合成數據。許多人認為O1的推理能力提升意味著我們距離AGI（通用人工智能）又近了一步。

我樂觀的認為，一方面，大模型的發展速度很快，但短期內我們還是可以通過在其中引入一些人類規則或者外部工具來提升它的能力；另一方面，目測O1的推理能力雖然很強，但代價也很高。推理能力也不是目前大模型距離AGI的最後一道鴻溝，例如持續學習能力、感知外界事物的能力等等都還是現有大模型的短板。最後，目前大模型的訓練方式是低效率的，幾乎用上了世界上所有的文本，消耗昂貴的電力——而人類從嬰兒到成人十八年所學習的材料應該堆不滿一間屋子。我想如何實現更高效率的學習這一問題值得思考。總的來講，我們還是有很多事情可以做，有很多事情值得期待。