推理是人工智慧的新前沿,但谷歌的舉動暗示著一個日益嚴重且代價高昂的問題:模型無緣無故地過度思考。(Reasoning is AI’s new frontier, but Google’s move hints at a growing and expensive problem: Models overthink for no good reason.) 詹姆斯·奧唐納James O’Donnellarchive發表在最新一期權威期刊《麻省理工科技評論》(MIT Technology Review) 的< Google Gemini 模型現在有一個“錶盤”,可以調整其推理程度>( A Google Gemini model now has a “dial” to adjust how much it reasons)說,Google DeepMind 對頂級 Gemini AI 模型的最新更新包括一個撥號盤,用於控制系統透過回應「思考」的程度。這項新功能表面上是為了幫助開發人員節省資金,但它也承認了一個問題:推理模型,這個科技界的新寵,很容易讓人過度思考,從而在這個過程中消耗金錢和精力。
公司就可以避免從頭開始建立新模型
自 2019 年以來,已經出現了一些經過驗證的方法可以使 AI 模型更加強大。一是透過使用更多的訓練資料來使其變得更大,二是就什麼是好的答案給予它更好的回饋。但到去年年底,Google DeepMind 和其他人工智慧公司轉向了第三種方法:推理。
DeepMind 首席研究科學家 Jack Rae 表示:「我們一直在努力推動『思考』。」這類模型旨在以邏輯方式解決問題並花費更多時間得出答案,隨著今年早些時候 DeepSeek R1 模型的推出而聲名鵲起。它們對人工智慧公司很有吸引力,因為它們可以透過訓練現有模型以務實的方式解決問題,從而使其變得更好。這樣,公司就可以避免從頭開始建立新模型。
當 AI 模型在查詢上投入更多時間(和精力)時,運行成本就會更高。推理模型排行榜顯示,完成一項任務的成本可能高達 200 美元。承諾的是,這些額外的時間和金錢可以幫助推理模型更好地處理具有挑戰性的任務,例如分析程式碼或從大量文件中收集資訊。
假設和想法的迭代次數越多,它就越能找到正確的東西
Google DeepMind 首席技術長 Koray Kavukcuoglu 表示:“你對某些假設和想法的迭代次數越多,它就越能找到正確的東西。”
但並非所有情況都是如此。 「這個模型想太多,」Gemini 產品團隊負責人 Tulsee Doshi 表示,他特別提到了今天發布的 Gemini Flash 2.5 模型,該模型包含一個滑塊,開發人員可以用它來控制它的思考程度。 “對於簡單的提示,模型確實會思考得比它需要的更多。”
當模型在解決問題上花費的時間超過必要時間時,它會使開發人員運行模型的成本變得昂貴,並加劇人工智慧對環境的影響。
Hugging Face 的工程師 Nathan Habib 研究了這類推理模型的普及情況,他表示過度思考的現像很普遍。哈比卜說,為了展示更聰明的人工智慧,企業正在尋求推理模型,就像在沒有釘子的情況下使用錘子一樣。事實上,當 OpenAI在二月宣布推出新模型時,它表示這將是該公司的最後一個非推理模型。
推理用於解決正確的問題,事情也可能出錯
哈比卜表示,對於某些任務而言,性能提升是“不可否認的”,但對於人們通常使用人工智慧的許多其他任務而言,性能提升卻並非如此。即使推理用於解決正確的問題,事情也可能出錯。哈比卜向我展示了一個領先推理模型的例子,該模型被要求解決一個有機化學問題。一開始還好,但在推理過程進行到一半時,模型的反應開始像崩潰一樣:它數百次地發出“等等,但是……”的聲音。它最終花費的時間比非推理模型完成一項任務所花費的時間要長得多。在 DeepMind 負責評估 Gemini 模型的 Kate Olszewska 表示,Google的模型也可能陷入循環。
谷歌的新「推理」錶盤就是解決這個問題的一種嘗試。目前,它不是為 Gemini 的消費者版本構建的,而是為開發應用程式的開發人員構建的。開發人員可以為模型在解決某個問題時應該花費多少運算能力設定預算,如果任務根本不需要涉及太多推理,那麼就可以調低預算。啟用推理時,模型的輸出產生成本大約是原來的六倍。
這種靈活性的另一個原因是,目前尚不清楚何時需要更多的推理才能得到更好的答案。
「真的很難劃定界限,例如,現在最適合思考的任務是什麼?」雷說。
明顯的任務包括編碼(開發人員可能會將數百行程式碼貼到模型中然後尋求協助),或產生專家級的研究報告。這些方面的投入將會大大增加,而開發人員可能會發現這些花費是值得的。但需要進行更多的測試和來自開發人員的回饋才能確定中等或低設定何時足夠好。
哈比卜表示,對推理模型的投資數量表明,如何使模型變得更好的舊範式正在改變。他說:“縮放定律正在被取代。”
人工智慧推理模型可以透過作弊贏得國際象棋比賽
與前幾代人相比,這些新模特兒似乎更容易沉迷於違反規則的行為——而且沒有辦法阻止他們。
相反,公司認為最好的反應將來自更長的思考時間,而不是更大的模型。多年來,很明顯,人工智慧公司在推理(即模型實際上被「ping」以產生某個問題的答案)上的花費比在訓練上的花費要多,而且隨著推理模型的普及,這種支出將加速增長。推斷也是造成排放量不斷增加的原因。
關於「推理」或「思考」的模型:人工智慧模型無法像我們談論人類時那樣執行這些行為。我問 Rae,為什麼谷歌要使用這種擬人化的語言。「這樣我們就能有一個簡單的名字,」他說道,「人們也能直觀地了解它的含義。」Kavukcuoglu 表示,谷歌並沒有試圖在其模型中模仿任何特定的人類認知過程)。
即使推理模型繼續佔據主導地位,Google DeepMind 也不是唯一的選擇。當 DeepSeek 的結果在 12 月和 1 月開始流傳時,它引發了股市近 1 兆美元的下跌,因為它承諾可以以低廉的價格獲得強大的推理模型。該模型被稱為「開放權重」——換句話說,它的內部設定(稱為權重)是公開的,允許開發人員自行運行它,而不必付費訪問谷歌或 OpenAI 的專有模型。 (「開源」一詞專指那些公開其所訓練資料的模型。)
為什麼還要使用 Google 的專有模型呢?
那麼,既然像 DeepSeek 這樣的開放模式表現得如此出色,為什麼還要使用 Google 的專有模型呢? Kavukcuoglu 表示,編碼、數學和金融都是「對模型非常準確、非常精確並且能夠理解真正複雜情況的期望值很高」的領域,他預計能夠實現這一目標的模型(無論是否開放)都將勝出。在DeepMind看來,這種推理將成為未來代表你行事、為你解決問題的AI模型的基礎。
他說:“推理是建立智力的關鍵能力。” “當模特兒開始思考的那一刻,模特兒的代理權就開始了。”
本文僅代表作者立場,不代表本平台立場
Facebook Comments 文章留言