如果人工智慧系統迅速進入我們生活的各個角落,並變得更加有用、值得信賴、透明和安全,那麼它們就需要對我們的世界有更深入的常識性理解。梅蘭妮 ·米切爾 (MELANIE MITCHELL)發表在最新一期《科學》(Science) 的<人工智慧理解世界的挑戰(AI’s challenge of understanding the world)進入真切的分析。
當物體出現在異常條件下時,電腦視覺網路可能會失敗
在思考讓人工智慧 (AI) 理解我們複雜世界的挑戰時,我們想起了特斯拉自動駕駛系統用戶的 Twitter 貼文。該用戶在推特上表示,他的車總是無緣無故地突然停在某個特定位置。然後他注意到路邊有一個廣告牌,廣告上有一位警長舉著停車牌。汽車的視覺系統將此解釋為實際的停車標誌,並猛踩煞車。
這種理解失敗(識別停車標誌但不識別其關鍵上下文)在人工智慧應用中很常見。當物體出現在異常條件下時,電腦視覺網路可能會失敗;語言翻譯軟體在高風險情況下可能會誤解含義;醫療診斷系統可能會誤解他們應該從接受訓練的數據中學到什麼。
一些人工智慧領導者宣稱,大型語言模型(LLM)和其他「生成」人工智慧系統的卓越能力終於跨越了理解障礙,我們已經看到了類人人工智慧的到來。畢竟,這些系統表現出不可思議的能力,可以用自然語言與我們交談,根據我們的提示生成逼真的圖像,編寫有效的電腦程式碼,甚至在旨在測試人類推理能力的標準化考試中表現出色。
大型語言模型缺乏現實世界的基礎
儘管如此,大型語言模型對世界到底了解多少的問題仍然是兩極化爭論的主題。「不理解」一方的學者預測,僅接受語言訓練的機器「永遠不會接近人類的智力,即使從現在開始訓練直到宇宙熱寂」。其他研究人員斷言,大型語言模型的行為不是源於掌握語言的含義,而是源於學習訓練資料中單字和短語之間統計關聯的複雜模式,然後對這些模式進行「近似檢索」並將其應用於新的查詢。
事實上,最近的幾項研究對大型語言模型泛化和抽象能力的穩健性提出了質疑,表明這些系統在解決問題或處理與訓練資料中出現的情況有很大不同的情況時並不可靠。大型語言模型對查詢的「幻覺」答案的傾向及其易受對抗性攻擊的脆弱性表明他們缺乏現實世界的基礎,包括用戶請求背後的意圖。
目前的人工智慧系統似乎缺乏人類智慧的一個關鍵面向:豐富的世界內部模型。現代認知科學的一個原則是,人類不僅僅是條件反射機器,而是條件反射機器。相反,我們的頭腦中有物理和社會世界的抽像模型,這些模型反映了事件的原因,而不僅僅是事件之間的相互關係。我們依靠這些心理模型來模擬和預測可能採取的行動的可能結果,在不熟悉的情況下進行推理和計劃,想像反事實(“如果我沒有及時停車會發生什麼?”),並根據經驗更新我們的知識和信念。此外,我們不僅擁有外在世界和其他人的心理模型,還擁有我們自己的心理模型,使我們能夠評估和解釋我們的推理和決策過程。這些模型如何在我們的大腦中實現一直備受爭議,但毫無疑問它們是我們智力的基礎。
幾十年來,獲取「世界模型」的問題一直是人工智慧研究的焦點。研究人員已經嘗試了許多方法來手動編程此類模型或嘗試讓機器從數據或經驗中學習它們。這些努力在具有簡化「世界」的人工智慧領域取得了一些成功,例如玩視訊遊戲和機器人控制任務。
神經網路正在學習的更多世界、人類狀況
然而,大型語言模型和其他生成人工智慧系統是不同的遊戲。沒有人寫過任何世界模型,這些系統也沒有經過明確的訓練來學習它們。相反,生成式人工智慧系統通常使用「標記」序列(單字或圖像的一部分)進行訓練,並被要求預測序列中的下一個標記。然而,這些巨大的模型在接受了來自數位化文字和圖像的數萬億個標記的訓練後,似乎已經掌握了世界和人類社會的一些基本面向。類人的世界模型是否有可能在這些系統中出現,即使它們從未被明確地編程或學習?這正是人工智慧界一些人的說法。例如,在最近的一次訪談中,OpenAI 聯合創始人兼首席科學家 Ilya Sutskever 表示:
當我們訓練一個大型神經網路來準確預測大量不同文本中的下一個單字時……它正在學習一個世界模型……這個文本實際上是世界的投影……神經網路正在學習的更多以及世界、人、人類狀況、他們的希望、夢想和動機的更多方面……神經網路學習這些的壓縮、抽象、可用的表示。
這是一個關於大型語言模型的具有爭議性的假設——但是有什麼證據支持它呢?
學習了一個壓縮的、抽象的、可用的「世界」模型
最近的一項研究探討了語言模型是否在棋盤遊戲《黑白棋》的背景下隱式學習“世界模型”,該遊戲是在八乘八的棋盤上玩的。遊戲可以透過列出移動順序來描述,棋盤上的位置以行(字母)和列(數字)標記。例如,一個序列可以從玩家 1 在方格 F5 上放置一個黑色棋子開始,然後玩家 2 在方格 F6 上放置一個白色棋子,依此類推。
研究人員使用黑白棋遊戲模擬器產生了 2000 萬個這樣的序列,每個序列都包含一個部分遊戲。不涉及專業知識或策略;序列中的每個項目都是隨機選擇的合法動作,源自於先前出現的動作。然後,這些序列被用來訓練一個名為 OthelloGPT 的神經網路(一個八層「變壓器」模型)。神經網路不知道遊戲規則,甚至不知道輸入序列代表遊戲。它看到的只是文字標記序列(例如,標記 F5 後面跟著標記 F6,等等)。與自然語言訓練的大型語言模型類似,OthelloGPT 被訓練來預測 64 個可能的標記中的哪一個將出現在序列中。
經過訓練後,OthelloGPT 可以準確預測合法的走法,即使在訓練資料中從未見過的序列上也是如此。它是怎麼做到的?它是依賴訓練序列中標記模式之間的統計相關性,還是像 Ilya Sutskever 所說的那樣,它學習了一個壓縮的、抽象的、可用的「世界」模型——棋盤、棋子、玩家和規則遊戲的?
為了解決這個問題,研究人員使用「探針」來確定 OthelloGPT 學到了什麼。探針是一種更簡單的神經網絡,經過訓練可以解碼原始神經網絡的內部激活,即網絡內部層中模擬神經元響應輸入的“激發”活動。研究人員訓練探針來預測(僅使用 OthelloGPT 各層中的活化),在特定的移動序列之後,給定的方格是否包含黑色或白色棋子,或者根本沒有棋子。儘管 OthelloGPT 僅接受了文字標記序列的訓練,但它的內部活化可以被解碼,以預測遊戲中特定時間哪些棋子處於哪些位置。
此外,研究人員表明,透過巧妙地操縱 OthelloGPT 的內部激活,它不僅將棋盤的狀態編碼為副作用,而且還使用這種內部表示(「世界模型」)來預測合法的動作。
現實世界中值得信賴的人工智慧所需的理解
這個結果是一個令人著迷的原理證明:一個簡單「世界」的重要、有用的內部表示可以從語言模型訓練中產生。其他研究小組發現了隱式編碼簡單文字冒險遊戲的色彩空間、空間方向和世界狀態概念的語言模型的類似結果。
然而,這些關於超簡單「世界」的結果與 Ilya Sutskever 的論點之間存在差距,即 ChatGPT 已經從數萬億個文本標記序列中學習到了現實世界及其人類居民的極其複雜、可操作的模型。即使對於簡單的奧賽羅範例,類人的世界模型也不僅僅是對棋盤狀態進行編碼;它將對遊戲規則進行編碼,實現對遊戲策略的推理,並使系統能夠響應與其訓練經驗截然不同的動作,甚至靈活地適應遊戲的新變化。此外,這樣的世界模型將幫助系統向其他人解釋其知識和決策。這種通用能力是人類理解的標誌,但儘管取得了顯著進步,但目前的人工智慧系統尚未趕上。
目前的機器學習範式是否會產生現實世界中值得信賴的人工智慧所需的理解,或者是否需要新的範式,例如將語言模型與符號方法結合,結合強化學習的新思想,這是一個懸而未決的問題。創建整合的認知架構,或包括具體的經驗。為了相信在我們的世界中不可避免地無所不在的人工智慧系統,我們面臨著雙重挑戰:首先,使這些系統能夠有效地理解這個世界,其次,為我們自己配備科學工具,以了解它們是如何做到這一點的。
本文僅代表作者立場,不代表本平台立場
Facebook Comments 文章留言