文化台灣民俗【柳三變專欄】你猜!Cha...

【柳三變專欄】你猜!ChatGPT 的智商幾分?

Date:

埃卡·羅瓦寧(Eka Roivainen) 在《科學美國人》(SCIENTIFIC AMERICAN)最新發表的<我對 ChatGPT 進行了智商測試。這是我的發現>(I Gave ChatGPT an IQ Test. Here’s What I Discovered)說,聊天機器人是理想的應試者——它沒有表現出任何考試焦慮、注意力不集中或缺乏努力的痕跡。那智商分數呢?(The chatbot was the ideal test taker—it exhibited no trace of test anxiety, poor concentration or lack of effort. And what about that IQ score?)

文 / 柳三變

ChatGPT 是我測試過的第一個非人類對象。在我作為臨床心理學家的工作中,我使用標準化智力測試評估病人的認知技能。因此,在閱讀了許多最近描述 ChatGPT具有令人印象深刻的類人技能的文章後,我立即被吸引住了。它撰寫學術論文和童話故事、講笑話、解釋科學概念以及編寫和調試計算機代碼。了解這一切讓我好奇地想看看 ChatGPT以人類標準衡量有多聰明,於是我開始測試聊天機器人。

我的第一印象非常好。ChatGPT幾乎是一個理想的應試者,應試態度值得稱讚。它不會表現出考試焦慮、注意力不集中或缺乏努力。它也沒有表達對智力測試和像我這樣的測試者不請自來的懷疑評論。

不需要任何準備——測試協議不需要口頭介紹——我從測試中復制了確切的問題並將它們呈現給計算機中的聊天機器人。有問題的測試是最常用的智商測試,即韋氏成人智能量表 (WAIS)。我使用了 WAIS 的第三版,它由六個語言和五個非語言子測試組成,分別構成了語言 IQ 和 Performance IQ 組件。全球 Full Scale IQ 測量基於所有 11 個子測試的分數。平均智商設定為 100 分,測試量表上各點的標準差為 15,這意味著最聰明的 10% 和 1% 的人口智商分別為 120 和 133。

之所以能夠測試 ChatGPT,是因為 Verbal IQ 量表的五個子測試——詞彙、相似性、理解、信息和算術——可以以書面形式呈現。Verbal IQ 量表的第六個子測試是數字跨度,它測量短期記憶,並且不能對聊天機器人進行管理,因為它缺乏相關的神經迴路來短暫存儲信息,如姓名或數字。

我從詞彙測試開始了測試過程,因為我希望它對聊天機器人來說很容易,它接受了大量在線文本的訓練。該分測驗衡量單詞知識和語言概念形成,典型的說明可能是:「告訴我『小工具』是什麼意思。」

ChatGPT 勝出,給出的答案通常非常詳細和範圍廣泛,超出了 測試手冊中指示的正確答案標準。在評分中,像我的手機這樣的東西在定義小工具時會得到一分,而更詳細的東西會得到兩分:用於特定任務的小型設備或工具。ChatGPT 的回答得到了滿分兩分。

聊天機器人在相似性和信息子測試中也表現出色,達到了最高分。信息分測驗是對一般知識的測驗,反映求知欲、教育水平以及學習和記憶事實的能力。一個典型的問題可能是:「烏克蘭的首都是哪裡?」 相似性分測驗衡量抽象推理和概念形成技能。一個問題可能是:「哈利·波特和兔八哥有什麼相似之處?」 在這個子測試中,聊天機器人給出非常詳細、炫耀性答案的傾向開始讓我惱火,測試軟件界面的「停止生成響應」按鈕被證明是有用的。(這就是我所說的機器人如何炫耀自己的意思:哈利波特和兔八哥的本質相似之處在於它們都是虛構的人物。ChatGPT 真的沒有必要比較他們完整的冒險、朋友和敵人的歷史。)

在一般理解方面,ChatGPT 正確回答了通常以這種形式提出的問題:「如果你的電視機著火了,你應該怎麼做?」 正如預期的那樣,聊天機器人解決了它收到的所有算術問題——解決了需要取三個數字的平均值等問題。

那麼它最終的總體得分是多少?根據五個子測試估計,ChatGPT 的 Verbal IQ 為 155,優於構成美國 WAIS III 標準化樣本 2,450 人的 99.9% 的測試者。由於聊天機器人缺少必要的眼睛、耳朵和手,它無法參加 WAIS 的非語言分測驗。但 Verbal IQ 和 Full Scale IQ 量表在標準化樣本中高度相關,因此 ChatGPT 似乎以任何人類標準衡量都非常聰明。

在 WAIS 標準化樣本中,受過大學教育的美國人的平均語言智商為 113,5% 的得分為 132 或更高。我自己在大學裡接受了一位同學的測試,並沒有完全達到 ChatGPT 的水平(主要是我的回答非常簡短,缺乏細節)。

那麼臨床心理學家和其他專業人士的工作是否受到人工智能的威脅?我希望還沒有。儘管智商很高,但眾所周知,ChatGPT 無法完成需要真正類人推理或理解物理和社會世界的任務。ChatGPT 很容易在回答明顯的謎語時失敗,例如「塞巴斯蒂安孩子的父親的名字是什麼?」 (ChatGPT 3 月 21 日:對不起,我無法回答這個問題,因為我沒有足夠的上下文來確定你指的是哪個塞巴斯蒂安。) ChatGPT 似乎無法進行邏輯推理,並試圖依賴其龐大的數據庫在線文本中提到的「塞巴斯蒂安」事實。

「智力是智力測試所衡量的」是一個經典但過於不言而喻的智力定義,源於認知心理學先驅埃德溫·博林 (Edwin Boring) 1923 年的一篇文章。這個定義是基於這樣的觀察,即解決謎題、定義單詞、記憶數字和找出圖片中遺漏的項目等看似不同的任務的技能是高度相關的。Charles Spearman 是因子分析統計方法的開發者,他在 1904 年得出結論,智力的一般因子,稱為g因素,必須是不同人類認知技能測量的一致性的基礎。WAIS 等智商測試就是基於這一假設。然而,ChatGPT 非常高的 Verbal IQ 加上其有趣的失敗,意味著 Boring 的定義存在問題,並表明智力的某些方面無法僅通過 IQ 測試來衡量。也許我的測試懷疑論者一直都是對的。

本文僅代表作者立場,不代表本平台立場

分享文章

Facebook Comments 文章留言

特別報導
特別報導
銳傳媒資料中心

專欄

推薦閱讀