ChatGPT已經成為全世界最夯的「名詞」之一。《科學美國人》(SCIENTIFIC AMERICAN )最新報導<AI傻瓜科學家寫的研究總結>(Research Summaries Written by AI Fool Scientists)憂慮地指出,「科學家無法始終區分 AI ChatGPT 生成的研究摘要和人類撰寫的研究摘要。」(Scientists cannot always differentiate between research abstracts generated by the AI ChatGPT and those written by humans)
文/ 葉德輝 綜合報導
根據 12 月1日下旬發佈在 bioRxiv 服務器上的預印本,人工智能 (AI) 聊天機器人可以編寫出令人信服的虛假研究論文摘要,以至於科學家們通常無法發現它們。研究人員對科學的影響存在分歧。
「我非常擔心,」在英國牛津大學研究技術和監管的 Sandra Wachter 說,她沒有參與這項研究。「如果我們現在處於專家無法確定什麼是真的或什麼是假的情況下,我們就會失去我們迫切需要的中間人來指導我們解決複雜的話題,」她補充道。
聊天機器人 ChatGPT 會根據用戶提示創建 逼真且聽起來很智能的文本 。它是一個「大型語言模型」,一個基於神經網絡的系統,通過消化大量現有的人類生成的文本來學習執行任務。位於加利福尼亞州舊金山的軟件公司 OpenAI 於 11 月 30 日發布了該工具,並且可以免費使用。
自發布以來,研究人員一直在 努力解決圍繞其使用的倫理問題 ,因為它的大部分輸出很難與人類書寫的文本區分開來。科學家們發表了一份預印本 和一篇 由 ChatGPT 撰寫的社論 。現在,由伊利諾伊州芝加哥市西北大學的 Catherine Gao 領導的小組使用 ChatGPT 生成人工研究論文摘要,以測試科學家是否可以發現它們。
研究人員要求聊天機器人根據發表在《美國醫學會雜誌》 、 《新英格蘭醫學雜誌》、《英國醫學雜誌》、《柳葉刀》 和 《自然醫學》上的選集撰寫 50 篇醫學研究摘要 。然後,他們通過剽竊檢測器和 AI 輸出檢測器將這些摘要與原始摘要進行比較,並要求一組醫學研究人員找出捏造的摘要。
ChatGPT 生成的摘要順利通過了剽竊檢查器:原創得分中位數為 100%,這表明沒有檢測到剽竊。AI 輸出檢測器發現了 66% 的生成摘要。但人工審稿人並沒有做得更好:他們僅正確識別了 68% 的生成摘要和 86% 的真實摘要。他們錯誤地將 32% 的生成摘要識別為真實摘要,將 14% 的真實摘要識別為生成的。
「ChatGPT 撰寫了可信的科學摘要,」高及其同事在預印本中說道。「使用大型語言模型來幫助科學寫作的道德和可接受的界限仍有待確定。」
Wachter 說,如果科學家不能確定研究是否屬實,可能會產生「可怕的後果」。由於研究人員正在閱讀的研究是捏造的,因此研究人員可能會被拉下有缺陷的調查路線,這對研究人員來說是個問題,「對整個社會都有影響,因為科學研究在我們的社會中發揮著如此巨大的作用」。例如,這可能意味著基於研究的決策是不正確的,她補充道。
但新澤西州普林斯頓大學的計算機科學家 Arvind Narayanan 表示:「任何嚴肅的科學家都不太可能使用 ChatGPT 來生成摘要。」 他補充說,是否可以檢測生成的摘要是「無關緊要的」。「問題是該工具能否生成準確且引人注目的摘要。它不能,因此使用 ChatGPT 的好處微乎其微,而壞處卻很大,」他說。
總部位於紐約和巴黎的人工智能公司Hugging Face研究人工智能社會影響的艾琳·索萊曼 (Irene Solaiman) 擔心任何依賴大型語言模型進行科學思考的情況。「這些模型是根據過去的信息進行訓練的,社會和科學進步通常來自於思考,或者對思考持開放態度,這與過去不同,」她補充道。
專家建議,那些評估研究論文和會議記錄等科學傳播的人應該制定政策,杜絕使用人工智能生成的文本。如果機構選擇允許在某些情況下使用該技術,他們應該圍繞披露制定明確的規則。本月早些時候,將於 7 月在夏威夷火奴魯魯舉行的大型 AI 會議——第四十屆國際機器學習會議宣布禁止使用 ChatGPT 和其他 AI 語言工具撰寫的論文。
Solaiman 補充說,在虛假信息可能危及人們安全的領域,例如醫學,期刊可能不得不採取更嚴格的方法來驗證信息的準確性。
Narayanan 表示,這些問題的解決方案不應該集中在聊天機器人本身,「而是導致這種行為的不當激勵,例如大學通過計算論文數量來進行招聘和晉升審查,而不考慮其質量或影響」。
本文僅代表作者立場,不代表本平台立場
Facebook Comments 文章留言