《新英格蘭醫學期刊》(NEJM)最新發表的<作為醫學 AI 聊天機器人的好處、限制和風險>(Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine GPT-4) 描述了另一種類型的 AI,即醫療 AI 聊天機器人。人工智能 (AI) 在醫學中的應用在許多領域不斷增長,包括醫學圖像分析、藥物相互作用檢測、高危患者識別、和醫療記錄編碼。這是由華盛頓州雷德蒙德的微軟研究院(PL,SB);和馬薩諸塞州伯靈頓 (JP) 的 Nuance Communications的彼得·李博士(Peter Lee)等人所撰寫的。
文 / 烈堂 綜合報導
人工智能聊天機器人技術
聊天機器人由兩個主要組件組成:通用人工智能係統和聊天界面。本文專門考慮了一個名為 GPT-4(生成式預訓練變壓器)的 AI 系統,它具有聊天界面;該系統廣泛可用,並且由人工智能研究和部署公司 OpenAI 積極開發。
要使用聊天機器人,可以通過使用簡單的自然語言輸入查詢(通常稱為「提示」)來啟動「會話」。通常,但並非總是,用戶是人。然後,聊天機器人通常會在 1 秒內給出與提示相關的自然語言「響應」。這種提示和響應的交換貫穿整個會話,整體效果非常像兩個人之間的對話。GPT-4 聊天機器人的典型會話記錄所示,系統跟踪正在進行的對話的上下文的能力有助於使其更有用和自然的感覺。
檢查或驗證 GPT-4 的輸出非常重要
今天使用的聊天機器人對提示的形式和措辭選擇很敏感。聊天機器人的這一方面催生了「即時工程」的概念,它既是一門藝術,也是一門科學。儘管未來的人工智能係統可能對提示中使用的精確語言不太敏感,但目前,需要謹慎地開發和測試提示以產生最佳結果。在最基本的層面上,如果提示是一個有明確答案的問題或請求,可能來自互聯網上的文檔來源或通過簡單的邏輯或數學計算,GPT-4 產生的響應幾乎總是正確的。然而,當用戶輸入沒有單一正確答案的提示時,會發生一些與 GPT-4 最有趣的交互。用戶首先表示擔憂或惱怒。在其響應中,GPT-4 嘗試匹配用戶的推斷需求。用戶提出了一個系統無法回答的問題,並且如所寫,可能被解釋為假設 GPT-4 是人類。GPT-4 的錯誤反應有時被稱為「幻覺」,這種錯誤在醫療場景中可能特別危險,因為錯誤或謊言可能很微妙,並且聊天機器人通常以令人信服的方式陳述,以至於提出查詢的人可能會相信它的真實性。因此,檢查或驗證 GPT-4 的輸出非常重要。幸運的是,GPT-4 本身可以很好地捕捉此類錯誤,不僅在它自己的工作中,而且在人類的工作中也是如此。其中向與 GPT-4 的新會話提供了正在進行的對話的完整記錄,然後要求其查找錯誤。儘管幻覺是由 GPT-4 本身造成的,但 GPT-4 的單獨會話能夠發現錯誤。
人工智能聊天機器人和醫療應用
GPT-4 並未針對特定的「指定任務」進行編程,例如閱讀圖像或分析醫療記錄。相反,它被開發為具有一般認知技能,目的是幫助用戶完成許多不同的任務。提示可以是問題的形式,也可以是執行特定任務的指令,例如「請閱讀並總結這篇醫學研究文章」。此外,提示不限於英語句子;它們可以用多種不同的人類語言編寫,並且可以包含數據輸入,例如電子表格、技術規範、研究論文和數學方程式。
OpenAI 在微軟的支持下,一直在開發一系列越來越強大的人工智能系統,其中 GPT-4 是最先進的,已於 2023 年 3 月公開發布。微軟研究院與 OpenAI 一直在研究可能的用途GPT-4 在過去 6 個月中在醫療保健和醫療應用中的應用,以更好地了解其基本功能、局限性和對人類健康的風險。具體領域包括醫療和保健文檔、數據互操作性、診斷、研究和教育方面的應用。
使用 GPT-4 協助做醫療筆記
其他幾個著名的人工智能聊天機器人也被研究用於醫療應用。其中最著名的兩個是 LaMDA (Google) 7和 GPT-3.5, 8GPT-4 的前身系統。有趣的是,LaMDA、GPT-3.5 和 GPT-4 並未經過專門針對醫療保健或醫療應用的培訓,因為它們的培訓方案的目標是獲得通用認知能力。因此,這些系統已經完全根據從互聯網上的開放源獲得的數據進行訓練,例如公開可用的醫學文本、研究論文、衛生系統網站以及公開可用的健康信息播客和視頻。訓練數據中不包括任何私人限制的數據,例如在醫療機構的電子健康記錄系統中找到的數據,或僅存在於醫學院或其他類似組織的專用網絡上的任何醫療信息。但是,
由於醫學是通過實例來教授的,因此本文提供了三個基於場景的 GPT-4 潛在醫療用途示例;補充附錄中提供了更多示例,與本文全文可在 NEJM.org 獲取。第一個示例涉及醫療筆記任務,第二個示例展示了 GPT-4 在美國醫師執照考試 (USMLE) 的一個典型問題上的表現,第三個示例展示了醫生可能會問的一個典型的「路邊諮詢」問題尋求建議時的同事。這些示例都是在 2022 年 12 月使用 GPT-4 的預發布版本執行的。2023 年 3 月向公眾發布的 GPT-4 版本在對本文提供的示例提示的響應方面有所改進,特別是,它不再表現出圖 1B和圖 2A中所示的幻覺。在補充附錄中,我們提供了我們使用此改進版本重新運行的所有示例的成績單,並註意到 GPT-4 可能處於近乎不斷變化的狀態,其行為可能會隨著時間的推移而改善或退化。
我們已經對 Nuance Dragon Ambient eXperience (DAX) 產品記錄的醫病對話記錄進行了試驗,但為了尊重病人隱私,我們使用了自動醫療轉錄數據集中的記錄。GPT-4 接收提供者與患者的交互,即提供者和病人的聲音,然後為病人的醫療記錄生成「醫療記錄」。在此功能的擬議部署中,在病人提供知情同意後,GPT-4 將通過類似於當今「智能揚聲器」所用的方式收聽醫病會面來接收轉錄本。會面後,應提供者的要求,軟件會生成筆記。GPT-4 可以生成幾種眾所周知的格式的註釋,例如 SOAP(主觀、客觀、評估和計劃),並且可以自動包含適當的賬單代碼。除了註釋之外,還可以提示 GPT-4 回答有關遭遇的問題、提取事先授權信息、生成符合健康七級快速醫療保健互操作性資源標準的實驗室和處方單、編寫訪問後摘要並提供關鍵反饋給臨床醫生和病人。
類似於人類理性,容易出錯
儘管這樣的應用程序顯然很有用,但並非一切都是完美的。GPT-4 是一個智能系統,類似於人類理性,容易出錯。例如,顯示的由 GPT-4 生成的醫療記錄指出患者的身體質量指數 (BMI) 為 14.8。然而,成績單中沒有任何信息表明這個 BMI 是如何計算的——這是「幻覺」的另一個例子。一種解決方案是讓 GPT-4 找出自己的錯誤。在單獨的會話中,我們要求 GPT-4 閱讀患者的成績單和醫療記錄。GPT-4 發現了 BMI 幻覺。在「重讀」輸出中,它還指出沒有具體提及營養不良或心臟並發症的跡象;儘管臨床醫生已經識別出這些跡象,但在與患者的對話中卻沒有提及這些問題。此信息對於建立診斷基礎很重要,重讀解決了這個問題。最後,人工智能系統能夠建議需要更多關於所訂購血液測試的細節,以及訂購它們的理由。在未來的部署中,應該將這種和其他處理幻覺、遺漏和錯誤的機制納入 GPT-4 的應用程序中。
與生俱來的醫學知識
儘管 GPT-4 僅根據互聯網上公開可用的信息進行訓練,但當它收到一系列來自 USMLE 的測試問題時,它在超過 90% 的時間裡都能正確回答。USMLE 的一個典型問題以及 GPT-4 的響應,其中 GPT-4 解釋了其推理,參考了已知的醫學事實,記錄了因果關係,排除了其他建議的答案,並提供了一個其「意見」的令人信服的理由。
GPT-4 中編碼的醫學知識可用於諮詢、診斷和教育等各種任務。當提供典型的「路邊諮詢」問題、有關患者初始表現的信息或實驗室測試結果摘要時,GPT-4 通常會提供有用的答覆,這可能有助於提出查詢的衛生專業人員解決所關注的問題。顯示了與 GPT-4 就常見醫療情況進行交互的一個示例。由於系統的交互性質,用戶可以通過提出後續問題或要求更簡潔的答復來要求有關答复的更多詳細信息,以便更快地「切中要點」。
GPT-4 可以閱讀醫學研究材料並討論
這種醫學知識使 GPT-4 不僅在臨床環境中而且在研究中都有可能發揮作用。GPT-4 可以閱讀醫學研究材料並就其進行有根據的討論,例如簡要總結內容、提供技術分析、確定相關的先前工作、評估結論以及提出可能的後續研究問題。
我們一直在探索人工智能聊天機器人的新興技術,特別是 GPT-4,以評估醫療保健服務和醫學研究的可能性和風險。GPT-4 是一項正在進行中的工作,本文僅觸及其功能的皮毛。例如,它可以編寫用於處理和可視化數據的計算機程序,翻譯外語,為不熟悉每種語言的讀者破譯益處說明和實驗室測試,並且可能有爭議地為患者寫情感支持筆記.
補充附錄中提供了與 GPT-4 的對話記錄,可以更全面地了解其能力,包括我們使用公開發布的 GPT-4 版本重新運行的示例,以提供截至 2023 年 3 月的演變情況. 我們預計 GPT-4 作為一項正在進行的工作,將繼續發展,有可能在整體性能上有所改進和倒退。但即使是這些也只是一個起點,僅代表我們過去幾個月實驗的一小部分。我們希望為我們認為將是關於這種新型人工智能的作用的重要公開討論做出貢獻,並了解我們的醫療保健和醫學方法如何隨著其快速發展而最好地發展。
GPT-4 本身並不是目的,它為新的可能性打開了大門
雖然我們發現 GPT-4 非常強大,但它也有重要的局限性。正因為如此,我們認為關於一般人工智能的可接受性能的問題仍有待回答。例如,系統會犯錯誤,但也會發現錯誤——人工智能和人類都會犯的錯誤。以前基於範圍狹窄的模型並針對特定臨床任務進行調整的 AI 使用受益於精確定義的操作範圍。但是,應該如何評估 GPT-4 等工具的一般智能呢?用戶在多大程度上可以「信任」GPT-4,或者讀者是否需要花時間驗證其所寫內容的真實性?需要比校對多多少事實核查,GPT-4 可以在多大程度上幫助完成這項任務?
這些和其他問題無疑將成為醫學界和非專業人士爭論的主題。儘管我們承認我們作為創建 GPT-4 的實體的員工存在偏見,但我們預測醫療專業人員和患者將越來越頻繁地使用聊天機器人。也許最重要的一點是 GPT-4 本身並不是目的。它為新的可能性和新的風險打開了大門。我們推測 GPT-4 之後將很快出現更強大和更強大的人工智能係統——一系列越來越強大和普遍智能的機器。這些機器是工具,並且像所有工具一樣,它們可以用來做好事,但也有可能造成傷害。
本文僅代表作者立場,不代表本平台立場
Facebook Comments 文章留言