AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對(duì)話(huà)式系統(tǒng) AMIE 通過(guò)圖靈測(cè)試，比初級(jí)保健醫(yī)生更準(zhǔn)

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2024/4/10 10:01:35 編者:iccsz

摘要：若想研發(fā)一個(gè)與臨床醫(yī)生專(zhuān)業(yè)知識(shí)相當(dāng)?shù)?AI，并且擁有強(qiáng)大的對(duì)話(huà)診斷能力，是一個(gè)巨大的挑戰(zhàn)。如今，谷歌 DeepMind 研究團(tuán)隊(duì)推出全新的醫(yī)學(xué)對(duì)話(huà) AI——AMIE，竟通過(guò)了「圖靈測(cè)試」！

我們需要研發(fā)對(duì)人類(lèi)有益 AGI 的原因之一：

“我妻子的身體 5 年來(lái)經(jīng)歷了種種痛苦，最終被檢查出一種叫肢體活動(dòng)過(guò)度 Ehlers-Danlos 綜合征的遺傳病?，F(xiàn)在的醫(yī)療體系是根據(jù)不同科室劃分，而這個(gè)遺傳病 hEDS 會(huì)影響人體各個(gè)系統(tǒng)和器官。大多醫(yī)生都只關(guān)注自己專(zhuān)業(yè)相關(guān)的癥狀，很難整體診斷?！?nbsp;OpenAI 聯(lián)創(chuàng) Greg Brockman 的一番話(huà)點(diǎn)明，當(dāng)前先進(jìn) AI 系統(tǒng)還需不斷演進(jìn)，有望破解人類(lèi)醫(yī)學(xué)難題。

這足以成為巨大游戲規(guī)則的改變者。眾所周知，醫(yī)患對(duì)話(huà)是醫(yī)學(xué)的基石。當(dāng)前醫(yī)學(xué)大模型已取得很大的進(jìn)展，以同理心回應(yīng)患者情緒，總結(jié)醫(yī)學(xué)摘要，根據(jù)臨床病史鑒別診斷病情等等。

不過(guò)，若想研發(fā)一個(gè)與臨床醫(yī)生專(zhuān)業(yè)知識(shí)相當(dāng)?shù)?AI，并且擁有強(qiáng)大的對(duì)話(huà)診斷能力，是一個(gè)巨大的挑戰(zhàn)。如今，谷歌 DeepMind 研究團(tuán)隊(duì)推出全新的醫(yī)學(xué)對(duì)話(huà) AI——AMIE，竟通過(guò)了「圖靈測(cè)試」！

具體來(lái)說(shuō)，AMIE 采用了一種強(qiáng)化學(xué)習(xí)算法中「自我博弈」方法，可以在一個(gè)模擬環(huán)境中自我對(duì)弈，并通過(guò)自動(dòng)反饋機(jī)制，可在各種疾病、醫(yī)學(xué)專(zhuān)科和環(huán)境中進(jìn)行擴(kuò)展學(xué)習(xí)。

在病人雙盲文本測(cè)試中，AMIE 在診斷呼吸系統(tǒng)和心血管疾病等疾病直接擊敗醫(yī)生，比初級(jí)保健醫(yī)生（PCP）更準(zhǔn)確。與此同時(shí)，AMIE 還表現(xiàn)出一致的同理心。論文稱(chēng)，雖然在 AMIE 在臨床應(yīng)用之前還需要進(jìn)一步的研究，但代表著邁向?qū)υ?huà)式診斷人工智能的一個(gè)里程碑。足見(jiàn)，谷歌最新研究暗示了 AI 驅(qū)動(dòng)的診斷對(duì)話(huà)的未來(lái)。不久的將來(lái)，Greg 口中的 AGI 便會(huì)降臨。

谷歌 AI 醫(yī)生通過(guò)圖靈測(cè)試，診斷對(duì)話(huà) AI 里程碑

除了開(kāi)發(fā)和優(yōu)化用于診斷對(duì)話(huà)的人工智能系統(tǒng)外，如何評(píng)估此類(lèi)系統(tǒng)也是難題。

受現(xiàn)實(shí)世界中用于衡量會(huì)診質(zhì)量和臨床溝通技巧的工具的啟發(fā)，研究人員構(gòu)建了一個(gè)試驗(yàn)性評(píng)估標(biāo)準(zhǔn)，按照病史采集、診斷準(zhǔn)確性、臨床管理、臨床溝通技巧、關(guān)系培養(yǎng)和移情等標(biāo)準(zhǔn)來(lái)評(píng)估診斷對(duì)話(huà)的過(guò)程。

然后，研究人員設(shè)計(jì)了一項(xiàng)隨機(jī)、雙盲交叉研究，讓經(jīng)過(guò)驗(yàn)證的患者與經(jīng)過(guò)認(rèn)證的初級(jí)保健醫(yī)生（PCP）或針對(duì)診斷對(duì)話(huà)進(jìn)行優(yōu)化的人工智能系統(tǒng)通過(guò)文字聊天的方式進(jìn)行互動(dòng)。研究人員以客觀結(jié)構(gòu)化臨床考試（OSCE）的形式設(shè)置咨詢(xún)場(chǎng)景。

OSCE 是現(xiàn)實(shí)世界中常用的實(shí)用評(píng)估方法，以標(biāo)準(zhǔn)化和客觀的方式考察臨床醫(yī)生的技能和能力。在典型的 OSCE 考試中，臨床醫(yī)生可能會(huì)輪流經(jīng)過(guò)多個(gè)工作場(chǎng)景，每個(gè)工作場(chǎng)景都模擬了真實(shí)的臨床場(chǎng)景。例如與標(biāo)準(zhǔn)化病人演員（經(jīng)過(guò)嚴(yán)格訓(xùn)練以模擬患有特定疾病的病人）進(jìn)行會(huì)診。

會(huì)診是通過(guò)同步文本聊天工具進(jìn)行的，模仿的是當(dāng)今大多數(shù)使用 LLM 的消費(fèi)者所熟悉的界面。研究人員在真實(shí)世界的數(shù)據(jù)集上訓(xùn)練 AMIE，這些數(shù)據(jù)集包括醫(yī)學(xué)推理、醫(yī)學(xué)總結(jié)和真實(shí)世界的臨床對(duì)話(huà)。使用通過(guò)被動(dòng)收集和轉(zhuǎn)錄個(gè)人臨床訪問(wèn)而開(kāi)發(fā)的真實(shí)世界對(duì)話(huà)來(lái)訓(xùn)練 LLM 是可行的，但是，有兩個(gè)重大挑戰(zhàn)限制了它們?cè)谟?xùn)練醫(yī)學(xué)對(duì)話(huà) LLM 方面的有效性。

首先，現(xiàn)有的真實(shí)世界數(shù)據(jù)往往無(wú)法捕捉到大量的醫(yī)療條件和場(chǎng)景，這阻礙了數(shù)據(jù)的可擴(kuò)展性和全面性。其次，從真實(shí)世界對(duì)話(huà)記錄中獲得的數(shù)據(jù)往往是嘈雜的，包含含糊不清的語(yǔ)言（包括俚語(yǔ)、行話(huà)、幽默和諷刺）、中斷、不合語(yǔ)法的語(yǔ)句和不明確的引用。

為了解決這些局限性，研究人員設(shè)計(jì)了一個(gè)基于自演的模擬學(xué)習(xí)環(huán)境，該環(huán)境具有自動(dòng)反饋機(jī)制，用于虛擬醫(yī)療環(huán)境中的診斷性醫(yī)療對(duì)話(huà)，使研究人員能夠在多種醫(yī)療條件和環(huán)境中擴(kuò)展 AMIE 的知識(shí)和能力。除了所描述的真實(shí)世界數(shù)據(jù)的靜態(tài)語(yǔ)料庫(kù)之外，研究人員還利用該環(huán)境通過(guò)不斷變化的模擬對(duì)話(huà)集對(duì) AMIE 進(jìn)行了反復(fù)微調(diào)。

這一過(guò)程包括兩個(gè)自我循環(huán)：

「內(nèi)部」自演循環(huán)，即 AMIE 利用上下文中批評(píng)者的反饋來(lái)完善其與人工智能患者模擬器進(jìn)行模擬對(duì)話(huà)的行為；
「外部」自演循環(huán)，即完善的模擬對(duì)話(huà)集被納入后續(xù)的微調(diào)迭代中。

由此產(chǎn)生的新版 AMIE 可以再次參與內(nèi)循環(huán)，形成良性的持續(xù)學(xué)習(xí)循環(huán)。此外，研究人員還采用了推理時(shí)間鏈策略（ inference time chain-of-reasoning strategy），使 AMIE 能夠根據(jù)當(dāng)前對(duì)話(huà)的情況逐步完善自己的回答，從而得出有理有據(jù)的答復(fù)。研究人員采用上述隨機(jī)方法測(cè)試了模擬患者（由專(zhuān)業(yè)的演員扮演）的問(wèn)診表現(xiàn)，并與 20 名真實(shí)初級(jí)保健醫(yī)生的問(wèn)診表現(xiàn)進(jìn)行了對(duì)比。

在一項(xiàng)隨機(jī)、雙盲交叉研究中，研究人員從專(zhuān)科主治醫(yī)師和模擬患者的角度對(duì) AMIE 和初級(jí)保健醫(yī)生進(jìn)行了評(píng)估，該研究包括來(lái)自加拿大、英國(guó)和印度 OSCE 提供者的 149 個(gè)病例場(chǎng)景，涉及各種專(zhuān)科和疾病。值得注意的是，研究人員的研究既不是為了模仿傳統(tǒng)的面對(duì)面 OSCE 評(píng)估，也不是為了模仿臨床醫(yī)生通常使用的文本、電子郵件、聊天或遠(yuǎn)程醫(yī)療方式。

相反，研究人員的實(shí)驗(yàn)反映了當(dāng)今消費(fèi)者與 LLM 交互的最常見(jiàn)方式，這是人工智能系統(tǒng)參與遠(yuǎn)程診斷對(duì)話(huà)的潛在可擴(kuò)展且熟悉的機(jī)制。

在這種情況下，研究人員觀察到 AMIE 在模擬診斷對(duì)話(huà)中的表現(xiàn)至少與初級(jí)保健醫(yī)生不相上下。

從專(zhuān)科醫(yī)生的角度來(lái)看，AMIE 的診斷準(zhǔn)確性更高，在 32 個(gè)指標(biāo)中的 28 個(gè)指標(biāo)上表現(xiàn)更優(yōu)，從患者的角度來(lái)看，在 26 個(gè)指標(biāo)中的 24 個(gè)指標(biāo)上表現(xiàn)更優(yōu)。

專(zhuān)家評(píng)定的 top-k 診斷準(zhǔn)確率。在 149 種情況下，AMIE 和初級(jí)保健醫(yī)生的頂 k 鑒別診斷 (DDx) 準(zhǔn)確率與基本真實(shí)診斷（a）和公認(rèn)鑒別診斷中列出的所有診斷（b）進(jìn)行比較。引導(dǎo)法（n=10,000）證實(shí)，經(jīng)過(guò)誤診率（FDR）校正后，AMIE 和 PCP DDx 準(zhǔn)確性之間的所有 top-k 差異均具有顯著性，p<0.05。

在最近發(fā)布的一篇預(yù)發(fā)表論文中，研究人員評(píng)估了 AMIE 系統(tǒng)早期迭代版本單獨(dú)生成 DDx 或作為臨床醫(yī)生輔助工具的能力。二十名全科臨床醫(yī)生評(píng)估了 303 個(gè)來(lái)自《新英格蘭醫(yī)學(xué)雜志》（NEJM）臨床病理會(huì)議（CPC）的具有挑戰(zhàn)性的真實(shí)醫(yī)療病例。每份病例報(bào)告都由兩名臨床醫(yī)生進(jìn)行評(píng)估，他們被隨機(jī)分配了兩種輔助方式之一：

1）搜索引擎和標(biāo)準(zhǔn)醫(yī)學(xué)資源的輔助，

2）這些工具之外的 AMIE 輔助。

AMIE 的獨(dú)立性能超過(guò)了無(wú)輔助臨床醫(yī)生（前 10 名的準(zhǔn)確率為 59.1%，醫(yī)生為 33.6%，P= 0.04）。比較兩個(gè)輔助研究方式，與沒(méi)有 AMIE 輔助的臨床醫(yī)生（24.6%，p<0.01）和使用搜索的臨床醫(yī)生（5.45%，p=0.02）相比，有 AMIE 輔助的臨床醫(yī)生的前 10 名準(zhǔn)確率更高。

此外，與沒(méi)有 AMIE 輔助的臨床醫(yī)生相比，有 AMIE 輔助的臨床醫(yī)生得出的鑒別清單更全面。值得注意的是，NEJM CPCs 并不代表日常臨床實(shí)踐。它們是僅針對(duì)幾百人的不常見(jiàn)的病例報(bào)告，為探討公平或公正等重要問(wèn)題提供的空間還比較有限。

雖然人工智能在特定的臨床應(yīng)用中顯示出巨大的前景，但參與臨床實(shí)踐中的動(dòng)態(tài)、對(duì)話(huà)式診斷過(guò)程需要許多人工智能系統(tǒng)尚未表現(xiàn)出的能力。醫(yī)生不僅要掌握知識(shí)和技能，還要恪守各種原則，包括安全和質(zhì)量、溝通、伙伴關(guān)系和團(tuán)隊(duì)合作、信任和專(zhuān)業(yè)精神。

在人工智能系統(tǒng)中實(shí)現(xiàn)這些特質(zhì)是一項(xiàng)鼓舞人心的挑戰(zhàn)，研究人員應(yīng)該以負(fù)責(zé)任的態(tài)度謹(jǐn)慎對(duì)待。AMIE 是研究人員對(duì) 「可能的藝術(shù)」的探索，它是一個(gè)研究性的系統(tǒng)，用于安全地探索未來(lái)的愿景，在這個(gè)愿景中，人工智能系統(tǒng)可能會(huì)更好地與受托為研究人員提供醫(yī)療服務(wù)的技術(shù)嫻熟的臨床醫(yī)生的特質(zhì)保持一致。

它只是早期的實(shí)驗(yàn)性工作，而不是產(chǎn)品，有一些局限性，研究人員認(rèn)為值得進(jìn)行嚴(yán)格而廣泛的進(jìn)一步科學(xué)研究，以展望未來(lái)，讓會(huì)話(huà)式、移情式和診斷式人工智能系統(tǒng)變得安全、有用和易用。

研究人員的研究存在一些局限性，在解釋時(shí)應(yīng)保持適當(dāng)?shù)闹?jǐn)慎。

首先，研究人員的評(píng)估技術(shù)很可能低估了人類(lèi)對(duì)話(huà)在現(xiàn)實(shí)世界中的價(jià)值，因?yàn)檠芯咳藛T研究中的臨床醫(yī)生僅限于使用一個(gè)陌生的文本聊天界面，該界面允許大規(guī)模的 LLM 患者互動(dòng)，但并不代表通常的臨床實(shí)踐。

其次，任何此類(lèi)研究都必須被視為漫長(zhǎng)旅程中的第一步探索。要從研究人員在本研究中評(píng)估的 LLM 研究原型過(guò)渡到可供人們和護(hù)理人員使用的安全、強(qiáng)大的工具，還需要進(jìn)行大量的額外研究。

還有許多重要的限制因素需要解決，包括在真實(shí)世界限制條件下的實(shí)驗(yàn)表現(xiàn)，以及對(duì)健康公平與公正、隱私、穩(wěn)健性等重要主題的專(zhuān)門(mén)探索，以確保技術(shù)的安全性和可靠性。

AI 或?qū)氐赘淖冡t(yī)學(xué)

過(guò)去一年中大模型的發(fā)展，也讓許多人看到 AI 在醫(yī)學(xué)中的應(yīng)用潛力。谷歌便是這個(gè)垂類(lèi)模型領(lǐng)域的典型代表。

谷歌的 Med-PaLM 2 根據(jù) 14 項(xiàng)標(biāo)準(zhǔn)進(jìn)行了測(cè)試，結(jié)果發(fā)現(xiàn)可以達(dá)到醫(yī)學(xué)專(zhuān)家的水平。

去年，一位 4 歲小男孩得了「怪病」，3 年來(lái)看了 17 位醫(yī)生，但他們都無(wú)法解釋疼痛的具體原因。直到小男孩母親注冊(cè) ChatGPT 之后，將病情上傳，才終于得到了正確的診斷結(jié)果。

近來(lái)，有網(wǎng)友發(fā)文表示，在 ChatGPT 幫助下，發(fā)現(xiàn)了女朋友的過(guò)敏反應(yīng)。

“凌晨 4 點(diǎn)，她全身起了大面積的蕁麻疹，去醫(yī)院后醫(yī)生給她靜脈注射了皮質(zhì)類(lèi)固醇，然后就好了。醫(yī)生說(shuō)可能是防腐劑 / 保鮮劑 / 食品化學(xué)物質(zhì)引起的，但我們一直都吃得很干凈，怎么會(huì)這樣呢？”

緊接著，他們把過(guò)去 24 小時(shí)內(nèi)吃的所有東西告訴 GPT-4，然后讓它對(duì)最可能的過(guò)敏原進(jìn)行排名。GPT-4 起初以為是巧克力里的榛子的原因，但后來(lái)網(wǎng)友突然想起昨天從超市買(mǎi)的肉，便從垃圾桶撿出來(lái)把它配料輸給 GPT-4。“配料：牛肉 (86%)、水、面包屑 (大米和玉米粉、淀粉、玉米、鹽、葡萄糖)、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑 E223 (亞硫酸鹽)?！?/em>

GPT-4 立即將亞硫酸鹽列為可能導(dǎo)致蕁麻疹的最主要過(guò)敏原，通過(guò)谷歌搜索，證實(shí)它會(huì)是蕁麻疹原因之一。最后發(fā)現(xiàn)，這與醫(yī)生所說(shuō)的相符，很可能是食物防腐劑過(guò)敏。

另外一位網(wǎng)友也分享了自己的心路歷程，以及利用 GPT 發(fā)現(xiàn)醫(yī)生們遺漏的病情聯(lián)系?！耙荒昵埃业纳眢w在與自己作戰(zhàn)，我的病情惡化速度之快超出了專(zhuān)家們的理解。然后，GPT 成為了我的 Copilot?！?

現(xiàn)在，谷歌推出的 AMIE 系統(tǒng)再次引領(lǐng)了醫(yī)療 AI 革命。

論文作者表示，「據(jù)我們所知，這是第一次為診斷對(duì)話(huà)和記錄臨床病史而設(shè)計(jì)的對(duì)話(huà)式人工智能系統(tǒng)」。

AI 醫(yī)學(xué)，未來(lái)可期。

內(nèi)容來(lái)自：新智元
本文地址：http://3xchallenge.com//Site/CN/News/2024/04/10/20240410080622580885.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對(duì)話(huà)式系統(tǒng) AMIE 通過(guò)圖靈測(cè)試，比初級(jí)保健醫(yī)生更準(zhǔn)

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話(huà)：0755-82960080-168 Right

相關(guān)新聞

· Figure人形機(jī)器人已整合OpenAI大模型可同人進(jìn)行完整對(duì)話(huà)

· 首個(gè)自主完成人類(lèi)任務(wù)機(jī)器人出現(xiàn)，五指靈活速度超人，大模型加持虛擬空間訓(xùn)練

· 大模型有望迎新突破！OpenAI、Meta將推出擁有“推理”功能的AI

· Form 推出 Smart Swim 2 AR 波導(dǎo)泳鏡：可測(cè)心率直線游泳導(dǎo)航

· Meta 下月將為 Ray-Ban 智能眼鏡帶來(lái)一系列 AI 功能：物體識(shí)別、翻譯等

· 繼倫敦AI中心后微軟將在日本投資29億美元

· 蘋(píng)果iOS 18是否具備生成式人工智能功能在6月初就有望揭曉

· 努比亞“AI FOR ALL”三款新品發(fā)布開(kāi)啟全民AI體驗(yàn)

· 古爾曼稱(chēng)蘋(píng)果正探索家用機(jī)器人項(xiàng)目：能處理各種家務(wù)活，落地至少還需 10 年

· 最早提前7天，谷歌借助AI能準(zhǔn)確預(yù)測(cè)洪災(zāi)

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對(duì)話(huà)式系統(tǒng) AMIE 通過(guò)圖靈測(cè)試，比初級(jí)保健醫(yī)生更準(zhǔn)

相關(guān)新聞

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對(duì)話(huà)式系統(tǒng) AMIE 通過(guò)圖靈測(cè)試，比初級(jí)保健醫(yī)生更準(zhǔn)