劃重點:
? 一项新的统计技术,预测驱动推断(PPI),帮助科研人员安全地使用机器学习预测来验证科学假设。
? 机器学习模型可以加速科学发现,但也可能导致误导性或错误的结果。
? PPI技术允许科学家在不了解模型错误性质的情况下,纠正大型通用模型的输出,以适应特定科学问题。
站長之家(ChinaZ.com)11月10日 消息:近十年來,人工智能已經滲透到科學的各個領域。機器學習模型已被用于預測蛋白質結構、估算亞馬遜雨林的砍伐比例,甚至分類可能存在系外行星的遙遠星系。然而,雖然AI可以加速科學發現,但它也可能誤導科學家。與聊天機器人有時會“産生幻覺”或編造信息類似,機器學習模型有時也會呈現誤導性甚至明顯錯誤的結果。
加州大學伯克利分校的研究人員在一篇在線發表的《科學》論文中提出了一種新的統計技術,用于安全地使用機器學習模型的預測來驗證科學假設。這項技術被稱爲“預測驅動推斷”(PPI),它利用一小部分真實世界數據來在特定科學問題的背景下糾正大型通用模型的輸出,例如AlphaFold,該模型用于預測蛋白質結構。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
這些模型旨在通用性,它們可以回答許多問題,但我們不知道它們回答哪些問題得心應手,哪些問題回答不好。如果你無知地使用它們,不知道自己處于哪種情況,你可能會得到錯誤答案。PPI技術使你能夠使用這些模型,但也能夠在不了解錯誤性質的情況下進行糾正。
在科學實驗中,科學家們通常不僅尋找一個答案,而是想要獲得一系列可能的答案。這是通過計算“置信區間”來實現的,最簡單的情況下可以通過多次重複實驗並觀察結果的變化來找到。然而,大多數科學研究中,置信區間通常是指總結或綜合的統計數據,而不是個別數據點。不幸的是,機器學習系統關注個別數據點,因此不能爲科學家提供他們關心的不確定性評估。例如,AlphaFold預測了單個蛋白質的結構,但它沒有提供該結構的置信度概念,也沒有提供與蛋白質的一般性質相關的置信區間的獲取方式。
科學家可能會試圖將AlphaFold的預測用作數據,以計算經典置信區間,而忽視了這些預測不是數據的事實。這種方法的問題在于,機器學習系統具有許多潛在偏見,這可能會使結果産生偏差。這些偏見部分來自它們所訓練的數據,這些數據通常是現有的科學研究,可能沒有與當前研究具有相同的關注點。
PPI技術允許科學家將AlphaFold等模型的預測納入其中,而不對模型的構建方式或訓練數據做出任何假設。爲了做到這一點,PPI需要一小部分與正在調查的特定假設無關的無偏數據,以及與該數據對應的機器學習預測。通過將這兩個證據來源結合在一起,PPI能夠形成有效的置信區間。
研究團隊將PPI技術應用于使用衛星圖像來定位亞馬遜雨林砍伐區域的算法。這些模型在森林中的不同地區進行單獨測試時通常是准確的,但當將這些評估結合在一起以估計整個亞馬遜雨林的砍伐情況時,置信區間變得高度傾斜。這可能是因爲模型難以識別某些較新的砍伐模式。通過PPI,團隊能夠使用少量人工標記的砍伐區域來糾正置信區間中的偏見。
研究團隊還展示了這種技術如何應用于各種其他研究領域,包括蛋白質折疊、星系分類、基因表達水平、浮遊生物計數以及收入與私人醫療保險之間的關系。這一方法可以應用于各種問題,是現代數據密集、模型密集和合作科學的必需組成部分。
(舉報)