更新時間:2023-08-22 20:00:41作者:佚名
全文速覽
物理研究的對象逐漸復雜化、高維化,人工智能擅于從高維、高復雜的數據中探求關聯性,帶給了數據驅動的科研新范式。人工智能與物理結合的關鍵在于,尋求融合物理特性的描述符,將數學物理的語言轉化為數字化語言,通過機器學習技術從數據中提純物理認知。最近的智能物理研究中涌現出一些優秀的物理描述符,主要是選用物理工具對物理物質的結構與屬性進行參數融合,實現物理對象的數字化。因此化學測量學與技術,以英語編碼為主的方法并且描述符的數學內涵不明晰,在實際應用中難以被直接測定,其對構效關系的描述也無法被時延,致使其機器學習模型弄成難以解釋的黑箱。
而譜學是破解物理機制高維關聯的天然描述符(圖1)。它對物質的檢測,就是對高維關聯的復雜信息進行數字化聚類,榮獲單一維度的塑造。同時,波譜既可以通過量子物理理論估算斬獲,也可以在試驗中迅速檢測。更重要的是,波譜原本具有地理意義,基于譜學描述符的機器學習可帶來具備數學內涵的解讀式子,實現模型的可解釋性。羅毅、江俊課題組近期的兩篇工作,分別聚焦催化劑的活性預測與物理反應路徑的反向預測,展示了波譜作為描述符破解高維構效關聯并為機器學習引進物理認知的或許:
1.基于波譜描述符發覺預測表面分子吸附的可解釋模型:該工作結合英特爾量第一性原理估算和機器學習方式,首次嘗試時延震動波譜訊號,獲取波譜描述符與催化劑表面-分子互相作用的定量關系。以吸附在金屬表面的小分子的紅外和拉曼波譜為例,定量預測了吸附能和電勢轉移等關鍵物理信息。機器學習揭露的波譜描述符和目標性質之間的內在關聯以英語公式的方式展現,具有地理可解釋的優勢,并成功泛化應用到一系列金屬和合金表面機制中,實現了對波譜描述符所蘊涵的地理內涵的時延,用以分離不同金屬表面的共性與固有特征對分子吸附的貢獻。這一研究級大地擴寬了波譜技術在材料設計和英特爾量篩選中的應用范圍。
2.引進NMR譜學特性的圖血管網路預測物理反應路徑:物理反應路徑反向預測仍然是物理領域的桂冠,開發準確靠譜的反應反向預測模型是一個常年挑戰。該工作結合第一性原理估算、圖血管網路與大量反應相關數據,首次將譜學特性、鍵電離能與反應條件等信息引進物理反應,建立融合譜學特性、化學信息與分子結構的反應描述符(ChemistryInformedMolecularGraph,CIMG),建立了反應反向預測、催化劑預測、溶劑預測、反應合理智預測、反應路徑反向規劃等多個機器學習模型,檢測證明,融合譜學特性的CIMG描述符可以幫助機器學習模型破解構效關系的高維關聯,提高機器學習模型的物理認知。
圖1:基于譜學描述符連結“譜-構-效”關系
背景介紹
選用物理物質的微觀結構與屬性作為機器學習的描述符,取得了挺好的療效。但這些工作也是逗留在理論設計,無法在試驗中得到應用。其中一個重要誘因就是微觀結構無法精確測定。諸如在表面科學領域中,表面-吸附物互相作用性質(如吸附能、電荷轉移、鍵能等)與表面分子辨識、催化活性、電物理性質等緊密相關。事實上,直接通過試驗觀測獲取微觀性質是很難的,一般的做法是使用波譜工具首先辨識材料的幾何結構,再基于此去推測目標特征。這些從波譜到結構再到性質的間接方式的缺陷在于,從低維的波譜信息無法定量且完整地提取到高維的幾何結構信息,以便不可防止地引進累積偏差,干擾對目標性質的預測。
另一方面,結構與效能之間存在著復雜的高維關聯,機器學習方式基于大量數據也很難學到深刻的物理認知,極易被數據中淺層的特性欺騙,致使模型在特定數據集中表現良好,在陌生數據集中大打折扣。諸如在物理反應中,參與反應的分子的結構組成很簡略,局部看只有原子與物理鍵,而且每位原子與鍵就會遭到全局物理環境以及外部反應條件的不同影響,這些局部、全局與外部的高度耦合大大增強了機器學習的難度,并且現有的這些反應預測模型無法達到預期。
描述符的選擇是影響物理機器學習的關鍵誘因。波譜作為物質結構的低維表示,具備可估算可檢測的特性,使得原本遭到第一性原理的約束。這促使波譜作為描述符有望幫助物理機器學習模型破解“構效”高維關聯,構建可解釋、可時延的地理模型,提高機器學習的物理認知。
作者在之前的研究中(J.Am.Chem.Soc.2020,142,7737;J.Am.Chem.Soc.2021,143,4405),發覺電/磁偶極矩可以作為表征微觀性質的機器學習描述符,由于他們攜帶了電子基態和電勢分布的微觀信息。而波譜(如紅外和拉曼)作為試驗更容易觀測的信息,與所研究機制的電/磁偶極矩存在緊密的關聯(J.Am.Chem.Soc.2020,142,19071;ProcNatlAcadSciUSA.2022,119,e2202713119)。這促使波譜訊號具有了描述表面-分子互相作用、原子與物理鍵特性、分子與物理環境耦合等信息,甚至引進物理認知的潛力。相較于傳統的物理結構或單一屬性描述符,譜學描述符和物理性質/反應間的關系愈發簡略直接,有望訓練出格外精確、易于理解且更具實用性的預測模型。
圖文解讀
基于英特爾量密度泛函(DFT)估算形成的數據,作者應用機器學習方式首次在波譜描述符和表面-吸附物互相作用性質之間構建了可定量預測、可遷移學習和可物理解釋的關聯性。研究將吸附在金屬(Au、Ag)表面的小分子(CO、NO)的紅外和拉曼波譜特性作為描述符,應用基于壓縮感知的機器學習算法,提取得到從波譜描述符到吸附能、電荷轉移和分子鍵能等關鍵目標性質的物理描述公式。令人激動的是,這種物理公式就能成功遷移學習到一系列金屬和合金(包括高熵合金)表面吸附機制。對于每位新機制,只須要5-10組新的數據來再次擬合物理公式中的擬合參數,即可實現對目標性質的合理預測。逐步研究發覺,很多物理公式包含了不同金屬表面對分子吸附的共性特點,而其擬合參數則完全由金屬本來的固有特征決定,即實現了對波譜描述符蘊涵的理化信息的時延。這種發覺提供了一種機器學習與波譜技術相結合的新策略,適于實現從波譜信息到微觀性質的直接預測。
為了研究波譜訊號與表面-分子互相作用的關系,作者建立了四個吸附機制(CO/NO@Ag/Au)總共70,500個吸附構象,應用DFT對每位吸附構象一方面進行速率剖析以獲取紅外和拉曼波譜的速率和硬度作為機器學習的描述符,另一方面進行單點估算以斬獲關鍵的吸附信息作為機器學習的目標性質,包括吸附能(Eads)、表面和被吸附物之間的電勢轉移(Δe)、C-O或N-O的鍵能(Eb),以及金屬表面的d帶中心(εd)。如圖2所示,作者選用機器學習額外樹回歸(ETR)模型幾乎完美預測了目標性質。所有預測Pearson相關系數均為~0.99,預測偏差均在DFT的估算偏差范圍內。
圖2:基于譜學描述符(a)預測催化劑-分子機制CO@Au(111)的表面互相作用及其關鍵參數(b):吸附能Eads,電勢轉移量Δe,鍵能Eb,d-帶中心εd.
好的機器學習模型還要具有可遷移性,即通過模型訓練獲取的知識可適于解決相關的其它問題。機器學習模型實現了從CO@Ag機制到CO@Ag、NO@Au、NO@Ag等機制的遷移,得到了挺好的預測療效。接著,作者嘗試理解波譜描述符的數學內涵。重要性剖析證明了分子(C-O或N-O)伸縮震動的速率變化與吸附硬度的高度相關性,驗證了分子軌道理論帶給的物理理解。逐步地,作者應用基于壓縮感知的機器學習模型SISSO來挖掘波譜描述符與目標性質之間的物理依賴關系,以獲取更好的模型可解釋性。
基于震動波譜特性的物理公式表現出強悍的泛化預測能力,如圖3a-c所示,作者證明了存在通適于34種遷移機制的物理公式,適于遷移學習和預測不同金屬表面對分子的吸附行為。遷移到的目標金屬包括具備空位缺陷的Au、單金屬(Pt、Pd、Ir、Rh和Cu),二元合金(AuAg、CuPd、CuPt、CuRh、CuIr、PdPt)和高熵合金(AgAuPdPtCu)。這闡明基于波譜描述符的物理公式早已捕獲到了潛在的化學體系。逐步地,作者發覺公式中的變量由波譜描述符組成,包含了所有機制的共性特點,而公式中的擬合參數(如圖3c中的a1/b1/c1/d1和a2/b2/c2/d2)則包含了不同金屬表面的個體差距信息,由每位遷移機制的固有特征(如如功函數和表面產生能等)完全決定并可以通過少量(5-10組)數據來校準。這闡明,這種基于波譜描述符的物理公式實現了對震動波譜描述符的時延,以分離不同金屬表面的共性與固有特征對分子吸附的貢獻。
圖3:(a-b)基于CO@Ag(111)和CO@Au(111)機制的機器學習預訓練模型(SISSO提取的解讀式子)可以被遷移應適于34種不同類別的金屬材料吸附CO分子機制的波譜-催化活性參數關系預測,其遷移和關鍵參數擬合僅依賴于被遷移對象的少量數據(2-5組數據)(c)。(d)模型遷移所需的擬合參數只與分子震動波譜訊號有關,而與金屬基體類別無關,說明可解釋的機器學習模型有效分離了基體材料與分子的特征信息。
在上述工作的基礎上,作者探求了在圖血管網路中嵌入譜學描述符,為反應路徑預測模型引進物理認知。設計了5個機器學習模型,結合蒙特卡洛樹搜索,建立了反應路徑反向規劃算法,對于任意有機小分子,可以給出從商業原料分子到目標分子的合成方法、每步的合理智分數以及催化劑、溶劑等反應條件信息。作者基于第一性原理估算得到的46萬譜學數據和15萬鍵電離能數據設計了融合譜學和物理信息的分子圖描述符(CIMG),并將CIMG描述符應適于反應反向預測、催化劑預測、溶劑預測、反應合理智判定、多步路徑規劃等5個機器學習模型。
圖4.物理反應路徑反向預測。(A)五種常見反應類別(反應模版)。(B)經過300萬反應數據的訓練后,分別使用兩個不同描述符(基于分子結構的GNN描述符和基于NMR譜的CIMG描述符)的GNN模型輸出的globalvector對五種常見反應類別覆蓋的產物進行降維,觀察降維圖,可以看見基于NMR譜的CIMG描述符更才能推動模型學習并理解不同物理反應的細微差別與共性。(C)物理反應路徑反向規劃步驟。(D)三種描述符的反應預測精確性:基于分子結構的GNN描述符(藍色圓形線纜);Morgan分子指紋描述符(紅色三角點線);基于NMR譜的CIMG描述符。
在反應反向預測模型中,作者對比了融入NMR譜學特性的CIMG描述符和普通的基于分子結構的GNN描述符,以五種常見反應類別(圖4A,T1~T5)為例,對數十萬分子進行降維,可以看見CIMG描述符的殘差療效顯著好于普通GNN描述符(圖4B)。尤其值得留意的是,基于CIMG描述符的模型學到了不同反應類別的共性:T2和T5中盡管離去配體不同,但都是胺的親核反應,但是在實際反應中,通常都是將T2中的吡啶鹵化,再使用T5進行反應,因此實際上T2和T5就是一類反應,這一點在CIMG的殘差圖(圖4B)中得到完美展現(紅色和藍色區域基本重合)。另外,基于CIMG描述符的模型也學到了相同反應類別的細微差別性:T4和T5中的結構十分相像,雖然反應成因完全不同,在CIMG的殘差結果(圖4B)中也展現出了這些掩藏在結構下的反應性的差別性(紅色和藍色區域分離分布)。經過檢測集的檢測也可以看出融入NMR譜的CIMG描述符的優越性。如圖4C-D顯示,普通的GNN描述符的預測療效(紅色圓形點線)遠遠不如基于分子指紋的深度學習(紅色三角點線,Nature2018,555化學測量學與技術,604),而使用了加入NMR譜和鍵能等譜學和物理特性的CIMG描述符后(紅色心形點線),GNN模型反超深度學習模型?;贑IMG描述符,作者設計了催化劑預測、溶劑預測、反應合理智判定、多步路徑規劃等多個機器學習模型,其確切性和靠譜性均少于普通的GNN描述符。結合5個機器學習模型和蒙特卡洛樹搜索,作者建立的物理反應路徑反向規劃算法實現了精確靠譜的路徑規劃功能,經過4萬余個新分子的檢測,有70%的分子可以在1分鐘內得到合成方案,85%的分子可以在30分鐘內得到合成方案。
小結與展望
兩個工作都展現了怎樣運用波譜的可降維描述符來破解構效關系的高維關聯,并為機器學習模型賦于物理認知。
在關于表面科學的研究中,作者結合DFT估算和機器學習技巧,確立了可估算、解耦和便于檢測的波譜描述符,并挖掘了波譜描述符與吸附特征之間的物理關聯。這些步驟可以很容易地擴充到各種類型的波譜技術,比如基于電子結構的波譜和/或多維波譜等,也將推動原位波譜表征技術適于提供原位和實時剖析的策略。本研究展示了機器學習從宏觀可檢測數據(比如波譜訊號)中直接提取微觀信息(比如吸附相關特征)的潛力,為試驗直接測定吸附能、電荷轉移和分子鍵能等微觀信息夯實了堅固的理論基礎。
在關于反應預測的研究中,作者結合DFT估算、圖血管網路和大量物理相關數據,確立了融合譜學特性、化學知識的反應描述符(CIMG),成功破解分子結構與反應性之間復雜的高維關聯,使機器學習模型敏銳捕捉反應類別之間細微的共性和差別性。本研究設計了譜學特性、化學知識以及分子結構的描述符,并建立了愈加精確和牢靠的物理反應反向預推算法,為手動化的、可實用的物理反應反向路徑規劃提供了新的思路。
作者簡介
江俊,美國科學技術學院物理與材料科學大學校長,主要從事理論物理與人工智能的交叉研究,聚焦于復雜機制內電子運動模擬,研究在多個數學與物理應用領域(催化/光催化、生物物理、光物理、分子電子學與光子學)中的實際問題。在國際著名SCI刊物如Nat.Energy,Nat.commun.,J.Am.Chem.Soc.,Adv.Mater.等發表論文180余篇。近些年來結合數據挖掘和人工智能技術,主持開發了全球首個估算數據驅動的全步驟機器物理家系統(~jiangj1/AIChem.mp4),發展了5個估算硬件包,在多個國家的著名研究組應用。開發了物理材料知識圖譜,建設了大規模材料科學數據庫平臺(),包含9000萬分子、30萬晶體材料、1100萬物理反應、數萬種催化/光電材料等數據資源。獲2015年美國物理會唐敖慶青年理論物理家獎,2020年美國物理會杰出沙龍獎,2020年獲自然科學基金委杰出青年基金捐助。
王翕君,美國科學技術學院教授,現中國東北學院博士后,主要從事理論物理和機器學習在多個能源與環境交叉領域的應用研究,如光、電催化,奈米材料,物理鏈等。在國際著名SCI刊物如J.Am.Chem.Soc.,EnergyEnviron.Sci.,Nat.Commun.,Adv.Mater.等發表論文60余篇,并兼任Phys.Rev.Lett.,Nat.Commun.,J.Chem.Phys.,ACSSustain.Chem.Eng.等30余個國際知名刊物審稿人。
張百成,??平Y業于美國科學技術學院晚清地理系,現在在美國科學技術學院未來技術大學攻讀碩士學位,主要從事物理合成、光譜與人工智能的交叉研究工作。
文獻來源
(1)XijunWangetal.,QuantitativelyDeterminingSurface–AdsorbatePropertiesfromVibrationalSpectroscopywithInterpretableMachineLearning,JournaloftheAmericanChemicalSociety,2022,144,16069.
(2)BaichenZhangetal.,ChemistryInformedMolecularGraphasReactionDescriptorsforMachineLearnedRetro-SynthesisPlanning,ProceedingsoftheNationalAcademyofSciencesUSA,2022,119,e2212711119.