Brief Bioinform?|?上海藥物所合作構(gòu)建靶向EGFR突變肺癌的用藥推薦平臺D3EGFR

文章來源:上海藥物研究所  |  發(fā)布時間:2024-04-15  |  【打印】 【關(guān)閉

  

2024年3月28日,中國科學(xué)院上海藥物研究所朱維良/徐志建團隊、上海市肺科醫(yī)院謝冬團隊和南京醫(yī)科大學(xué)第一附屬醫(yī)院丁穎團隊合作,于Briefings in Bioinformatics發(fā)表題為“D3EGFR: a webserver for deep learning-guided drug sensitivity prediction and drug response information retrieval for EGFR mutation-driven lung cancer”的研究文章。該研究通過構(gòu)建表皮生長因子受體(EGFR)突變患者臨床用藥數(shù)據(jù)庫和EGFR突變藥物敏感性預(yù)測模型,有望輔助臨床醫(yī)生設(shè)計合理可靠的個體化治療方案。


靶向EGFR突變肺癌的用藥推薦平臺D3EGFR

肺癌是對人類生命健康威脅最大的惡性腫瘤之一,被稱為癌癥的“頭號殺手”。2020年發(fā)布的統(tǒng)計報告顯示[1],肺癌在全球范圍內(nèi)有超過220萬的新病例和超過180萬的死亡人數(shù)。非小細(xì)胞肺癌是臨床上最常見的肺癌類型,約占肺癌診斷總?cè)藬?shù)的85%,其主要亞型有腺癌、鱗狀細(xì)胞癌以及大細(xì)胞癌。

EGFR是研究最為廣泛的肺癌驅(qū)動基因之一,也是開發(fā)治療非小細(xì)胞肺癌靶向藥物的重要靶標(biāo)。隨著現(xiàn)代分子生物學(xué)技術(shù)和醫(yī)療水平的迅速發(fā)展,具有高選擇性和高安全性的靶向藥物成為當(dāng)前肺癌精準(zhǔn)醫(yī)療的重點研究方向。EGFR酪氨酸激酶抑制劑(EGFR-TKIs)是EGFR突變肺癌患者的標(biāo)準(zhǔn)治療選擇。但臨床發(fā)現(xiàn),不同突變型患者對藥物的治療效果存在差異性,且部分患者在藥物治療一段時間后會產(chǎn)生耐藥性突變。隨著基因測序方法的發(fā)展,許多臨床意義不明的新型EGFR突變類型被陸續(xù)鑒定出來,給這類突變患者的個體化精準(zhǔn)醫(yī)療帶來了新的挑戰(zhàn)。

在本研究中,為了解決臨床案例數(shù)據(jù)匱乏的問題,研究人員首先收集了近二十年EGFR突變肺癌患者的臨床治療相關(guān)文獻,并由此構(gòu)建了EGFR突變患者臨床用藥數(shù)據(jù)庫D3EGFRdb。D3EGFRdb中收集的突變患者案例主要包含三方面信息:一是個體特征,如突變位點、性別、年齡、吸煙狀況、病理學(xué)和采用的治療藥物等;二是用藥結(jié)果,如藥物響應(yīng)、疾病進展時間(TTP)、無進展生存期(PFS)和總生存期(OS)等,藥物響應(yīng)類型包括完全緩解(CR)、部分緩解(PR)、疾病穩(wěn)定(SD)和疾病進展(PD);三是其他信息,如臨床研究類型和原始文獻出處等。通過在PubMed數(shù)據(jù)庫中系統(tǒng)檢索,D3EGFRdb共收錄了141篇相關(guān)文獻,包含了1339例患者和257種突變類型(圖1)。建立D3EGFRdb數(shù)據(jù)庫的目的是:一是根據(jù)已報道的患者治療案例為醫(yī)生提供有據(jù)可循的用藥決策依據(jù);二是用于本研究中構(gòu)建的計算模型的預(yù)測效果評價;三是作為未來其他研究人員開展此類相關(guān)研究的寶貴的臨床數(shù)據(jù)資源。

圖1? D3EGFRdb中的患者突變類型和臨床藥物響應(yīng)分布。(A)EGFR突變在蛋白三維結(jié)構(gòu)上的分布;(B)每種藥物的患者病例分布。

通過對臨床案例進行分析(圖2),女性(女性 vs. 男性:47.8% vs. 31.6%)、60-79歲(34.1%)和非吸煙者(非吸煙者 vs. 曾經(jīng)或目前吸煙者:39.1%對23.8%)是EGFR突變頻率較高的群體。這表明患者的個體特征與EGFR突變肺癌的發(fā)病率存在特定聯(lián)系。其中,患者的主要病理是腺癌(ADC vs. 非ADC:68.1% vs. 7.9%)。在突變類型和分布位點上,點突變是最常見的突變種類(48.6%),其次是缺失型突變(16.3%),主要包括外顯子21的L858R突變和外顯子19的缺失突變。


圖2? D3EGFRdb中的患者個體特征。(A-F)患者的性別、年齡、吸煙史、病理學(xué)、突變類型和突變外顯子分布情況。

此外,研究人員進一步考察了深度學(xué)習(xí)算法快速預(yù)測特定突變型的藥物敏感性變化的可行性。深度學(xué)習(xí)算法具有神經(jīng)網(wǎng)絡(luò)架構(gòu)的靈活性,在預(yù)測藥物與靶標(biāo)的相互作用方面取得了顯著的進展。同時,深度學(xué)習(xí)模型訓(xùn)練過程中不依賴蛋白質(zhì)三維結(jié)構(gòu),可有效避免突變體建模結(jié)構(gòu)的誤差影響。在該部分,研究人員采用DeepPurpose庫[2]構(gòu)建了80種不同編碼器組合的深度學(xué)習(xí)模型,并將EGFR-TKIs藥物結(jié)構(gòu)和突變蛋白質(zhì)的氨基酸序列及其對應(yīng)的生物活性信息作為輸入數(shù)據(jù),來探索EGFR突變型與藥物敏感性之間的關(guān)系。其中,有17種預(yù)測模型在生物活性數(shù)據(jù)集上的十折交叉平均相關(guān)性R大于0.8,表明利用深度學(xué)習(xí)模型預(yù)測突變蛋白質(zhì)和藥物的結(jié)合親和力具有可行性。

隨后,科研人員將這17種模型進一步應(yīng)用于D3EGFRdb臨床數(shù)據(jù)集。由于訓(xùn)練深度學(xué)習(xí)模型時采用的標(biāo)簽是生物學(xué)活性數(shù)值,而D3EGFRdb庫的標(biāo)簽是CR、PR、SD和PD這四種藥物治療響應(yīng)類型,因此需要再構(gòu)建多分類邏輯回歸模型,從而將深度學(xué)習(xí)模型預(yù)測的藥物對不同突變型的親和力打分與臨床藥物響應(yīng)類別進行關(guān)聯(lián),進而處理多分類預(yù)測問題。最終發(fā)現(xiàn)當(dāng)藥物編碼器為Morgan,突變蛋白編碼器為CNN時,綜合預(yù)測效果最佳,其在生物活性測試集上的相關(guān)性為0.86,在D3EGFRdb臨床案例集上的準(zhǔn)確率為0.81,在外部臨床數(shù)據(jù)集上的準(zhǔn)確率為0.85?;诖?,將Morgan+CNN深度學(xué)習(xí)模型作為EGFR突變蛋白藥物敏感性預(yù)測的最終模型,并命名為D3EGFRAI。D3EGFRAI模型構(gòu)建流程如圖3所示。

圖3? 不同編碼器組合的深度學(xué)習(xí)框架

進一步分析臨床案例,擁有同種突變型的不同患者在服用同一種藥物后可能出現(xiàn)不同的臨床藥物響應(yīng)。為此,D3EGFRAI模型同時輸出了每種藥物響應(yīng)的預(yù)測概率,這將有助于更好地評估各藥物的治療效果。從中可以發(fā)現(xiàn),多數(shù)突變-藥物體系可能存在一到兩種概率較高的藥物響應(yīng)(圖4),這可能與患者個體差異和其他現(xiàn)實環(huán)境下的復(fù)雜因素有關(guān)。

圖4? 不同突變體系的各藥物響應(yīng)預(yù)測概率

為了方便用戶使用,研究人員整合D3EGFRdb數(shù)據(jù)庫和D3EGFRAI模型構(gòu)建了D3EGFR在線平臺。該網(wǎng)站對所有用戶免費開放,無登錄要求,同時支持英文和中文(簡體)語言,為用戶提供EGFR突變患者的病例檢索和臨床藥物響應(yīng)預(yù)測服務(wù)。以T790M+L858R突變型為例,D3EGFRdb共收錄了29例該突變型患者(圖5),其中奧希替尼的CR/PR藥物響應(yīng)率為78.5%,優(yōu)于吉非替尼(0%)、厄洛替尼(0%)和阿法替尼(14.3%),表明奧希替尼是治療T790M+L858R突變患者的有效藥物。本模塊除了提供突變型與藥物治療效果的統(tǒng)計結(jié)果外,還提供了每位患者案例的具體臨床特征和原始文獻出處等信息。根據(jù)D3EGFRAI模型的預(yù)測結(jié)果,T790M+L858R突變型對第三代藥物奧希替尼、艾美替尼和伏美替尼較為敏感,預(yù)測的藥物響應(yīng)均為CR/PR;而對第一代藥物吉非替尼、厄洛替尼和??颂婺嵋约暗诙幬锇⒎ㄌ婺岷瓦_克替尼則是耐藥抵抗,預(yù)測的藥物響應(yīng)均為PD,這一結(jié)論與D3EGFRdb的案例統(tǒng)計結(jié)果以及之前的報道一致。

圖5? D3EGFR平臺的輸入和輸出信息

該論文第一作者為上海藥物所博士研究生石禹龍,共同第一作者為上海市肺科醫(yī)院博士研究生李重武和上海藥物所張鑫賁高級實驗師,通訊作者為朱維良研究員、徐志建研究員、謝冬主任醫(yī)師和丁穎副主任醫(yī)師。該工作還得到華東師范大學(xué)張倩副研究員和南京醫(yī)科大學(xué)孫鵬副教授等的大力支持。該項研究工作得到了國家自然科學(xué)基金、科技部重點研發(fā)項目等的資助。

原文鏈接:https://doi.org/10.1093/bib/bbae121

參考文獻

[1] Sung H, Ferlay J, Siegel RL, et al.. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin 2021;71:209–49.

[2] Huang K, Fu T, Glass LM, et al.. DeepPurpose: a deep learning library for drug-target interaction prediction. Bioinformatics 2021;36:5545–7.?