AI又立功了。
這次一項新的AI機器學習算法「Ikarus」,可破解癌細胞和正常細胞的基因特征差別。
這項研究由MDC生物信息學家Altuna Akalin團隊完成,并發表在Nature子刊「Genome Biology」上。
另外,負責本次研究的機構MDC(Max Delbrück center)還是德國四大研究機構之一的亥姆霍茲聯合會的16個研究中心之一。
既然這么大來頭,那這份研究為啥重磅?
從浩如煙海的數據集里篩選出一種「共通的特征」,人類肯定比不上AI。
而要將癌細胞和正常細胞區分開來,就需要篩選出它們之間的共通特征。
這次MDC的研究團隊開發的Ikarus發現了腫瘤細胞中的共通模式(Pattern),它由一系列基因組特征組成,并且常見于各種類型的癌癥。
另外,算法還檢測到了從未和癌癥掛鉤的基因種類。
于是研究團隊提出了一個簡單的問題:
是否有可能制作一個分類器,將腫瘤細胞與多種癌癥類型的正常細胞正確區分開來?
于是就有了Ikarus的誕生。它囊括兩個步驟:
1、通過整合多個經過專業注釋的單細胞數據集,以基因集的形式發現全面的腫瘤細胞特征;
2、訓練穩健的邏輯回歸分類器以嚴格區分腫瘤和正常細胞,然后使用定制的細胞-細胞網絡進行細胞標簽的基于網絡的傳播。
團隊負責人Altuna Akalin說:
為開發一種強大、靈敏和可重復的計算機腫瘤細胞分選儀,我們已經在使用不同測序技術獲得的各種癌癥類型的多個單細胞數據集上測試了Ikarus,以確定它適用于不同實驗環境。
驚人的成功率
該論文的第一作者Jan Dohmen表示,在專家已經清楚地區分健康細胞和癌細胞的情況下,獲得合適的訓練數據是一項重大挑戰。
單細胞測序數據集通常很冗雜。
這意味著它們包含的關于單個細胞分子特征的信息不是很精確,因為在每個細胞中檢測到不同數量的基因,或者因為樣本的處理方式并不總是相同。
Dohmen和該研究的聯合負責人Vedran Franke博士說,
我們篩選了無數出版物并聯系了相當多的研究小組,以獲得足夠的數據集。團隊最終選擇來自肺癌和結直腸癌細胞的數據來訓練算法,然后再將其應用于其他類型腫瘤的數據集。
在訓練階段,Ikarus需要找到一個「特征基因列表」,然后將其用于對細胞進行分類。
我們嘗試并改進了各種方法,Ikarus最終使用兩個列表:一個用于癌癥基因,另一個用于來自其他細胞的基因,弗蘭克解釋道。
經過訓練之后,該算法就能夠區分其他類型癌癥中的健康細胞和腫瘤細胞,比如來自肝癌或神經母細胞瘤患者的組織樣本。
而在其他樣本中的結果令人雀躍,成功率出奇地高,最高可達99%。
「我們沒想到會有一個共同的特征可以如此精確地定義不同類型癌癥的腫瘤細胞」,Akalin說。
「但我們仍然不能說這種方法是否適用于所有類型的癌癥」,Dohmen補充道。
不只是癌細胞區分
為了將Ikarus變成一種可靠的癌癥診斷工具,研究人員現在希望在其他類型的腫瘤上對其進行測試。
在最初的測試中,Ikarus已證明該方法還可以將其他類型(和某些亞型)的細胞與腫瘤細胞區分開來,不僅限于腫瘤細胞檢測。
它可用于檢測任何細胞狀態,比如細胞類型,唯一的要求是細胞狀態至少存在于兩個獨立的實驗中。
Akalin說:
我們希望使這種方法更加全面,進一步發展它,以便它可以區分活檢中所有可能的細胞類型。
在空間測序數據集上應用自動腫瘤分類可以直接注釋組織學樣本,從而促進自動化數字病理學。
在醫院,病理學家通常只在顯微鏡下檢查腫瘤的組織樣本,以識別各種細胞類型。這是一項費時費力的工作。
有了Ikarus,這一步驟有朝一日可能成為一個完全自動化的過程。
另外,Akalin指出,這些數據可用于得出關于腫瘤直接環境的結論。這可以幫助醫生選擇最好的療法。對于癌組織和微環境的構成,通常表明某種治療或藥物是否有效。
另外,AI也可能有助于開發新的藥物。
「Ikarus讓我們能夠識別出可能導致癌癥的基因,然后可以使用新的治療劑來靶向這些分子結構」Akalin說。