基因的轉錄在生物學中心法則中處于承上啟下的重要環節,與相對“靜態”的基因組相比,轉錄組在不同組織/器官/發育階段均有顯著變化,是細胞完成相應生理/病理功能的重要生物學基礎。
細胞是構成生命的基礎單元,迅速發展的單細胞測序技術為在單細胞層面研究細胞功能及其背后的基因調控機制提供了重要的技術手段,單細胞測序可用于檢測多種不同的組學種類,包括轉錄組、染色質開放組、DNA甲基化組、組蛋白修飾組等等,對不同組學技術產生的數據進行整合分析有助于更全面地刻畫細胞內的基因調控狀態、揭示調控機制。然而,與傳統的bulk數據相比,單細胞數據具有規模大(百萬級細胞)、噪聲高(dropout,batch effect)、異構性強等特點,如何通過開發新的計算方法實現對這些寶貴數據的有效利用已成為當今生物信息學領域關注的重點與熱點。2022年5月2日,北京大學/昌平實驗室高歌課題組在 Nature Biotechnology
期刊發表了題為:Multi-omics single-cell data integration and regulatory
inference with graph-linked embedding 的研究論文。該研究提出了基于圖耦聯策略的深度學習方法 GLUE,首次實現了對百萬級單細胞多組學數據的無監督精準整合與調控推斷。

單細胞多組學數據整合的一大挑戰在于不同組學的特征空間存在差異,例如轉錄組的特征是基因,而染色質開放組的特征是染色質開放區段,不同特征空間的細胞缺乏可比性。為了解決這一問題,GLUE
提出了全新的圖耦聯(graph-linking)策略,將組學特征間的先驗調控關系表示成引導圖(guidance
graph)的形式,其中節點為組學特征,邊為組學特征間的先驗調控關系。模型采用變分圖自編碼器(Variational Graph Auto
Encoder,
VGAE)學習組學特征的低維表示作為組學數據的解碼器權重,從而將不同組學的低維隱空間表示關聯起來并確保其“語義一致性”;在此基礎上,GLUE進一步引入對抗學習以消除不同組學降維表示之間的系統性差異(圖
1)。

圖 1 GLUE模型的結構示意圖
與其它方法相比,GLUE的主要優勢包括:
1. 多組學整合的精度高:多個單細胞轉錄組與染色質開放組數據的整合評測顯示,GLUE無論是在細胞類型層面和單細胞層面,相比已有單細胞多組學整合算法具有更高的整合精度(圖 2a–c);2.
對于先驗調控知識具有魯棒性:GLUE引導圖中使用的先驗調控關系無需特別精確,以單細胞轉錄組與染色質開放組數據整合為例,只要將染色質開放區段與臨近基因相連就可以構建有效的引導圖,噪聲實驗表明即便對上述引導圖添加大量隨機擾動,GLUE仍能得到正確的整合結果(圖
2d);

圖2 GLUE的多組學整合性能評測結果
3. 具有較高的計算可擴展性(scalability):GLUE的計算復雜度與細胞數之間呈亞線性(sublinear)關聯,是同類方法中唯一可以精準分析上百萬單細胞的方法(圖 3);

圖3 GLUE首次實現了圖譜級超大規模單細胞多組學數據的準確整合。與同類工具相比,GLUE在細胞分辨率與疊合精度方面均具有顯著的優勢
4. 可支持任意數量、調控方向的組學數據:通過引入組學特異的變分自編碼器(Variational
AutoEncoder,
VAE)組件堆疊,GLUE支持對多組學非配對(unpaired)數據的無監督整合。作者成功用其整合了小鼠大腦上皮的單細胞轉錄組、染色質開放組和DNA甲基化組,并顯示了三組學整合可以有效地改善細胞的類型注釋。與此同時,GLUE在設計上引入了模塊化思想,可容易地進一步擴充以支持如單細胞Ribo-seq、空間轉錄組等更多組學類型數據整合;5.
可同時進行調控推斷:除了細胞層面的跨組學匹配,由于GLUE在先驗調控圖中直接對調控關系進行了建模,還可綜合先驗調控信息與多組學數據統計相關性,實現可靠的轉錄調控推斷,作者以外周血數據集為例,應用GLUE整合了pcHi-C物理相互作用、eQTL突變表型關聯、以及單細胞轉錄組與染色質開放組資料,并證明GLUE可有效整合多種調控證據以得到精準的調控關聯(圖
4)。值得指出的是,GLUE引導圖所需的先驗調控關系無需特別精確(以單細胞轉錄組與染色質開放組數據整合為例,只要將染色質開放區段與臨近基因相連就可以構建有效的引導圖),系統的評測顯示GLUE多組學整合與調控推斷均具有較強的魯棒性。

圖4 GLUE可綜合先驗調控知識與單細胞多組學觀測進行可靠的調控推斷
GLUE 全部實現代碼已經開源發布(https://github.com/gao-lab/GLUE),可通過 PyPI 和 Anaconda 平臺直接安裝使用。博士生曹智杰為該論文第一作者,高歌研究員為該論文通訊作者。該研究得到了國家重點研發計劃、蛋白質與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創新中心和昌平實驗室的資助。計算分析工作于北京大學高性能計算校級公共平臺和北京大學太平洋高性能計算平臺完成。

高歌,北京大學生物醫學前沿創新中心(BIOPIC)、北京未來基因診斷高精尖創新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、暨蛋白質與植物基因研究國家重點實驗室研究員、博士生導師。作為國內自主培養的首批生物信息學博士,高歌博士長期專注于生物信息新技術新方法開發,采取數據導向、方法驅動的策略,推進高水平生物信息學研究和技術發展。 2016年至今,課題組自主開發的十余個生物信息學新算法軟件及數據庫獲超過14億次外部有效訪問,半數以上來自海外,躋身于國內自主開發最具國際影響力的生物信息技術行列;期間所發表研究論文多篇入選ESI
Highly Cited (Top 1%) Paper,Faculty 1000 Very Good
Paper、中國生物信息學十大進展、中國生物信息學十大數據庫、中國熱點論文榜等,累計它引逾萬次,多次入選Clarivate/SCI高被引學者、Elsevier中國高被引學者等。課題組當前研究集中在開發新一代生物信息學方法與技術,在單細胞水平精準構建、解析細胞調控圖譜并探索其在生物醫學方面的應用。