差異表達(differentially expressed,DE)基因的檢測和評估一直是單細胞 scRNA-seq 數(shù)據(jù)分析中關鍵的一步,準確可靠的 DE 基因結果對下游分析具有深遠影響。scCODE 算法提出全新的單細胞 scRNA-seq 數(shù)據(jù)一站式個性化 DE 基因分析系統(tǒng),通過對單細胞數(shù)據(jù)多次建模分析,自動評估優(yōu)化分析結果,為科研人員深入解析單細胞數(shù)據(jù)提供準確高效的新工具。

2022 年 5 月 23 日, 復旦大學郝潔 / 鄒欣團隊與辰山植物園陳可 組在 Briefings in Bioinformatics(計算生物學一區(qū),IF=11.6)上發(fā)表了題為:”scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data”的研究論文。該研究評估 40 余種 DE 分析策略,基于自主研發(fā)的,無需先驗信息的兩個新的評估參數(shù),開發(fā)了 scRNA-seq 數(shù)據(jù)個性化 DE 基因篩選系統(tǒng)平臺——scCODE(圖 1)。
圖 1:Evaluation of DE gene detection performance and schematic of scCODE.
在以往的研究中,過濾低表達的基因被認為有助于 DE 分析,但其真正影響尚未得知,基因過濾也無統(tǒng)一標準。本研究第一部分從 FPR、TPR 和 AUROC 等評估標準分析了不同基因過濾方法對 DE 結果的影響。結果發(fā)現(xiàn),恰當?shù)幕蜻^濾和 DE 方法的組合可以得到更好的 DE 結果,而不恰當?shù)慕M合卻會起到相反的效果。當 DE 分析策略所推測的 DE 基因表達分布與實際的基因表達分布更接近時,才能得到更準確的 DE 基因結果(圖 2)。
圖 2:Investigation of DE gene distribution detected by different combinations of methods, based on simulated-EMTAB8077_heart_kidney.
實際應用中,探索未知領域的 scRNA-seq 樣本,其概率分布不同,且缺乏先驗知識,無法通過已有的評估標準如 AUROC 去挑選好的分析方法。在本研究中,研究者設計了新的評估參數(shù) CDO 和 AUCC,可以在無需先驗知識的創(chuàng)新性研究中,獲得針對不同數(shù)據(jù)的分析策略,更高的真正例率(TPR)和很低的假陽性率(FPR)。
在對小鼠肺癌發(fā)育 CD4+ T 細胞分析時,好的分析策略檢測到的 DE 基因可以清楚地區(qū)分兩組細胞,并且隨著使用更多基因,細胞聚類的更加清晰。然而,差的分析策略的結果并非如此,未激活的 CD4+ T 細胞仍與活化的 CD4+ T 細胞聚集在一起(圖 3)。同時在小鼠心臟和腎臟內(nèi)皮細胞以及人類肺癌 macrophage m1 m2 數(shù)據(jù)分析中也得到了類似的結果。
圖 3:scCODE validated on real scRNA-seq data comparing activated CD4+ T cells with na?ve cells.
該平臺已經(jīng)發(fā)布于 GitHub(https://github.com/XZouProjects/scCODE)。目前已收到多個用戶反饋良好。論文的通訊作者為復旦大學附屬中山醫(yī)院郝潔研究員,復旦大學附屬金山醫(yī)院鄒欣副研究員和辰山植物園陳可副研究員。上海交通大學生命科學技術學院 2019 級碩士鄒佳偉為論文第一作者。
該研究得到了國家自然科學基金(82170045,31800253),上海交通大學醫(yī)學院高水平地方高校創(chuàng)新團隊 (SSMU-ZLCX20180502) 上海市綠化和市容管理局科研專項(G222410)等項目支持。
全文鏈接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac180/6590434