近年來聯(lián)合多組學分析已經(jīng)成為表觀領(lǐng)域的研究熱點,利用單一組學數(shù)據(jù)分析致病因子的局限性愈發(fā)顯著。通過多組學聯(lián)合分析將有助于人們更加系統(tǒng)全面的認識腫瘤的生物學行為,進一步為尋找有價值的腫瘤標志物和探討腫瘤相關(guān)機制提供新的線索。這篇NC文章聚焦在了肝癌這個腫瘤上面,看看組學分析能夠得到什么有意思的發(fā)現(xiàn)呢?
作者從以轉(zhuǎn)錄組的數(shù)據(jù)入手,結(jié)合基因組數(shù)據(jù)和表觀數(shù)據(jù)進行差異分析。看能不能找到與肝癌的發(fā)生發(fā)展密切相關(guān)的異常基因或者是通路。
主要研究思路和結(jié)論是:
1.分析64個肝癌病人樣本,通過尋找DNA甲基化(MET cor)和DNA拷貝數(shù)變異(CNV cor)差異表達基因,證明了異常的MET cor和CNV cor的基因有些顯著的共調(diào)控作用。
2.進一步研究,能否根據(jù) MET cor和CNV cor進行肝癌分型,將已有的肝癌樣本分為三個亞型。并且在TCGA數(shù)據(jù)庫中進行驗證(NMF算法)
3.篩選對HCC侵襲性影響最大的基因變異BAP1,對腫瘤的侵襲有著至關(guān)重要的作用,而且在 Huh7細胞轉(zhuǎn)染實驗進行驗證
帶著問題去思考:
1:為什么選擇肝癌?
2:作者是怎樣找到這些異常的DNA甲基化基因和拷貝數(shù)變異的基因的?
3:如何去證明這些基因的共調(diào)控作用呢?既然共調(diào)控,調(diào)控的機制是什么?(或者是說如何去聯(lián)系DNA甲基化和拷貝數(shù)變異的?)
4:是如何對肝癌進行分型的呢?分類結(jié)果如何顯示呢?怎么驗證?
5:如何篩選功能最顯著表達差異的基因(如何篩選到BAP1?)
1:DNA甲基化和拷貝數(shù)變異發(fā)生在腫瘤的侵襲中
2:肝癌是重大公共衛(wèi)生問題,中國尤甚;同時對于肝癌來說,基因組和表觀組的異質(zhì)性大,簡單介紹一下今天的主角:肝細胞癌(Hepatocellularcarcinoma, HCC),全球惡性癌癥死因“惡名榜”第二。中國是HCC的重災(zāi)區(qū),不僅“貢獻”50%的全球HCC新發(fā)和死亡病例,且平均年齡55-59歲比國外HCC低發(fā)國家早近20年[1,2,3]。
3:在之前的研究中,一些癌癥相關(guān)的基因通過DNA甲基化去發(fā)揮功能作用,如 IGF2 UHRF1這些基因
4:收到DNA甲基化和拷貝數(shù)變異的影響,既然都可以影響轉(zhuǎn)錄,那么他們之間有沒有協(xié)同作用呢?這方面的研究還不是很清楚
5:一共用了64個肝癌的CNV,MET,EXP樣本信息
(DNA甲基化和拷貝數(shù)變異會導致轉(zhuǎn)錄失調(diào))
b.在a圖的基礎(chǔ)上,需要找到差異顯著的那些基因,然后|r|>0.5,也就是紅圈圈的位置,然后發(fā)現(xiàn)了CNVcor有813個,METcor有321個。把這幾個基因集進行求交集發(fā)現(xiàn)了只有24個overlap基因.
ps:拿到這些基因做了一個富集分析,發(fā)現(xiàn)CNV差異基因富集在蛋白相關(guān)的信號通路上,MET的差異主要富集在炎癥反應(yīng)等上面
c. CNV基因顯示出了它的一個基因組偏好性,比較集中在8號染色體上。DNA甲基化的基因在全基因組上分布沒有偏好性。
d.(左圖) 發(fā)現(xiàn)DNA甲基化的基因一般都分布在inter-genic(基因間區(qū))而不是CpG島。(右圖)發(fā)現(xiàn)DNA甲基化更偏向于發(fā)生在基因body區(qū)域,推測開放區(qū)域的甲基化可能會導致轉(zhuǎn)錄異常,芯片中CpG島的表達方式N_shore,N_shelf等。
e:計算每個病人樣本的CNVcor上調(diào)和下調(diào)的基因個數(shù),METcor上調(diào)和下調(diào)的個數(shù)。然后畫出e的柱狀圖。(不同顏色代表上下調(diào)的基因)下面那個熱圖的意思就是說紅色的上調(diào)的,藍色的是下調(diào)的基因位點。
f:去尋找CNVcor上調(diào)和下調(diào)基因和METcor上調(diào)和下調(diào)的相關(guān)性。每個點代表著一個病人樣本。橫縱坐標代表這個病人的差異基因的個數(shù),然后做了一個相關(guān)性分析。
Q:這整個一個大Figure說明了什么?
A:個人認為是確定DNA甲基化和拷貝數(shù)變異適合轉(zhuǎn)錄組異常相關(guān)的,至于有多么相關(guān),數(shù)據(jù)給出信息。
對于CNV和MET差異表達基因可以用于肝癌的分子分型
【這是無監(jiān)督學習算法的一種,和k-mean,分層聚類等目的一樣,為了把這些樣本進行分類。感興趣的可以看看:
https://blog.csdn.net/google19890102/article/details/51190313】對CNV和MET基因進聚類,然后得到的結(jié)果,OS 是overall survival(總體生存時間),TTR是time to tumor recurrece(腫瘤復發(fā)時間)。發(fā)現(xiàn)對于CNV分類來說可以把這些樣本分成3類,用MET分類的話可以分成4類。而且從分類效果OS,TTR來看CNV的分類效果更好。
【iCluster:一種可以利用R包進行分類的分類方法,詳情可以見:http://www.bioconductor.org/packages/devel/bioc/html/iClusterPlus.html】
c:熱圖顯示了iCluster分析鑒定的亞型表達模式。使用NMF聚類方法鑒定的CNVcor或METcor基因的亞型的比較,每個亞型鑒定的結(jié)果用彩色條形標記。每個亞型中CNVcorup、CNVcordown、METcorup、METcordown 基因的異常表達頻率如圖(最底下)所示。中間的是熱圖。
d:用K-Mean的方法畫出利用icluster方法分類的這種類型的OS,TTR曲線,看看分類效果。
【作者比較了iCl1,iCl2和iCl3亞組的臨床病理特征,發(fā)現(xiàn)iCl1腫瘤比iCl2或iCl3的侵襲性更強(P = 0.002,表1)。 其他臨床特征在亞組之間沒有差異。 這些結(jié)果與分子亞型的獨特侵襲性特征一致。 基于這些發(fā)現(xiàn),CNVcor和METcor基因的綜合分析可以識別分子亞型,每個分子亞型具有與轉(zhuǎn)錄失調(diào)相關(guān)的基因組和表觀基因組特征的不同組合,與不同的預(yù)后結(jié)果相關(guān)。】
Q:得到了這個分類結(jié)果,相當于一個訓練集,那么如何驗證這個訓練集的分類效果呢?
A:利用數(shù)據(jù)庫,大樣本庫的數(shù)據(jù)進行驗證
Validation of the molecular subtypes in an TCGA data set.png
a:觀察到CNV和轉(zhuǎn)錄組之間的相關(guān)系數(shù)的總體分布向右偏,MET左偏,
b,c:尋找差異的基因,求交集,發(fā)現(xiàn)CNVcor基因在8號染色體進行富集和之前一致
d.e: METcor基因在open sea區(qū)域和gene body域比在CpG島和TSS區(qū)域富集更頻繁 此外,異常CNVcor和METcor基因的頻率之間的相關(guān)性也得到驗證,相關(guān)性0.82.
f,g :分類效果,C1組DNA拷貝數(shù)和DNA甲基化畸變率最高,C3組最低
h:OS,RFS分析圖
Q:發(fā)現(xiàn)利用CNV和DNA甲基化是可以用作分子分型的,大樣本也重復出來了結(jié)果,接下來如何分析呢?如何去找DNA甲基化和拷貝數(shù)變異的關(guān)系呢?
A:我們接下來看看作者如何借助統(tǒng)計學去試圖尋找答案
整合DNA甲基化數(shù)據(jù)和拷貝數(shù)變異數(shù)據(jù)
圖a,b整合了TCGA的數(shù)據(jù)和他們自己已有的數(shù)據(jù)進行分析。
CNV gain的頻率與CNV loss的頻率顯著正相關(guān)(r = 0.43,P = 1.5×10-20,圖4a)。 相反,MET gain的頻率與MET loss的頻率呈負相關(guān)。
在C圖中,我們可以看到橫坐標是CNV頻率,縱坐標是 MET頻率,可以看出他們有顯著的相關(guān)性
在圖d,e,f,g中,分別以CNV gain ,CNV lose,MET gain ,MET loss進行坐標變換。然后都發(fā)現(xiàn)他們的之間的相關(guān)性與橫縱坐標軸的變量變化無關(guān)。
總之,我們認為頻繁的DNA拷貝數(shù)異常的HCC患者更可能經(jīng)常出現(xiàn)DNA甲基化異常。 異常CNVcor和METcor基因的這些相關(guān)頻率可能意味著DNA拷貝數(shù)和DNA甲基化的異常之間的密切關(guān)系。
a:TCGA中肝癌的數(shù)據(jù)樣本分析,剔除了同義突變后,篩選出在189個發(fā)生10次以上突變的重復突變基因,我們鑒定出37個差異突變基因,其中> 5%的突變頻率在C1、C2、C3亞型之間存在差異(其中有2個肝癌樣本沒有基因組突變數(shù)據(jù)),發(fā)現(xiàn)了BAP1是C1突變的最頻繁的基因。CTNB1是C2、C3當中突變最頻繁的基因,而且和腫瘤的發(fā)展高度相關(guān)
b:GeneMania軟件做的圖(基因間相互作用的,可以在cytocsape里面裝這個插件,也可以去分析網(wǎng)站GeneMANIA,網(wǎng)址:http://genemania.org),為了找到亞型的功能決定區(qū)域,利用SNU和TCGA數(shù)據(jù)交集CNVcor genes (n = 95) and METcor genes (n = 179)進行分析,發(fā)現(xiàn)了UBC 這個基因在CNV基因集中相關(guān)系數(shù)很高。(越靠中心說明了越重要)
c:先對這兩個基因集求一下交集,找到相同的差異的上調(diào)或者下調(diào)的基因。舉個例子來說:CA9是iCl1/C1腫瘤中上調(diào)表達差異最大的基因。(CA9是缺氧的一個標志物,其過表達在HCC中是一個不好的預(yù)后標志物。此外,與其他亞型相比,侵襲性iCl1和C1腫瘤表達了高水平的干細胞相關(guān)基因,如KRT19、EPCAM和PROM1。與Rhee, H等人報道的CA9的表達與HCC中干細胞相關(guān)表型相關(guān)的結(jié)果相符[4]。)
基于這個可能和干性有關(guān)的特性,進一步評估已知的和干性相關(guān)的基因集(即ESC、Nanog、Oct4、Sox2、Myc1、Myc2等已知的和細胞干性相關(guān)基因集)。在熱圖中,黃色代表高表達,藍色代表低表達,發(fā)現(xiàn)在IC1,C1中這些干性的基因集高表達了。說明和這些差異表達的基因和腫瘤干性有關(guān)系。
作者將這次分類結(jié)果與之前定義HCC亞型分子分型的研究進行了比較。發(fā)現(xiàn)二者overlap。這也意味著這些以前的分類的表達可能與CNVcor和METcor基因畸變的頻率有關(guān)。
(PS:腫瘤干細胞(CsC)理論認為腫瘤的發(fā)生、發(fā)展、轉(zhuǎn)移和復發(fā)與CsC密切相關(guān),對CSC的研究已成為腫瘤研究的熱點。自我不斷的更新復制以及保持分化的潛能是干細胞的特性。Sox2、Nanog等轉(zhuǎn)錄因子是維持干細胞干性的核心轉(zhuǎn)錄因子,那么有關(guān)于這些轉(zhuǎn)錄因子的表達情況是作者探究肝癌細胞是否具有干性的核心關(guān)注點。)
綜上所述,這些發(fā)現(xiàn)提示,與DNA拷貝數(shù)和DNA甲基化相關(guān)的HCC分子亞型也與BAP1和CTNNB1突變有關(guān),這可能在HCC亞型進展中發(fā)揮調(diào)控作用。對于分類結(jié)果來說,我們認為C1和iCl1腫瘤可能具有這些亞型的共同功能特征,如侵襲性或干性。我想知道為什么這里分析出兩個突變,后面只驗證了一個:因為C1是惡性程度最高的HCC,所以更關(guān)注BAP1,另外一個就不詳細研究。
d:展示了BAP1抑制對肝癌細胞干細胞基因表達的影響。Huh7細胞通過轉(zhuǎn)染以BAP1 shrna,下調(diào)BAP1的表達,發(fā)現(xiàn)了包括CA9、KRT19、EPCAM、PROM1在內(nèi)的stemness基因的顯著上調(diào)表達。這些結(jié)果有力地支持了我們的發(fā)現(xiàn),即BAP1突變可能至少在一定程度上促進了一種侵襲性HCC亞型表達。
這篇文獻的主圖基本上就講到這里了。看完之后思考之前的問題:
1:為什么選擇肝癌?
因為肝癌在全球的發(fā)病率死亡率非常靠前,而且CNV和MET異質(zhì)性比較大。研究既有實際意義又有可行性。
2:作者是找到這些異常的DNA甲基化基因和拷貝數(shù)變異的基因的?
通過表達譜,找到差異位點進行分析。同時通過TCGA的樣本分析,也找到很多這種差異表達基因。
3:如何去如何起證明這些基因的共調(diào)控作用呢?既然共調(diào)控,調(diào)控機制是什么?(或者是說如何去聯(lián)系DNA甲基化和拷貝數(shù)變異的?)
通過尋找相關(guān)性,畫線形圖,找到相關(guān)性系數(shù)最大的進行比較。總體來說,通過自己的64個肺癌樣本+TCGA數(shù)據(jù)庫驗證,證明了CNVcor和METcor基因的頻率之間的相關(guān)性。
4:對肝癌進行分型是如何分的?分類結(jié)果如何顯示呢?
利用了非負矩陣分解,對CNVcor和METcor的基因進行分類得到結(jié)果C1,C2,C3。并且比較了這幾類的總體生存率和轉(zhuǎn)移率。
5:如何篩選功能最顯著表達差異的基因(如何篩選到BAP1?)
通過找到基因的突變頻率,然后發(fā)現(xiàn)了BAP1這個基因在C1里面突變的頻率是最多的,然后CTNB1在C3里面突變頻率更高。(ps:通過求兩個基因集的overlap進行熱圖分析,可以發(fā)現(xiàn)一些和干性相關(guān)的基因,并且進了實驗驗證)
文獻thinking:
1:首先樣本的數(shù)量60多對,感覺不是很多。而且作者在文章中也承認樣本量的問題會造成結(jié)果的偏差。(雖然TCGA數(shù)據(jù)庫驗證可以部分找補)
2:關(guān)于基因組分布的偏好性,作者并沒有給出一個合理的解釋。可以多往這個方面多挖掘一些信息。
3:還有一些點可以深挖掘,比如說找到了一下表達差異相關(guān)的基因,那么這些基因在表觀上有沒有其他的作用,(雖然有討論Bap1和H3K27me3的關(guān)系),比如說是不是和組蛋白修飾或者是ncRNA有關(guān)?
4:找到的這些significant基因當診斷的marker是否可行(或者治療靶點)?
5:DNA甲基化和CNV的相關(guān)性問題,既然找到了CNV_DOWN和MET_DOWN有正相關(guān),圖一f中,是不是可以繼續(xù)挖下去呢?進一步解釋一下DNA甲基化和CNV之間的是如何影響的呢?畢竟文章只是說存在相關(guān)性。
參考文獻
原文鏈接:https://www.ncbi.nlm.nih.gov/pubmed/29018224
1:Torre LA, Bray F, Siegel RL, Ferlay J, Lortet‐Tieulent J, Jemal A. Global cancer statistics, 2012. CA Cancer J Clin. 2015;65:87‐108.
2:Hindupur SK, Colombi M, Fuhs SR, et al. The protein histidine phosphatase LHPP is a tumour suppressor. Nature 2018, 555, 678‐682.
3:MALEK NP, SCHMIDT S, HUBER P, et al. The diagnosis and treatment of hepatocellular carcinoma[J]. Dtsch Arztebl Int, 2014, 111(7): 101-106. DOI:10.3238/arztebl.2014.0101.
4: Rhee, H. et al. Poor outcome of hepatocellular carcinoma with stemness marker under hypoxia: resistance to transarterial chemoembolization. Mod. Pathol. 29,1038–1049 (2016)
排版:小丸子
文章來源于:sci666