大家好,我是鄧飛,今天繼續介紹《統計遺傳學》這本書,本次介紹第五章:多基因得分(PGS),主要是綜述介紹,具體的實操介紹要到八九十章節。
人類中會有多基因得分(PGS),這個相當于動植物中的分子標記輔助(MAS)或者是基因組選擇(GS)。雖然概念有所區分,但是理論都是相通的。
這本書的電子版,之前是不能選擇復制的,后來有位老師將其轉化為文字版的,就可以復制了,這樣結合pdf閱讀器的翻譯,點擊此處領取:使用知云閱讀器翻譯《統計遺傳學》書籍
引文部分是原書的谷歌翻譯,正文部分是我的理解。
第一部分基礎,分為六個章節,分別是:
本章節包括:
大多數表型和健康狀況的遺傳結構本質上是多基因的。多基因指的是這樣一個事實,即它不是單個或少數變體,而是數百或數千個變體,每個變體對表型的影響都很小。
雖然有些單基因疾病如亨廷頓病具有單基因效應,但我們研究的大多數性狀都是多基因的。隨著全基因組關聯研究(GWASs)和更大樣本的增長,PGSs越來越成為定量遺傳研究領域的主要工具。
本章的目的首先是讓您了解多基因得分、它們是如何出現的,以及有效應用它們的核心挑戰和潛在解決方案。第二個目標是為您提供如何在該領域開展自己研究的藍圖。我們在圖5.1中的流程圖概述了步驟,以及為第一次進入該字段的人員使用PGSs的可能性
包括PGS的數據、驗證和處理、生成和預測的初始階段。一些讀者可能還想更深入地研究表型的共同遺傳結構。然后是本章討論的各種建模應用程序,然后應用于本書的第二部分和第二部分。在表5.1中,我們進一步總結了與PGSs合作的主要挑戰,解釋了這些挑戰存在問題的原因,并提供了潛在的解決方案和關于該主題的進一步閱讀。本章提供了必要的背景知識,您需要在第10章中創建和驗證PGS,然后在第11-13章的各種情況下將其正確應用于統計模型。
第一層:搜集數據、整理數據
第二層:驗證和處理
第三層:計算多基因評分和預測
第四層:檢查表型的共享遺傳結構
第五層:模型應用
Polygenic score
什么是多基因評分?多基因評分(PGS)是多個遺傳位點與表型之間關系的數值總結。PGS有時被稱為多基因譜評分、遺傳譜評分、基因型評分,或者在討論疾病時,被稱為多基因風險評分。我們采用更中性的polvgenic評分,因為當我們討論非疾病相關的行為表型時,用“風險”來表述就不那么直觀了。Polvgenic得分直接來自我們在第4章中概述的GWASs中的全基因組關聯。我們使用這些數據的匯總統計數據來估計單核苷酸多態性(SNP)如何結合來解釋感興趣的特征。
實際上,PGS是整個基因組表型相關等位基因的線性組合,通常由GWAS效應大小加權。因此,這是一個單一的定量指標,可以解釋為個體相對于群體的表型遺傳傾向的指標。對于我們感興趣的大多數性狀而言,單個SNP(如第1章所述,單基因)是弱預測因子。復雜的性狀與許多遺傳變異有關,每一個變異都只占變異的一小部分。PGSs是一種跨基因組聚合這些信息的解決方案。
一般來說,我們可以將一個人的多基因得分定義為一個人在M基因座的基因型的加權和。個體i的PGS可以計算為每個SNPj=1的等位基因計數A(0、1或2)的總和。?..M、 乘以重量w,
這里的權重w是GWAS系數的變換,這個方程表明它是多個SNP對表型影響的線性組合。PGS的基礎模型通常也是加性的,因為我們計算得分中每個SNP的“風險等位基因”數量。然而,我們注意到,隱性或顯性模型可用于構建PGS。由于其結構中包含大量SNP,V也遵循正態分布(見方框5.1)。另一個假設是,由于假設SNP效應是獨立的,因此不存在基因-基因相互作用(或上位性)。
PGS符合正態分布。
多基因評分可以被認為是許多獨立遺傳信號的總和。統計學中概率論的一個中心前提,即中心極限定理,確定了當許多獨立的隨機變量相加時,它們的總和趨向于正態分布,而與單個變量的原始分布無關。這通常被非正式地稱為“鐘形曲線”正如我們下面的模擬所示,等位基因的數量越多,越接近正態分布。
因此,多基因評分往往具有正態分布,因為評分中包含的SNP數量足夠大[19]。
Risch、Merikangas及其同事在1996年的《科學》雜志上證明,對于復雜的表型,GWASs比當時使用的全基因組連鎖研究具有更強大的能力【24】。第一份精神分裂癥GWAS于2008年出版【25】。隨后,2009年發表在《自然》雜志上的一項更大規模的研究(約13000例病例:35000例對照)[26]。
2009年,國際精神分裂癥協會“未能”確定預測這種高度遺傳性精神障礙的任何特定SNP,這是創建PGSs的關鍵轉變之一。研究團隊決定深入挖掘并調查所有SNP的作用,以費希爾1918年的無窮小模型的形式重新審視多基因遺傳的最經典理論之一【27】。回想一下,無窮小模型假設定量(連續)表型由無限多個基因座控制,每個基因座的影響非常小。該研究小組并沒有尋找少數具有更大預測能力的基因,而是聲稱可能存在數千個verv小個體效應,這些效應共同解釋了遺傳力的很大一部分。然而,那些來自樣本量較小的GWAS的變異不會出現在GWAS中,因為它們沒有達到全基因組意義,例如,考慮一個SNP,其中一個風險等位基因只會增加精神分裂癥的相對風險5?需要用極小的標準誤差來估計如此小的影響,才能低于5×10-8的顯著性閾值,這是GWAS中全基因組顯著性的標準標準(見第4章)。因此,即使在相對較大的樣本中,它也很可能未被檢測到。因此,研究小組首先只計算出包含高度顯著SNP的得分,然后通過不斷將p值閾值放寬到0.5來重新計算得分,基本上包括所有SNP中的50個。他們使用這組分數并生成了一個不屬于原始GWAS的樣本來預測精神分裂癥。他們發現,隨著p值閾值的放寬,方差的解釋增加了。
這意味著即使被認為是“無意義”的遺傳變異也可以解釋表型的變化,盡管它們的個體效應和機制尚不明確。
雖然這項最初的研究已經表明精神分裂癥是高度多基因的,但后來的研究更精確地量化了期望值,發現約8300個獨立的SNP對該表型有貢獻【28】。從那時起,不同群體的多個GWASs已經發表,更大的研究導致更精確的PGS估計。
在第10章中,我們展示了如何構建PGS的實用性,然后介紹了如何在性狀預測的多個應用程序中驗證和應用它們。作為混雜因素,并在第11章中檢查基因與環境的相互作用。我們在第4章中詳細討論了發現。在本節中,我們將重點介紹構建PGS的陷阱和危險,但請注意,一些解決方案涉及詳細的統計技術,這些技術仍然超出了本入門教材的范圍。
隨著時間的推移,GWASs的樣本量快速增長并非巧合(見圖4.5)。為了估計單核苷酸多態性對表型的影響,減少抽樣誤差非常重要,這可以通過在發現遺傳標記時包含大量樣本來實現。我們反復指出,復雜的表型受大量影響很小的未知SNP的影響,因此需要大量的發現樣本。如第4章所述,對于許多常見性狀,發現樣本量目前已達到100萬左右。多位作者已經證明了SNP效應的準確性,以及通過擴展PGSs,如何隨著樣本量的增加而增加[1,2,29]。其他人現在越來越質疑,我們是否已經達到了回報減少的程度,現在應該將重點從發現更多的基因座轉移到更深入地理解基因座的生物學功能。
我們在第10章中探討了構建PGS需要兩個關鍵決策:要包含的遺傳變異的數量以及如何衡量其影響。最常用的方法是直接的最小二乘預測法[30]。由于我們在第10章(第10.3節)中討論了修剪和閾值方法以及權重,因此在此不再重復。可以只選擇GWAS重要SNP(p值<5×10-8)、介于兩者之間的某個或所有SNP(p值<=1)。選擇取決于表型和您將執行的應用程序類型。更嚴格的p值閾值通常被認為更適合非多基因性狀,而更寬松的閾值對多基因性狀表現最好。研究人員現在意識到,在性狀不是多基因的情況下,實際上是非常罕見的,只有全基因組的顯著變異被包括在內,以提高預測得分的準確性。當所有SNP都包含在高度多基因性狀的PGS計算中時,你可以期望得到更多的預測結果。
然而,我們將很快討論的一個挑戰是在分析中包含更多變體以增加預測的權衡,這反過來又增加了非因果變體的潛在“噪音”,但也增加了作為代理SNP的因果變體(見框10.2)。
PGS的驗證鞏固了其有用性。如果在此初始階段得出錯誤的決定或結論,PGS可能缺乏準確性和準確性。驗證也與預測內在地交織在一起。在本節中,我們將重點介紹基本和常見的錯誤,這些錯誤可能導致PGS的高估或結果的誤解,有時會使用文獻中的示例。預測是對R2的估計,R2是回歸模型解釋的方差比例。從這個意義上說,我們注意到預測是一個有點誤導性的術語,因為我們通常有興趣了解通過在模型中包含特定PGS可以解釋的可變性量。大多數應用研究人員通常有興趣了解與基線模型相比,將PG輸入模型時R2的增量增加。
基線模型是最簡單的預測,當添加其他變量時,您可以使用它作為基準點。在此,我們通常還包括人口分層變量(例如,前10或20個PCA)和其他相關協變量。在第10章和第1l章中,我們將演示如何進行預測,以及如何處理下面討論并在表5.1中總結的一些問題。
在進行預測時,您使用的數據必須是一個獨立的樣本,也就是說,發現樣本和目標樣本之間沒有重疊。換句話說,您使用的目標樣本不應該是原始GWAS中包含的數據集之一,或者您需要將其從GWAS摘要結果中刪除。我們在第7章(第7.3.3節)中討論了如何以及在何處獲取GWAS匯總統計數據。
如果您試圖使用原始GWAS中使用的相同數據來驗證或預測得分的表現,以同時估計SNP對表型的影響,那么您通過過度擬合高估了預測的準確性[3]。為了確保關聯結果不會與您的基因型數據重疊,最好首先檢查發現分析中包括哪些隊列。該信息通常在已發布的GWAS文章中補充材料的初始表格中報告。許多作者越來越多地擁有一條準備好結果的管道,并準備好申請研究中的每個隊列。越來越多的研究也將PGS作為其數據的一部分(如健康和退休研究)。如果不是這樣,最好直接詢問進行研究的研究人員,詢問他們是否愿意分享薈萃分析的結果,不包括你想要分析的隊列。請注意,這確實需要一定的努力,也需要原始作者的努力。或者,也可以使用另一個足夠大的數據集和GWAS在單個非常大的研究中計算的匯總統計數據。一種解決方案是使用Ben Neale實驗室的信息,該實驗室利用英國生物庫公開產生了4000多個表型的結果,還包含20個主成分和協變量(例如,年齡、年齡2、性別、年齡*性別)(http∶//www.nealelab。is/uk biobank/)。他們還生成了特定性別的結果,并包含了用于運行分析的所有代碼,GitHub(https://github.com/Nealelab/UK生物銀行GWAS)。偏差的程度還取決于各種因素,包括性狀的遺傳力、研究中的遺傳異質性和樣本量,我們將在稍后討論缺失遺傳力和隱性遺傳力。如果vou計劃使用的基因分型數據的樣本量遠小于整個GWA的樣本量,則偏差可能是有限的。然而,這方面仍然需要考慮。
在選擇目標樣本時,祖先組成不應與初始基線樣本有顯著差異。回顧第4章,大多數GWASs都是對歐洲血統的人進行的,由于等位基因頻率、LD和遺傳結構的差異,這些結果不能直接轉移到其他人群。Martin及其同事利用1000基因組參考小組,使用歐洲祖先GWAS匯總統計數據,計算了八種表型的PGSs。
他們得出的結論是,這些來自大規模GWASs的發現對其他群體的可移植性有限,我們在前面討論了與人口分層的關系(第3章)。例如,由于祖先群體之間的等位基因頻率不同(見方框3.2),使用從一個祖先群體衍生到一個非常不同的祖先群體的PGS將導致目標群體中非常不精確和有偏差的分數,即使表型是高度遺傳的。在第9章(第9.4節)的后面,我們將如何通過不同主成分的聚類來區分人口中的不同祖先群體進行分類。
當您選擇要為研究分析的數據時,必須意識到由于人口分層,目標樣本中PGS的潛在通貨膨脹。例如,在弗雷明翰心臟病研究中,一項將PGS用于身高的研究表明,當相關個體被納入分析時,R2從0.15膨脹到0.25【8】。Wray等人[3]還研究了從樣本中移除相關個體時的差異,并通過與R2膨脹相關的不同人群分層主成分進行控制。正如我們在表5.1中所概述的,他們建議在發現和驗證階段使用傳統上不相關的個體。在后面描述質量控制(QC)的章節中,我們將演示如何刪除相關人員。這一錯誤發生在已發表的研究中,例如,Belgard及其同事[7]認為2014年分子精神病學孤獨癥基因研究[31]缺乏對人口分層的控制。
研究人員可能遇到的另一個問題是病例組和對照組之間人群分層的差異偏差。這可能會導致R2的虛假預測,但可以通過在單獨的樣本中執行嚴格的QC或驗證結果來應對。
這里有各種用于識別SNP的全基因組“SNP芯片”,我們將在第7章中詳細討論。直到2018年左右,大量收集的數據收集了有關常見遺傳變異的信息。我們討論了這種基因分型的局限性以及其他地方的未來方向(見第7.2.3節和第15章)。由于LD,我們在GWAS中識別并在PGSs中使用的許多SNP可能不是實際的因果SNP,但可能在LD中有一個或多個因果變體。在大多數芯片上測得的SNP(直到最近)都有常見的等位基因,并且不可能是完全或中度LD,也不可能是罕見的變體。如果一個遺傳變異與適應性相關,那么選擇可以將一個等位基因的頻率降低[32]。如果單核苷酸多態性對適應性有很大影響,那么因果變異的頻率就會很低。迄今為止在許多GWASs中發現的SNP不太可能解釋所有遺傳變異,因為它忽略了罕見變異的貢獻,因為這些變異沒有被基因型SNP“標記”。例如,這解釋了身高的家族遺傳力約為0.7至0.8,與基于SNP或標記的較低估計值0.4之間的差異【33,34】。
這一討論還與家族估計數的潛在膨脹有關,但也與“仍然缺失遺傳力”一詞有關,該術語指的是未被SNP完全標記的基因組變體。這使得Visscher和其他人認為,我們可以從動物研究中學習,因為這項工作解釋了在牲畜(以及可能的人類)中,某些因果變異事實上很罕見,并且在具有常見SNP的貧血癥患者中【10】。因此,該領域現在正朝著將罕見變異納入預測的方向發展。例如,Ganna及其同事于2018年進行的一項研究【35】量化了罕見和超罕見編碼變異對13個數量性狀和10種疾病的影響。他們發現了罕見的有害編碼變體對復雜性狀的影響,結論是可能存在廣泛的多效性風險。
我們試圖解釋的表型變異是遺傳和環境因素及其相互作用的組合。因此,使用多基因評分是量化遺傳因素的一種方法。回想一下第一章(第1.6節)中缺失的遺傳力討論,我們討論了GWASs出人意料的低預測能力,以及從多基因性的角度思考的興起。請記住,缺失遺傳力是雙胞胎研究估計值與GWAS遺傳力估計值之間相對較大的遺傳力之間的差距,而隱藏遺傳力是基于SNP的遺傳力(Yang及其同事[33]GREML模型)與GWAS遺傳力之間的差異。由于首次發現的單核苷酸多態性僅解釋了遺傳力的一小部分[36],因此出現了一系列研究,研究非加性遺傳效應[37],上位效應[38],異質性和/或基因-環境相互作用[11],以及因共有的環境因素[39]和罕見的非基因型變體的作用而導致的雙胞胎研究的夸大估計[34]。
實現h'高水平估計的唯一方法是,我們能夠識別影響該性狀的所有遺傳變異,并準確估計其影響。正如我們在本書中所注意到的,錯誤可能通過多種因素潛入分析中,如缺乏準確或協調的表型測量,需要重復測量,或如我們在下一章所述,由于與環境因素的相互作用[11,12]。
PGS R2顯著增加的一個例子是后續GWASs的演變,如2型糖尿病研究(見第7章)和教育年限。例如,關于教育程度的第一個MetaGWA(40)產生了三個重要點擊,第二個74個重要點擊,第三個在2018年,超過1100個。加上包含了更多的遺傳變異,這三項研究之間的主要區別在于樣本量,從第一項研究中的約125000個個體增加到110多萬個。同時,R從大約2?最初的GWA大約是7-10?相比之下,2018年的研究。全基因組研究中基于單核苷酸多態性的估計值約為20-25[1l,40],代表了我們可以期望通過加性模型發現的上限。
重要的是要記住,對于PGSs,我們正在處理一個定量結構,并且表型的基礎生物學非常復雜。由于多態性,單基因中常見的變異是弱預測因子。然而,單個基因對于理解生物學和因果功能至關重要。正是從研究這些單一基因的細胞調節功能中獲得的知識,使我們能夠超越相關性,了解基因型與表型之間的聯系機制。與多基因評分的權衡是,由于必須結合來自PGS中許多SNP的信息,我們往往會進一步遠離支撐表型的特定生物學。
這對我們進行的許多定量分析都有影響。正如我們在第10章中所展示的,當你在計算高度多基因性狀的PGS時包括所有SNP,你會獲得更多的預測結果。然而,這樣做,你就失去了生物學上的特異性。然而,我們應該清楚,這不僅僅是生物學特異性和SNP閾值之間的嚴格二分法。的確,如果我們在理解機制的情況下構建一個分數(即,僅使用具有已知因果路徑的SNP),該分數將具有更少的SNP和較差的表現。然而,如果我們僅從全基因組重要SNP構建評分,我們對潛在機制的理解仍不會比使用所有SNP的評分更好。如果我們采用只包含許多獨立SNP得分的PGS,那么缺乏生物學特異性可以說是所有多基因得分的一個特性。
因此,在最大限度地預測和理解生物學機制之間進行權衡。例如,在2018年《柳葉刀》對肥胖遺傳學的回顧中,古達齊(Goodarzi)[13]總結了盡管已分離出300多個與體重指數、臀圍比和其他肥胖特征相關的單核苷酸多態性,但對肥胖缺乏認真的生物學功能理解阻止了臨床相關的減肥干預。因此,許多研究現在努力超越預測,提高精度。如疾病風險預測干預、基因-環境相互作用分析或孟德爾隨機回歸。我們在討論分數的應用時,回到了機制預測權衡的具體問題。
直到現在,我們已經討論了相對隔離的特定性狀的PGSs,然而,特別是對于復雜表型,單個性狀的PGSs通常與多個表型相關。如圖5.1所示,在使用PGSs時,重要的是要了解許多表型下通常存在一個共同的遺傳結構。
雖然遠未詳盡無遺,但在本節中,我們將介紹一些用于解開這種共享遺傳結構的主要技術。
PGS通常具有共同的遺傳結構,許多疾病和性狀具有共同的病因。例如,精神分裂癥和雙相情感障礙是相互交織的疾病。
在研究它們或設計潛在的治療方法時,了解它們的共同發生是至關重要的。例如,精神分裂癥的PGSs被用來預測雙相情感障礙[42]。這項研究表明,這兩種表型之間在某種程度上存在共同的遺傳病因學,表明相同的基因與這兩種結果相關。相反,精神分裂癥的得分不能預測非精神健康狀況,如冠心病、克羅恩病、高血壓或1型或2型糖尿病。
生殖特征也被證明是高度相關的。2016年發布的一份大規模GWAS研究了兩個生殖行為特征,即初生年齡(AFB)和出生兒童數量(NEB)44]。PGSs被用來研究它們與各種生育和非生育性狀的關聯。其中包括初潮年齡、更年期年齡、失聲年齡(男孩)和首次性交年齡。雖然PGS對出生兒童數量的預測能力相對較低,但當進入回歸模型預測無子女情況時,結果卻令人震驚。NEB的PGS可以預測生育期結束時保持無子女的概率,PGS的標準偏差增加一個,女性保持無子女的概率減少約9個【44】。
45].初生時(較晚)年齡的PGS同樣與自然絕經時的早衰和晚年【44】。生物學功能研究還表明,生殖特征(和不孕特征,如子宮內膜異位癥)之間存在共同的病因。
任何表型也具有高度的遺傳相關性。在這里,區分表型和基因型相關性很重要。盡管可能發生,但表型相關性并不自動意味著遺傳相關性。即使表型部分可遺傳。遺傳相關性也并不意味著生物學上的因果關系。在本節中,我們重點討論表型之間的遺傳相關性或重疊。遺傳相關是對一對性狀間加性遺傳效應比例的估計。例如,考慮兩個遺傳性狀,如精神分裂癥和雙相情感障礙,它們通常具有很高的表型相關性。!對于遺傳相關性,我們感興趣的是檢查是否也存在遺傳相關性,或者換句話說,這兩個性狀是否共享相同的基因。
用于檢查遺傳重疊的最常用方法是LD評分回歸,由Bulik Sullivan等人于2015年開發【46】。在第12章中,我們演示了如何使用LDSC軟件包(https://github.com/bulik/LDSC)從GWAS匯總統計數據中估計遺傳相關性(見附錄1)。LDSC利用數據的LD結構來估計遺傳相關程度。該方法最初要求GWAS對來自GWASs的所有SNP進行匯總統計,并提供一個參考樣本,從中可以估計LD,以便估計LD得分回歸。該方法基于以下關系正式編寫:
這里是性狀k的GWA中SNPj的Z得分(k=1…,20),N是性狀k的GWA樣本量,l是SNPi的LD得分,M是GWA中包含的SNP數量,p性狀1和2之間的遺傳協方差,回歸截距用截距表示。回歸2,2的斜率√NN,l,可以用來估計這兩個性狀之間的遺傳協方差。也可以估計這兩個性狀h2的遺傳力h2,來自性狀l和2的單變量LD得分回歸。因此,遺傳相關性的估計值為:
在第12章中,我們演示了如何估計這些LD分數以及對結果的解釋。在這一章中,我們還展示了如何通過LDHub網站獲得遺傳相關性(http://ldsc.broadinstitute.org/ldhub/)[47]. 這是一個在線數據庫,可以記錄用作LD評分回歸的web界面。該網站不斷更新,但包括數百個性狀的SNP遺傳力和遺傳相關結果。你還可以下載數百個性狀之間的遺傳重疊。
圖5.2提供了跨多個性狀的遺傳相關性示例。在這里,我們展示了我們2016年的研究,其中我們使用LD評分回歸來檢驗生殖行為表型(初生年齡[AFB]、出生兒童數量[NEB])與27個相關表型相關性之間的相關性。這包括發育或與生育有關的特征(如初潮年齡、更年期、失聲、多囊卵巢綜合征(PCOS)、首次性交年齡、出生體重)、行為(受教育年限、三種吸煙特征)、個性和神經精神(如神經質、精神分裂癥、幸福感、孤獨癥),心臟代謝(如LDL膽固醇甘油三酯、2型糖尿病)和人體測量(BM、身高、腰臀比)。如圖5.2所示,AFB主要與人類發育和行為特征呈正相關,而與PCOS、心臟代謝和人體測量特征呈負相關。一旦控制了多項測試,NEB僅與教育年限和首次性交年齡顯著負相關。兩個最顯著的相關性是AFB、首次性交年齡和教育年限。事實上,受教育年限與AFB的相關性為0.70,我們在那里和相關論文中對此進行了探討。雖然LD分數回歸是一種識別性狀之間可能關系的有力工具,但它不允許我們建立因果方向或關系,也不允許我們調整潛在的中介因素。
許多性狀之間的關系非常復雜,具有潛在的雙向機制。我們將在第13章“孟德爾隨機化”和第15章(深入探討未來的研究方向)中探討其中的一些關系。
順向性是指單個基因影響多個性狀的現象。它源于希臘術語pleion,它指的是more和tropos,意思是“方式”。因此,多效性基因是指那些對表型表現出多重影響的基因。例如,如果一個多效性基因發生突變,它可能同時影響多個表型。這歸因于基因編碼被許多細胞或具有相同信號功能的不同靶點所使用。100多年前,德國遺傳學家路德維希·普萊特(LudwigPlate)于1910年提出了多效性的主題【48】。它影響了進化生物學以及生理和醫學遺傳學的許多領域。自1910年以來。這個術語的含義已經演變,特別是隨著我們在本書中研究的分子遺傳數據的引入。衰老是指個體隨著年齡的增長而發生的生理變化。
Paaby和Rockman概述了幾種不同類型的多效性,指出討論中經常遇到關于多效性的各種含義以及如何研究這些機制的概念困難[49]。在這本入門教材中,我們能夠簡單介紹不同類型的多效性,其中許多是在分子生物學水平上研究的。分子基因多效性研究一個分子基因所具有的功能數量,例如當一個基因與多種蛋白質相互作用并催化多種反應時。例如,這是對基因中蛋白質-蛋白質相互作用物及其催化反應數量的生化研究。發育多效性是指突變(而非分子基因)是研究的單位,在這里,研究人員經常檢查表型不同方面的遺傳和進化自主性,與適應度無關。這里的關鍵問題通常包括對分子多效性的檢查以及順式調節2與蛋白質編碼變體的相對重要性,遠遠超出了本教科書的范圍。選擇多效性是研究表型何時對適合度有多重影響。這種多效性的一個關鍵特征是,性狀被認為是由選擇決定的,而不是個體的內在屬性。這些例子可以追溯到一些基本的進化文本,這些文本提出了一個對抗性多效性模型,該模型考察了構成性對抗性多效性和多效性權衡基礎的衰老或突變的進化,這是適應的基礎【50】。一些人認為拮抗性多效性在遺傳疾病中很常見【51】。鐮狀細胞病是一種常見的拮抗性多效性,當基因的多重效應對適應性產生相反影響時。
圖5.3提供了一個非常簡單的基因型-表型圖,說明了加性多效性效應。在這張圖中,基因G1、G2和G3代表了不同的基因,這些基因對三種不同的表型P1起作用。P2和P3。例如,Gl影響P1和P2,G2影響P2和P3,G3影響P2和P3。注意,多效性通常是指遺傳相關性的同義詞。然而,為了更精確,區分直接多效性和間接多效性是有用的。前面所有的例子都提到了直接多效性,即一個基因對多種表型有直接因果影響。這與前面討論的共同原因模型是平行的。間接多效性是指對P1產生因果影響的基因,而P1反過來又對P2產生因果影響。這是指第2章中討論的中介模型,其中P1是基因和P2之間的中介。在這兩種情況下,我們將觀察到兩種表型之間的遺傳相關性;然而,導致這一觀察的機制確實不同,在后一種模型中,盡管我們觀察到一種關聯,但基因和P2之間可能沒有生物學聯系。
最近有兩項研究使用PGSs研究冰島和美國的教育程度與出生兒童數量之間的多效性【52,53】。這兩項研究都發現,教育程度PGS顯著預測了兒童數量,基于回歸模型的遺傳協方差可用于量化預期的進化變化。毫不奇怪,進化變化的直接證據雖然很重要,但卻非常少。例如,在美國,由于自然選擇的結果,每代人減少一周的教育。即使結果被重新縮放考慮到缺失的遺傳力,遺傳選擇預測教育的變化不超過1.5個月左右。正如我們在其他地方提到的[12],考慮基因與環境的相互作用,如教育擴張的收益,并考慮到變化是緩慢的,需要穩定并持續幾代人,這一點至關重要。上述研究也未考慮死亡率選擇。
現在人們一致認為多效性是不明確的。Pickrell及其同事[55]研究了42種表型以證明多效性,并表明幾個基因座與大量性狀相關。然后,他們利用這些基因座來識別具有多重遺傳原因的表型,并開發出一種方法來識別具有因果關系的成對性狀。這里他們展示了BMI是如何導致甘油三酯水平升高的。其他研究人員檢查了整個GWAS目錄,以確定多效性的患病率,目錄中報告的44個基因與一個以上的表型相關[56]。這些作者表明,多效性的程度與基因的平均效應大小呈正相關,與具有給定數量的相關表型的基因的效應大小方差呈負相關。正如第1章簡要介紹的那樣,多效性普遍存在的知識導致其他人,如Boyle等人【57】認為基因調控網絡是如此相互關聯,所有基因都以基因模型的形式影響核心疾病相關基因的功能。Gratten和Visscher【58】認為這種“普遍的多效性”具有真正的個性化醫學和基因組編輯的含義,我們將在第14章和第15章中返回。
WAS通常優先考慮易于在不同隊列中一致測量的表型。在許多情況下,可能很難協調或測量感興趣的表型。因此,Rietveld及其同事引入了代理表型法[59]。代理表型法通過兩個階段的方法識別常見遺傳變異,首先對表型進行GWA,然后使用獨立樣本測量原始GWA中發現的SNP與相關表型的關聯。上述作者將教育程度與第二階段的認知能力、記憶力和無癡呆癥聯系起來。
Turley及其同事于2018年【60】對GWAS(MTAG)進行了多重RAIT分析,這是一種允許對不同性狀的GWAS匯總統計數據進行聯合分析的方法。在這里,作者展示了如何將MTAG應用于GWAS的抑郁癥狀、神經質和主觀幸福感結果,產生了更多在原始個人GWAS中未分離的相關位點,并將PGSs解釋的方差增加到與理論預期相符的水平。與32.9相比。上述性狀在單性狀GWAS中鑒定出13個全基因組重要位點。MTAG使相關位點的數量分別增加到64、37和49個。這一增長與樣本量較小的神經質GWAS尤其相關。在第12章中,我們提供了MTAG的一個示例應用程序。
在本書第2章的早期,我們概述了在我們的介紹性統計章節中可能出現的各種類型的多元因果模型。在回歸模型中,PGS可以被視為標準的連續變量,并且對于許多表型,目前已經在相對較小的樣本(N<1000)中進行了很好的預測分析(見方框5.2)。在本節中,我們將概述本書后面將探討的一些中心應用程序。這些包括檢查基因混雜、基因-環境相互作用和孟德爾隨機分組。
遺傳混雜是指一個或多個外來變量至少部分解釋了PGS與表型之間的關聯(或缺乏關聯)的情況。2000年。埃里克·特克海默是行為遺傳學的創始人之一,他概述了行為的三條定律,遺傳學[61]。雖然“一切都是可遺傳的”一課很重要,但承認“一切都是環境的”同樣重要如果我們研究各種疾病、行為和特征,它們在很大程度上往往與非遺傳因素有關。研究人員一致表明,社會經濟環境是健康、認知能力和其他多種表型中最可靠和重復的預測因子【62-64】。
我們在第2章中詳細闡述了,有多種策略來估計因果效應。
最理想的情況是進行隨機對照試驗。然而,就我們研究的許多結果而言,這根本不可行,也不道德。一種旨在近似這一點的替代設計是工具變量法,在這一研究領域被稱為孟德爾隨機法。因為我們有一整章專門討論這個主題(第13章),所以我們在這里只簡單地討論一下。孟德爾隨機化(MR)是一種利用遺傳信息檢驗變量之間是否存在因果關系的技術。例如,高膽固醇會導致高血壓嗎?正如我們在第13章中所注意到的,MR已經證明使用PGSs非常有效。該技術依賴于一些需要牢記的重要假設。在MR中,通過誘導對感興趣的性狀具有強烈生物學效應的基因,將因PGSs中的直接多效性而產生的“噪音”風險降至最低是至關重要的。因此,如果MR中使用PGS,建議不要使用高p值閾值。
這可能違反方法所需的假設。有關此問題的詳細討論,請參閱Hemani等人[65]的討論和第13章。
為了描述這一點,我們使用了文獻中的兩個例子:精神分裂癥與父母第一次出生時的年齡之間的關系[66],與平均生育年齡相比,孩子很小(即少女懷孕)和很老都有不同的社會經濟和心理健康結果。第一次出生時年齡的低尾和高尾的個體分布顯示。例如,兒童被診斷為精神分裂癥的可能性更高。這有著相當大的影響,因為在許多國家,第一胎年齡已經推遲了大約4-6年[67]。問題是,下一代是否會有更高的精神分裂癥患病率,或者,考慮到U型關聯,父母的生育年齡與精神分裂癥之間的這種關系是否是因果關系。如果基因混淆了這種關系,這種關聯可能是特定于某些人群的。因此,父母出生時年齡分布在不同時間或人群之間的變化可能不會影響該疾病的流行。當然,對于父母的童年年齡與子女的健康和幸福之間的聯系,還有許多其他的解釋。這包括資源和社會經濟地位、關系穩定性和教育方面的差異,這些差異在年長父母中表現得更高,從而影響孩子以后的結果【68】。
一種假說認為,基因混淆了父母初生年齡與兒童精神分裂癥發展之間的關系。多基因性是這一假說的關鍵。從遺傳學角度來看,父母可能具有發展為精神分裂癥的遺傳傾向。例如,精神分裂癥的傾向可能導致與少女懷孕相關的突然和危險的性行為,或導致找伴侶的問題,從而推遲或阻止分娩。由于父母將基因傳給子女,父母年齡較大或較年輕的子女可能比其他人更容易患精神分裂癥,因此也更容易被診斷。根據這一假設,我們預計第一胎年齡與精神分裂癥之間的親子關系不是因果關系,而是由基因造成的。但我們如何檢驗這個假設呢?PGS的應用使這一點相對簡單,幾項研究分析了精神分裂癥患者PGS在初生嬰兒各年齡段的分布情況【66,69】。
這些研究表明,父母患精神分裂癥的風險分布與子女患精神分裂癥的風險分布形狀相同。青少年父母和35歲以上父母的精神分裂癥PGS均升高。這表明,基因遺傳至少在一定程度上混淆了父母生育時機與兒童心理健康之間的關系。因此,在研究這種關聯時不考慮遺傳的模型可能有偏差估計。更準確地說,他們可能高估了父母生育年齡對子女心理健康狀況的因果影響。關于推遲生育對人口健康的影響的說法也可能具有誤導性。
基因與環境相互作用是這一研究領域的核心和新興課題。
由于第6章介紹了詳細的理論、基因-環境相互作用的討論、許多實例和方法學問題,因此我們在此僅簡要總結與PGSs相關的要點。在第二章中,我們還提供了幾個應用示例,讓您了解如何從技術上處理關鍵問題。
首先,在PGS應用的背景下,重申與基因環境研究相關的“交互”的含義是有用的。在這里,我們區分基因對表型的直接影響和與環境的交互作用。第一個例子表明,保持環境條件不變,基因在個體之間變化時會導致表型差異。第二種情況描述了基于不同基因型對環境暴露的不同反應。相互作用意味著在不同的環境中,基因對表型的影響會有所不同。
第6章對這些方面進行了說明。
例如,Domingue及其同事利用健康和退休研究闡明了美國對失去配偶的不同反應【70】。與生活中的其他壓力事件一樣,失去配偶可能會導致抑郁癥。然而,抑郁癥狀的發生程度和持續時間在個體之間有所不同。正如我們在第6章所闡述的,他們測試了一種稱為素質壓力模型的理論,即主觀幸福感的遺傳傾向可能會緩沖失去配偶的不利影響,他們表明。雖然失去配偶后抑郁癥狀普遍增加,但與幸福感遺傳分數較低的人相比,幸福感PGSs較高的美國成年人確實經歷了較少的抑郁癥狀。在另一項研究中,Domingue及其同事【72】表明,PGS對吸煙的影響在出生隊列中增加。
在基因-環境相互作用研究中使用PGSs的建議可能很復雜,也可能有細微差別。在第6章的表6.2中,我們列出了多重挑戰,為什么它們存在問題,以及潛在的解決方案,我們在此不再重復。在這類研究中,我們感興趣的是模擬在不同環境中具有差異效應的遺傳效應。然而,指定不同環境的能力仍然具有挑戰性。理論上,考慮到可能的環境相互作用,運行GWAS是理想的。實際上,這些研究的動力不足。即使在英國生物銀行(UK Biobank)等擁有50萬個體的大型樣本中,也很難區分某些關鍵環境因素,因為樣本是有選擇性的,由更健康、社會經濟地位更高的個體組成[73]。
在沒有能力做到這一點的情況下,我們還可以分離出哪些SNP應該包括在分析中。第10章詳細討論了單核苷酸多態性的選擇,其中123多基因評分和遺傳結構我們演示了如何創建和驗證PGS。Rosenquist及其同事【74】利用FTO基因中的一個單一變體表明出生隊列與肥胖的遺傳易感性相互作用。因為FTO有一種異常高效的變體,所以可以在該論文中使用一種變體。在許多工業化國家,食物供應不受限制,加上久坐不動的生活方式越來越多,這意味著在最近出生的人群中,肥胖等位基因的潛在“風險”更大。相反,Barcellos等人[75]的一項研究表明,提高教育水平有助于減少健康不平等。使用包含2018年GWAS教育成就所有等位基因的PGS。他們測試了PGS是否會緩和教育對健康的影響。他們利用1972年英格蘭和威爾士義務教育一年增長的自然實驗,發現教育縮小了肥胖基因風險最高和最低三分之一人群在不健康體型方面的健康差距。
大多數應用研究人員將執行的大部分工作可能是將PGSs應用于多種表型和各種環境。在這一廣闊而充滿活力的研究領域中,很難知道從何處著手。本章的目標不僅是定義PGS并提供它們如何出現的背景,而且讓研究人員了解他們需要采取的一些更實際的步驟。因此,在圖5.1和附帶的討論中,我們提供了一個流程圖,從數據到驗證和處理,生成PGS并將其用于預測,以及思考共享遺傳架構和建模應用的方法。我們的目標是,除了提供潛在的解決方案和進一步的閱讀之外,還將fag特殊的挑戰和問題領域,我們在表5.1中進行了總結。
PGSs是一種有用的工具,可將遺傳信息匯總到一個變量中,以應用于進一步的統計分析。我們試圖對它們的使用以及潛在的限制提出一個平衡的觀點。也許最成問題的是,由于基于GWASs和迄今為止研究的人口歷史上缺乏多樣性,它們在歷史上不太適用于各種人口和群體。希望在未來幾年內,這種情況會有所改變。我們還注意到,鑒于缺失、仍然缺失和隱藏的遺傳力問題,PGS仍然是性狀真實遺傳力的代表。隨著GWASs樣本量的增加,以及超越常見變體的趨勢,該領域將繼續擴大。除了缺乏多樣性之外,當前GWAS設計中的另一個重要缺陷是,在GWAS中發現的單核苷酸多態性信號可能被夸大了,因為正如Kong及其同事[76]最近所顯示的那樣,他們還標記了父母養育的影響。
盡管一些研究人員仍將重點放在R2上,但對于某些研究問題來說,最大化預測并不總是最終和有用的目標。了解主要遺傳標記的基本生物學和功能可能使我們比統計解決方案和預測。由于多效性普遍存在,PGS通常也有一個共同的遺傳結構。在這方面,探索相關表型、預測相關表型或進行多序列分析可能是富有成效的途徑。我們還預計,在未來一段時間內將取得相當大的進展,包括更好地測量表型,或從多種手段(如病歷)中獲得所謂的“深層表型”,以及優化預測的機器學習算法。盡管PGS取得了巨大進展,但目前尚不清楚是否有可能創建一種全基因組PGS,以充分識別臨床風險顯著增加的個體。PGS越來越多地與篩查、干預和生命規劃的臨床措施結合使用,但仍存在相當大的爭議。在最后的倫理學討論(第14章)和未來方向(第15章)中,我們將討論PGSs在臨床應用中的使用。
練習:
分割線
大家好,我是鄧飛,一個持續分享的數據分析師,這里我將自己公眾號的干貨內容挑重點羅列一下,方便大家閱讀和使用。