作者:王小欽
單位:復旦大學循證醫學中心 復旦大學附屬華山醫院血液科
來源:協和醫學雜志,2019,10(1):76-79.
臨床病例資料數據龐大、資源豐富,如果臨床醫生合理利用其進行臨床研究,則可節約大量時間和經費,很快得出結論和成果。但已有臨床病例資料往往存在基線數據不全、不詳細,治療方案不統一,隨訪間期不等,失訪率高等問題,故需要良好的研究設計和統計分析來克服這些缺陷,才能得出可靠的結論。
臨床研究根據有無人為設計的干預因素分為試驗性研究和觀察性研究,觀察性研究又根據有無對照組,分為描述性和分析性研究,隊列研究、病例-對照研究和橫斷面研究是常用的分析性研究設計方法[1]。除了不能進行試驗性研究和前瞻性隊列研究以外,現有臨床資料可進行病例報道和病例分析,也可進行病例-對照研究、回顧性隊列研究和橫斷面研究,故可設計的研究類型非常多。例如<10例的罕見病可進行病例報道,≥10例可進行病例分析。
病因學研究多采用病例-對照方法進行設計,療效評價、預后研究和病因學研究可采用回顧性隊列研究設計,診斷試驗評價可采用橫斷面研究方法。由于回顧性隊列研究應用范圍最廣,故本文重點介紹如何利用臨床病例資料進行回顧性隊列研究的設計和統計分析。
1 設計階段需注意的幾個問題
1.1
提出PICO問題
回顧性隊列研究的基本步驟包括:
(1)明確研究目的,確立結局指標和研究因素,提出PICO(P:研究對象,I:干預或暴露因素,C:對照組,O:結局指標)問題;
(2)確定研究對象的納入和排除標準;
(3)計算樣本量;
(4)收集病例的基線資料;
(5)隨訪病例結局;
(6)進行統計分析,校正各種混雜因素;
(7)總結、撰寫論文。
寫出PICO問題非常重要,其可幫助研究者理清思路和明確研究目的。例如,研究A基因突變是否是急性髓系白血病復發的高危因素,P(研究對象)是某種類型的急性髓系白血病,I(暴露因素)是有A基因突變,C(對照組)是無A基因突變,O(結局指標)是白血病復發,在統計分析階段需要校正的因素有年齡、白細胞計數、原始細胞計數、染色體核型、化療方案等影響結局的因素。
1.2
基線數據缺失問題
針對基線資料不全的缺陷,在設計課題階段可采用限制方法,即設立納入和排除標準,把關鍵資料缺失的病例排除。為了樣本有代表性,一般設立一個病例納入的年限,如納入2015年1月1日至2018年12月31日符合納入條件的所有病例(連續樣本),且排除標準不能太嚴格。如果排除的病例較多,最好進行一個缺失數據模式分析,如為完全隨機缺失或隨機缺失,刪去缺失病例對結果的影響較小。也可比較納入對象和剔除對象的基線臨床特征,如無臨床特征顯著差異,則說明納入病例的代表性較好,基本可以代表總體病例。
1.3
計算樣本量
回顧性分析中只要有對照組,需要進行統計學分析、計算P值的研究都需要計算樣本量,因為樣本量太小,有可能得到假陰性的結果。樣本量的計算取決于主要結局指標[2],例如研究某一疾病的緩解率、無進展生存率、總生存率的樣本量是完全不同的,樣本量依次遞增。故研究中設計主要結局指標和次要結局指標很重要。
1.4
配對方法
隊列研究中,可以把無暴露因素(或治療方法)的所有病例作為對照組,也可在設計階段采用配對方法進行對照組病例選擇,例如進行年齡、重要的預后因素(疾病分期、亞型、并發癥等)配對,根據不同疾病而定,使兩組可比性較好。如果應用手工配對方法,一般配對的因素為2~4個,否則很難配到合適的對照組。如果應用一些統計方法進行配對,如下面案例應用的迭代擴展半徑法(iterative expanding radius matching),可以適當增加配對因素。配對的比例一般為1∶1至1∶4,配對比例達到1∶4以后,再增加配對例數,統計效能增加不多。
案例分析:發表在N Engl J Med的一項多中心、回顧性隊列研究題為“應用人類白細胞抗原(HLA)不相合活體供體進行腎移植有生存獲益”[3],該研究目的是探討與單純等待患者或等待后接受死者供體腎移植患者相比,HLA不相合的活體供體腎移植是否有生存獲益。數據來源于美國移植登記數據庫,其中有1025例HLA不相合的活體腎移植病例,對照組采用1∶5配對,配對因素為年齡、性別、種族、既往進行腎移植的次數、HLA抗體水平、有無糖尿病、腎臟替代治療時間7個因素。配對方法采用迭代擴展半徑法。從單純等待未進行腎移植的患者中選擇5125例作為對照組1,從等待后進行了HLA相合死亡供體腎移植中選擇5125例作為對照組2(表1)。然后進行統計分析,分析總生存期差異,發現與等待患者相比,及早應用HLA不相合的活體腎供體可提高總生存期。
表1 HLA不相合活體腎移植患者與配對對照組的臨床特征比較[3]
2 分析階段需要注意的幾個問題
在統計分析階段可采用分層分析、多因素分析、傾向性評分等多種方法校正各種混雜因素,以明確研究因素是否為獨立危險因素或預后因素。
2.1
分層分析
在分析階段,對一些最重要的影響結局、預后因素進行分層分析,目的是觀察消除該影響因素以后,兩組結局比較是否有變化。例如上文中,對HLA抗體陽性的不同水平進行分層分析,發現不同抗體水平下,HLA不相合活體供體腎移植仍有生存獲益。
案例分析:在一項比較輸血依賴的骨髓增生異常綜合征應用去鐵治療和不去鐵治療是否生存期不同的研究中[4],結論是去鐵治療可以延長生存期。因輸血量是疾病嚴重程度的一個標志,疾病越嚴重每月輸血量越多,生存期越短。故對每月輸血量(≤3 U紅細胞和>3 U紅細胞)進行分層分析,發現不同輸血量情況下,去鐵治療均可延長生存期(圖1),更證明了結論的可靠性。
圖 1去鐵治療和不去鐵治療對骨髓增生異常綜合征患者生存期的影響[4]
A.紅細胞輸注量≤3 U/月; B.紅細胞輸注量>3 U/月
2.2
多因素分析
2.2.1 多因素分析方法
因影響結局的混雜因素較多,多因素分析可同時校正多個混雜因素,故其是隊列研究中常用的統計方法。常用的多因素分析方法包括多元回歸分析、Logistic回歸分析、COX回歸模型。當結局變量為連續變量時,選擇多元回歸分析。當結局變量為分類變量,同時又要考慮時間對該結局變量的影響(有時間變量),可選擇COX回歸模型。當結局變量為分類變量,不考慮時間變量時,可以選擇Logistic回歸分析。
案例分析:在一項“老年貧血患者應用促紅細胞生成素的治療反應和心血管結局”的回顧性隊列研究中[5],應用Logistic回歸分析應用促紅細胞生成素后治療反應的影響因素,應用COX回歸分析應用促紅細胞生成素后心血管事件的發生結局。治療反應統一在治療2個月后進行評價,故無需考慮時間變量。而應用促紅細胞生成素后心血管事件的發生需要考慮時間變量,有的患者使用后很短時間就發生了心血管事件,有的患者很久以后才發生心血管事件。研究結論是:不論是不進行校正的單因素分析[HR=1.21,95% CI: 0.88~1.66, P=0.234],還是用5個因素(存在其他血細胞減少、血紅蛋白水平、年齡、性別、并發癥指數)進行校正的多因素分析[HR=0.94,95% CI: 0.67~1.31, P=0.693],均認為應用促紅細胞生成素后并不增加心血管事件的發生風險。該文根據不同結局變量,選擇了2種多因素分析方法。
2.2.2 多因素分析變量的選擇
選擇多因素分析變量時主要考慮臨床意義,從文獻或臨床經驗中確定需要進行校正的因素,即可能會影響結局的變量。如果樣本量有限,要控制進入多因素分析的變量數量,可先通過單因素分析進行初步篩選,然后再納入多因素分析。文獻[4]的研究中,即采用先進行單因素分析,把單因素分析有統計學意義的變量納入多因素COX回歸分析的方法。而文獻[5]則根據臨床意義選擇5個校正變量,未經單因素分析篩選,直接進行多因素分析。在臨床研究中,可根據實際情況選擇其中一種方法,或2種方法聯用。
2.3
傾向性評分法
傾向性評分法可在分析階段有效平衡非隨機對照研究中的混雜偏倚,使研究結果接近隨機對照研究的效果,故有學者稱其為事后隨機化法。其通過配對、分層、回歸等分析方法來校正混雜因素,最常用的是配對法。與普通配對法不同的是,傾向性評分法可同時進行多個變量配對,而普通配對法的配對變量是有限的。
案例分析:為比較費城染色體陽性的急性淋巴細胞白血?。?/span>ALL)應用Hyper-CVAD +帕納替尼化療方案與Hyper-CVAD+達沙替尼化療方案的療效,但兩組基線臨床特征有一定差異,故研究者采用傾向性評分配對的方法進行了此項研究[6]。首先選擇配對的8個因素包括年齡、體能狀態、白細胞計數、染色體危險度分組、BCR-ABL1的轉錄類型、是否應用利妥昔單克隆抗體、CD20陽性的原始細胞比例、是否有中樞神經系統累及。然后應用Logistic回歸方法計算這8個因素的傾向分值。再應用最近鄰居方法對評分進行1∶1配對,原有110例ALL病例,經過傾向性評分配對后,41對(82例)病例配對成功。最后,對這82例病例進行統計分析,發現應用Hyper-CVAD+帕納替尼化療方案組無事件生存率和總體生存率均優于達沙替尼組。
傾向性評分法能否很好控制混雜因素取決于納入哪些協變量計算傾向分值,目前尚無公認的標準,但一般認為應納入已知的、可能影響結局的所有混雜因素。
2.4
失訪率問題
回顧性隊列研究存在失訪是不可避免的,一般要求失訪率控制在10%之內,最多不能超過20%,否則會存在選擇性偏倚,影響結果,故應盡量控制失訪。如果有較多的病例失訪,可進行敏感性分析,把失訪病例的結局分別按照最差結局和最好結局計算,如結論無顯著差異,認為失訪對結論的影響較小,結論比較可靠。否則,結論的可靠性較差。
3 撰寫論文規范
隊列研究屬于觀察性研究,撰寫論文時要按照觀察性研究報告規范(STROBE)來進行論文寫作。詳細的STROBE聲明清單見www.strobe-statement.org網站。在進行研究設計之前應先閱讀該聲明,按照清單上的內容進行設計,才能保證研究質量和論文質量。
4 小結
臨床醫生可以利用現有病例資料進行各種研究設計,根據不同研究目的選擇不同研究方法,回顧性隊列研究是常用的設計方法。兩組不均衡可比,存在很多混雜因素是回顧性隊列研究中比較突出的問題,可應用上述介紹的各種方法來校正混雜因素,同一研究中可同時應用多種方法進行校正。