最近幾年,心理學研究所能夠制造的大新聞,大概就是可重復危機了。這個問題已經受到了非常廣泛的關注,Wikipeida也收錄了可重復危機(replication crisis)的詞條。
可重復性問題到底是從何時開始的?是如何出現的?作為研究者,我們該如何應對心理學可重復性危機?
一、心理學可重復性危機簡史
以下是一系列在Science和Nature上被報道并引起廣泛關注的事件,在這里將首先相關事件作一個回顧。
◇事件1◇
Bem (2011)的預見未來的實驗。已經是知名社會心理學教授的Bem在人格與社會心理學的頂級期刊Journal of Personality and Social Psychology上發表的標題為“Feeling the Future”的文章指出:通過9個實驗,包括了1000多名被試,他發現未來發生的事件,可能會影響到被試當前行為反應。在這個頗具有預見性的討論中,他討論了統計方法、可重復性和這種預見未來現象的問題。當然,心理學界的人很快提出了質疑,兩個研究小組采用貝葉斯統計對他的數據進行了分析,表明無法從數據中得到這個推斷。此后的重復實驗也沒有發現Bem的這個結果。此時,人們還無法預知,這個事件將成為心理學可重復危機歷史的一部分。
◇事件2◇
到2011年年末,另一重磅事件徹底讓人們開始反思心理學中方法的嚴謹性了。這就是Stapel的論文造假事件。Stapel本人是荷蘭Tilburg University社會心理學的教授,刻板印象方面的專家。2011年4月8號,他在Science上發表一篇題為 “Coping with Chaos: How Disordered Contexts Promote Stereotyping and Discrimination”的論文。這篇文章的主要內容講述的是,凌亂的環境居然會加重人們的刻板印象。但是到了2011年11月1日,Nature報道,Stapel的這篇論文涉嫌造假,標題是“Report finds massive fraud at Dutch Universities”,而Science也撤回了此論文(2011.12.02)。此后,Nature 和Science都對這個事件進行了持續的關注。Stapel的文章之所以能夠被發現是數據造假,是因為他的研究生舉報了他的造假行為(想想如果沒有研究生舉報,他會繼續作假到什么時候?)。而Tilburg于2012年12月的調查報告顯示,在他職業生涯中發表的137篇論文中,有55篇數據完全是捏造的。他指導的10個博士生畢業論文的數據也同樣是造假的。另有10篇論文,無法斷定是否有造假行為。Science在報道這個最終報告時,提出一個事實:整個心理學領域都有無法推脫的責任(Final Report on Stapel Also Blames Field As a Whole),因為Stapel的55篇數據造假的論文中,審稿過程中完全沒有發現問題。而這并不是在審稿過程中無法發現的問題。因為在2012年,賓大沃頓商學院的Uri Simonsohn對Smeesters已經發表的兩篇論文結果進行仔細的檢查之后,懷疑作者的數據有問題。隨后Smeesters所在的大學對其進行了調查,Smeesters聲稱自己由于某些客觀原因,原始數據丟失,但是其所在大學無法接受這個理由,接受了其辭職(見Science的報道)。
荷蘭蒂爾堡大學心理學家德里克·斯塔佩爾(Diederik Stapel)(圖源網絡)
◇事件3◇
回到2011年,Simmons, Nelson & Simonsohn 在Psychological Science上發表了一篇名為False-Positive Psychology的論文。這篇文章指出心理學研究中,有一些比較常見的做法會讓整個領域的假陽性過高。不過這個文章僅在學術界引起了一些關注,媒體的報道相對較少。在這一年,Virginia University的Brian Nosek在Google Group里成立了一個叫做Open Science Framework的討論組,11月7日發起一個倡議,建議對2008年發表的研究進行大規模的重復,這應該就是后來的Open Science Framework的萌芽。
Open Science Framework 官方網站截圖
◇事件4◇
2012年1月,無法重復的啟動研究。在中國的農歷尚未到2012年之時,社會心理學的社交網絡圈爆發了一個新聞:著名的老年啟動效應無法重復出來。在哈佛的幸福課(positive psychology)中,講課的老師就引用過這個研究。研究表明:當大學生看到一系列與老年相關的詞匯之后,他們走出實驗室的速度會變慢,也就是說,變得更像老年人。2012年1月,開源雜志Plos One發表了Doyen等人一個研究,聲稱無法重復出這個著名的效應。他們做了兩個實驗,第一個實驗完全重復Bargh等人的實驗,第二個則對參與實驗的人進行了某種暗示,再現了這個效應。對于這個結果,科普作者Ed Yong進行了報道,并且開頭引用了心理學教科書中著名的歷史事件“聰明的漢斯”的故事,暗示原作者們Bargh等在方法上的嚴謹性。正常情況下,這種無法重復的原因多種多樣,對于批評可能也無需太在意。但是Bargh作為自動化加工(automatic process)方面的權威,面對這個研究和報道,表示非常憤怒,在自己的博客上進行了激烈的反擊,對重復實驗的作者、發表重復實驗的雜志以及報道這個重復實驗的科普作者進行抨擊,語言比較激烈,后來刪除了該博客。正如其他信息的傳播一樣,客觀理性的內容往往很難引起注意,但是充滿情緒的內容總是非常廣泛地傳播,于是Bargh的博客在社會心理學家之間傳播開來。
著名實驗:聰明的“漢斯”實驗現場(圖源網絡)
Bargh這個博客引起廣泛爭議的同時,再次讓社會心理學家們感受到了可重復問題的壓力。于是一個原本不太受到關注的網站進入了大家的視野,這就是Psychfiledrawer。這個網站的目的是讓心理學家把自己未發表的數據上傳,以減少在論文發表中對陽性結果偏愛而陰性結果無法發表的這個問題。原本沒有多少人關注這個網站,但是Bargh事件之后,許多人紛紛把自己重復過的數據上傳。更有意思的是,諾貝爾經濟學獎得主卡尼曼也站出來說話了。在題為“A proposal to deal with questions about priming effects”的郵件中,他老人家讓社會心理學家解決自己領域的問題。
事情發展到2012年,越來越多的重復失敗結果被曝光,要么是在一些網站上公開數據,要么是在一些學術期刊上發表。而對于Bem預見未來的實驗,也有重復實驗的報告在Plos One上發表。Michigan大學Lawrence Sanna辭職,原因是Simonsohn懷疑他的數據有問題,Nature進行了報道。心理學家也開始討論怎樣的重復才能算是一個合格的重復實驗。于是有了提前注冊(pre-register)、然后按照注冊的方法進行實驗,最后來報告結果。Perspectives on Psychological Science上,也有專刊來討論可重復性的問題,這一次非常集中地討論了與可重復性相關的問題。2012年,John等人關于可疑研究操作(Questionable Research Practices)的調查報告發表,心理學家們承認,自己在研究的實踐中,一些通常的做法大大地增加了假陽性的概率。
同樣是2012年,科普作者Ed Yong回顧了一系列事件之后,認為在社會心理學領域存在著可重復危機,這一報道在Nature上以“Replication Studies: Bad Copy”為題,作為新聞發表。
直到2013年1月,Center for Open Science(COS)正式在Virginia University成立,成為心理學家組成的非政府組織來應對這次可重復危機。COS整合了在此之前已經搭建的開放科學框架的平臺(Open Science Framework),開始組織全世界的心理學家進行聯合的大規模重復實驗。這一年,Perspectives on Psychological Science再次組織特刊討論了可重復性以及一些實驗方法上的問題。在這一期中,Lebel將PsychDisclosure.org推出,提出了研究者要將自己的研究方法部分完整報告出來的要求。
2014年,關于重復實驗應該如何做,研究者們基本上有了一些共識,許多雜志開始鼓勵提前注冊的重復實驗或者提前注冊OSF進一步完整,成為一個可以公開注冊研究和分享數據的平臺。Journal of Experimental Social Psychology上,發表了題為“The Replication Recipe: What Makes for a Convincing Replication?”的文章。這一年,在Social Psychology這個雜志5月的一期中,也發表了一系列經過提前注冊過的重復研究,能夠重復原先實驗結果的并不多。不過一個比較積極的消息是,Klein等人的多實驗室項目(ManyLab),對心理學中經典研究進行重復,大部分是有結果的。Cumming 也在Psychological Science上發表了題為“The New Statistics: Why and How”的文章,他指出需要在統計方法上進行變革。Psychological Science也改變了其審稿的政策,對方法部分不再有字數的限制,開始啟用一些強制政策來加強方法部分的嚴謹性,如要求像Lebel指出的那樣報告方法部分四個方面的內容,使用效應量和置信區間等。其他的雜志也有一些相應的調整。
值得注意的是,2014年5月,劍橋心理學家Schnall在其博客上表達了Social Psychology上發表的一篇關于她2008年研究的重復研究的不滿,認為做重復研究的人是Bully。Dan Gilbert也在Twitter上表達了對進行重復研究的人的憤怒。平心而論,熱衷于做重復實驗的人,確實在對原研究的態度上不太好,在Facebook和Twiiter上有許多嘲諷。
2014年,紹興文理學院的陳巍博士在《心理技術與應用》雜志上發表了《可重復性:盤旋在具身認知實驗室上方的“幽靈”》一文,介紹了在具身認知領域方面可重復性的問題。
2015年,最大的事件就是COS于2013年組織的大規模重復實驗的結果得以發表,許多人期待的結果在Science上發表,其結論是對100項研究的重復,大約39%能夠重復出來(根據對重復的標準不同,這個比例有一點變化)。這個研究的結果有大量的數據在osf.io上共享,供研究者去挖掘。確實有不少研究者利用這些數據進行了后續的分析。還有一些其他的重復報告也發現先前的一些效應無法重復,如孤獨會讓人洗熱水澡的重復、權力姿勢(power pose )。許多人以為,可重復危機基本上就已經確定了,心理學要開始進行艱苦卓絕的方法變革,來提高本領域研究的可重復性了。
2015年,溫州大學教育學院教師仲曉波老師在《心理科學》上發表了《心理學實驗的可重復性》,對心理學的可重復性問題從統計角度進行了比較深入的介紹。
2016年3月,Science上的一個評論再次引起爭議,Gilbert等人分析了COS大規模重復實驗的數據,認為三個方面的錯誤使得他們的不足以得到心理學研究的可重復率只有39%的結論。這一評論再次激起了Nosek等人的回應、博客上的論戰以及媒體的報道。另一個非常著名的心理學效應似乎也無法跨過重復實驗這道坎:自我損耗(ego-depletion)的重復實驗也未能重復出其效應,而元分析也顯示了相似的結果。這個失敗讓籠罩在心理學家頭上的烏云更加密布,因為這個理論非常符合直覺,大量心理學家的時間和精力、大量的研究經費投入在這個問題的研究之中。如果這個效應是假的,那可能就不是某一兩個實驗室的問題,而完全是整個領域的大問題!不過自我損耗理論的主要提出者Baumeister認為重復實驗是有問題的。所以這個效應是否能夠重復,我們還需要拭目以待。
圖源網絡
國內方面,2016年,心理學界的老前輩、北大的朱瀅教授在《心理科學進展》上發表題為“開放科學數據共享軟件共享, 你準備好了嗎?”的文章,呼吁心理學家重視研究的開放性。聶丹丹與同事在《中國臨床心理學雜志》上發表“可重復性:心理學研究不可忽視的實踐
胡傳鵬(2016)對可重復性問題的詳細介紹即“心理學研究的可重復性問題:從危機到契機”,發表在《心理科學進展》上,從可重復危機的發展、原因及對策等多個角度對這一危機進行了介紹。同時,文章報告了國內心理學研究者是否能夠正確理解統計指標p值的結果,結果令人震驚但也可以理解:
在這個文章中,胡傳鵬及同事也總結了在科研中,相對正確的做法和不正確的做法:
到2016年結束的時候,許多正確的做法在國際上正在成為新的標準。作為中國的研究者,可能需要及時了解這些變化,采用新的做法,才能避免在科研中落后。
二、為什么會出現可重復性危機呢?
主要有以下幾個原因
統計上:對NHST的誤解/過度依賴。對NHST的誤解導致二分的思維(Krik,2008),p<0.05被當作是否有效應的主要標準;是研究者的可疑研究操作和出版偏誤的部分原因。
2.研究實施中:可疑的研究操作。研究者在研究實驗中自由度大,操縱結果使之顯著(loanidis, 2008; Simmons, Nelson, & Simonsohn, 2011);選擇性報告或忽略某些因變量或者變量的某些水平( John, Loewenstein, & Prelec, 2012);樣本量的選擇以及如何終止手機數據的問題,有72%的心理學家承認在進行統計分析觀察是否顯著后決定是否收集更多的數據(John et al., 2012).總體來說,可疑操作是“發表論文動機”+“對假陽性的誤解”的結果。
3.制度原因:出版偏誤(publication bias)+獎勵機制。心理學和精神病學領域有超過90%的論文發表了顯著性的結果。Franco, Malhotra, and Simonovists(2014) 對221個社會科學研究的調查結果如下,
三、如何解決可重復性危機?
統計上。使用其他方法用以替代NHST。目前提出的替代方法主要有:①基于估計的統計法(Cumming, 2012, 2014);②貝葉斯方法( Miller, 2011; Wagenmakers et al., 2011);穩健統計(Robust statistics)(Erceg-Hurn & Mirosevich, 2008; Wilcox, 2011)。
提前注冊(pre-registration)。在提前注冊的時候主要報告包括以下內容:①研究假設;②方法部分,包括研究設計、計劃使用的樣本量(選擇樣本量的規則、這些樣本量將從何處獲得、以及為什么這么選和終止實驗標準)、數據排除標準和研究的程序;③數據分析計劃,包括相關變量以及他們的計算方法、統計技術、變量與協變量以及關系、多重分析時的方法、使用非NHST時報告理由。
開放數據和材料(Open data and materials)2014年,透明與公開促進委員會(Transparency and Openness Promotion Committee, TOP),出臺了透明與公開期刊的標準。2015年,psych.Sci 和cognition均要求公開數據;現在:nature, science均要求公開數據。
注1:本文轉載自胡傳鵬博士,本文轉載自https://www.sohu.com/a/205764065_652510
注2:關于心理學可重復的問題,有一個網站非常好,以時間線的方式展現了一些重要的事件,有興趣可以圍觀:Replication in Psychology: A Historical Perspective。
◇參考文獻◇
Bem, D. J. (2011). Feeling the future: Experimental evidence foranomalous retroactive influences on cognition and affect. Journal ofPersonality and Social Psychology, 100(3), 407-425. doi: 10.1037/a0021524
Brandt, M. J., Ijzerman, H.,Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., . . . van 'tVeer, A. (2014). The Replication Recipe: What makes for a convincingreplication? Journal of Experimental Social Psychology, 50(0), 217-224.doi: The Replication Recipe: What makes for a convincing replication?
Doyen, S., Klein, O., Pichon,C.-L., & Cleeremans, A. (2012). Behavioral Priming: It’s All in the Mind,but Whose Mind? PLoS One, 7(1), e29081. doi: 10.1371/journal.pone.0029081
John, L. K., Loewenstein, G.,& Prelec, D. (2012). Measuring the Prevalence of Questionable ResearchPractices With Incentives for Truth Telling. Psychological Science, 23(5),524-532. doi: 10.1177/0956797611430953
Miller, G. (2011). ESP PaperRekindles Discussion About Statistics. Science, 331(6015), 272-273. doi:10.1126/science.331.6015.272
Simmons, J. P., Nelson, L. D.,& Simonsohn, U. (2011). False-Positive Psychology. Psychological Science,22(11), 1359-1366. doi: 10.1177/0956797611417632
陳巍. (2014). 可重復性:盤旋在具身認知實驗室上方的“幽靈”. 心理技術與應用(01), 23-25.
胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學研究的可重復性問題:從危機到契機. 心理科學進展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504
聶丹丹, 王浩, 羅蓉. (2016). 可重復性:心理學研究不可忽視的實踐. 中國臨床心理學雜志(04), 618-622.
仲曉波. (2015). 心理學實驗的可重復性. 心理科學(04), 807-812.
朱瀅. (2016). “開放科學數據共享軟件共享”, 你準備好了嗎?. 心理科學進展, 24(6), 995–996. doi:10.3724/sp.j.1042.2016.00995