無效的罰款

Felix Chopra,Ingar Haaland,Chris Roth,Andreas Stegmann2022年7月3日

科學家檢驗具有經驗證據的假設(Popper 1934)。該證據隨著科學期刊的研究的出版而積累。因此,科學知識的擴展需要出版係統,該係統在沒有係統偏見的情況下評估研究。然而,人們對科學研究中的出版偏見越來越關注(Brodeur等,2016,Simonsohn等人,2014年)。這種出版物的偏見可能是由於出版係統懲罰研究論文,其影響很小,這在統計上沒有意義。由此產生的選擇可能導致估計和誤導性置信區間在已發表的研究中(Andrews and Kasy 2019)。

與學術經濟學家的大規模調查

在新論文(Chopra等,2022年)中,我們檢查了出版物研究係統中是否有罰款,以無效結果,如果是,則懲罰背後的機製是否存在。為了解決這些問題,我們對來自世界前200名經濟學部門的大約500名經濟學家進行了實驗。

我們樣本中的研究人員作為學術研究的生產者和評估者都有豐富的經驗。例如,我們有12.7%的受訪者是科學期刊的副編輯,中位研究人員的H索引為11.5和845 Google Scholar的引用。這使我們能夠研究經濟學領域的經驗豐富的研究人員評估研究。

在實驗本身中,這些研究人員得到了四項假設研究的描述。每個描述均基於經濟學家的實際研究研究,但是我們為實驗目的修改了一些細節。研究的描述包括有關研究問題,實驗設計(包括樣本量和對照組平均值)以及研究的主要發現。

我們的主要幹預措施改變了研究研究的主要發現的統計學意義,並擁有研究的所有其他特征。我們隨機分組與研究的主要發現相關的點估計值大(並且具有統計學意義)還是接近零(因此在統計上不顯著)。重要的是,在這兩種情況下,我們都保留了點估計值相同的標準誤差,這使我們能夠保持估計值常數的統計精度。

研究研究的主要發現的統計意義如何影響研究人員對研究的看法和評估?為了找出答案,我們詢問我們的受訪者他們認為,如果該研究提交在特定期刊上,則將其認為該研究將在特定期刊上發表。該期刊要麼是一般興趣期刊(就像經濟研究綜述)或適當的頂級日記(例如經濟增長雜誌)。此外,我們衡量了他們對研究研究的質量和重要性的看法。

是否有無效的罰款?

我們發現證據表明對無效結果的罰款有實質性的罰款。我們樣本中的研究人員認為,無效結果的研究的發表機會降低了14.1個百分點(圖1的麵板A)。相對於手頭研究將產生統計學意義的發現,這種影響對應於24.9%的降低。

此外,研究人員對產生無效的研究的研究具有更多的負麵看法(圖1的麵板B)。我們的實驗研究人員認為,這些研究的標準偏差質量較低。我們的受訪者還對無效結果的研究也評為標準偏差的32.5%。

經曆是否適應無效結果罰款?我們發現,從博士學位學生到科學期刊的編輯,不同的研究人員組的罰款是可比的。這表明無效的罰款不能歸因於出版過程本身的經驗不足。

圖1無效的罰款

機製

為什麼研究人員會認為研究結果在出版過程中沒有統計學意義?設計的其他功能使我們能夠檢查三個潛在因素。

不確定性的交流

我們傳達統計不確定性的方式會影響零結果罰款的大小嗎?在我們的實驗中,我們交叉交叉向研究人員提供了主要發現的標準誤差或p- 與主要發現是否具有統計學意義相關的測試相關的值。這種治療差異是由於學術界長期關注的激勵是對p- 具有統計意義的價值和測試可能導致出版過程中的偏見(Camerer等,2016,Wasserstein和Lazar 2016)。我們發現,當報告主要結果與p- 價值,因此表明我們傳達統計不確定性的方式在實踐中至關重要。

偏愛令人驚訝的結果

我們的受訪者可能會認為,出版過程對文獻中先驗的研究重視令人驚訝的發現。的確,弗蘭克爾(Frankel)和卡西(Kasy,2022年)表明,如果我們希望期刊最大程度地發表已發表研究的政策影響,那麼發布令人驚訝的結果是最佳選擇。如果研究人員認為對該領域的專家毫不奇怪,這種機製可能會解釋無效的罰款。為了研究這一點,我們隨機向我們的一些受訪者提供了對治療效果的專家預測。我們隨機評估專家是預測巨大的效果還是預測接近零的效果。我們發現,當向受訪者提供文獻專家預測無效結果的信息時,零結果的罰款是不變的。但是,一旦專家預測了很大的影響,零結果的罰款將增加6.3個百分點。這些模式表明,研究人員認為,出版過程有利於令人驚訝的結果,因為他們應該評估專家在這種情況下沒有更積極地預測的無效結果,因此無法解釋對無效結果的懲罰。

感知的統計精度

最後,我們調查了一個假設,即即使保持估計值的客觀精度,也可以將無效結果視為更加嘈雜的估計。為了檢驗這一假設,我們對博士生和早期職業研究人員進行了一個實驗。該實驗的設計和主要結果與我們的主要實驗相同,但是我們將有關質量和重要性的問題取代了有關主要發現的精確度的問題。我們還發現在這個較少的研究人員樣本中,我們發現了相當大的無效結果罰款。此外,盡管我們固定了受訪者對主要發現的標準誤差的信念(圖1的麵板B),但我們發現零結果被認為具有較低精度的126.7%。這表明研究人員可能會采用簡單的啟發式方法來評估發現的統計精度。

更廣泛的含義

我們的發現對出版係統具有重要意義。首先,我們的研究強調了在已知的經驗結果之前評估研究論文的潛在價值(Miguel 2021)。其次,我們的結果表明,有關研究評估的其他準則,這些指南強調了無效結果的信息性和重要性(Abadie 2020)應為裁判提供。我們的研究也對研究結果的交流有影響。特別是,我們的結果表明,通過標準錯誤而不是p值來傳達估計值的統計不確定性可能會減輕對無效結果的罰款。我們的發現有助於有關當前出版係統挑戰的更廣泛辯論(Angus等,2021,Andre and Falk 2021,Card和Dellavigna 2013,Heckman和Moktan 2018)以及改善經濟學出版物的潛在方法(Charness等人(Charness等)。2022)。

參考

Abadie,A(2020),“經驗經濟學中的統計非意義”,美國經濟評論:見解2(2):193–208。

Andre,P和A Falk(2021),“在經濟學方麵有什麼知識?經濟學家之間的全球調查”,9月7日,Voxeu.org。

Andrews,I和M Kasy(2019),“出版偏見的識別和更正”,《美國經濟評論》 109(8):2766-94。

Angus,S,K Atalay,J Newton和D Ubilava(2021),“領先的經濟期刊的編輯委員會表現出高度集中和適度的地理多樣性”,7月31日,Voxeu.org。

Brodeur,A,MLé,M Sangnier和Y Zylberg(2016),“星球大戰:經驗反擊”,,,美國經濟雜誌:應用經濟學8(1):1-32。

Camerer,C F,A Dreber,E Forsell,T-H Ho,J Huber,M Johannesson,M Kirchler,J Almenberg,A Altmejd,T Chan,E Heikensten,f Helzmeister,F Holzmeister,Timai,Timai,S Isakson,S Isaksson,G Nave,G Nave,G Nave,G Nave,G Nave,G Nave,G Nave,MRazen和H Wu(2016),“評估經濟學實驗實驗的可複製性”,科學351(6280):1433–1436。

Card,D和S Dellavigna(2013),“關於經濟學領域最高期刊的九個事實”,1月21日,www.303hail.com。

Charness,G,Dreber,D Evans,A Gill和S Toussaert(2022),“經濟學家希望看到其同行審查係統的變化。讓我們對此做些事情”,4月24日,www.303hail.com。

Chopra,F,I Haaland,C Roth和A Stegmann(2022),“無效結果”,CEPR討論文件17331。

弗蘭克爾(Frankel),A和M Kasy(2022),“應該出版哪些發現?”,美國經濟雜誌:微觀經濟學14(1):1-38。

Heckman,J和S Moktan(2018),“經濟學出版與促進:前五名的暴政”,11月1日,Voxeu.org。

Miguel,E(2021),“經濟學研究透明度的證據”,經濟觀點雜誌35(3):193-214。

Popper,K(1934),科學發現的邏輯,Routledge。

Simonsohn,U,L D Nelson和J P Simmons(2014),“ P-Curve and Felmive大小:僅使用顯著結果糾正出版偏見”,心理科學的觀點9(6):666-681。

Wasserstein,R L和N A Lazar(2016),“ ASA關於P值的聲明:上下文,過程和目的”,美國統計學家70(2):129–133。

話題:經濟研究前沿

標簽:無效結果,,,,出版偏見,,,,p黑客,,,,同行評審,,,,經濟期刊

哥本哈根大學經濟學助理教授

NHH挪威經濟學院副教授

科隆大學經濟與管理教授

沃裏克大學經濟學助理教授

事件

CEPR政策研究

Baidu
map