社會科學預測平台剛剛被分析,以了解研究人員在預測研究效應大小方面的表現。 他們的表現並不好🧵 研究人員經常高估他們的效應會有多大!
當你比較研究人員的預測 (b) 和他們的發現 (a) 時,預測的數字顯然遠大於實際情況。 而下面的這張圖表可能會過度誇大預測的準確性,因為相關性雖然相當可觀,但並不令人信服,只有 0.453。
作為對該結果的補充,RCT 結果的誤估計相對較少,而非 RCT 結果的誤估計相對較多。 但有趣的是,絕對程度是相同的。
哪些因素影響了預測準確性? 最強大的因素是群眾智慧:群體的表現超過了個人,這一點是毋庸置疑的! 此外,學者的表現優於非學者,付費預測小組成員的表現優於非小組成員,而信心的影響是非線性的糟糕!
自信的人通常在一般情況下的準確性較低。但將不自信的人與中位數的人相比,並沒有差異。當你進入高自信的範疇時,這種模式才會顯現出來。
原因在於,高度自信的預測會產生更大的效應大小,出於某種原因。
更有趣的是,個體之間的信心與較低的準確性相關,但個體內的信心則與較高的準確性相關。 也就是說,當你隨著時間觀察人們時,他們更有信心的預測往往是更好的預測!
許多其他因素在預測準確性中扮演了小但顯著的角色,我絕對建議大家去閱讀這篇論文以了解更多。 但我建議從中得出的結論是,總的來說,人們在預測科學方面仍然不是很好。
在某種意義上,這是一件好事。 如果一切都能被完美預測,我們根本不需要進行研究。 在另一種意義上,這是一件壞事,主要是因為具體情況。也就是說,研究人員過於自信,似乎對結果過度炒作。
從另一個角度來看,這是一個非常有資訊的事情,支持我在其他地方提出的觀點 例如,在文獻中,為了辯護過多的 p 值恰好位於顯著性邊緣的論點之一是研究人員「預測」了這一點 不是真的!
這個論點是,研究人員進行了功效分析——這需要選擇一些希望能夠現實的效應大小——因此他們的結果預期是剛好顯著的。 但事實並非如此。 如果你的功效為80%,大多數的p值都來自顯著性閾值。
沒有人能預測 p 值會在哪裡,除非對治療效果、變異數等有更精確的了解,而這些知識是無法獲得的。 但人們卻在為不可能的事情辯護,而研究人員對治療的預測不佳也支持了這一觀點。
2.84K