社会科学预测平台刚刚被分析,以了解研究人员在预测研究效应大小方面的能力。 他们做得不好🧵 研究人员通常高估他们的效应会有多大!
当你比较研究人员的预测(b)和他们的发现(a)时,预测的结果显然远大于实际情况。 而下面的图表可能会过于夸大预测的准确性,因为相关性虽然相当可观,但并不令人信服,仅为0.453。
作为对该结果的限定,相对而言,RCT结果的误估较少,而非RCT结果的误估较多。 但有趣的是,绝对程度是相同的。
影响预测准确性的因素有哪些? 最强大的因素是群体智慧:群体的表现优于个体,结果显著! 此外,学者的表现优于非学者,付费预测小组成员的表现优于非小组成员,而信心的影响是非线性的糟糕!
自信的人通常在整体上准确性较低。但将缺乏自信的人与中位数的人进行比较时,二者之间没有差异。只有在高自信的情况下,这种模式才会显现出来。
原因在于,高度自信的预测会产生更大的效应量,出于某种原因。
更有趣的是,人与人之间的信心与较低的准确性相关,而个人内部的信心与较高的准确性相关。 也就是说,当你观察人们随时间的变化时,他们更有信心的预测往往是更好的预测!
许多其他因素在预测准确性方面发挥了小但显著的作用,我绝对推荐大家去阅读这篇论文以了解更多。 但我建议大家从中得出的结论是,总的来说,人们在预测科学方面仍然不是很好。
从某种意义上说,这是一件好事。 如果一切都能被完美预测,我们根本就不需要进行研究。 从另一个角度来看,这是一件坏事,主要是因为具体情况。也就是说,研究人员过于自信,似乎对结果过于夸大。
从另一个角度来看,这确实是一个非常有信息量的事情,支持了我在其他地方提出的观点 例如,在文献中,关于过多的 p 值恰好处于显著性边缘的辩护中,听到的一个论点是研究人员 "预测" 了这一点 不是真的!
这个论点是,研究人员进行了功效分析——这需要选择一些希望是现实的效应大小——因此他们的结果预计是刚好显著的。 但实际上并不是。 如果你的功效为80%,那么大多数的p值都来自显著性阈值。
没有人能预测 p 值会在哪里,除非对治疗效果、方差等有更精确的了解,而这些知识是不可获得的。 但人们却在为不可能的事情辩护,研究人员对治疗的预测不佳支持了这一观点。
2.84K