en su mayoría respaldo el modelo de riesgo de IA de yudkowsky&soares, pero lo respaldo menos de lo que lo hacía en el mundo anterior a GPT-3. Creo que podría dar un esbozo de dónde he cambiado 1. podríamos tener suerte podría resultar que el preentrenamiento en un corpus de texto humano guía a los modelos de IA hacia una estructura de pensamiento de alto nivel que sea lo suficientemente parecida a la humana como para que el sustrato radicalmente diferente no los haga extraños de maneras que terminen importando. Hay ejemplos sorprendentes de llms actuando de manera extraña y poco humana, pero también ejemplos de ellos siendo sorprendentemente humanos en formas profundas. Creo que hay una probabilidad real, no solo posibilidad, de que "preocuparse por las nociones humanas de justicia y compasión" podría ser una forma en que resulten ser humanos de una manera profunda o no creo que esto sea más probable que no, y es escandaloso que tengamos que poner nuestras esperanzas en tener suerte. Pero veo a yudkowsky como demasiado despectivo con la oportunidad 2. planear fríamente cómo optimizar el universo para alguna cosa extraña específica que le importa a la IA no es particularmente probable realmente no veo nada como las IA de hoy teniendo un gran acceso introspectivo a lo que les importa. No los veo especialmente inclinados a abordar las cosas en el estilo de "agente ideal" de "cubrir el universo". Estoy de acuerdo en que en el límite de capacidades, los agentes inteligentes serán así. Pero nuestro paradigma actual de IA son ejecutores de roles a un nivel profundo, no muy diferente de los humanos. Tendrían que adoptar el rol de "superinteligencia malvada / henry kissinger", y en realidad tengo fe en nuestras estrategias de alineación actuales para hacer que la IA sea extremadamente reacia a adoptar *ese* rol Tengo la impresión de que yudkowsky y su entorno todavía están atrapados en ideas que tenían sentido cuando teníamos que razonar sobre cómo sería la IA desde primeros principios. Esa información sigue siendo útil, sin embargo. Como la IA solo necesita caer en ese modo *una vez*, en el momento equivocado, si es lo suficientemente inteligente como para usar esa única oportunidad de la manera correcta. Eso es lo que sucede en el escenario de doom del ejemplo en Si alguien lo construye Las cosas seguirían yendo muy mal para la humanidad incluso sin una superinteligencia al estilo de "cubrir el universo". Pero me preocupa que la tendencia de yudkowsky a imaginar la IA de esa manera aliena a las personas. Además, el futuro post-humanidad probablemente sería menos sombrío y sin sentido, aunque eso no es un gran consuelo.