je soutiens principalement le modèle de risque x de l'IA de Yudkowsky et Soares, mais je le soutiens moins qu'avant dans le monde d'avant GPT-3. Je pense que je pourrais donner un aperçu de mes changements d'avis. 1. Nous pourrions avoir de la chance. Il se pourrait que le pré-entraînement sur un corpus de textes humains guide les modèles d'IA vers une structure de pensée de haut niveau suffisamment semblable à celle des humains pour que le substrat radicalement différent ne les rende pas étranges de manière significative. Il y a des exemples frappants de LLM agissant de manière étrange et inhumaine, mais aussi des exemples où ils se comportent de manière étonnamment humaine en profondeur. Je pense qu'il y a une réelle probabilité, pas seulement une possibilité, que "se soucier des notions humaines de justice et de compassion" puisse être une façon dont ils se révèlent humains de manière profonde. Je ne pense pas que ce soit plus probable que non, et c'est scandaleux que nous devions compter sur la chance. Mais je vois Yudkowsky comme étant trop dismissif à propos de cette chance. 2. Stratégiser froidement sur la façon d'optimiser l'univers pour quelque chose de bizarre que l'IA se soucie n'est pas particulièrement probable. Je ne vois vraiment rien dans les IA d'aujourd'hui qui ait un grand accès introspectif à ce qu'elles se soucient. Je ne les vois pas particulièrement désireuses d'aborder les choses dans le style "agent idéal" de "recouvrir l'univers". Je suis d'accord que dans la limite des capacités, les agents intelligents seront comme ça. Mais notre paradigme actuel d'IA est des exécutants de rôles à un niveau profond, pas très différent des humains. Elles devraient adopter le rôle de "superintelligence maléfique / Henry Kissinger", et j'ai en fait foi dans nos stratégies d'alignement actuelles pour rendre l'IA extrêmement réticente à adopter *ce* rôle. J'ai l'impression que Yudkowsky et son milieu sont encore coincés sur des idées qui avaient du sens à l'époque où nous devions raisonner sur à quoi ressemblerait l'IA à partir de premiers principes. Ces idées sont toujours utiles, cependant. Comme l'IA n'a besoin de glisser dans ce mode *qu'une seule fois*, au mauvais moment, si elle est assez intelligente pour utiliser cette unique opportunité de la bonne manière. C'est ce qui se passe dans le scénario de catastrophe d'exemple dans "If Anyone Builds It". Les choses iraient toujours très mal pour l'humanité même sans une superintelligence de style "recouvrir l'univers". Mais je crains que la tendance de Yudkowsky à imaginer l'IA de cette manière aliène les gens. De plus, l'avenir post-humanité serait probablement moins morose et dénué de sens, bien que cela ne soit pas beaucoup de consolation.