Même après les progrès rapides des 3 derniers mois, il reste que la performance de l'IA est liée à la familiarité avec la tâche. Dans les domaines qui peuvent être échantillonnés de manière dense (via génération et vérification programmatiques), la performance est effectivement illimitée et continuera d'augmenter par rapport aux niveaux actuels. Dans des domaines nouveaux et inconnus, la performance reste faible et des progrès supplémentaires nécessitent encore de nouvelles idées, pas seulement plus de données et de puissance de calcul.
Taelin
Taelinil y a 16 heures
Ok, je pense que mon expérience de laisser l'IA travailler sur des choses 24/7 s'arrête ici. Ça ne fonctionne pas. Le code explose en complexité, les résultats ne sont pas si bons, l'IA ne peut pas franchir des murs difficiles (elle est toujours complètement incapable de même *comprendre* SupGen), et c'est incroyablement coûteux (j'ai dépensé environ 1k au cours des 2 derniers jours). Les meilleurs résultats sont sur le compilateur JS, principalement parce qu'il est familier (comparé aux inets), mais cela ne vaut pas la peine de perdre le contrôle sur la base de code. Je pense que le rêve d'avoir des IA travaillant en arrière-plan et faisant de réels progrès sur des choses qui comptent (c'est-à-dire, des choses vraiment nouvelles) n'est pas encore là. C'est toujours une machine coincée sur ses propres données d'entraînement, incapable de penser en dehors des sentiers battus. C'est génial pour construire des choses qui ont déjà été construites. Mais pas pour des choses nouvelles. De plus, coder normalement a l'avantage sous-estimé de faire deux choses en même temps : construire une base de code *et* l'apprendre. Les IA ne font que la moitié de cela. L'autre moitié est évidemment impossible 🤔
Pour les benchmarks qui ciblent des tâches nouvelles, une forme courante de hacking de benchmark qui exploite cette lacune consiste à générer un échantillonnage dense de tâches potentielles en paramétrant manuellement l'espace, puis en le forçant par brute force. Très coûteux mais ça fonctionne. Il y a peu de choses que vous pouvez faire pour restaurer la validité du benchmark ici, à part augmenter la dimensionnalité de l'espace des tâches.
47