Incluso tras el fuerte avance de los últimos 3 meses, sigue siendo que el rendimiento de la IA está ligado a la familiaridad con las tareas. En dominios que pueden ser muestreados densamente (mediante generación + verificación programática), el rendimiento es efectivamente ilimitado y seguirá aumentando respecto a los niveles actuales. En dominios nuevos y desconocidos, el rendimiento sigue siendo bajo y el progreso aún requiere nuevas ideas, no solo más datos y cálculo.
Taelin
Taelin27 feb, 10:51
Vale, creo que mi experimento de dejar que la IA trabaje en cosas 24/7 termina aquí. No funciona. El código explota en complejidad, los resultados no son tan buenos, la IA no puede superar muros duros (sigue siendo completamente incapaz de *comprender* SupGen), y es absurdamente caro (se ha gastado ~1k en los últimos 2 días). Los mejores resultados están en el compilador JS, principalmente porque es familiar (comparado con los inets), pero no merece la pena perder el control sobre la base de código. Creo que el sueño de tener IAs trabajando en el contexto y avanzando de verdad en cosas que importan (es decir, cosas realmente nuevas) aún no ha llegado. Sigue siendo una máquina clavada en sus propios datos de entrenamiento, incapaz de pensar fuera de lo común. Es genial para construir cosas que ya estaban construidas. Pero no cosas nuevas Además, programar normalmente tiene la ventaja poco valorada de que haces dos cosas a la vez: construir una base de código *y* aprenderla. Las IA hacen solo la mitad de eso. La otra mitad es obviamente imposible 🤔
Para benchmarks que apuntan a tareas novedosas, una forma común de hacking de benchmarks que arbitra esta brecha es generar un muestreo denso de tareas potenciales parametrizando manualmente el espacio y luego forzarlo por fuerza bruta. Muy caro, pero funciona. Aquí poco se puede hacer para restaurar la validez de los benchmarks aparte de aumentar la dimensionalidad del espacio de tareas.
65