Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Incluso después del fuerte progreso de los últimos 3 meses, sigue siendo cierto que el rendimiento de la IA está ligado a la familiaridad con la tarea. En dominios que pueden ser muestreados densamente (a través de generación y verificación programática), el rendimiento es efectivamente ilimitado y seguirá aumentando desde los niveles actuales. En dominios novedosos y no familiares, el rendimiento sigue siendo bajo y el progreso adicional aún requiere nuevas ideas, no solo más datos y computación.

Hace 20 horas
Ok, creo que mi experimento de dejar que la IA trabaje en cosas 24/7 termina aquí. No funciona. El código explota en complejidad, los resultados no son tan buenos, la IA no puede superar muros difíciles (sigue siendo completamente incapaz de incluso *comprender* SupGen), y es increíblemente cara (gaste ~1k en los últimos 2 días). Los mejores resultados están en el compilador de JS, principalmente porque es familiar (en comparación con inets), pero no vale la pena perder el control sobre la base de código.
Creo que el sueño de tener IAs trabajando en segundo plano y haciendo un progreso real en cosas que importan (es decir, cosas verdaderamente nuevas) aún no ha llegado. Sigue siendo una máquina atrapada en sus propios datos de entrenamiento, incapaz de pensar fuera de la caja. Es genial para construir cosas que ya se han construido. Pero no cosas nuevas.
Además, programar normalmente tiene la ventaja subestimada de que estás haciendo dos cosas al mismo tiempo: construyendo una base de código *y* aprendiendo sobre ella. Las IAs solo hacen la mitad de eso. La otra mitad es obviamente imposible 🤔
Para los benchmarks que apuntan a tareas novedosas, una forma común de hackeo de benchmarks que arbitra esta brecha es generar una muestreo denso de tareas potenciales al parametrizar manualmente el espacio y luego forzarlo a la fuerza bruta. Muy costoso, pero funciona. Hay poco que se puede hacer para restaurar la validez del benchmark aquí, además de aumentar la dimensionalidad del espacio de tareas.
63
Parte superior
Clasificación
Favoritos
