DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

En la era del preentrenamiento, lo que importaba era el texto de internet. Principalmente querrías una colección grande, diversa y de alta calidad de documentos de internet de los que aprender. En la era del ajuste fino supervisado, eran las conversaciones. Se contratan trabajadores temporales para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientadas a casos de uso de LLM. Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era del aprendizaje por refuerzo, ahora son los entornos. A diferencia de los anteriores, le dan a la LLM la oportunidad de interactuar realmente: tomar acciones, ver resultados, etc. Esto significa que puedes esperar hacer mucho mejor que la imitación experta estadística. Y pueden ser utilizados tanto para el entrenamiento como para la evaluación del modelo. Pero, al igual que antes, el problema central ahora es necesitar un conjunto grande, diverso y de alta calidad de entornos, como ejercicios para que la LLM practique. En cierto modo, me recuerda al primer proyecto de OpenAI (gym), que era exactamente un marco que esperaba construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran tareas de control académico simples de la época, como cartpole, ATARI, etc. El hub de entornos @PrimeIntellect (y el repositorio `verifiers` en GitHub) construye la versión modernizada específicamente dirigida a LLM, y es un gran esfuerzo/idea. Propuse que alguien construyera algo como esto a principios de este año: Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio la comunidad/industria puede paralelizarse en muchos dominios diferentes, lo cual es emocionante. Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agentivas, pero soy pesimista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son muy sospechosas, y creo que los humanos no utilizan el RL para aprender (quizás lo hagan para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos utilizan paradigmas de aprendizaje diferentes que son significativamente más poderosos y eficientes en muestras y que aún no han sido inventados y escalados adecuadamente, aunque existen bocetos e ideas tempranas (como solo un ejemplo, la idea de "aprendizaje de indicaciones del sistema", moviendo la actualización a tokens/contextos y no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).

Continuando el viaje hacia una experiencia óptima de codificación asistida por LLM. En particular, encuentro que en lugar de centrarme en una única cosa perfecta, mi uso se está diversificando cada vez más en unos pocos flujos de trabajo que "coso" los pros y los contras: Personalmente, el pan y la mantequilla (~75%?) de mi asistencia LLM sigue siendo simplemente (Cursor) completar con tabulador. Esto se debe a que encuentro que escribir bloques concretos de código/comentarios yo mismo y en la parte correcta del código es una forma de comunicación de "especificación de tarea" de alto ancho de banda para el LLM, es decir, se trata principalmente de bits de especificación de tarea: lleva demasiados bits y demasiada latencia comunicar lo que quiero en texto, y es más rápido simplemente demostrarlo en el código y en el lugar correcto. A veces, el modelo de completar con tabulador es molesto, así que lo alterno mucho. El siguiente nivel es resaltar un bloque concreto de código y pedir algún tipo de modificación. El siguiente nivel es Claude Code / Codex / etc., funcionando al lado de Cursor, al que acudo para bloques más grandes de funcionalidad que también son bastante fáciles de especificar en un aviso. Estos son súper útiles, pero aún así son mixtos en general y ligeramente frustrantes a veces. No opero en modo YOLO porque pueden desviarse y hacer cosas tontas que no querías/necesitabas y ESC bastante a menudo. Tampoco he aprendido a ser productivo usando más de una instancia en paralelo: una ya se siente lo suficientemente difícil. No he encontrado una buena manera de mantener CLAUDE[.]md bien o actualizado. A menudo tengo que hacer una pasada de "limpiezas" por el estilo de codificación o cuestiones de gusto en el código. Por ejemplo, son demasiado defensivos y a menudo sobreutilizan las declaraciones try/catch, a menudo complican en exceso las abstracciones, sobrecargan el código (por ejemplo, construcciones anidadas if-else cuando una comprensión de lista o un if-then-else de una línea funcionarían), o duplican bloques de código en lugar de crear una buena función auxiliar, cosas así... básicamente no tienen sentido del gusto. Son indispensables en casos donde me adentro en un territorio de codificación más intuitivo donde estoy menos familiarizado (por ejemplo, escribiendo algo de rust recientemente, o comandos sql, o cualquier otra cosa que haya hecho menos antes). También intenté que CC me enseñara cosas junto con el código que estaba escribiendo, pero eso no funcionó en absoluto: realmente quiere escribir código mucho más de lo que quiere explicar algo en el camino. Intenté que CC hiciera ajuste de hiperparámetros, lo cual fue muy divertido. También son súper útiles en todo tipo de visualizaciones personalizadas o utilidades de depuración de bajo riesgo que nunca escribiría de otra manera porque habría tomado demasiado tiempo. Por ejemplo, CC puede generar 1,000 líneas de visualización/código extensivo solo para identificar un error específico, que se elimina justo después de encontrarlo. Es la era del código post-escasez: ahora puedes crear y luego eliminar miles de líneas de código súper personalizado y efímero, está bien, ya no es algo precioso y costoso. La última capa de defensa es GPT5 Pro, al que acudo para las cosas más difíciles. Por ejemplo, me ha pasado un par de veces que yo / Cursor / CC estamos atascados en un error durante 10 minutos, pero cuando copio y pego todo en 5 Pro, se va durante 10 minutos pero luego realmente encuentra un error muy sutil. Es muy potente. Puede desenterrar todo tipo de documentos y artículos esotéricos y demás. También lo he utilizado para otras tareas más sustanciales, por ejemplo, sugerencias sobre cómo limpiar abstracciones (resultados mixtos, a veces buenas ideas pero no todas), o una revisión completa de la literatura sobre cómo la gente hace esto o aquello y vuelve con buenos recursos/puntos relevantes. De todos modos, la codificación se siente completamente abierta a posibilidades a través de una serie de "tipos" de codificación y luego una serie de herramientas con sus pros y contras. Es difícil evitar la sensación de ansiedad por no estar en la frontera de lo que es colectivamente posible, de ahí la lluvia de pensamientos aleatorios del domingo y una buena cantidad de curiosidad sobre lo que otros están descubriendo.

Parte superior

Clasificación

Favoritos