Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

En la era del preentrenamiento, lo que importaba era el texto de Internet. Principalmente querrá una colección grande, diversa y de alta calidad de documentos de Internet para aprender. En la era del ajuste supervisado, eran conversaciones. Los trabajadores contratados son contratados para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientado a casos de uso de LLM. Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era de aprendizaje por refuerzo, ahora son los entornos. A diferencia de lo anterior, le dan al LLM la oportunidad de interactuar realmente: tomar medidas, ver resultados, etc. Esto significa que puede esperar hacerlo mucho mejor que la imitación de expertos estadísticos. Y se pueden utilizar tanto para el entrenamiento como para la evaluación de modelos. Pero al igual que antes, el problema central ahora es la necesidad de un conjunto de entornos grandes, diversos y de alta calidad, como ejercicios para que el LLM practique. De alguna manera, me recuerda al primer proyecto de OpenAI (gimnasio), que era exactamente un marco con la esperanza de construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran simples tareas de control académico de la época, como cartpole, ATARI, etc. El centro de entornos @PrimeIntellect (y el repositorio de 'verificadores' en GitHub) crea la versión modernizada dirigida específicamente a los LLM, y es un gran esfuerzo / idea. Propuse que alguien construyera algo así a principios de este año: Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio, la comunidad / industria puede paralelizar en muchos dominios diferentes, lo cual es emocionante. Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agenciales, pero soy bajista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son súper sus, y creo que los humanos no usan RL para aprender (tal vez lo hacen para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos usan diferentes paradigmas de aprendizaje que son significativamente más poderosos y eficientes en el muestreo y que aún no se han inventado y escalado adecuadamente, aunque existen los primeros bocetos e ideas (como solo un ejemplo, la idea de "aprendizaje rápido del sistema", moviendo la actualización a tokens/contextos no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).

Continuando el viaje de una experiencia de codificación óptima asistida por LLM. En particular, encuentro que en lugar de reducirme a una cosa perfecta, mi uso se está diversificando cada vez más en algunos flujos de trabajo de los que "coso" los pros / contras de: Personalmente, el pan y la mantequilla (~ 75%?) de mi asistencia de LLM sigue siendo solo la pestaña (Cursor) completa. Esto se debe a que encuentro que escribir fragmentos concretos de código / comentarios yo mismo y en la parte derecha del código es una forma de alto ancho de banda de comunicar la "especificación de tareas" al LLM, es decir, se trata principalmente de bits de especificación de tareas: se necesitan demasiados bits y demasiada latencia para comunicar lo que quiero en el texto. Y es más rápido simplemente demostrarlo en el código y en el lugar correcto. A veces, el modelo completo de pestañas es molesto, así que lo enciendo / apago mucho. La siguiente capa es resaltar un fragmento concreto de código y solicitar algún tipo de modificación. La siguiente capa es Claude Code / Codex / etc, que se ejecuta en el costado del cursor, al que voy para obtener fragmentos más grandes de funcionalidad que también son bastante fáciles de especificar en un mensaje. Estos son muy útiles, pero aún se mezclan en general y a veces son un poco frustrantes. No corro en modo YOLO porque pueden salirse de la pista y hacer cosas tontas que no querías/necesitabas y yo ESC bastante a menudo. Tampoco he aprendido a ser productivo usando más de una instancia en paralelo, una ya se siente lo suficientemente difícil. No he descubierto una buena manera de mantener CLAUDE[.]MD Bueno o actualizado. A menudo tengo que hacer una serie de "limpiezas" para el estilo de codificación o cuestiones de gusto del código. Por ejemplo, son demasiado defensivos y a menudo usan en exceso las declaraciones try/catch, a menudo complican demasiado las abstracciones, inflan demasiado el código (por ejemplo, una construcción anidada if-the-else cuando una comprensión de lista o una línea if-then-else funcionaría), o duplican fragmentos de código en lugar de crear una buena función auxiliar, cosas así... básicamente no tienen sentido del gusto. Son indispensables en los casos en los que me adentro en un territorio más de codificación de vibraciones en el que estoy menos familiarizado (por ejemplo, escribir algo de rust recientemente, o comandos sql, o cualquier otra cosa que haya hecho menos antes). También intenté que CC me enseñara cosas junto con el código que estaba escribiendo, pero eso no funcionó en absoluto: realmente quiere escribir código mucho más de lo que quiere explicar algo en el camino. Traté de hacer que CC hiciera un ajuste de hiperparámetros, lo cual fue muy divertido. También son muy útiles en todo tipo de visualización personalizada o utilidades únicas de menor riesgo o código de depuración que nunca escribiría de otra manera porque habría tomado demasiado tiempo. Por ejemplo, CC puede elaborar 1,000 líneas de visualización/código extenso único solo para identificar un error específico, que se elimina justo después de encontrarlo. Es la era posterior a la escasez de código: puede crear y luego eliminar miles de líneas de código súper personalizado y súper efímero ahora, está bien, ya no es esta cosa preciosa y costosa. La última capa de defensa es GPT5 Pro, a la que acudo para las cosas más difíciles. Por ejemplo, me ha pasado varias veces que yo / Cursor / CC estamos atascados en un error durante 10 minutos, pero cuando copio y pego todo en 5 Pro, se apaga durante 10 minutos pero luego encuentra un error realmente sutil. Es muy fuerte. Puede desenterrar todo tipo de documentos y documentos esotéricos y demás. También lo he usado para otras tareas más sustanciosas, por ejemplo, sugerencias sobre cómo limpiar abstracciones (resultados mixtos, a veces buenas ideas pero no todas), o una revisión completa de la literatura sobre cómo las personas hacen esto o aquello y regresa con buenos recursos / consejos relevantes. De todos modos, la codificación se siente completamente abierta con posibilidades a través de varios "tipos" de codificación y luego una serie de herramientas con sus pros / contras. Es difícil evitar la sensación de ansiedad por no estar en la frontera de lo que es colectivamente posible, de ahí la lluvia aleatoria de pensamientos dominicales y una buena cantidad de curiosidad sobre lo que otros están encontrando.

Populares

Ranking

Favoritas