Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
todo el mundo quiere trabajar en la asignación de crédito a largo plazo, pero esta es una pregunta mucho más inmediata y práctica, en mi opinión:
¿cómo agregas óptimamente múltiples recompensas en un solo gradiente? ¿cómo depende esto del ruido de la recompensa?
muy buen trabajo :)

Hace 16 horas
Pasaron unos años de profunda reflexión, pero estoy muy emocionado de finalmente compartir PROSPER: un hermoso algoritmo basado en regresión para RL a partir de *recompensas de rúbrica* que maneja de manera robusta la *retroalimentación inconsistente* que proporcionan los jueces de LLM. ¡Volvamos a Black(well)! 🧵(1/n)

es evidente que puedes aumentar la fidelidad de las recompensas gastando más recursos computacionales en la evaluación. el paradigma actual para esto es hacerle a un juez un montón de preguntas de sí/no, convirtiéndolas en 0/1, y luego... ¿promediar? ¿umbralizar?
a esto se le están quitando muchos bits en los que gastamos recursos computacionales.
para obtener una respuesta, tenemos que decidir qué es "óptimo" — ¿minmax esperado del juez? ¿juez promedio? ¿máxima probabilidad de al menos K/N 1’s?
"recompensa" es genial cuando es nativa del dominio (puntos, dólares) pero para RL en la práctica a menudo es algo que simplemente inventamos para el ascenso en colina.
esto es genial, pero está muy cargado de teoría de juegos, y no estoy seguro de que sea la historia más relevante para el contexto de la rúbrica (donde la intransitividad no es realmente la preocupación). pero es una pregunta que merece más exploración

la forma en que pienso sobre una configuración "limpia" de múltiples rúbricas es que asumimos que hay N funciones de recompensa binarias para una tarea, todas son plausiblemente satisfacibles por una solución perfecta, pero nuestras observaciones de recompensa son ligeramente ruidosas
"¿maximizar la probabilidad de una solución perfecta" tal vez?
1,69K
Parte superior
Clasificación
Favoritos
