Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo el mundo quiere trabajar en una asignación de créditos a largo plazo, pero esta es una pregunta mucho más inmediata + práctica en mi opinión:
¿Cómo se agregan óptimamente múltiples recompensas en un solo gradiente? ¿Cómo depende esto del ruido de la recompensa?
Trabajo muy interesante :)

hace 16 horas
Me llevó unos años de reflexión profunda, pero estoy súper emocionado de compartir por fin PROSPER: un algoritmo precioso basado en regresión para RL de *recompensas de rúbricas* que gestiona de forma robusta el *feedback inconsistente* que proporcionan los jueces de LLM. ¡Volvamos a Black(bueno)! 🧵 (1/n)

Es evidente que puedes aumentar la fidelidad de las recompensas gastando más cálculo en la calificación. El paradigma actual para esto es hacerle un montón de preguntas de sí/no a un juez, convertir a 0/1, y luego... ¿Promedia? ¿umbral?
Esto descarta muchos bits en los que hemos invertido en cálculo
Para obtener una respuesta, tenemos que decidir qué es "óptimo" — ¿juez esperado de minmax? ¿Juez promedio? ¿Probabilidad máxima de que haya al menos K/N 1?
"Recompensa" es genial cuando es nativa de dominio (puntos, dólares), pero en la vida real en la práctica suele ser algo que simplemente compensamos para subir cuesta
Esto está bien, pero está muy cargado de teoría de juegos, y no estoy seguro de que sea la historia más relevante para el escenario de la rúbrica (donde la intransitividad no es realmente la preocupación). Pero es una pregunta que merece más exploración

La forma en que pienso en una configuración "limpia" multirúbrica es que asumimos que hay N funciones binarias de recompensa para una tarea, todas son plausiblemente satisfacibles con una solución perfecta, pero nuestras observaciones de recompensa son algo ruidosas
¿"maximizar la probabilidad de una solución perfecta" quizá?
1.69K
Populares
Ranking
Favoritas
