DApp Store | Sede de Web3 para eventos y juegos

todo el mundo quiere trabajar en la asignación de crédito a largo plazo, pero esta es una pregunta mucho más inmediata y práctica, en mi opinión: ¿cómo agregas óptimamente múltiples recompensas en un solo gradiente? ¿cómo depende esto del ruido de la recompensa? muy buen trabajo :)

es evidente que puedes aumentar la fidelidad de las recompensas gastando más recursos computacionales en la evaluación. el paradigma actual para esto es hacerle a un juez un montón de preguntas de sí/no, convirtiéndolas en 0/1, y luego... ¿promediar? ¿umbralizar? a esto se le están quitando muchos bits en los que gastamos recursos computacionales.

para obtener una respuesta, tenemos que decidir qué es "óptimo" — ¿minmax esperado del juez? ¿juez promedio? ¿máxima probabilidad de al menos K/N 1’s? "recompensa" es genial cuando es nativa del dominio (puntos, dólares) pero para RL en la práctica a menudo es algo que simplemente inventamos para el ascenso en colina.

esto es genial, pero está muy cargado de teoría de juegos, y no estoy seguro de que sea la historia más relevante para el contexto de la rúbrica (donde la intransitividad no es realmente la preocupación). pero es una pregunta que merece más exploración

la forma en que pienso sobre una configuración "limpia" de múltiples rúbricas es que asumimos que hay N funciones de recompensa binarias para una tarea, todas son plausiblemente satisfacibles por una solución perfecta, pero nuestras observaciones de recompensa son ligeramente ruidosas "¿maximizar la probabilidad de una solución perfecta" tal vez?