Tienda de dapps | Hub de Web3 para eventos y juegos

Todo el mundo quiere trabajar en una asignación de créditos a largo plazo, pero esta es una pregunta mucho más inmediata + práctica en mi opinión: ¿Cómo se agregan óptimamente múltiples recompensas en un solo gradiente? ¿Cómo depende esto del ruido de la recompensa? Trabajo muy interesante :)

Es evidente que puedes aumentar la fidelidad de las recompensas gastando más cálculo en la calificación. El paradigma actual para esto es hacerle un montón de preguntas de sí/no a un juez, convertir a 0/1, y luego... ¿Promedia? ¿umbral? Esto descarta muchos bits en los que hemos invertido en cálculo

Para obtener una respuesta, tenemos que decidir qué es "óptimo" — ¿juez esperado de minmax? ¿Juez promedio? ¿Probabilidad máxima de que haya al menos K/N 1? "Recompensa" es genial cuando es nativa de dominio (puntos, dólares), pero en la vida real en la práctica suele ser algo que simplemente compensamos para subir cuesta

Esto está bien, pero está muy cargado de teoría de juegos, y no estoy seguro de que sea la historia más relevante para el escenario de la rúbrica (donde la intransitividad no es realmente la preocupación). Pero es una pregunta que merece más exploración

La forma en que pienso en una configuración "limpia" multirúbrica es que asumimos que hay N funciones binarias de recompensa para una tarea, todas son plausiblemente satisfacibles con una solución perfecta, pero nuestras observaciones de recompensa son algo ruidosas ¿"maximizar la probabilidad de una solución perfecta" quizá?