Herkes uzun vadeli kredi ödemesi üzerinde çalışmak ister ama bence bu çok daha acil + pratik bir soru: Birden fazla ödülü tek bir gradyada en iyi şekilde nasıl toplarsınız? Bu ödül gürültüsüne nasıl bağlı? Çok güzel bir iş :)
Gokul Swamy
Gokul Swamy15 Sa Önce
Birkaç yıl derin düşünme gerektirdi ama sonunda PROSPER'ı paylaşmak için çok heyecanlıyım: *rubrik ödülleri* üzerinden hazırlanan ve LLM jürilerinin sunduğu *tutarsız geri bildirimi* sağlam bir şekilde yöneten güzel ve regresyon tabanlı bir algoritma. Hadi Kara (şey) geri dönelim! 🧵 (1/n)
Ödül sadakatini daha fazla hesaplama yaparak artırabileceğiniz açık. Mevcut paradigma, bir hakime bir sürü evet/hayır sorusu sormak, ardından 0/1'e çevirmek, sonra... Ortalama mı? eşik belirleme mi? Bu, hesaplama için harcadığımız birçok şeyi atıyor
Bir cevap almak için neyin "optimal" olduğuna karar vermemiz gerekiyor — Minmax Beklenen Yargıç mı? ortalama bir yargıç mı? En az K/N 1'lerin maksimum olasılığı mı? "ödül" alana özgü olduğunda (puan, dolar) harika ama gerçek hayatta genellikle tırmanışla telafi ettiğimiz bir şey
Bu güzel ama çok oyun teorisi ağırlıklı ve bence rubrik evrenine en uygun hikaye değil (geçişsizlik aslında sorun değil). Ama bu soru daha fazla araştırılmayı hak ediyor
"Temiz" çok rubrik kurulumu düşünme şeklim, bir görev için N ikili ödül fonksiyonu olduğunu varsaymamız, hepsinin mükemmel bir çözümle makul şekilde tatmin edilebilir olduğu, ancak ödül gözlemlerimizin biraz gürültülü olması "mükemmel bir çözüm olasılığını en üst düzeye çıkarmak" belki?
1,68K