Judge lebih dari sekadar eval, ini adalah primitif untuk menyelesaikan ketidaksepakatan dunia nyata. Masa depan kepercayaan adalah putusan AI yang transparan dan dapat diverifikasi.
gensyn
gensyn27 Agu, 23.13
1/ Memperkenalkan Judge: Sistem evaluasi AI Gensyn yang dapat diverifikasi. Evaluator tradisional mengandalkan API tertutup - buram, diperbarui secara diam-diam, dan tidak mungkin direproduksi. Judge mengeksekusi model AI deterministik yang telah disepakati sebelumnya terhadap input dunia nyata dan berkomitmen untuk ditantang di depan umum.
2,55K