Judge er mer enn en eval, det er en primitiv for å løse uenigheter i den virkelige verden. Fremtiden for tillit er transparente, verifiserbare AI-dommer.
gensyn
gensyn27. aug., 23:13
1/ Vi introduserer Judge: Gensyns verifiserbare AI-evalueringssystem. Tradisjonelle evaluatorer er avhengige av lukkede API-er – ugjennomsiktige, stille oppdaterte og umulige å reprodusere. Dommeren utfører en forhåndsavtalt, deterministisk AI-modell mot virkelige inndata og forplikter seg til å bli utfordret offentlig.
2,65K