Judge är mer än en eval, det är en primitiv för att lösa verkliga meningsskiljaktigheter. Framtiden för förtroende är transparenta, verifierbara AI-bedömningar.
gensyn
gensyn27 aug. 23:13
1/ Vi presenterar Judge: Gensyns verifierbara AI-utvärderingssystem. Traditionella utvärderare förlitar sig på slutna API:er - ogenomskinliga, tyst uppdaterade och omöjliga att reproducera. Judge exekverar en i förväg överenskommen, deterministisk AI-modell mot verkliga indata och åtar sig att utmanas offentligt.
2,56K