Nasz agent dowodowy Aleph właśnie zajął 1. miejsce w PutnamBench, benchmarku stworzonym na podstawie problemów Putnama - jednego z najtrudniejszych olimpijskich problemów matematycznych na poziomie uniwersyteckim - w pełni sformalizowanym z dowodami sprawdzonymi maszynowo i bez udziału ludzi. Problemy Putnama często uważane są za trudniejsze niż problemy IMO i obejmują szeroki zakres tematów, w tym analizę matematyczną, teorię liczb, teorię grup oraz inne podstawowe obszary matematyki. To silny dowód na to, że AI potrafi radzić sobie z głębokim, wieloetapowym rozumowaniem z gwarancjami poprawności — tego samego rodzaju technologii, której używamy do weryfikacji rzeczywistego oprogramowania, sprzętu i odkryć naukowych, które wymagają logiki formalnej.