O projeto HVM-by-AI atingiu uma parede. As coisas estavam funcionando perfeitamente, mas temos um problema: o interpretador C é recursivo, o que significa que ele estoura a pilha para programas grandes. Pedi à IA para convertê-lo em um interpretador manual baseado em pilha / loop, mas falhou. Felizmente, o HVM3 já tem esse intérprete! Então, eu dei a ele as partes relevantes do HVM3 e pedi para portá-lo. Tudo o que precisava fazer era adaptar o código antigo à nova base de código. Infelizmente, mesmo com essa dica massiva, a IA falhou novamente. Em seguida, gerei 3 instâncias e pedi que depurassem e só parassem quando a saída estivesse correta. Eu até dei a eles ferramentas para comparar a execução passo a passo. Todos os 3 falharam. Acho que esse é o limite... Eu sei que provavelmente poderia fazer isso sozinho em uma ou 2 horas, mas, e se eu não pudesse? Eu realmente quero descobrir se um computador pode resolver isso sozinho, para a ciência. Estou sem ideias, no entanto: GPT-5 high é o modelo mais inteligente que temos. Se não pode resolver este, o que mais poderia? Talvez 256 instâncias? Talvez aplicando o ajuste fino do tempo de teste a algum outro modelo? Pensamentos?