Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mesmo após o progresso acentuado dos últimos 3 meses, continua sendo que o desempenho da IA está ligado à familiaridade com as tarefas. Em domínios que podem ser densamente amostrados (via geração programática + verificação), o desempenho é efetivamente ilimitado e continuará aumentando a partir dos níveis atuais. Em domínios novos e desconhecidos, o desempenho permanece baixo e o progresso ainda exige novas ideias, não apenas mais dados e computação.

20 horas atrás
Ok, acho que meu experimento de deixar a IA trabalhando em coisas 24 horas por dia termina aqui. Não funciona. O código explode em complexidade, os resultados não são tão bons, a IA não consegue passar por barreiras duras (ainda é completamente incapaz de *entender* SupGen), e é absurdamente cara (gastou ~1k nos últimos 2 dias). Os melhores resultados estão no compilador JS, principalmente porque ele é familiar (comparado ao inets), mas não vale a pena perder o controle sobre a base de código.
Acho que o sonho de ter IAs trabalhando no pano de fundo e fazendo progresso real em coisas que importam (ou seja, coisas realmente novas) ainda não chegou. Ainda é uma máquina presa aos seus próprios dados de treinamento, incapaz de pensar fora da caixa. É ótimo para construir coisas que já foram construídas. Mas não coisas novas
Além disso, programar normalmente tem a vantagem pouco valorizada de que você está fazendo duas coisas ao mesmo tempo: construir uma base de código *e* aprendê-la. As IAs fazem apenas metade disso. A outra metade é obviamente impossível 🤔
Para benchmarks que visam tarefas novas, uma forma comum de hacking de benchmarks que arbitra essa lacuna é gerar uma amostragem densa de tarefas potenciais parametrizando manualmente o espaço e depois forçando-o por força bruta. É muito caro, mas funciona. Pouco pode ser feito para restaurar a validade do benchmark aqui, além de aumentar a dimensionalidade do espaço das tarefas.
62
Melhores
Classificação
Favoritos
