Na Box, passamos muito tempo a testar a Box AI com novos modelos em dados não estruturados para ver em que áreas do trabalho do conhecimento eles se destacam. Como vimos nos benchmarks, o GPT-5 oferece um salto significativo em capacidade em relação ao GPT-4.1 em raciocínio, matemática, lógica, programação e outras áreas de trabalho. Aqui estão alguns exemplos de onde essas melhorias se manifestam no mundo real: * O GPT-5 contextualiza melhor a informação. Ao fazer extração de dados, como o valor final em USD numa fatura sem rótulos de moeda, mas com um endereço em Londres, o GPT-5 responde corretamente que precisa de uma taxa de conversão de USD para GBP. Em comparação, o GPT-4.1 viu a fatura final e retornou o valor, assumindo a moeda (incorretamente). * O GPT-5 oferece uma melhor análise multimodal. Para o relatório anual de uma empresa pública, pediu-se ao GPT-5 para isolar uma célula numa tabela a partir de uma imagem que mostrava mudanças nos componentes de capital da empresa. O topo da tabela esclarece que todos os montantes de ações estão em milhares, e o GPT-5 afirma claramente essa conversão, enquanto o GPT-4.1 não o faz, confundindo-se dado que a tabela diz ações e a legenda diz quotas. * O GPT-5 tem um desempenho melhor com altos níveis de complexidade de prompt e dados. Ao fazer extração de dados num currículo para todas as datas de início de emprego, nomes de cargos e nomes de empregadores, o GPT-5 conseguiu extrair cada pedaço de dado, enquanto o GPT-4.1 pareceu ficar sobrecarregado e não extraiu os mesmos campos devido ao tamanho do prompt e à complexidade do documento. * O GPT-5 é muito mais claro e explícito nas suas respostas. Numa acordo de outsourcing com 6 serviços diferentes discutidos explicitamente, quando perguntado sobre "os 5 serviços específicos no contrato", o GPT-5 retornará os primeiros 5 e perguntará se foi intencional que o sexto não foi mencionado. Em comparação, o GPT-4.1 simplesmente retornou os primeiros 5 sem quaisquer ressalvas adicionais, o que pode levar a confusões posteriores para o usuário. * O GPT-5 é melhor na interpretação de dados em campos complexos. Para um gráfico de citometria de fluxo, tipicamente usado em imunologia, o GPT-5 identificou corretamente uma alta proporção de células mortas e deu causas plausíveis que poderiam levar a essa situação, enquanto o GPT-4.1 deu um raciocínio mínimo, precisando de mais confirmação para ter quaisquer suposições a partir dos dados brutos. * O GPT-5 é melhor em identificar inconsistências no código. Quando solicitado a identificar problemas num determinado arquivo de código python, enquanto tanto o GPT-5 quanto o 4.1 podem identificar erros reais que levam a falhas, apenas o GPT-5 foi capaz de inferir questões mais sutis, como imprimir a variável incorreta quando isso não faria sentido no contexto do programa. Essas melhorias em matemática, raciocínio, lógica e qualidade das respostas em janelas de contexto mais longas são incrivelmente úteis para os usuários finais no trabalho diário, mas elas se mostrarão ainda mais com agentes de IA em funcionamento mais prolongado, especialmente quando não há humanos no processo para verificar a informação em cada etapa. É incrível ver essas melhorias continuarem a surgir na mais recente leva de modelos de IA, pois isso levará a agentes de IA capazes de serem usados em áreas de trabalho cada vez mais críticas.
78,19K