A Microsoft apresentou na terça-feira o Phi-4-reasoning-vision-15B, um modelo de inteligência artificial multimodal que promete competir, ou até superar, o desempenho de sistemas muito maiores, consumindo uma fração dos recursos computacionais e dados de treinamento. Este lançamento representa o capítulo mais ambicioso da campanha da empresa para demonstrar que modelos menores, quando bem projetados, podem rivalizar com os maiores sistemas de IA do mercado.
Com 15 bilhões de parâmetros, o modelo está disponível através do Microsoft Foundry, HuggingFace e GitHub sob uma licença permissiva. Ele processa tanto imagens quanto texto e é capaz de resolver problemas complexos de matemática e ciência, interpretar gráficos e documentos, navegar em interfaces gráficas de usuário e realizar tarefas visuais cotidianas, como legendas de fotos e leitura de recibos.
Um dos destaques é a quantidade relativamente pequena de dados de treinamento que o modelo requer em comparação aos seus concorrentes. O Phi-4-reasoning-vision-15B foi treinado com aproximadamente 200 bilhões de tokens de dados multimodais, enquanto modelos rivais consomem mais de um trilhão de tokens. Isso significa uma redução significativa nos custos de treinamento e no impacto ambiental.
Segundo a equipe de pesquisa da Microsoft, a chave para essa eficiência não está na escala, mas sim na curadoria meticulosa de dados. A equipe utilizou um processo rigoroso de garantia de qualidade, revisando manualmente amostras de cada conjunto de dados para assegurar a precisão e relevância. Isso incluiu corrigir erros de formatação e lógica em datasets amplamente usados.
O modelo inova ao combinar raciocínio estruturado para tarefas que o exigem, como matemática e ciência, com respostas rápidas e diretas para tarefas focadas em percepção, como OCR. Essa abordagem equilibra eficiência e capacidade, evitando a introdução de latência desnecessária em tarefas que não se beneficiam do raciocínio em cadeia.
O Phi-4-reasoning-vision-15B utiliza uma arquitetura de fusão intermediária, combinando um codificador de visão SigLIP-2 com a base de linguagem Phi-4-Reasoning. Essa escolha foi feita para otimizar recursos, ao mesmo tempo que permite a capacidade de resolução dinâmica para lidar com dados de alta resolução, essencial para tarefas como leitura de capturas de tela densas.
Nos testes, o modelo mostrou-se eficiente em termos de tempo e precisão, embora não dominante em precisão bruta. Por exemplo, alcançou 84,8 em AI2D e 83,3 em ChartQA, ficando competitivo com sistemas de tamanho semelhante.
O Phi-4-reasoning-vision-15B é parte de uma família crescente de modelos que inclui aplicações em linguagem, visão, inferência em dispositivos e robótica. Essa expansão representa uma mudança significativa na estratégia de IA da Microsoft, focando em modelos menores e mais eficientes destinados a cenários de implantação onde os recursos são limitados.
O lançamento do Phi-4-reasoning-vision-15B sinaliza um movimento da Microsoft em direção a um paradigma onde a inteligência artificial não depende apenas do tamanho, mas da qualidade e eficiência. Esse modelo compacto pode abrir novas possibilidades para a implantação de IA em ambientes com recursos limitados, oferecendo uma alternativa prática para a implementação de soluções avançadas de IA.
The Snowman e Justice League deixaram espectadores perplexos com cenas cruciais ausentes. Descubra os filmes…
Star Trek faces an uncertain future as Strange New Worlds ends and no new projects…
Aventura e humor definem as múmias dos anos 90, como o clássico de 1999 com…
Dragon Ball Xenoverse 3 finalmente revelado no evento 2026.
Se você acabou de entrar no mundo bizarro e fascinante de Dorohedoro, seja pelo anime…
Super Mario Galaxy arrecada US$ 747 milhões, superando Pegasus 3. Veja o impacto nas bilheterias.