A era das inteligências artificiais generativas ganhou destaque com o lançamento do ChatGPT da OpenAI em 2022, mas a tecnologia subjacente, a arquitetura de rede neural “Transformer”, remonta ao inovador artigo da Google de 2017, “Attention Is All You Need”. Embora os Transformers sejam conhecidos pela qualidade incomparável dos modelos, eles são também notoriamente famintos por recursos computacionais. Esse cenário motivou a busca por alternativas mais eficientes, culminando no desenvolvimento da arquitetura Mamba em 2023.
Pesquisadores como Albert Gu, da Carnegie Mellon, e Tri Dao, de Princeton, introduziram o Mamba-3, disponível agora sob uma licença open source Apache 2.0. Este modelo promete uma mudança de paradigma, priorizando a eficiência de inferência em vez do treinamento. Enquanto o Mamba-2 se concentrou em eliminar gargalos no pré-treinamento, o Mamba-3 aborda o problema do “GPU frio”, otimizando o uso do hardware durante o processo de decodificação.
O Mamba-3 é um Modelo de Espaço de Estados (SSM), que funciona como uma “máquina de resumo” de alta velocidade para IA. Ao contrário dos modelos tradicionais que reexaminam continuamente cada palavra, um SSM mantém um estado interno compacto, atualizando-se conforme novas informações chegam. Isso permite processar enormes volumes de dados com rapidez e menos memória. A perplexidade é crucial para avaliar a qualidade de modelos de linguagem. Ela mede quão “surpreso” um modelo fica com novos dados. O Mamba-3 mantém a perplexidade comparável ao Mamba-2, mas com metade do tamanho do estado, tornando-o duas vezes mais eficiente.
O Mamba-3 representa uma reorientação na filosofia de design de IA, priorizando a eficiência de inferência. Com uma precisão média de 57,6% em benchmarks, ele supera o Transformer em 2,2 pontos percentuais. Além disso, o Mamba-3 soluciona o “gap lógico” dos modelos lineares, introduzindo estados com valores complexos que permitem representar lógica rotacional. Isso confere ao modelo a capacidade de solucionar problemas de lógica que antes eram um desafio.
O Mamba-3 introduz uma formulação Multi-Input, Multi-Output (MIMO), que otimiza o uso dos núcleos computacionais da GPU. Ao realizar mais operações matemáticas em paralelo, o modelo pode gerar respostas sem aumentar o tempo de espera do usuário.
Para as empresas, o Mamba-3 oferece uma redução significativa no custo total de propriedade para implantações de IA. Ele duplica a taxa de inferência para o mesmo hardware, ideal para fluxos de trabalho que exigem baixa latência. Além disso, a combinação com modelos híbridos pode unir a eficiência dos SSMs com a precisão dos Transformers.
O Mamba-3 está disponível como código aberto no Github, sob a licença Apache-2.0. Isso permite uso livre, modificação e distribuição comercial, beneficiando desenvolvedores que buscam otimizar custos de GPU em ambientes de produção de alto volume.
A chegada do Mamba-3 sugere que o futuro da IA não depende apenas de modelos maiores, mas dos mais eficientes. Alinhando-se às realidades do hardware moderno, o Mamba-3 demonstra que os princípios da teoria de controle ainda são essenciais na era dos Transformers, redefinindo o que é possível com a inteligência artificial.
Jorma Taccone surpreende com uma comédia sombria em 'Over Your Dead Body', repleta de reviravoltas…
Ryan Gosling lidera 'Projeto Hail Mary', com estreia prevista para superar 'Perdido em Marte'.
Park Hae Soo e Lee Hee Joon brilham em 'The Scarecrow', drama que explora laços…
Apaixone-se por 'Mr. Sunshine' e outros K-dramas que misturam história e romance de forma envolvente.
Mistral AI apresenta Forge, plataforma que personaliza modelos de IA usando dados proprietários, desafiando gigantes…
Fi Intelligence transforma o cuidado com cães, integrando dados pessoais e de raça para insights…