Pesquisadores da Nvidia desenvolveram uma técnica inovadora que promete reduzir os custos de memória durante o raciocínio de grandes modelos de linguagem (LLMs) em até oito vezes. Denominada sparsificação dinâmica de memória (DMS), essa abordagem comprime o cache de valores-chave (KV), que é a memória temporária utilizada pelos LLMs enquanto processam solicitações e resolvem problemas.
Embora diversas metodologias já tenham sido propostas para otimizar o cache, muitas delas enfrentam dificuldades em fazê-lo sem comprometer a inteligência do modelo. A técnica da Nvidia consegue descartar uma quantidade considerável de dados do cache, preservando e, em alguns casos, até aprimorando as capacidades de raciocínio do modelo. Os testes comprovam que a DMS permite que os LLMs “pensem” por mais tempo e explorem mais soluções, sem as penalidades habituais em termos de velocidade ou custos de memória.
Os LLMs melhoram seu desempenho em tarefas complexas gerando tokens de “cadeia de raciocínio”, que consistem em etapas de raciocínio antes de chegar a uma resposta final. As técnicas de escalonamento em tempo de inferência utilizam isso, permitindo que o modelo tenha um orçamento maior para gerar esses tokens ou explorar múltiplos caminhos de raciocínio em paralelo. Entretanto, essa melhoria vem com um custo computacional significativo. À medida que o modelo gera mais tokens, o cache KV cresce linearmente, consumindo uma quantidade imensa de memória em GPUs. Isso resulta em um tempo maior gasto na leitura de dados da memória do que na computação real, o que reduz a velocidade de geração e aumenta a latência. Além disso, limita o número de usuários que um sistema pode atender simultaneamente, pois a falta de VRAM pode fazer o sistema travar ou operar em um ritmo muito lento.
A DMS adota uma abordagem diferente ao “adaptar” os LLMs existentes para gerenciar inteligentemente sua própria memória. Em vez de seguir uma regra fixa sobre o que deletar, a DMS ensina o modelo a identificar quais tokens são essenciais para raciocínios futuros e quais podem ser descartados. “Não é apenas uma questão de adivinhar a importância; o modelo aprende uma política que preserva explicitamente a distribuição de saída final,” afirmou Piotr Nawrot, engenheiro sênior de Deep Learning da Nvidia.
Um dos componentes cruciais da DMS é o mecanismo denominado “evicção atrasada”. Em métodos tradicionais, se um token é considerado irrelevante, ele é excluído imediatamente, o que pode ser arriscado, pois o modelo pode precisar de um momento para integrar o contexto desse token. A DMS contorna isso ao marcar um token para evicção, mas mantendo-o acessível por um curto período, permitindo que o modelo extraia informações necessárias antes que o token seja removido do cache KV.
Os pesquisadores testaram a DMS em diversos modelos de raciocínio, como a série Qwen-R1 e Llama 3.2, em benchmarks desafiadores. Os resultados demonstraram que a DMS moveu a fronteira de Pareto, otimizando a relação custo-desempenho. No benchmark de matemática AIME 24, o modelo Qwen-R1 32B com DMS superou o modelo padrão em 12,0 pontos, mantendo o mesmo orçamento de largura de banda de memória.
Com a DMS, a eficiência se traduz diretamente em maior rendimento e economia de hardware. A menor cache de memória significa que a GPU gasta menos tempo buscando dados, reduzindo o tempo de espera para os usuários. No teste com o modelo Qwen3-8B, a DMS igualou a precisão do modelo convencional, enquanto oferecia até 5 vezes mais rendimento.
A Nvidia disponibilizou a DMS como parte de sua biblioteca KVPress. Quanto à implementação, Nawrot destacou que a barreira de entrada é baixa. “A infraestrutura mínima viável são os pipelines padrão do Hugging Face — não são necessários kernels CUDA personalizados,” afirmou. Olhando para frente, a equipe vê a DMS como parte de uma mudança maior, na qual o gerenciamento de memória se tornará uma camada inteligente e distinta na pilha de IA. Com a transição de chatbots simples para sistemas mais complexos que requerem raciocínio prolongado, a técnica DMS oferece um caminho para escalar essas capacidades de forma sustentável. “Ainda estamos apenas arranhando a superfície do que é possível,” concluiu Nawrot.
Prepare-se para os lançamentos mais aguardados de 2026! Confira as datas e não perca nenhuma…
Conheça os talentosos dubladores de High on Life 2 e suas trajetórias. Prepare-se para uma…
Conheça o M2.5 da MiniMax, um modelo de IA que transforma custos e potencializa resultados.…
Entenda como o anime influencia a consciência ambiental e inspire-se a agir. Mude sua perspectiva…
Prepare-se para a terceira temporada de Jujutsu Kaisen! Novos episódios começam em janeiro de 2026.…
Entenda a polêmica envolvendo Louis e a pergunta inapropriada de um fã. Reflita sobre o…