Nvidia Inova no Gerenciamento de Memória em LLMs

Acelino Silva

Nvidia Revoluciona o Gerenciamento de Memória em Modelos de Linguagem

Pesquisadores da Nvidia desenvolveram uma técnica inovadora que promete reduzir os custos de memória durante o raciocínio de grandes modelos de linguagem (LLMs) em até oito vezes. Denominada sparsificação dinâmica de memória (DMS), essa abordagem comprime o cache de valores-chave (KV), que é a memória temporária utilizada pelos LLMs enquanto processam solicitações e resolvem problemas.

Desafios da Compressão de Cache

Embora diversas metodologias já tenham sido propostas para otimizar o cache, muitas delas enfrentam dificuldades em fazê-lo sem comprometer a inteligência do modelo. A técnica da Nvidia consegue descartar uma quantidade considerável de dados do cache, preservando e, em alguns casos, até aprimorando as capacidades de raciocínio do modelo. Os testes comprovam que a DMS permite que os LLMs “pensem” por mais tempo e explorem mais soluções, sem as penalidades habituais em termos de velocidade ou custos de memória.

O Gargalo do Raciocínio

Os LLMs melhoram seu desempenho em tarefas complexas gerando tokens de “cadeia de raciocínio”, que consistem em etapas de raciocínio antes de chegar a uma resposta final. As técnicas de escalonamento em tempo de inferência utilizam isso, permitindo que o modelo tenha um orçamento maior para gerar esses tokens ou explorar múltiplos caminhos de raciocínio em paralelo. Entretanto, essa melhoria vem com um custo computacional significativo. À medida que o modelo gera mais tokens, o cache KV cresce linearmente, consumindo uma quantidade imensa de memória em GPUs. Isso resulta em um tempo maior gasto na leitura de dados da memória do que na computação real, o que reduz a velocidade de geração e aumenta a latência. Além disso, limita o número de usuários que um sistema pode atender simultaneamente, pois a falta de VRAM pode fazer o sistema travar ou operar em um ritmo muito lento.

Solução Inovadora com DMS

A DMS adota uma abordagem diferente ao “adaptar” os LLMs existentes para gerenciar inteligentemente sua própria memória. Em vez de seguir uma regra fixa sobre o que deletar, a DMS ensina o modelo a identificar quais tokens são essenciais para raciocínios futuros e quais podem ser descartados. “Não é apenas uma questão de adivinhar a importância; o modelo aprende uma política que preserva explicitamente a distribuição de saída final,” afirmou Piotr Nawrot, engenheiro sênior de Deep Learning da Nvidia.

O Processo de Evicção Atrasada

Um dos componentes cruciais da DMS é o mecanismo denominado “evicção atrasada”. Em métodos tradicionais, se um token é considerado irrelevante, ele é excluído imediatamente, o que pode ser arriscado, pois o modelo pode precisar de um momento para integrar o contexto desse token. A DMS contorna isso ao marcar um token para evicção, mas mantendo-o acessível por um curto período, permitindo que o modelo extraia informações necessárias antes que o token seja removido do cache KV.

Resultados Promissores

Os pesquisadores testaram a DMS em diversos modelos de raciocínio, como a série Qwen-R1 e Llama 3.2, em benchmarks desafiadores. Os resultados demonstraram que a DMS moveu a fronteira de Pareto, otimizando a relação custo-desempenho. No benchmark de matemática AIME 24, o modelo Qwen-R1 32B com DMS superou o modelo padrão em 12,0 pontos, mantendo o mesmo orçamento de largura de banda de memória.

Eficiência para Infraestruturas Empresariais

Com a DMS, a eficiência se traduz diretamente em maior rendimento e economia de hardware. A menor cache de memória significa que a GPU gasta menos tempo buscando dados, reduzindo o tempo de espera para os usuários. No teste com o modelo Qwen3-8B, a DMS igualou a precisão do modelo convencional, enquanto oferecia até 5 vezes mais rendimento.

O Futuro do Gerenciamento de Memória

A Nvidia disponibilizou a DMS como parte de sua biblioteca KVPress. Quanto à implementação, Nawrot destacou que a barreira de entrada é baixa. “A infraestrutura mínima viável são os pipelines padrão do Hugging Face — não são necessários kernels CUDA personalizados,” afirmou. Olhando para frente, a equipe vê a DMS como parte de uma mudança maior, na qual o gerenciamento de memória se tornará uma camada inteligente e distinta na pilha de IA. Com a transição de chatbots simples para sistemas mais complexos que requerem raciocínio prolongado, a técnica DMS oferece um caminho para escalar essas capacidades de forma sustentável. “Ainda estamos apenas arranhando a superfície do que é possível,” concluiu Nawrot.

Do listening am eagerness oh objection collected solicitude so decisively unpleasing conviction is partiality he.

Share This Article
Follow:
Sou um amante de séries, filmes, games, doramas, k-pop, animes e tudo relacionado a cultura pop, nerd e geek.