Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

Uma equipe formada por pesquisadores da Universidade de Maryland, Laboratórios Nacionais de Lawrence Livermore, Universidade de Columbia e TogetherAI descobriu uma forma de aumentar em três vezes o desempenho dos modelos de linguagem sem a necessidade de infraestrutura adicional. Diferente da decodificação especulativa, que requer modelos auxiliares, esta abordagem utiliza apenas um token especial adicionado à arquitetura existente do modelo.

O Limite da Predição de Próximo Token

A predição de próximo token, que gera texto um token por vez, estabelece um limite de rendimento que se torna caro quando modelos precisam produzir milhares de tokens. Este gargalo é crítico em modelos de raciocínio, que frequentemente geram longas cadeias de pensamento antes de chegar a uma resposta final.

A predição multi-tokens (MTP) surge como uma alternativa, permitindo que um modelo de linguagem produza múltiplos tokens simultaneamente em uma única passada. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

Desafios e Soluções na Predição Multi-Tokens

O método padrão de treino para MTP envolve comparar as previsões do modelo com textos reais de um conjunto de dados. No entanto, isso ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, sem considerar a relação conjunta entre uma sequência de tokens.

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propuseram uma técnica inovadora de treinamento que utiliza um esquema de aluno-professor. Um modelo aluno aprende a prever múltiplos tokens, enquanto um modelo professor avalia a sequência proposta, atribuindo uma perda alta para frases malformadas.

Implementação e Impacto no Mundo Real

Os pesquisadores testaram sua abordagem em modelos populares ajustados para instruções, como o Llama-3.1-8B-Magpie e o Qwen3-4B-Instruct-2507. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com menos de 3% de queda na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração com uma queda ligeiramente maior de 7% na precisão.

A técnica mostrou-se eficaz não apenas em tarefas do mesmo domínio dos dados de treinamento, mas também em tarefas abertas, como escrita criativa e sumarização. Entretanto, recomenda-se que as empresas adaptem o modelo para suas necessidades específicas de domínio.

Conclusão

O avanço na predição multi-tokens representa um passo significativo para a eficiência dos modelos de linguagem, oferecendo acelerações consideráveis sem sacrificar a precisão. Com a liberação dos modelos treinados no Hugging Face, as equipes de infraestrutura têm agora uma oportunidade de integrar essa técnica em suas operações, simplificando o ciclo de vida de desenvolvimento e implantação de modelos de baixa latência.