Uma equipe formada por pesquisadores da Universidade de Maryland, Laboratórios Nacionais de Lawrence Livermore, Universidade de Columbia e TogetherAI descobriu uma forma de aumentar em três vezes o desempenho dos modelos de linguagem sem a necessidade de infraestrutura adicional. Diferente da decodificação especulativa, que requer modelos auxiliares, esta abordagem utiliza apenas um token especial adicionado à arquitetura existente do modelo.
A predição de próximo token, que gera texto um token por vez, estabelece um limite de rendimento que se torna caro quando modelos precisam produzir milhares de tokens. Este gargalo é crítico em modelos de raciocínio, que frequentemente geram longas cadeias de pensamento antes de chegar a uma resposta final.
A predição multi-tokens (MTP) surge como uma alternativa, permitindo que um modelo de linguagem produza múltiplos tokens simultaneamente em uma única passada. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.
O método padrão de treino para MTP envolve comparar as previsões do modelo com textos reais de um conjunto de dados. No entanto, isso ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, sem considerar a relação conjunta entre uma sequência de tokens.
Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propuseram uma técnica inovadora de treinamento que utiliza um esquema de aluno-professor. Um modelo aluno aprende a prever múltiplos tokens, enquanto um modelo professor avalia a sequência proposta, atribuindo uma perda alta para frases malformadas.
Os pesquisadores testaram sua abordagem em modelos populares ajustados para instruções, como o Llama-3.1-8B-Magpie e o Qwen3-4B-Instruct-2507. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com menos de 3% de queda na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração com uma queda ligeiramente maior de 7% na precisão.
A técnica mostrou-se eficaz não apenas em tarefas do mesmo domínio dos dados de treinamento, mas também em tarefas abertas, como escrita criativa e sumarização. Entretanto, recomenda-se que as empresas adaptem o modelo para suas necessidades específicas de domínio.
O avanço na predição multi-tokens representa um passo significativo para a eficiência dos modelos de linguagem, oferecendo acelerações consideráveis sem sacrificar a precisão. Com a liberação dos modelos treinados no Hugging Face, as equipes de infraestrutura têm agora uma oportunidade de integrar essa técnica em suas operações, simplificando o ciclo de vida de desenvolvimento e implantação de modelos de baixa latência.
Kang Dong Won lidera 'Wildsing' com o grupo Triangle em busca de redenção musical.
Irene supera BTS no Music Bank com 7.062 pontos em 'Biggest Fan'.
Jungkook alcança 600 milhões de views com 'Seven', marcando sua carreira solo.
Astronautas capturam selfies lunares com iPhone 17 Pro Max, inovando o uso de smartphones no…
Tyson Fury enfrenta Arslanbek Makhmudov em Londres, buscando revanche contra Anthony Joshua.
Mais de 15 cafés testados, como o Whole Foods Early Bird. Evite escolhas ruins.