Tecnologia

Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

Uma equipe formada por pesquisadores da Universidade de Maryland, Laboratórios Nacionais de Lawrence Livermore, Universidade de Columbia e TogetherAI descobriu uma forma de aumentar em três vezes o desempenho dos modelos de linguagem sem a necessidade de infraestrutura adicional. Diferente da decodificação especulativa, que requer modelos auxiliares, esta abordagem utiliza apenas um token especial adicionado à arquitetura existente do modelo.

O Limite da Predição de Próximo Token

A predição de próximo token, que gera texto um token por vez, estabelece um limite de rendimento que se torna caro quando modelos precisam produzir milhares de tokens. Este gargalo é crítico em modelos de raciocínio, que frequentemente geram longas cadeias de pensamento antes de chegar a uma resposta final.

A predição multi-tokens (MTP) surge como uma alternativa, permitindo que um modelo de linguagem produza múltiplos tokens simultaneamente em uma única passada. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

Desafios e Soluções na Predição Multi-Tokens

O método padrão de treino para MTP envolve comparar as previsões do modelo com textos reais de um conjunto de dados. No entanto, isso ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, sem considerar a relação conjunta entre uma sequência de tokens.

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propuseram uma técnica inovadora de treinamento que utiliza um esquema de aluno-professor. Um modelo aluno aprende a prever múltiplos tokens, enquanto um modelo professor avalia a sequência proposta, atribuindo uma perda alta para frases malformadas.

Implementação e Impacto no Mundo Real

Os pesquisadores testaram sua abordagem em modelos populares ajustados para instruções, como o Llama-3.1-8B-Magpie e o Qwen3-4B-Instruct-2507. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com menos de 3% de queda na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração com uma queda ligeiramente maior de 7% na precisão.

A técnica mostrou-se eficaz não apenas em tarefas do mesmo domínio dos dados de treinamento, mas também em tarefas abertas, como escrita criativa e sumarização. Entretanto, recomenda-se que as empresas adaptem o modelo para suas necessidades específicas de domínio.

Conclusão

O avanço na predição multi-tokens representa um passo significativo para a eficiência dos modelos de linguagem, oferecendo acelerações consideráveis sem sacrificar a precisão. Com a liberação dos modelos treinados no Hugging Face, as equipes de infraestrutura têm agora uma oportunidade de integrar essa técnica em suas operações, simplificando o ciclo de vida de desenvolvimento e implantação de modelos de baixa latência.

Acelino Silva

Sou um amante de séries, filmes, games, doramas, k-pop, animes e tudo relacionado a cultura pop, nerd e geek.

Recent Posts

Kang Dong Won e grupo Triangle em ‘Wildsing’

Kang Dong Won lidera 'Wildsing' com o grupo Triangle em busca de redenção musical.

16 minutos ago

Irene do Red Velvet vence no Music Bank

Irene supera BTS no Music Bank com 7.062 pontos em 'Biggest Fan'.

16 minutos ago

Jungkook atinge 600 milhões de views com ‘Seven’

Jungkook alcança 600 milhões de views com 'Seven', marcando sua carreira solo.

17 minutos ago

iPhone 17 Pro Max na Lua: Astronautas e Tecnologia

Astronautas capturam selfies lunares com iPhone 17 Pro Max, inovando o uso de smartphones no…

1 hora ago

Tyson Fury encara Makhmudov em retorno ao ringue

Tyson Fury enfrenta Arslanbek Makhmudov em Londres, buscando revanche contra Anthony Joshua.

1 hora ago

Descubra os Melhores Cafés Testados

Mais de 15 cafés testados, como o Whole Foods Early Bird. Evite escolhas ruins.

1 hora ago