Tecnologia

Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

Uma equipe formada por pesquisadores da Universidade de Maryland, Laboratórios Nacionais de Lawrence Livermore, Universidade de Columbia e TogetherAI descobriu uma forma de aumentar em três vezes o desempenho dos modelos de linguagem sem a necessidade de infraestrutura adicional. Diferente da decodificação especulativa, que requer modelos auxiliares, esta abordagem utiliza apenas um token especial adicionado à arquitetura existente do modelo.

O Limite da Predição de Próximo Token

A predição de próximo token, que gera texto um token por vez, estabelece um limite de rendimento que se torna caro quando modelos precisam produzir milhares de tokens. Este gargalo é crítico em modelos de raciocínio, que frequentemente geram longas cadeias de pensamento antes de chegar a uma resposta final.

A predição multi-tokens (MTP) surge como uma alternativa, permitindo que um modelo de linguagem produza múltiplos tokens simultaneamente em uma única passada. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

Desafios e Soluções na Predição Multi-Tokens

O método padrão de treino para MTP envolve comparar as previsões do modelo com textos reais de um conjunto de dados. No entanto, isso ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, sem considerar a relação conjunta entre uma sequência de tokens.

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propuseram uma técnica inovadora de treinamento que utiliza um esquema de aluno-professor. Um modelo aluno aprende a prever múltiplos tokens, enquanto um modelo professor avalia a sequência proposta, atribuindo uma perda alta para frases malformadas.

Implementação e Impacto no Mundo Real

Os pesquisadores testaram sua abordagem em modelos populares ajustados para instruções, como o Llama-3.1-8B-Magpie e o Qwen3-4B-Instruct-2507. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com menos de 3% de queda na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração com uma queda ligeiramente maior de 7% na precisão.

A técnica mostrou-se eficaz não apenas em tarefas do mesmo domínio dos dados de treinamento, mas também em tarefas abertas, como escrita criativa e sumarização. Entretanto, recomenda-se que as empresas adaptem o modelo para suas necessidades específicas de domínio.

Conclusão

O avanço na predição multi-tokens representa um passo significativo para a eficiência dos modelos de linguagem, oferecendo acelerações consideráveis sem sacrificar a precisão. Com a liberação dos modelos treinados no Hugging Face, as equipes de infraestrutura têm agora uma oportunidade de integrar essa técnica em suas operações, simplificando o ciclo de vida de desenvolvimento e implantação de modelos de baixa latência.

Acelino Silva

Sou um amante de séries, filmes, games, doramas, k-pop, animes e tudo relacionado a cultura pop, nerd e geek.

Recent Posts

Petit Planet: Beta Acolhedor em Novembro

Participe do beta de Petit Planet e explore um mundo de simulação de vida único.…

26 minutos ago

Novas Regras do Portal Battlefield 6: Desafios e XP

Enfrente as novas regras do Portal em Battlefield 6 e descubra como elas afetam sua…

26 minutos ago

Parceria de Sucesso: Dirty Films e Searchlight

Dirty Films e Searchlight unem forças para criar filmes e séries impactantes. Acompanhe essa nova…

56 minutos ago

Seamus Blackley e a Nova Era da Xbox

Aposentadoria de Phil Spencer e nomeação de Asha Sharma marcam nova fase para Xbox. Saiba…

56 minutos ago

Anthropic vs Laboratórios Chineses: Acusações de IA

Anthropic denuncia extração de IA por laboratórios chineses. Entenda as implicações e o impacto geopolítico.

1 hora ago

Boxe ao Vivo: Lutas Imperdíveis Este Mês

Acompanhe os confrontos mais eletrizantes do boxe ao vivo e saiba onde assistir. Prepare-se para…

2 horas ago