Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

Uma equipe formada por pesquisadores da Universidade de Maryland, Laboratórios Nacionais de Lawrence Livermore, Universidade de Columbia e TogetherAI descobriu uma forma de aumentar em três vezes o desempenho dos modelos de linguagem sem a necessidade de infraestrutura adicional. Diferente da decodificação especulativa, que requer modelos auxiliares, esta abordagem utiliza apenas um token especial adicionado à arquitetura existente do modelo.

O Limite da Predição de Próximo Token

A predição de próximo token, que gera texto um token por vez, estabelece um limite de rendimento que se torna caro quando modelos precisam produzir milhares de tokens. Este gargalo é crítico em modelos de raciocínio, que frequentemente geram longas cadeias de pensamento antes de chegar a uma resposta final.

A predição multi-tokens (MTP) surge como uma alternativa, permitindo que um modelo de linguagem produza múltiplos tokens simultaneamente em uma única passada. Por exemplo, o modelo pode ser treinado para prever um bloco de tokens de uma só vez, em vez de apenas o próximo token imediato.

Desafios e Soluções na Predição Multi-Tokens

O método padrão de treino para MTP envolve comparar as previsões do modelo com textos reais de um conjunto de dados. No entanto, isso ensina o modelo a prever a probabilidade de um token em uma posição específica de forma independente, sem considerar a relação conjunta entre uma sequência de tokens.

Para resolver os problemas de geração de múltiplos tokens, os pesquisadores propuseram uma técnica inovadora de treinamento que utiliza um esquema de aluno-professor. Um modelo aluno aprende a prever múltiplos tokens, enquanto um modelo professor avalia a sequência proposta, atribuindo uma perda alta para frases malformadas.

Implementação e Impacto no Mundo Real

Os pesquisadores testaram sua abordagem em modelos populares ajustados para instruções, como o Llama-3.1-8B-Magpie e o Qwen3-4B-Instruct-2507. Usando a estratégia ConfAdapt, o modelo Llama-3.1-8B alcançou uma aceleração de 3x com menos de 3% de queda na precisão em benchmarks matemáticos. O modelo Qwen3-4B alcançou a mesma aceleração com uma queda ligeiramente maior de 7% na precisão.

A técnica mostrou-se eficaz não apenas em tarefas do mesmo domínio dos dados de treinamento, mas também em tarefas abertas, como escrita criativa e sumarização. Entretanto, recomenda-se que as empresas adaptem o modelo para suas necessidades específicas de domínio.

Conclusão

O avanço na predição multi-tokens representa um passo significativo para a eficiência dos modelos de linguagem, oferecendo acelerações consideráveis sem sacrificar a precisão. Com a liberação dos modelos treinados no Hugging Face, as equipes de infraestrutura têm agora uma oportunidade de integrar essa técnica em suas operações, simplificando o ciclo de vida de desenvolvimento e implantação de modelos de baixa latência.

Star Wars Jedi 3: A Retorno Triunfante de Cal Kestis e o Futuro da Saga

Cal Kestis retorna em Star Wars Jedi 3, prometendo expandir a saga com novos desafios…

4 horas ago

Uncategorized

Zelda: Ocarina of Time e o Segredo do Ataque Crouch Jump Revelado Após 28 Anos

Descubra o segredo do ataque crouch jump em Ocarina of Time, revelado após quase 30…

4 horas ago

Novo Jogo de Senhor dos Anéis Durante O Retorno do Rei: O Que Esperar de ‘King’s Gambit’

Novo jogo 'King's Gambit' de Senhor dos Anéis promete uma aventura épica durante 'O Retorno…

4 horas ago

K-Drama/K-Pop

Ha Ji Won Recria Performance Viral de ‘Home Run’ em Show! Music Core: Uma Viagem Nostálgica

Ha Ji Won recria sua icônica performance de 'Home Run' no Show! Music Core, prometendo…

4 horas ago

K-Drama/K-Pop

Park Eun Bin Brilha como a Herdeira Chaebol em ‘Spooky in Love’

Park Eun Bin se transforma em uma herdeira chaebol com poderes sobrenaturais na nova série…

4 horas ago

K-Drama/K-Pop

Anne Hathaway Revela Que Ficou Cega de Um Olho por 10 Anos: Um Olhar Sobre Saúde e Beleza na Indústria de Hollywood

Anne Hathaway revela que viveu com cegueira em um olho por 10 anos. Uma reflexão…

4 horas ago

Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

O Limite da Predição de Próximo Token

Desafios e Soluções na Predição Multi-Tokens

Implementação e Impacto no Mundo Real

Conclusão

Leia também:

Recent Posts

Star Wars Jedi 3: A Retorno Triunfante de Cal Kestis e o Futuro da Saga

Zelda: Ocarina of Time e o Segredo do Ataque Crouch Jump Revelado Após 28 Anos

Novo Jogo de Senhor dos Anéis Durante O Retorno do Rei: O Que Esperar de ‘King’s Gambit’

Ha Ji Won Recria Performance Viral de ‘Home Run’ em Show! Music Core: Uma Viagem Nostálgica

Park Eun Bin Brilha como a Herdeira Chaebol em ‘Spooky in Love’

Anne Hathaway Revela Que Ficou Cega de Um Olho por 10 Anos: Um Olhar Sobre Saúde e Beleza na Indústria de Hollywood

Avanços na Predição Multi-Tokens: Eficiência 3x

Avanços na Predição Multi-Tokens: Acelerando Modelos de Linguagem com Eficiência

O Limite da Predição de Próximo Token

Desafios e Soluções na Predição Multi-Tokens

Implementação e Impacto no Mundo Real

Conclusão

Leia também:

Related Post

Recent Posts

Star Wars Jedi 3: A Retorno Triunfante de Cal Kestis e o Futuro da Saga

Zelda: Ocarina of Time e o Segredo do Ataque Crouch Jump Revelado Após 28 Anos

Novo Jogo de Senhor dos Anéis Durante O Retorno do Rei: O Que Esperar de ‘King’s Gambit’

Ha Ji Won Recria Performance Viral de ‘Home Run’ em Show! Music Core: Uma Viagem Nostálgica

Park Eun Bin Brilha como a Herdeira Chaebol em ‘Spooky in Love’

Anne Hathaway Revela Que Ficou Cega de Um Olho por 10 Anos: Um Olhar Sobre Saúde e Beleza na Indústria de Hollywood