Redefinindo a Eficiência da IA com On-Policy Context Dis…

Redefinindo a Eficiência dos Modelos de IA: A Inovadora Abordagem do On-Policy Context Distillation (OPCD)

No cenário das aplicações de IA, empresas frequentemente dependem de prompts longos e complexos para ajustar o comportamento dos modelos conforme suas necessidades específicas. Esses prompts carregam informações cruciais, como conhecimentos da empresa, preferências e instruções específicas para cada aplicação. Contudo, em larga escala, essa metodologia pode aumentar significativamente a latência de inferência e o custo por consulta.

É nesse contexto que surge o On-Policy Context Distillation (OPCD), um novo modelo de treinamento proposto por pesquisadores da Microsoft. A inovação do OPCD reside na incorporação direta do conhecimento e das preferências de uma aplicação no próprio modelo, utilizando as respostas geradas por ele durante o treinamento. Isso não só aprimora as capacidades do modelo para aplicações personalizadas, mas também preserva suas funcionalidades gerais.

O Desafio dos Prompts Longos

A aprendizagem em contexto permite que desenvolvedores atualizem o comportamento de um modelo durante a inferência sem alterar seus parâmetros subjacentes. No entanto, esse conhecimento em contexto é temporário. Em aplicações empresariais, isso frequentemente significa inserir repetidamente políticas da empresa, tickets de clientes ou manuais técnicos densos, o que pode desacelerar o modelo e aumentar os custos.

As Falhas dos Métodos Tradicionais

Tradicionalmente, técnicas de destilação de contexto utilizam um paradigma de professor-aluno, onde o modelo aluno tenta imitar o modelo professor que recebe o prompt completo. No entanto, esse método apresenta problemas, como o “enviesamento de exposição”, onde o aluno não pratica a tomada de decisões próprias, levando a possíveis falhas na aplicação prática.

Além disso, o uso da minimização da divergência Kullback-Leibler direta pode levar a comportamentos amplos e imprecisos, resultando em “alucinações”, onde a IA inventa informações ao tentar imitar um conhecimento que não possui.

Como o OPCD Transforma o Paradigma de Treinamento

Com o OPCD, o modelo aluno aprende a partir de suas próprias trajetórias de geração, ao invés de um conjunto de dados fixo. O aluno recebe uma tarefa sem o prompt completo e deve gerar uma resposta por conta própria. Nesse processo, o professor atua como um instrutor ao vivo, avaliando o desempenho do aluno.

O OPCD utiliza a “divergência KL reversa” para avaliar o aluno, promovendo um comportamento de busca por modos, que ajuda o aluno a corrigir seus próprios erros e evitar distribuições amplas e alucinatórias comuns na destilação padrão.

Resultados do OPCD: Testes e Benefícios

Os pesquisadores testaram o OPCD em duas áreas principais: destilação de conhecimento experiencial e destilação de prompts de sistema. Os resultados mostraram melhorias significativas sem a necessidade de inserir experiências aprendidas nos prompts.

No teste de problemas de raciocínio matemático, um modelo de 8 bilhões de parâmetros melhorou de 75,0% para 80,9%.
Em regras comportamentais densas, como classificação de segurança e toxicidade, a precisão de um modelo Llama de 3 bilhões de parâmetros aumentou de 30,7% para 83,1%.

Onde o OPCD se Encaixa

Embora o OPCD seja eficaz para internalizar conhecimento estático e regras complexas, ele não substitui todos os métodos de contexto externo. Para informações altamente dinâmicas ou que envolvem grandes bancos de dados atualizados com frequência, métodos como RAG são mais adequados.

Conclusão

O OPCD representa um avanço significativo na forma como modelos de IA podem ser treinados e aplicados. Ao permitir que modelos internalizem características do mundo real, o OPCD abre caminho para modelos verdadeiramente autoaperfeiçoáveis, que se adaptam continuamente aos ambientes empresariais sem a necessidade de supervisão manual constante.

Beth e Rip Partem para o Ataque na Segunda Parte da Temporada de Dutton Ranch

Beth e Rip se prepararam para um ataque em Dutton Ranch. Novos episódios prometem ação…

3 horas ago

K-Drama/K-Pop

Jensen Huang, CEO da NVIDIA, Participará de Programa de Variedades na Coreia do Sul

Jensen Huang, CEO da NVIDIA, participa do programa de variedades 'You Quiz on the Block',…

3 horas ago

K-Drama/K-Pop

Retorno de Kim Soo Hyun à Indústria Causa Polêmica e Reações Intensas

Kim Soo Hyun planeja retornar ao setor de entretenimento, mas sua volta provoca críticas. O…

3 horas ago

K-Drama/K-Pop

Ji Suk Jin Revela Hábito Inusitado de Kim Jong Kook em Programa da Netflix

Ji Suk Jin revela o hábito peculiar de Kim Jong Kook sobre dinheiro em The…

3 horas ago

Games

Expansão de The Witcher 3: ‘Blood and Wine’ quase se chamou ‘Bells of Beauclair’

A expansão Blood and Wine de The Witcher 3 quase se chamava Bells of Beauclair.…

3 horas ago

K-Drama/K-Pop

“Doctor on the Edge”: Lee Jae Wook e Shin Ye Eun Enfrentam Críticas em Novos Episódios

Lee Jae Wook e Shin Ye Eun enfrentam críticas em 'Doctor on the Edge'. Entenda…

3 horas ago

Redefinindo a Eficiência da IA com On-Policy Context Dis…

Redefinindo a Eficiência dos Modelos de IA: A Inovadora Abordagem do On-Policy Context Distillation (OPCD)

O Desafio dos Prompts Longos

As Falhas dos Métodos Tradicionais

Como o OPCD Transforma o Paradigma de Treinamento

Resultados do OPCD: Testes e Benefícios

Onde o OPCD se Encaixa

Conclusão

Leia também:

Recent Posts

Beth e Rip Partem para o Ataque na Segunda Parte da Temporada de Dutton Ranch

Jensen Huang, CEO da NVIDIA, Participará de Programa de Variedades na Coreia do Sul

Retorno de Kim Soo Hyun à Indústria Causa Polêmica e Reações Intensas

Ji Suk Jin Revela Hábito Inusitado de Kim Jong Kook em Programa da Netflix

Expansão de The Witcher 3: ‘Blood and Wine’ quase se chamou ‘Bells of Beauclair’

“Doctor on the Edge”: Lee Jae Wook e Shin Ye Eun Enfrentam Críticas em Novos Episódios

Redefinindo a Eficiência da IA com On-Policy Context Dis…

Redefinindo a Eficiência dos Modelos de IA: A Inovadora Abordagem do On-Policy Context Distillation (OPCD)

O Desafio dos Prompts Longos

As Falhas dos Métodos Tradicionais

Como o OPCD Transforma o Paradigma de Treinamento

Resultados do OPCD: Testes e Benefícios

Onde o OPCD se Encaixa

Conclusão

Leia também:

Related Post

Recent Posts

Beth e Rip Partem para o Ataque na Segunda Parte da Temporada de Dutton Ranch

Jensen Huang, CEO da NVIDIA, Participará de Programa de Variedades na Coreia do Sul

Retorno de Kim Soo Hyun à Indústria Causa Polêmica e Reações Intensas

Ji Suk Jin Revela Hábito Inusitado de Kim Jong Kook em Programa da Netflix

Expansão de The Witcher 3: ‘Blood and Wine’ quase se chamou ‘Bells of Beauclair’

“Doctor on the Edge”: Lee Jae Wook e Shin Ye Eun Enfrentam Críticas em Novos Episódios