Revolução na Amortização de GPUs com InferenceSense

A Revolução da Amortização de GPUs Ociosas

Todos os clusters de GPUs enfrentam períodos de inatividade. Quando os trabalhos de treinamento são concluídos e as cargas de trabalho mudam, o hardware permanece inativo, enquanto os custos de energia e resfriamento continuam. Para operadores de neocloud, esses ciclos vazios representam uma perda significativa de margem. A solução mais evidente é o mercado spot de GPUs — alugando a capacidade ociosa para quem precisar. Porém, as instâncias spot ainda deixam o aluguel nas mãos do fornecedor de nuvem, e os engenheiros pagam apenas pela computação bruta, sem uma pilha de inferência anexada. A proposta da FriendliAI é diferente: executar inferências diretamente no hardware não utilizado, otimizar para o throughput de tokens e dividir a receita com o operador.

O Legado de Byung-Gon Chun e o Surgimento do InferenceSense

A FriendliAI foi fundada por Byung-Gon Chun, o pesquisador cujo trabalho sobre batching contínuo se tornou a base do vLLM, um motor de inferência de código aberto largamente utilizado em implantações de produção. Chun passou mais de uma década como professor na Universidade Nacional de Seul, estudando a execução eficiente de modelos de aprendizado de máquina em larga escala. Sua pesquisa resultou no artigo Orca, que introduziu o batching contínuo, uma técnica que processa requisições de inferência dinamicamente, sem esperar por um lote fixo antes da execução. Esta abordagem se tornou padrão na indústria e é o mecanismo central do vLLM.

Como Funciona o InferenceSense

Esta semana, a FriendliAI está lançando a plataforma InferenceSense. Da mesma forma que os editores usam o Google AdSense para monetizar inventário publicitário não vendido, operadores de neocloud podem utilizar o InferenceSense para preencher ciclos de GPU não utilizados com cargas de trabalho de inferência pagas e coletar parte da receita dos tokens. Os próprios trabalhos do operador sempre têm prioridade — no momento em que um agendador recupera uma GPU, o InferenceSense cede.

O Motor por Trás do InferenceSense

O InferenceSense opera sobre o Kubernetes, que a maioria dos operadores de neocloud já utiliza para orquestração de recursos. Um operador aloca um pool de GPUs para um cluster de Kubernetes gerenciado pela FriendliAI, declarando quais nós estão disponíveis e em que condições podem ser recuperados. A detecção de ociosidade é realizada pelo próprio Kubernetes.

Quando as GPUs estão inativas, o InferenceSense ativa contêineres isolados que servem cargas de trabalho de inferência pagas em modelos de peso aberto, como DeepSeek, Qwen, Kimi, GLM e MiniMax. Quando o agendador do operador precisa do hardware de volta, as cargas de inferência são preemptadas e as GPUs são devolvidas. A FriendliAI afirma que a transferência ocorre em questão de segundos.

Por que o Throughput de Tokens Supera o Aluguel de Capacidade Bruta

Os mercados spot de GPUs de fornecedores como CoreWeave, Lambda Labs e RunPod envolvem o aluguel de hardware para terceiros. O InferenceSense opera no hardware que o operador de neocloud já possui, definindo quais nós participam e firmando acordos de agendamento com a FriendliAI antecipadamente. Essa distinção é crucial: mercados spot monetizam capacidade, enquanto o InferenceSense monetiza tokens.

O throughput de tokens por hora de GPU determina o quanto o InferenceSense pode realmente ganhar durante os períodos ociosos. A FriendliAI afirma que seu motor entrega de duas a três vezes mais throughput do que uma implantação padrão de vLLM, embora Chun observe que esse número varia conforme o tipo de carga de trabalho. A maioria das pilhas de inferência concorrentes é construída sobre frameworks de código aberto baseados em Python. O motor da FriendliAI é escrito em C++ e usa núcleos de GPU personalizados, em vez da biblioteca cuDNN da Nvidia.

O Futuro da Inferência e Custos para Engenheiros de IA

Para engenheiros de IA, o local onde executar cargas de inferência geralmente se resume a preço e disponibilidade. O InferenceSense adiciona uma nova consideração: se neoclouds conseguem monetizar capacidade ociosa através de inferência, há mais incentivo econômico para manter os preços dos tokens competitivos.

Embora ainda seja cedo para mudar decisões de infraestrutura, engenheiros devem observar se a adoção de plataformas como o InferenceSense pelos neoclouds pressiona para baixo os preços de APIs para modelos como DeepSeek e Qwen ao longo dos próximos 12 meses. “Quando temos fornecedores mais eficientes, o custo geral diminui,” Chun afirmou. “Com o InferenceSense, podemos ajudar a tornar esses modelos mais baratos.”

Acelino Silva

Sou um amante de séries, filmes, games, doramas, k-pop, animes e tudo relacionado a cultura pop, nerd e geek.