Todos os clusters de GPUs enfrentam períodos de inatividade. Quando os trabalhos de treinamento são concluídos e as cargas de trabalho mudam, o hardware permanece inativo, enquanto os custos de energia e resfriamento continuam. Para operadores de neocloud, esses ciclos vazios representam uma perda significativa de margem. A solução mais evidente é o mercado spot de GPUs — alugando a capacidade ociosa para quem precisar. Porém, as instâncias spot ainda deixam o aluguel nas mãos do fornecedor de nuvem, e os engenheiros pagam apenas pela computação bruta, sem uma pilha de inferência anexada. A proposta da FriendliAI é diferente: executar inferências diretamente no hardware não utilizado, otimizar para o throughput de tokens e dividir a receita com o operador.
A FriendliAI foi fundada por Byung-Gon Chun, o pesquisador cujo trabalho sobre batching contínuo se tornou a base do vLLM, um motor de inferência de código aberto largamente utilizado em implantações de produção. Chun passou mais de uma década como professor na Universidade Nacional de Seul, estudando a execução eficiente de modelos de aprendizado de máquina em larga escala. Sua pesquisa resultou no artigo Orca, que introduziu o batching contínuo, uma técnica que processa requisições de inferência dinamicamente, sem esperar por um lote fixo antes da execução. Esta abordagem se tornou padrão na indústria e é o mecanismo central do vLLM.
Esta semana, a FriendliAI está lançando a plataforma InferenceSense. Da mesma forma que os editores usam o Google AdSense para monetizar inventário publicitário não vendido, operadores de neocloud podem utilizar o InferenceSense para preencher ciclos de GPU não utilizados com cargas de trabalho de inferência pagas e coletar parte da receita dos tokens. Os próprios trabalhos do operador sempre têm prioridade — no momento em que um agendador recupera uma GPU, o InferenceSense cede.
O InferenceSense opera sobre o Kubernetes, que a maioria dos operadores de neocloud já utiliza para orquestração de recursos. Um operador aloca um pool de GPUs para um cluster de Kubernetes gerenciado pela FriendliAI, declarando quais nós estão disponíveis e em que condições podem ser recuperados. A detecção de ociosidade é realizada pelo próprio Kubernetes.
Quando as GPUs estão inativas, o InferenceSense ativa contêineres isolados que servem cargas de trabalho de inferência pagas em modelos de peso aberto, como DeepSeek, Qwen, Kimi, GLM e MiniMax. Quando o agendador do operador precisa do hardware de volta, as cargas de inferência são preemptadas e as GPUs são devolvidas. A FriendliAI afirma que a transferência ocorre em questão de segundos.
Os mercados spot de GPUs de fornecedores como CoreWeave, Lambda Labs e RunPod envolvem o aluguel de hardware para terceiros. O InferenceSense opera no hardware que o operador de neocloud já possui, definindo quais nós participam e firmando acordos de agendamento com a FriendliAI antecipadamente. Essa distinção é crucial: mercados spot monetizam capacidade, enquanto o InferenceSense monetiza tokens.
O throughput de tokens por hora de GPU determina o quanto o InferenceSense pode realmente ganhar durante os períodos ociosos. A FriendliAI afirma que seu motor entrega de duas a três vezes mais throughput do que uma implantação padrão de vLLM, embora Chun observe que esse número varia conforme o tipo de carga de trabalho. A maioria das pilhas de inferência concorrentes é construída sobre frameworks de código aberto baseados em Python. O motor da FriendliAI é escrito em C++ e usa núcleos de GPU personalizados, em vez da biblioteca cuDNN da Nvidia.
Para engenheiros de IA, o local onde executar cargas de inferência geralmente se resume a preço e disponibilidade. O InferenceSense adiciona uma nova consideração: se neoclouds conseguem monetizar capacidade ociosa através de inferência, há mais incentivo econômico para manter os preços dos tokens competitivos.
Embora ainda seja cedo para mudar decisões de infraestrutura, engenheiros devem observar se a adoção de plataformas como o InferenceSense pelos neoclouds pressiona para baixo os preços de APIs para modelos como DeepSeek e Qwen ao longo dos próximos 12 meses. “Quando temos fornecedores mais eficientes, o custo geral diminui,” Chun afirmou. “Com o InferenceSense, podemos ajudar a tornar esses modelos mais baratos.”
Tensão explode no PTMC após acidente em tobogã, enquanto Samira enfrenta batalha interna.
Charlie Day brilha em 'Kill Me', combinando humor e sensibilidade ao tratar saúde mental.
Grind promete, mas falha em unir seus curtas de forma coesa, apesar de momentos criativos…
Qdrant recebe US$ 50 milhões e lança versão 1.17, revolucionando a busca vetorial.
Slate V1 da Random Labs transforma engenharia com inteligência de enxame e RLM, prometendo colaborar…
Woo Do Hwan e Lee Sang Yi brilham em novas imagens de 'Bloodhounds 2'.