Alibaba Revoluciona com Novos Modelos Qwen 3.5
A equipe de desenvolvimento da inteligência artificial da Alibaba, agora famosa por suas inovações, surpreendeu novamente ao lançar a série Qwen3.5 Medium Model. Essa nova série inclui quatro grandes modelos de linguagem, com suporte para chamadas de ferramentas agenticas. Três desses modelos estão disponíveis para uso comercial sob licença Apache 2.0, padrão do código aberto:
- Qwen3.5-35B-A3B
- Qwen3.5-122B-A10B
- Qwen3.5-27B
Os desenvolvedores podem baixar esses modelos agora mesmo no Hugging Face e ModelScope. O quarto modelo, Qwen3.5-Flash, é proprietário e está disponível apenas através da API do Alibaba Cloud Model Studio, mas oferece uma vantagem significativa em custo comparado a outros modelos ocidentais.
Desempenho Competitivo e Inovação Técnica
Os modelos de código aberto da Qwen oferecem um desempenho comparável aos benchmark de terceiros, superando modelos proprietários de startups americanas como OpenAI e Anthropic. O Qwen3.5 foi projetado para manter alta precisão mesmo quando “quantizado”, um processo que reduz significativamente seu tamanho.
Essa inovação traz janelas de contexto em nível de fronteira para PCs comuns. O modelo carro-chefe, Qwen3.5-35B-A3B, pode exceder um comprimento de contexto de 1 milhão de tokens em GPUs de consumidor com 32GB de VRAM, algo antes impensável sem infraestrutura de servidor.
Tecnologia: A Força Delta
No coração do desempenho do Qwen 3.5 está uma sofisticada arquitetura híbrida. Enquanto muitos modelos dependem apenas de blocos Transformer padrão, o Qwen 3.5 integra Redes Delta com Portas combinadas com um sistema Mixture-of-Experts (MoE) esparso.
Especificações Técnicas
- Eficiência de Parâmetros: Embora o modelo abrigue 35 bilhões de parâmetros, apenas 3 bilhões são ativados para qualquer token.
- Diversidade de Especialistas: A camada MoE utiliza 256 especialistas, com 8 especialistas roteados e 1 especialista compartilhado.
- Quantização Quase Sem Perda: Mantém alta precisão mesmo quando comprimido para pesos de 4 bits.
Produtos Inteligentes que “Pensam”
O Qwen 3.5 introduz um “Modo de Pensamento” nativo, gerando uma cadeia de raciocínio interna antes de fornecer uma resposta final, melhorando a resolução de lógicas complexas.
Alinhamento de Produto
- Qwen3.5-27B: Otimizado para alta eficiência, suportando um comprimento de contexto superior a 800 mil tokens.
- Qwen3.5-Flash: Versão hospedada para produção, com 1 milhão de tokens de comprimento de contexto padrão.
- Qwen3.5-122B-A10B: Projetado para GPUs de nível servidor (80GB VRAM), suporta comprimentos de contexto superiores a 1M.
Preços e Integração de API
Para aqueles que não hospedam seus próprios pesos, o Alibaba Cloud Model Studio oferece uma API competitiva para o Qwen3.5-Flash:
- Entrada: $0.1 por 1 milhão de tokens
- Saída: $0.4 por 1 milhão de tokens
- Criação de Cache: $0.125 por 1 milhão de tokens
- Leitura de Cache: $0.01 por 1 milhão de tokens
O modelo de preços do Tool Calling também é granular, com Pesquisa na Web a $10 por 1.000 chamadas e o Code Interpreter gratuito por tempo limitado.
Impacto para Líderes Empresariais e Decisores Técnicos
Com o lançamento dos Modelos Qwen3.5 Medium, a iteração rápida e o ajuste fino, outrora reservados para laboratórios bem financiados, agora estão acessíveis para o desenvolvimento local em diversas empresas. Isso transforma a forma como os dados são manipulados e protegidos, permitindo uma análise institucional profunda sem os riscos de privacidade de APIs de terceiros.
Essa mudança para a eficiência arquitetural, em vez de escala bruta, garante que a integração de IA permaneça consciente dos custos, segura e ágil o suficiente para acompanhar as necessidades operacionais em evolução.