De desenvolvimento de agentes de navegação, os engenheiros enfrentam uma escolha entre APIs fechadas, que não permitem inspeção, e frameworks de peso aberto sem modelos treinados. É nesse contexto que surge o MolmoWeb, oferecendo uma nova alternativa promissora. Criado pela Ai2, uma organização sem fins lucrativos de Seattle, o MolmoWeb é um agente visual de navegação de peso aberto, disponível em tamanhos de 4 bilhões e 8 bilhões de parâmetros. Este lançamento marca um avanço notável, ao fornecer o conjunto de dados de treinamento e o pipeline necessários para auditoria ou reprodução do modelo.
Até agora, nenhum agente visual de navegação de peso aberto havia sido lançado com dados de treinamento e pipelines auditáveis. O MolmoWeb muda esse cenário ao introduzir o MolmoWebMix, um dataset abrangente que inclui 30.000 trajetórias de tarefas humanas em mais de 1.100 sites, 590.000 demonstrações de subtarefas e 2,2 milhões de pares de perguntas e respostas baseadas em capturas de tela. Este é o maior acervo público já disponibilizado sobre a execução de tarefas na web por humanos.
O MolmoWeb opera exclusivamente a partir de capturas de tela do navegador. Ele não analisa HTML nem depende de representações de árvore de acessibilidade de uma página. Em cada etapa, recebe uma instrução de tarefa, a captura de tela atual, um registro de texto de ações anteriores, além do URL e título da página. A partir disso, produz uma descrição em linguagem natural sobre seu raciocínio e executa a próxima ação no navegador, que pode incluir cliques em coordenadas da tela, digitação de texto, rolagem, navegação para um URL ou troca de abas.
Um dos grandes diferenciais do MolmoWeb é sua independência em relação ao tipo de navegador. Ele precisa apenas de uma captura de tela, o que significa que pode operar em navegadores locais como Chrome e Safari ou em serviços hospedados. A demonstração hospedada utiliza o Browserbase, uma startup de infraestrutura de navegador em nuvem.
O peso do modelo é apenas uma parte do que a Ai2 está oferecendo. O MolmoWebMix, o dataset de treinamento acompanhante, é o principal diferencial em relação aos outros agentes de peso aberto disponíveis hoje. O dataset é composto por:
De acordo com Tanmay Gupta, cientista sênior de pesquisa na Ai2, o mercado de agentes de navegador se divide em duas categorias principais: sistemas baseados apenas em API, que são fechados, e modelos de peso aberto, que são significativamente menores em número. O MolmoWeb se posiciona nesta segunda categoria como um modelo de visão totalmente treinado de peso aberto. A Ai2 afirma que o MolmoWeb lidera este grupo em quatro benchmarks de sites ao vivo: WebVoyager, Online-Mind2Web, DeepShop e WebTailBench.
O lançamento do MolmoWeb pela Ai2 representa um marco importante no desenvolvimento de agentes de navegação, oferecendo uma alternativa auditável e treinável para empresas que buscam evitar a dependência de chamadas de API por uso. Apesar de algumas limitações como erros ocasionais na leitura de texto de capturas de tela e limitações em tarefas que exigem login ou transações financeiras, o MolmoWeb se destaca por sua capacidade de operar de forma independente e com flexibilidade em diversos ambientes de navegação.
Spider-Man: Brand New Day atinge 1 bilhão de visualizações, mostrando a força do herói.
Missing Link: Aclamado pela crítica, mas um desastre de bilheteria com $26,5M de receita frente…
Tinkmaster e Conkeldurr são essenciais para criar concreto em Pokémon Pokopia. Descubra como avançar no…
O inverno de 2026 trouxe finais épicos de animes como Jujutsu Kaisen e Frieren, redefinindo…
KiiiKiii KATSEYE e XG lideram o festival em Pasadena, evento essencial para fãs de música…
Baeksang 2026 amplia horizontes com nova categoria de musicais e apoio da Gucci.