MolmoWeb: A Revolução dos Agentes Visuais de Navegação
De desenvolvimento de agentes de navegação, os engenheiros enfrentam uma escolha entre APIs fechadas, que não permitem inspeção, e frameworks de peso aberto sem modelos treinados. É nesse contexto que surge o MolmoWeb, oferecendo uma nova alternativa promissora. Criado pela Ai2, uma organização sem fins lucrativos de Seattle, o MolmoWeb é um agente visual de navegação de peso aberto, disponível em tamanhos de 4 bilhões e 8 bilhões de parâmetros. Este lançamento marca um avanço notável, ao fornecer o conjunto de dados de treinamento e o pipeline necessários para auditoria ou reprodução do modelo.
O Que Torna o MolmoWeb Único?
Até agora, nenhum agente visual de navegação de peso aberto havia sido lançado com dados de treinamento e pipelines auditáveis. O MolmoWeb muda esse cenário ao introduzir o MolmoWebMix, um dataset abrangente que inclui 30.000 trajetórias de tarefas humanas em mais de 1.100 sites, 590.000 demonstrações de subtarefas e 2,2 milhões de pares de perguntas e respostas baseadas em capturas de tela. Este é o maior acervo público já disponibilizado sobre a execução de tarefas na web por humanos.
Funcionamento do MolmoWeb
O MolmoWeb opera exclusivamente a partir de capturas de tela do navegador. Ele não analisa HTML nem depende de representações de árvore de acessibilidade de uma página. Em cada etapa, recebe uma instrução de tarefa, a captura de tela atual, um registro de texto de ações anteriores, além do URL e título da página. A partir disso, produz uma descrição em linguagem natural sobre seu raciocínio e executa a próxima ação no navegador, que pode incluir cliques em coordenadas da tela, digitação de texto, rolagem, navegação para um URL ou troca de abas.
Compatibilidade e Flexibilidade
Um dos grandes diferenciais do MolmoWeb é sua independência em relação ao tipo de navegador. Ele precisa apenas de uma captura de tela, o que significa que pode operar em navegadores locais como Chrome e Safari ou em serviços hospedados. A demonstração hospedada utiliza o Browserbase, uma startup de infraestrutura de navegador em nuvem.
MolmoWebMix: O Dataset Que Faz a Diferença
O peso do modelo é apenas uma parte do que a Ai2 está oferecendo. O MolmoWebMix, o dataset de treinamento acompanhante, é o principal diferencial em relação aos outros agentes de peso aberto disponíveis hoje. O dataset é composto por:
- Demonstrações Humanas: Anotadores humanos completaram tarefas de navegação usando uma extensão customizada do Chrome, registrando ações e capturas de tela em mais de 1.100 sites.
- Trajetórias Sintéticas: Para ampliar além do que a anotação humana pode oferecer, a Ai2 gerou trajetórias adicionais usando agentes de árvore de acessibilidade baseados em texto.
- Dados de Percepção de GUI: Treina o modelo para ler e interpretar o conteúdo da página diretamente a partir de imagens, com mais de 2,2 milhões de pares de perguntas e respostas baseadas em capturas de tela.
MolmoWeb: Uma Nova Categoria no Mercado de Agentes de Navegação
De acordo com Tanmay Gupta, cientista sênior de pesquisa na Ai2, o mercado de agentes de navegador se divide em duas categorias principais: sistemas baseados apenas em API, que são fechados, e modelos de peso aberto, que são significativamente menores em número. O MolmoWeb se posiciona nesta segunda categoria como um modelo de visão totalmente treinado de peso aberto. A Ai2 afirma que o MolmoWeb lidera este grupo em quatro benchmarks de sites ao vivo: WebVoyager, Online-Mind2Web, DeepShop e WebTailBench.
Conclusão
O lançamento do MolmoWeb pela Ai2 representa um marco importante no desenvolvimento de agentes de navegação, oferecendo uma alternativa auditável e treinável para empresas que buscam evitar a dependência de chamadas de API por uso. Apesar de algumas limitações como erros ocasionais na leitura de texto de capturas de tela e limitações em tarefas que exigem login ou transações financeiras, o MolmoWeb se destaca por sua capacidade de operar de forma independente e com flexibilidade em diversos ambientes de navegação.