MolmoWeb: Transformando a Navegação com Agentes Visuais

Acelino Silva

MolmoWeb: A Revolução dos Agentes Visuais de Navegação

De desenvolvimento de agentes de navegação, os engenheiros enfrentam uma escolha entre APIs fechadas, que não permitem inspeção, e frameworks de peso aberto sem modelos treinados. É nesse contexto que surge o MolmoWeb, oferecendo uma nova alternativa promissora. Criado pela Ai2, uma organização sem fins lucrativos de Seattle, o MolmoWeb é um agente visual de navegação de peso aberto, disponível em tamanhos de 4 bilhões e 8 bilhões de parâmetros. Este lançamento marca um avanço notável, ao fornecer o conjunto de dados de treinamento e o pipeline necessários para auditoria ou reprodução do modelo.

O Que Torna o MolmoWeb Único?

Até agora, nenhum agente visual de navegação de peso aberto havia sido lançado com dados de treinamento e pipelines auditáveis. O MolmoWeb muda esse cenário ao introduzir o MolmoWebMix, um dataset abrangente que inclui 30.000 trajetórias de tarefas humanas em mais de 1.100 sites, 590.000 demonstrações de subtarefas e 2,2 milhões de pares de perguntas e respostas baseadas em capturas de tela. Este é o maior acervo público já disponibilizado sobre a execução de tarefas na web por humanos.

Funcionamento do MolmoWeb

O MolmoWeb opera exclusivamente a partir de capturas de tela do navegador. Ele não analisa HTML nem depende de representações de árvore de acessibilidade de uma página. Em cada etapa, recebe uma instrução de tarefa, a captura de tela atual, um registro de texto de ações anteriores, além do URL e título da página. A partir disso, produz uma descrição em linguagem natural sobre seu raciocínio e executa a próxima ação no navegador, que pode incluir cliques em coordenadas da tela, digitação de texto, rolagem, navegação para um URL ou troca de abas.

Compatibilidade e Flexibilidade

Um dos grandes diferenciais do MolmoWeb é sua independência em relação ao tipo de navegador. Ele precisa apenas de uma captura de tela, o que significa que pode operar em navegadores locais como Chrome e Safari ou em serviços hospedados. A demonstração hospedada utiliza o Browserbase, uma startup de infraestrutura de navegador em nuvem.

MolmoWebMix: O Dataset Que Faz a Diferença

O peso do modelo é apenas uma parte do que a Ai2 está oferecendo. O MolmoWebMix, o dataset de treinamento acompanhante, é o principal diferencial em relação aos outros agentes de peso aberto disponíveis hoje. O dataset é composto por:

  • Demonstrações Humanas: Anotadores humanos completaram tarefas de navegação usando uma extensão customizada do Chrome, registrando ações e capturas de tela em mais de 1.100 sites.
  • Trajetórias Sintéticas: Para ampliar além do que a anotação humana pode oferecer, a Ai2 gerou trajetórias adicionais usando agentes de árvore de acessibilidade baseados em texto.
  • Dados de Percepção de GUI: Treina o modelo para ler e interpretar o conteúdo da página diretamente a partir de imagens, com mais de 2,2 milhões de pares de perguntas e respostas baseadas em capturas de tela.

MolmoWeb: Uma Nova Categoria no Mercado de Agentes de Navegação

De acordo com Tanmay Gupta, cientista sênior de pesquisa na Ai2, o mercado de agentes de navegador se divide em duas categorias principais: sistemas baseados apenas em API, que são fechados, e modelos de peso aberto, que são significativamente menores em número. O MolmoWeb se posiciona nesta segunda categoria como um modelo de visão totalmente treinado de peso aberto. A Ai2 afirma que o MolmoWeb lidera este grupo em quatro benchmarks de sites ao vivo: WebVoyager, Online-Mind2Web, DeepShop e WebTailBench.

Conclusão

O lançamento do MolmoWeb pela Ai2 representa um marco importante no desenvolvimento de agentes de navegação, oferecendo uma alternativa auditável e treinável para empresas que buscam evitar a dependência de chamadas de API por uso. Apesar de algumas limitações como erros ocasionais na leitura de texto de capturas de tela e limitações em tarefas que exigem login ou transações financeiras, o MolmoWeb se destaca por sua capacidade de operar de forma independente e com flexibilidade em diversos ambientes de navegação.

Share This Article
Follow:
Sou um amante de séries, filmes, games, doramas, k-pop, animes e tudo relacionado a cultura pop, nerd e geek.