Molmo, o novo modelo de IA multimodal do Allen Institute for AI, sem fins lucrativos, aponta corretamente para o frasco de ketchup na porta de uma geladeira. (GeekWire Photo / Todd Bishop, captura de tela do site de demonstração Ai2.)

Teste de Turing? Qualquer que seja. Conheça o Desafio da Geladeira.

Um novo modelo de inteligência artificial multimodal do Instituto Allen de IA (Ai2)trabalha com dados visuais de maneiras inovadoras. Ele pode analisar e descrever imagens, como outros modelos de IA, mas vai além, apontando para diferentes partes da imagem – anotando-as com pontos rosa brilhantes.

Isso é chamado “Molmo”, e na verdade são quatro modelos, variando em tamanho de 1 bilhão a 72 bilhões de parâmetros. Os líderes da organização sem fins lucrativos de IA com sede em Seattle dizem que Molmo mostra o poder de uma abordagem aberta à IA, prova o valor dos dados de treinamento de alta qualidade e desbloqueia novos recursos para agentes de IA, robôs e realidade aumentada e virtual.

Mas depois de ter acesso ao Olá site de demonstração antes de sua inauguração na manhã de quarta-feira, decidi testar a tecnologia em outra fronteira – a geladeira da minha família – desafiando a IA com uma tarefa conhecida por confundir certos humanos.

Numa impressionante demonstração de percepção visual, Molmo apontou corretamente para o ketchup na porta da minha geladeira, como mostra a imagem acima, apesar da garrafa plástica estar virada. Encontrou também a alface e as uvas nas gavetas, o iogurte na primeira e segunda prateleiras e o pacote de frango.

Só para constar, Molmo não conseguiu encontrar a garrafa de cerveja enfiada no fundo da prateleira mais baixa, apesar do rótulo “Modelo” ser pouco visível na imagem. Ei, eu posso ter empatia. Todos nós temos espaço para melhorias.

Deixando de lado os testes de tecnologia doméstica, há muita coisa acontecendo nos bastidores.

Ai2 usa uma abordagem aberta para inteligência artificial – liberando seus dados de treinamento, anotações, código subjacente, pesos de modelo e outros dados para pesquisadores e desenvolvedores entenderem e usarem. Isto contrasta com a abordagem proprietária de empresas como OpenAI, Google, Anthropic e outras.

CEO da Ai2 Ali Farhadifalando com repórteres na terça-feira na sede da organização sem fins lucrativos ao norte de Lake Union, em Seattle, disse que Molmo mostra que os modelos abertos agora podem rivalizar com alternativas proprietárias nos principais benchmarks de desempenho.

Embora advertindo que não é fã desses benchmarks, devido ao que descreveu como falhas científicas, Farhadi reconheceu que eles são amplamente utilizados na indústria e mostrou-lhes que apresentavam um ponto de vista mais amplo.

“Aberto e fechado estão ficando muito, muito próximos”, disse ele.

Além disso, os modelos menores apresentam desempenho equivalente aos modelos maiores. Por exemplo, uma versão leve do Molmo com 1 bilhão de parâmetros tem um desempenho tão bom quanto a versão de 12 bilhões de parâmetros Modelo Pixtral 12B lançado na semana passada pela Mistral AI, a startup francesa de IA na qual Microsoft investiu no início deste ano.

O tamanho menor é “um facilitador fundamental, porque agora você pode começar a ter essas coisas rodando em seu telefone, em seus wearables, em seu desktop, em seu laptop, e isso apenas expande o alcance do que esses modelos podem fazer”, disse Farhadi. .

Ai2 diz que seu maior modelo Molmo 72B também se compara favoravelmente ao GPT-4V da OpenAI, ao Claude 3.5 da Anthropic e ao Gemini 1.5 do Google.

A inauguração do Molmo vem antes do Conferência Meta Connect na quarta-feira, onde a controladora do Facebook está esperava mostrar a versão mais recente de seu modelo de linguagem grande Llama de código aberto.

Um diferencial importante do Molmo, explicou Farhadi, é o foco da Ai2 em dados selecionados e de alta qualidade. Em vez de depender de conjuntos de dados grandes, barulhentos e rastreados na web, o Momo foi treinado em um conjunto de dados menor, mas de maior qualidade, usando anotações humanas cuidadosas. Isso melhora a precisão e a confiabilidade do modelo.

Em demonstrações na Ai2 esta semana, o pesquisador-chefe Matt Deitke mostrou a capacidade de Molmo de identificar aparentemente todos os detalhes em uma imagem da movimentada entrada do Pike Place Market em Seattle, e de identificar e contar o número de cães em uma foto. Molmo conseguiu até contar o número de cães com a língua de fora.

Outro avanço notável (embora simbólico): Molmo pode contar as horas a partir de um mostrador de relógio tradicional, algo que outros modelos de IA têm lutado para fazer.

As capacidades de reconhecimento visual do Molmo também incluem a capacidade de ler páginas da web, o que cria a possibilidade para os desenvolvedores usarem o modelo para criar novas formas de agentes autônomos de IA. Um vídeo de destaque do Ai2 (acima) inclui um agente de IA que navega no site da Starbucks e faz um pedido de café, por exemplo.

O CEO da Ai2, Ali Farhadi, em seu escritório no início deste ano na sede da organização sem fins lucrativos em Seattle. (Foto GeekWire / Todd Bishop)

A Ai2, fundada pelo falecido cofundador da Microsoft, Paul Allen, é liderada há mais de um ano por Farhadi. Anteriormente, ele fundou e liderou o spinout da Ai2, Xnor.ai, como CEO, evendeu para a Apple em 2020em um acordo estimado em US$ 200 milhões que representa um dos maiores sucessos comerciais do instituto até o momento.

Farhadi voltou à Ai2 em julho de 2023depois de liderar as iniciativas de aprendizado de máquina da Apple.

O instituto lançou seu Modelo de Linguagem Aberta, ouOlmoem fevereiro do ano passado, parte de um esforço maior para trazer mais transparência ao surgimento de modelos generativos de IA. OLMo ganhou o prêmio de Inovação do Anono Prêmio GeekWire de 2024.

Como um instituto de pesquisa de IA sem fins lucrativos, o Ai2 não se concentra no desenvolvimento de produtos próprios, mas em vez disso busca avanços em IA que sirvam à sociedade e ofereça sua tecnologia para que outros possam usar e aprender.

Porém, com o Molmo site de demonstraçãoa Ai2 desta vez está adotando uma abordagem mais pública, buscando trazer uma nova atenção para a tecnologia, para ajudar a cumprir sua missão.

“Esta é a primeira vez que lançamos uma demonstração ao vivo”, disse Farhadi, reconhecendo alguma angústia. “Fizemos o melhor que pudemos para garantir que fosse seguro e não fizesse coisas estranhas. Mas com esse tipo de modelo, você nunca sabe o que vai acontecer. Este é um experimento para vermos e sabermos se essa estratégia funciona ou não.”