Qual é o motivo pelo qual o Google SGE está retido no Google Labs e o que está por vir?

O Google Search Generative Experience (SGE), que estava programado para terminar como uma experiência do Google Labs em 2023, teve seu prazo estendido silenciosamente, indicando que não será substituído em breve. Curiosamente, permitir que a Microsoft assuma a liderança pode ter sido a abordagem mais adequada para o Google, mesmo que não tenha sido intencional.

O Google divulgou a ampliação do SGE de forma quase casual no final de um post sobre as novas funcionalidades de IA que estão sendo implementadas na pesquisa.

Esta é a referência direta do Sistema de Gerenciamento de Estoque.

“A introdução desta semana de ideias alimentadas por inteligência artificial para uma pesquisa multifacetada é o fruto de experimentos que começamos no ano passado para avaliar como a IA genética pode tornar a pesquisa consideravelmente mais proveitosa, utilizando o SGE nos Laboratórios de Pesquisa. Recebemos valiosos comentários de pessoas que escolheram participar dessa experiência, e continuaremos a disponibilizar o SGE nos Laboratórios como um teste para novas e audaciosas ideias.”

Após essa afirmação, foi feito um encorajamento para dar uma oportunidade à SGE.

No texto, é explicado o motivo pelo qual o Google opta por não priorizar a inteligência artificial (IA), permitindo que a Microsoft e seis startups financiadas por risco assumam a liderança na criação da próxima geração de pesquisa. Agora, o mistério foi resolvido e podemos compreender por que o Google está retendo a IA na busca.

A estratégia de Inteligência Artificial (IA) do Google para pesquisa.

A escolha do Google de manter o SGE como um projeto do Google Labs está de acordo com a tendência geral do Google de priorizar a integração da IA em um papel secundário.

A inteligência artificial tem sido uma parte essencial da Pesquisa do Google, mesmo que nem sempre seja óbvia para a maioria das pessoas.

Em 2015, foi introduzido o RankBrain.

A primeira aplicação da Inteligência Artificial na busca foi como parte do algoritmo de classificação do Google, chamado RankBrain. O RankBrain auxiliou os algoritmos de classificação a compreender como as palavras utilizadas nas pesquisas estão relacionadas a conceitos no mundo real.

Segundo informações fornecidas pelo Google:

Quando introduzimos o RankBrain em 2015, foi o pioneiro em utilizar aprendizado profundo na busca. Naquela época, essa abordagem era revolucionária… O RankBrain, como o próprio nome sugere, é empregado para auxiliar na classificação – ou determinar a melhor ordem dos resultados de pesquisa mais relevantes.

A fusão neuronal em 2018.

Uma outra melhoria que foi feita foi a Neural Matching, que auxiliou os algoritmos do Google a compreender conceitos mais abrangentes em buscas e páginas da internet.

3. O SpamBrain 2018 é um programa de combate ao spam.

O SpamBrain, uma implementação de IA do Google, é uma das aplicações mais significativas da inteligência artificial no algoritmo de busca do Google, pois contribui para a remoção de sites de baixa qualidade.

O Google MUM 2021 é uma conferência de destaque organizada pelo Google.

Um dos sistemas de inteligência artificial mais famosos lançados pelo Google é o Multitask Unified Model, também conhecido como Google MUM. MUM é um sistema de inteligência artificial multimodal que engloba a compreensão de imagens e texto, sendo capaz de contextualizá-los em frases ou consultas de pesquisa.

Resumo: O Google incorporou a inteligência artificial no núcleo de suas operações.

Esses são alguns exemplos de como o Google utiliza a inteligência artificial em sua abordagem para resolver diversos problemas na pesquisa, seja como recursos independentes ou como parte do Algoritmo Núcleo.

É possível que o Google tivesse continuado a utilizar a IA em segundo plano até que os modelos de linguagem grandes baseados em transformadores (LLMs) se tornassem capazes de se destacar.

No entanto, a incorporação da Microsoft no ChatGPT no Bing obrigou o Google a agir para incluir sua IA de maneira mais sofisticada com a Experiência Gerativa de Busca (EGE).

Qual é o motivo pelo qual o SGE ainda não está preparado para sair do Google Labs?

Dado que a Microsoft incorporou o ChatGPT no Bing, pode ser surpreendente que o Google não tenha seguido um caminho semelhante e, em vez disso, tenha optado por manter o GPT no Google Labs. Existem justificativas válidas para a abordagem escolhida pelo Google.

Atualmente, a IA generativa não consegue atender aos princípios do Google de sucesso comprovado, implementação confiável e responsabilidade.

Antes que a IA possa ser efetivamente incorporada no campo de pesquisa, é necessário resolver pelo menos três problemas principais.

Os LLMs não têm a capacidade de funcionar como um mecanismo de busca, pois necessitam passar por uma reestruturação completa para incorporar novas informações.
A estrutura do transformador apresenta ineficiência e alto custo.
A capacidade criativa da mente tem o potencial de gerar informações incorretas, o que é comumente chamado de alucinação.

Qual é o motivo para o Google manter o SGE no Google Labs?

O Google atribuiu ao feedback recebido sobre o SGE no Google Labs a introdução de dois novos recursos que utilizam inteligência artificial. Atualmente, o SGE é considerado valioso pelo Google como uma forma de testar novas funcionalidades, mas não como uma prioridade imediata para uma nova versão de pesquisa.

Existem diversos desafios complexos que impedem que o SGE, tal como está atualmente, se torne a próxima geração de IA Search.

A razão pela qual a IA não pode ser utilizada como um mecanismo de pesquisa.

Antes que a IA possa ser utilizada como o motor de busca de um sistema, é necessário resolver um dos problemas mais significativos: a incapacidade das LMs de atuarem como um índice de pesquisa que possa ser constantemente atualizado com novos dados.

De forma simples, em um motor de busca convencional, quando novas páginas da web são adicionadas, o motor de busca analisa o significado das palavras e frases dentro do texto (por meio de um processo chamado “embedding”), tornando-as pesquisáveis e prontas para serem incluídas no índice.

Em seguida, o mecanismo de pesquisa precisa atualizar completamente o índice para determinar onde as novas páginas se posicionam na lista geral de resultados de pesquisa.

Quando novas páginas da web são adicionadas a um índice de pesquisa, isso pode afetar como o motor de busca entende e relaciona todas as outras páginas da web que já conhece. Por isso, o motor de busca percorre todas as páginas do índice e atualiza suas conexões entre si, se necessário. Essa explicação simplificada visa transmitir o significado geral de adicionar novas páginas da web a um índice de pesquisa.

Diferentemente da tecnologia de pesquisa atual, os LLMs não têm a capacidade de incluir novas páginas da web em um índice, já que isso exigiria a reindexação completa de todo o LLM.

O Google está investigando maneiras de solucionar esse problema a fim de desenvolver um mecanismo de busca LLM que se baseie em transformadores. No entanto, até o momento, o problema ainda não foi resolvido, nem mesmo próximo disso.

Para compreender a razão pela qual isso ocorre, é benéfico examinar um estudo recente do Google que foi elaborado em conjunto por Marc Najork e Donald Metzler, juntamente com outros pesquisadores. Cito esses nomes porque ambos os pesquisadores são frequentemente relacionados a pesquisas significativas que são realizadas pelo Google. Portanto, se o nome deles está associado a um estudo, é provável que seja altamente relevante.

O índice de pesquisa é chamado de memória na explicação a seguir, pois ele armazena as informações que foram indexadas.

O título do artigo de pesquisa é “Aprimorando a Memória do Transformer com Novos Documentos” (PDF) através do DSI++.

A utilização de LLMs como mecanismos de pesquisa é um procedimento que emprega uma tecnologia conhecida como Índices de Pesquisa Diferenciáveis (DSIs). A tecnologia atual de índice de pesquisa é chamada de codificador duplo.

O artigo científico descreve/apresenta/analisa:

A criação de índices com o uso de um DSI requer o treinamento de um modelo Transformer. Isso significa que o modelo precisa ser treinado novamente do início toda vez que o corpus subjacente é atualizado. Isso resulta em custos computacionais muito altos em comparação com os dual-encoders.

O texto afirma que o artigo explora diferentes abordagens para lidar com o problema de LLMs que “esquecem”. No entanto, ao final do estudo, os autores afirmam que apenas avançaram no entendimento do que precisa ser solucionado em pesquisas futuras.

Chegam à conclusão:

Neste estudo, investigamos o processo de esquecimento ao adicionar novos e diferentes documentos no índice. É relevante destacar que, quando um novo documento contradiz ou altera um documento previamente indexado, o comportamento do modelo se torna imprevisível, requerendo uma análise adicional.

Adicionalmente, analisamos a eficácia do nosso método sugerido em um conjunto de dados mais extenso, como o conjunto de dados completo da MS MARCO. No entanto, é importante destacar que, com esse conjunto de dados maior, o método possui uma considerável falta de lembrança. Como consequência, são necessuras pesquisas adicionais para aprimorar o desempenho do modelo, principalmente ao lidar com conjuntos de dados de maiores proporções.

Os LLMs não têm a capacidade de verificar os fatos por conta própria.

O Google e outras empresas também estão explorando diferentes formas de utilizar a inteligência artificial para verificar e prevenir a disseminação de informações falsas (conhecidas como alucinações). No entanto, até o momento, essa pesquisa não tem apresentado progressos significativos.

Destaque da experiência de IA do Bing.

O Bing adotou uma abordagem inovadora ao integrar a inteligência artificial diretamente em sua interface de pesquisa. Combinando um motor de busca tradicional com um frontend de IA, o Bing conseguiu reformular a experiência de pesquisa e se destacar na concorrência por usuários de mecanismos de busca.

A incorporação da inteligência artificial no Bing causou grande interesse, atraindo usuários curiosos com a novidade de uma interface de pesquisa baseada em IA. Isso levou a um aumento na interação dos usuários com o Bing.

No entanto, mesmo após quase um ano de grande expectativa, a participação de mercado do Bing teve apenas um aumento mínimo. Relatórios recentes, incluindo um do Boston Globe, revelam que houve menos de 1% de crescimento no market share desde a implementação do Bing Chat.

A estratégia do Google foi confirmada ao ser analisada retrospectivamente.

A experiência do Bing indica que a inteligência artificial em destaque em um mecanismo de busca pode não ser tão eficiente como se esperava. O leve aumento na participação de mercado levanta dúvidas sobre a viabilidade a longo prazo de um motor de busca baseado em chat e confirma a abordagem cautelosa do Google ao usar a inteligência artificial em segundo plano.

A ênfase da inteligência artificial do Google na pesquisa é explicada pelo fato de que o Bing não conseguiu convencer os usuários a abandonar o Google em favor do Bing.

A estratégia do Google de manter a inteligência artificial em segundo plano, onde está funcionando melhor no momento, tem permitido que a empresa mantenha os usuários enquanto a tecnologia de pesquisa AI amadurece no Google Labs, onde ela realmente pertence.

A forma como o Bing utiliza a inteligência artificial em destaque agora serve como um alerta sobre os perigos de implementar uma tecnologia antes de compreender plenamente seus benefícios, oferecendo informações sobre as restrições dessa abordagem.

De forma irônica, a Microsoft está descobrindo métodos mais eficientes para incorporar a inteligência artificial como uma tecnologia subjacente, por meio da adição de recursos úteis aos seus produtos de escritório baseados em nuvem.

O futuro da Inteligência Artificial na área de busca.

A tecnologia de IA atualmente tem se mostrado mais eficiente como uma ferramenta de apoio às funções de um motor de busca, em vez de ser utilizada como a parte central tanto do lado do usuário quanto do lado do servidor, ou mesmo como uma combinação dessas abordagens que os usuários não têm adotado.

A razão pela qual a Search Generative Experience está no Google Labs é porque o Google tem a estratégia de lançar novas tecnologias somente após serem completamente testadas.

Sem dúvida, a inteligência artificial terá um papel mais proeminente em um futuro próximo, mas isso não vai acontecer hoje. Podemos esperar que o Google adicione mais recursos baseados em IA aos seus produtos e não seria surpreendente se a Microsoft também seguir esse caminho.

Além disso, confira: Google SGE e a Tecnologia de Inteligência Artificial Generativa. Em busca do futuro: Quais são as expectativas para o ano de 2024?

A imagem principal é fornecida pela Shutterstock, especificamente pela ProStockStudio.