Apenas um dia após o lançamento público do Gemini do Google, alguém percebeu que os chats estavam sendo exibidos nos resultados de busca do Google. O Google agiu rapidamente para lidar com o suposto vazamento. A explicação por trás disso é surpreendente e não tão preocupante como pode parecer inicialmente.
@shemiadhikarath publicou no Twitter:
Algumas horas depois que o @Google Gemini foi lançado, conversas públicas do Gemini foram indexadas por mecanismos de busca como o Bing.
Eles compartilharam uma imagem da pesquisa encontrada no site gemini.google.com/share/.
No entanto, ao observar a imagem, é possível notar uma frase que afirma: “Desejaríamos apresentar uma descrição nesta área, mas o site não nos permite.”
Na manhã de terça-feira, 13 de fevereiro, as informações do Google Gemini começaram a desaparecer dos resultados de busca do Google. O Google passou a exibir apenas três resultados de busca. Durante a tarde, o número de informações vazadas do Gemini mostradas nos resultados de busca diminuiu para apenas um resultado.

Qual foi o processo de criação do Gemini Chat Pages?
A Gemini disponibiliza uma forma de criar um vínculo para uma versão acessível publicamente de uma conversa privada.
O Google não gera páginas web fora de conversas privadas de forma automática. Os usuários são responsáveis por criar as páginas de chat ao acessar um link que se encontra na parte inferior de cada conversa.
Imagem mostrando o processo de criação de uma página de chat compartilhada.

Por que a Gemini Chat Pages foi incluída no índice?
A razão evidente pela qual as páginas de chat foram rastreadas e indexadas é devido à falta de um arquivo robots.txt na pasta principal do subdomínio Gemini (gemini.google.com) por parte do Google.
Um robô. O documento txt é utilizado para gerenciar a atividade de um rastreador em sites. Um editor tem a capacidade de impedir que rastreadores específicos acessem o site, através de comandos padronizados no Protocolo Robots.txt.
Eu examinei o arquivo robots.txt às 4h19 da madrugada no dia 13 de fevereiro e constatei que um estava presente.

chsyys/iStock
Depois, fiz uma verificação no Internet Archive para ver há quanto tempo os robôs estavam lá. Descobri que o arquivo txt estava presente pelo menos desde o dia 8 de fevereiro, quando os Apps Gemini foram anunciados.
Captura de tela de um documento online.

Isso implica que a razão evidente pela qual as páginas de chat foram monitoradas não é a verdadeira razão, mas sim a mais clara.
Mesmo que o subdomínio Google Gemini possuísse um arquivo robots.txt que bloqueava os rastreadores web do Bing e do Google, como eles conseguiram rastrear e indexar essas páginas?
Confira: 6 Perguntas frequentes sobre o arquivo robots.txt e como resolvê-las…
Duas formas de encontrar e catalogar páginas de chat privadas foram descobertas e indexadas.
- Existe a possibilidade de haver uma conexão disponível para o público em algum local.
- Menos provável, mas talvez ocorra a possibilidade de que tenham sido encontrados por meio do registro de atividades de navegação associado aos cookies.
É mais comum que haja links disponíveis para o público em geral.
Perguntei a Bill Hartzer (@bhartzer) sobre o assunto e ele encontrou um link acessível ao público para uma das páginas indexadas.

Agora está claro que é muito provável que um link público tenha causado o rastreamento e indexação dessas páginas do Gemini Chat.
Bill Hartzer fez o seguinte comentário:
Apesar de a URL Gemini estar sendo proibida no arquivo robots.txt, existe um link para a URL Gemini em um comentário de blog, o que significa que a URL Gemini está sendo incluída nos resultados de busca.
Essa situação evidencia que o Google continuará a indexar URLs que foram bloqueadas para rastreamento pelos robôs. Isso é demonstrado por meio de um arquivo txt.
Se o Google estivesse realmente interessado em garantir que a URL Gemini não fosse indexada, eles seguiriam as práticas recomendadas, como rastrear “ALLOW” nos robôs.txt e adicionar uma meta tag “noindex” nas páginas. Talvez o Google deva seguir seu próprio conselho neste caso?
Qual foi o motivo pelo qual as páginas de chat deixaram de aparecer nos resultados de pesquisa?
No entanto, se existe um link público, por que o Google decidiu remover completamente as páginas de bate-papo? O Google estabeleceu uma diretriz interna para o rastreador de pesquisa excluir páginas da pasta /share/ do índice de pesquisa, mesmo que estejam vinculadas publicamente?
Obtenha informações sobre como Bing e Google indexam o conteúdo de pesquisas.
Agora, vamos abordar a parte mais fascinante para todos os entusiastas da pesquisa que estão interessados em entender como o Google e o Bing indexam o conteúdo.
O índice de pesquisa do Bing da Microsoft teve uma resposta diferente ao conteúdo Gemini em comparação com o Google. Enquanto o Google ainda estava exibindo três resultados de pesquisa na manhã de 13 de fevereiro, o Bing mostrava apenas um resultado do subdomínio. Parecia haver uma qualidade aleatória na indexação e na quantidade de conteúdo exibido.
Qual é a causa dos vazamentos nas páginas de chat do Gemini?
Aqui estão as informações que se sabe:
- Desde 8 de fevereiro, o Google mantinha o arquivo robots.txt em sua posição.
- O subdomínio gemini.google.com foi indexado tanto pelo Google quanto pelo Bing.
- O Google e o Bing podem ter encontrado links para as conversas e depois os incluído em seus índices.
- Os motores de busca registraram o conteúdo mesmo sem o robots.txt e, por isso, começaram a exibi-lo.
Isso nos leva de volta à questão de por que essas páginas começaram a ser excluídas dos resultados de busca tanto do Google quanto do Bing. Minha suposição é que as páginas de bate-papo do Google Gemini são de baixa qualidade e não têm relevância para pesquisas específicas (site: gemini.google.com/share/). Não há motivo válido para exibir essas páginas nos resultados de busca.
O conteúdo que foi bloqueado por um arquivo robots.txt ainda pode ser encontrado, rastreado e indexado pelos mecanismos de busca. Se as páginas forem consideradas úteis, elas poderão ser classificadas, a menos que sejam consideradas não úteis. Parece que este pode ser o caso.