Sat. Jul 27th, 2024

Nos últimos dias, os resultados de pesquisa do Google foram afetados por um ataque de spam, que está completamente descontrolado. Vários domínios estão aparecendo em centenas de milhares de palavras-chave, o que sugere que esse ataque pode atingir milhões de frases-chave.

Lily Ray foi a pessoa responsável por identificar o spam pela primeira vez.

Se você fizer uma pesquisa no Google agora mesmo por “craigslist peças de automóveis usadas”, todos os resultados no top 20 são spam, com exceção dos dois primeiros resultados que são do Craigslist.

Tweet de Lily Ray em 20 de dezembro de 2023

De que maneira é possível remover os algoritmos utilizados pelo Google?

Os sites de spam estão explorando três oportunidades que estão presentes no sistema de classificação do Google. Embora essas oportunidades não sejam novas e os spammers as tenham usado por muitos anos, recentemente têm sido mais frequentemente exploradas.

Uma possível explicação para o sucesso do spam é o fato de que os sites de spam estão otimizados para palavras-chave de baixa concorrência, o que facilita seu posicionamento nos resultados de busca.

Existem duas categorias de consultas de pesquisa com baixo volume em que os sites de spam estão identificando possibilidades.

Paráfrase: Oportunidade 1. Algoritmo de busca local: A busca local é um tipo de pesquisa que ocorre quando as pessoas procuram por estabelecimentos próximos, como restaurantes ou horários de filmes. É um algoritmo mais flexível que permite classificar um restaurante local sem depender de links.

Oportunidade 2. Palavras-chave de cauda longa são frases com poucas buscas, que ocorrem apenas ocasionalmente, seja mensalmente ou anualmente. Como resultado, essas pesquisas têm pouca concorrência, o que facilita a classificação nos resultados de busca.

Há uma grande quantidade de sites de spam que são recentes. Os domínios foram registrados em um período de 24 a 48 horas antes de serem classificados.

O Google oferece aos sites recém-criados um período inicial em que são beneficiados com uma certa margem de tolerância, enquanto o algoritmo do Google explora o site durante um breve período de teste, permitindo que o site seja classificado nas pesquisas.

Muitos dos domínios foram registrados recentemente, dentro das últimas 2.448 horas. Isso pode indicar que esses domínios estão aproveitando uma curta oportunidade para entrar, ganhar visibilidade em milhões de pesquisas e depois desaparecer.

Um funcionário do Google explicou o motivo pelo qual novos sites podem obter classificações na pesquisa.

Especificamente, quando se trata de sites recém-criados, uma das complicações que enfrentamos é a falta de dados disponíveis para esses sites, o que nos leva a fazer estimativas.

Leia Mais:   Google incorpora publicações de redes sociais nos perfis de empresas do Google.

E, dependendo da maneira como fazemos nossas estimativas, pode ocorrer que inicialmente demos mais destaque a este site do que as evidências finais sugerem.

Recursos do Google que auxiliam na identificação de sites de spam.

Recentemente, me deparei com uma sequência de publicações feitas por Bill Hartzer no LinkedIn, que chamaram minha atenção. Neles, ele compartilhou um gráfico de links criado pela ferramenta de backlinks Majestic, revelando as redes de links de diversos sites de spam.

O gráfico de links compartilhado por ele revelou que diversos sites estão conectados de maneira intensa, o que é comum em redes de spam de links.

Imagem capturada de uma rede altamente conectada.

Google Search Overwhelmed By Massive Spam Attack
Imagem: JonPauling/GettyImages

Eu e Bill discutimos sobre os sites de spam no Facebook Messenger e concordamos que, apesar dos spammers dedicarem muito esforço para criar uma rede de backlinks, os links não eram os principais responsáveis pelos rankings elevados.

É possível que os links tenham sido inseridos com o objetivo de auxiliar o Google na localização de novos sites de spam, permitindo que sejam rastreados e, eventualmente, classificados.

Bill expressou sua opinião, afirmando:

Na minha visão, isso é parcialmente responsabilidade do Google, que parece estar priorizando mais o conteúdo do que os links.

Estou de acordo com a ideia de que o Google está priorizando o conteúdo em vez dos links. No entanto, acredito que os links de spam ainda são importantes para que o Googlebot possa identificar e indexar as páginas de spam, mesmo que seja por um curto período de tempo.

Uma vez que as páginas de spam tenham sido incluídas em índices, é provável que estejam explorando duas falhas que identifico nos algoritmos do Google, as quais discutirei a seguir.

O aumento desenfreado de spam nas páginas de resultados do Google está se tornando um problema.

Diferentes páginas estão sendo classificadas com base em frases longas e específicas que são relativamente simples de classificar, assim como frases com um elemento de pesquisa local, que também são fáceis de classificar.

O conceito de Long Tail tem sido discutido por quase vinte anos e ganhou popularidade através do livro de 2006 intitulado “The Long Tail: Por que o futuro dos negócios está em vender menos, mas mais”.

Os spammers podem obter um bom posicionamento para essas frases pouco pesquisadas devido à falta de concorrência, o que facilita sua classificação.

Assim, se um indivíduo mal-intencionado criar uma grande quantidade de páginas com frases de cauda longa, essas páginas podem conseguir posições elevadas para muitas palavras-chave todos os dias em um curto espaço de tempo.

Leia Mais:   Expectations for Google SGE and Generative AI in Search in 2024.

A Amazon utiliza o conceito de long tail para comercializar uma grande quantidade de produtos individuais todos os dias, em vez de vender uma grande quantidade de um único produto diariamente.

Os spammers estão se aproveitando da facilidade de classificação de frases de cauda longa.

Os spammers estão aproveitando a falha intrínseca na Pesquisa Local.

O algoritmo utilizado para buscar localmente não é idêntico ao algoritmo utilizado para classificar palavras-chave não locais.

As variações de Craigslist e termos relacionados foram revelados como exemplos.

Frases como “Autopeças no Craigslist”, “Aluguel de quartos no Craigslist”, “Venda por proprietário no Craigslist” e muitas outras palavras-chave, a maioria delas não contendo a palavra “Craigslist”, são exemplos.

O spam está presente em uma escala gigantesca e não se limita apenas a mensagens com a palavra “Craigslist”.

Como é a aparência da página de Spam?

É impossível visualizar a aparência da página de spam ao visitar as páginas com um navegador.

Eu fiz uma tentativa de visualizar o código-fonte dos sites que são classificados pelo Google, porém, todos os sites de spam me redirecionam automaticamente para outro domínio.

Depois, inseri a URL de spam no verificador de links W3C para acessar o site, porém o bot do W3C também não conseguiu visualizá-lo.

Então alterei as configurações do meu navegador para que meu agente de usuário fosse identificado como Googlebot, mas mesmo assim o site de spam continuava me redirecionando.

Isso significava que o site não estava checando se o usuário era o Googlebot.

O site de spam estava checando os endereços IP do Googlebot. Caso o endereço IP do visitante fosse identificado como pertencente ao Google, o conteúdo da página de spam era mostrado para o Googlebot.

Os demais visitantes são redirecionados para diferentes domínios que mostram conteúdo incompleto.

Para poder ver o código HTML do site, foi necessário acessá-lo utilizando um endereço IP do Google. Depois disso, utilizei a ferramenta de teste de Resultados Ricos do Google para acessar o site de spam e salvar o código HTML da página.

Eu demonstrei ao Bill Hartzer como obter o código HTML usando o testador de resultados ricos e ele imediatamente foi ao Twitter para compartilhar, haha. Impressionante!

O Rich Results Tester possui uma funcionalidade que permite exibir o código HTML de uma página da web. Assim, é possível copiar o código HTML, colá-lo em um arquivo de texto e salvá-lo como um arquivo HTML.

Leia Mais:   O Google não considera os nomes de autores como um fator de classificação.

Imagem capturada da estrutura HTML fornecida pelo Rich Results Tool.

Google Search Overwhelmed By Massive Spam Attack
Imagem: Chakkree_Chantakad/iStock

Depois, fiz a edição do arquivo HTML para eliminar qualquer código JavaScript e, em seguida, salvei novamente o arquivo.

Agora eu conseguia visualizar como a página da web é exibida para o Google.

Fotos indesejadas.

Screenshot of a spam webpage that ranks in Google
Imagem: GernotBra/KaboomPics

Um sistema de classificação de domínio para mais de 300.000 palavras-chave.

Reescrita: Recebi de Bill uma planilha que contém uma relação de frases-chave de um site de spam classificado. Apenas um dos sites de spam foi categorizado com mais de 300.000 frases-chave.

Imagem capturada exibindo palavras-chave relevantes para um domínio.

Image showing a closeup of a spreadsheet with keyword phrases on it
Imagem: GernotBra/PixaBay

Havia várias palavras-chave no Craigslist, mas também havia várias frases de busca mais específicas, muitas delas relacionadas a pesquisas locais. Como já mencionado, é simples posicionar-se bem nas frases de busca mais específicas, é fácil classificar-se nas frases de busca locais e combinar os dois tipos de frases, e é bastante simples obter uma boa posição para essas palavras-chave.

Por que esse método de envio de mensagens indesejadas tem sucesso?

Conforme mencionado anteriormente, o algoritmo utilizado na pesquisa local é distinto do algoritmo utilizado na pesquisa não local. Por exemplo, um site que se concentra em uma região específica não requer uma grande quantidade de links para se classificar em uma busca. As páginas simplesmente precisam incluir as palavras-chave apropriadas para acionar o algoritmo de pesquisa local e, assim, alcançar uma boa posição nos resultados.

A forma como o algoritmo de pesquisa local funciona é distinta e mais flexível, permitindo que os sites de conteúdo local tenham um melhor posicionamento nos resultados. Os algoritmos de pesquisa local são tão flexíveis que até mesmo um site escrito principalmente em latim poderia ser classificado para uma expressão como “Rinoplastia Plano Texas”.

O Google tem conhecimento desse problema de spam desde pelo menos o dia 19 de dezembro, como mencionado em um tweet por Danny Sullivan.

Sim, já enviei aquela informação para a equipe responsável pela pesquisa. Aqui está um breve olhar. E está sendo monitorado. pic.twitter.com/vJH3EisnXD

No dia 19 de dezembro de 2023, o Google Search Liaison publicou uma mensagem no Twitter.

Existem diversas formas em que o Google pode agir, tais como ser mais criterioso e impedir que sites de certos domínios sejam classificados. Será interessante observar se o Google finalmente encontra uma solução para combater esse tipo de spam, após todo esse tempo.

A imagem principal é fornecida por Kateryna Onyshchuk através do Shutterstock.