AlbertCorbett

 Algoritmos de classificação de mecanismos de pesquisa de engenharia reversa – #DicasDeOutroMundo


Em 1997, fiz algumas pesquisas na tentativa de fazer engenharia reversa de algoritmos usados ​​pelos mecanismos de busca. Nesse ano, os grandes incluíram AltaVista, Webcralwer, Lycos, Infoseek e alguns outros.

Consegui declarar amplamente minha pesquisa um sucesso. De fato, era tão preciso que, em um caso, consegui escrever um programa que produzisse exatamente os mesmos resultados de pesquisa que um dos mecanismos de pesquisa. Este artigo explica como eu fiz isso e como ainda é benéfico hoje. 

Etapa 1: Determinar características classificáveis

A primeira coisa a fazer é fazer uma lista do que você deseja medir. Eu vim com cerca de 15 diferentes maneiras possíveis de classificar uma página da web. Eles incluíram coisas como: 

- palavras-chave no título 

- densidade da palavra-chave 

- frequência da palavra-chave 

- palavra-chave no cabeçalho 

- palavra-chave em tags ALT 

- ênfase da palavra-chave (negrito, forte, itálico) 

- palavra-chave no corpo 

- palavra-chave no URL 

- palavra-chave no domínio ou subdomínio 

- critérios por localização (densidade no título, cabeçalho, corpo ou cauda) etc. 

Etapa 2: inventar uma nova palavra-chave

O segundo passo é determinar com qual palavra-chave testar. A chave é escolher uma palavra que não existe em nenhum idioma da Terra. Caso contrário, você não poderá isolar suas variáveis ​​para este estudo. 

Eu trabalhava em uma empresa chamada Interactive Imaginations, e nosso site era o Riddler.com e a Commonwealth Network. Naquela época, o Riddler era o maior site de entretenimento e o CWN era um dos principais sites de tráfego na rede (entre os 3 primeiros). Virei-me para minha colega de trabalho Carol e mencionei que precisava de uma palavra falsa. Ela me deu "oofness". Fiz uma pesquisa rápida e não foi encontrada em nenhum mecanismo de pesquisa. 

Observe que uma palavra única também pode ser usada para ver quem copiou o conteúdo dos seus sites para os seus. Como todas as minhas páginas de teste sumiram (há muitos anos), uma pesquisa no Google mostra alguns sites que copiaram minhas páginas. 

Etapa 3: Criar páginas de teste

A próxima coisa a fazer era criar páginas de teste. Peguei minha página inicial para o meu extinto mecanismo de pesquisa Amiga "Amicrawler.com" e fiz cerca de 75 cópias. Eu então numerava cada arquivo 1.html, 2.html ... 75.html. 

Para cada critério de medição, criei pelo menos 3 arquivos html. Por exemplo, para medir a densidade da palavra-chave no título, modifiquei os títulos html dos 3 primeiros arquivos para ficar assim: 

1.html: <xmp>  <title>  oofness oofness </title> </xmp>

2.html: <xmp>  <title>  oofness oofness oofness oofness </title> </xmp>

3.html: <xmp>  <title>  oofness oofness oofness oofness oofness oofness </title> </xmp>

Os arquivos html, é claro, contêm o restante da minha página inicial. Então, registrei no meu caderno que os arquivos 1 a 3 eram a densidade de palavras-chave nos arquivos de título. 

Repeti esse tipo de edição de html por cerca de 75 arquivos, até ter todos os critérios cobertos. Os arquivos foram carregados no meu servidor da Web e colocados no mesmo diretório diretamente para que os mecanismos de pesquisa possam encontrá-los. 

Etapa 4: aguardar os mecanismos de pesquisa indexarem as páginas de teste

Nos dias seguintes, algumas das páginas começaram a aparecer nos mecanismos de pesquisa. No entanto, um site como o AltaVista pode mostrar apenas 2 ou 3 páginas. O Infoseek / Ultraseek na época estava indexando em tempo real, então pude testar tudo imediatamente. Em alguns casos, tive que esperar algumas semanas ou meses para que as páginas fossem indexadas. 

Basta digitar a palavra-chave "oofness" para exibir todas as páginas indexadas com essa palavra-chave, na ordem classificada pelo mecanismo de pesquisa. Como apenas minhas páginas contêm essa palavra, eu não teria páginas concorrentes para me confundir. 

Etapa 5: Resultados do Estudo

Para minha surpresa, a maioria dos mecanismos de pesquisa tinha uma metodologia de classificação muito ruim. O Webcrawler usou um sistema de pontuação de densidade de palavras muito simples. De fato, consegui escrever um programa que dava exatamente os mesmos resultados de mecanismo de pesquisa que o Webcrawler. Isso mesmo, basta fornecer uma lista de 10 URLs e os classificará exatamente na mesma ordem que o Webcrawler. Usando este programa, eu faria qualquer uma das minhas páginas classificar # 1, se quisesse. É claro que o problema é que o Webcrawler não gerou nenhum tráfego, mesmo que eu estivesse listado como número 1, por isso não me incomodei. 

O AltaVista respondeu melhor com o maior número de palavras-chave no título do html. Classificou algumas páginas na parte inferior, mas não lembro quais critérios tiveram o pior desempenho. E o restante das páginas ficou em algum lugar no meio. Em suma, o AltaVista se importava apenas com as palavras-chave no título. Tudo o resto não parecia importar. 

Alguns anos depois, repeti esse teste com o AltaVista e constatei que estava dando alta preferência aos nomes de domínio. Então, adicionei um curinga ao meu DNS e servidor da Web e coloquei palavras-chave no subdomínio. Voila! Todas as minhas páginas tinham a classificação nº 1 de qualquer palavra-chave escolhida. É claro que isso levou a um problema ... Os sites concorrentes não gostam de perder suas primeiras posições e farão de tudo para proteger seus rankings quando isso lhes custar tráfego. 

Outros métodos de teste de mecanismos de pesquisa

Vou listar rapidamente outras coisas que podem ser feitas para testar os algoritmos dos mecanismos de pesquisa. Mas todos esses são tópicos longos para discutir. 

Testei alguns mecanismos de pesquisa carregando cópias grandes do dicionário e redirecionando qualquer tráfego para uma página segura. Também os testei indexando grandes quantidades de documentos (em milhões) sob centenas de nomes de domínio. Descobri em geral que existem muito poucas palavras-chave mágicas encontradas na maioria dos documentos. Ainda é verdade que alguns momentos de pesquisa de palavras-chave como "sexo", "britney spears" etc. trouxeram tráfego, mas a maioria não. Portanto, a maioria das páginas nunca viu tráfego de pessoas. 

Desvantagens

Infelizmente, houve algumas desvantagens em ser listado como o número 1 em muitas palavras-chave. Descobri que isso irritava muitas pessoas que tinham sites concorrentes. Eles geralmente começavam copiando minha metodologia vencedora (como colocar palavras-chave no subdomínio) e depois repetiam eles mesmos o processo e inundavam os mecanismos de pesquisa com 100 vezes mais páginas do que a 1 página que eu havia criado. Tornou inútil competir por palavras-chave principais. 

E segundo, certos dados não podem ser medidos. Você pode usar ferramentas como Alexa para determinar o tráfego ou o site do Google: domain.com para descobrir quantas listagens um domínio possui, mas, a menos que você tenha muitos desses dados para medir, você não obterá nenhum leituras utilizáveis. Qual é a vantagem de você tentar derrotar um site importante para obter uma palavra-chave importante, se eles já têm milhões de visitantes por dia, você não tem, e faz parte do ranking dos mecanismos de busca? 

Largura de banda e recursos podem se tornar um problema. Eu tive sites onde 75% do meu tráfego eram aranhas de mecanismos de pesquisa. E eles bateram nos meus sites a cada segundo de cada dia durante meses. Eu literalmente recebia 30.000 acessos do Google spider todos os dias, além de outras aranhas. E ao contrário do que eles acreditam, eles não são tão amigáveis ​​quanto afirmam. 

Outra desvantagem é que, se você estiver fazendo isso em um site corporativo, pode não parecer tão bom. 

Por exemplo, você deve se lembrar de algumas semanas atrás, quando o Google foi pego usando páginas-sombra e, é claro, alegou que eram apenas páginas de "teste". Certo. O Google não possui servidores de desenvolvimento? Sem servidores de teste? Eles são inteligentes o suficiente para ocultar as páginas de sombra dos usuários normais, mas não são inteligentes o suficiente para ocultar as páginas de desenvolvimento ou teste dos usuários normais? Eles não descobriram como funciona um filtro de URL ou IP? Essas páginas devem ter servido a um propósito, e eles queriam que a maioria das pessoas soubesse disso. Talvez fossem apenas páginas de balões meteorológicos? 

Lembro-me de descobrir algumas páginas que foram colocadas por uma quente revista on-line e de tecnologia de impressão (que nos conectou ao mundo digital) nos mecanismos de busca. Eles haviam colocado numerosas páginas de destino em branco usando cores de fonte correspondentes ao plano de fundo, que continham grandes quantidades de palavras-chave para seu maior concorrente. Talvez eles quisessem prestar homenagem digital à CNET? Novamente, isso provavelmente ocorreu em 1998. Na verdade, eles estavam publicando artigos na época sobre como é errado tentar enganar os mecanismos de pesquisa, mas eles mesmos estavam fazendo isso. 

Conclusão

Embora essa metodologia seja boa para aprender algumas coisas sobre os mecanismos de pesquisa, no geral, eu não recomendaria fazer disso a base para a promoção do seu site. A quantidade de páginas para competir, a qualidade dos visitantes, a mentalidade de disparar primeiro dos motores de busca e muitos outros fatores provarão que existem maneiras melhores de promover o site. 

Essa metodologia pode ser usada para outros produtos de engenharia reversa. Por exemplo, quando eu trabalhei na Agency.com fazendo estatísticas, usamos um produto fabricado por uma grande empresa de microssoftware (você pode estar usando um dos melhores produtos de sistema operacional para você) para analisar os logs do servidor web. O problema era que demorava mais de 24 horas para analisar 1 dia de logs, portanto nunca estava atualizado. Um pouco de mágica e um pouco de perl foram capazes de gerar os mesmos relatórios em 45 minutos, simplesmente alimentando os mesmos logs nos dois sistemas até que os resultados saíssem da mesma e todas as condições fossem consideradas.

Fonte: Source by Dave Tiberio

Comente

2000 a 2020 © AlbertCorbett – DESIGN • WEB • TREINAMENTOS • MARKETING • FREELANCE

Close Panel