O GLOBO - Informática Etc. - Carlos Alberto Teixeira
Artigo: 293 - Escrito em: 1997-04-01 - Publicado em: 1997-04-07


Aranha capenga


Pouco tempo depois de surgir no cenário das "search engines", as máquinas de busca da Web, o hoje legendário AltaVista <http://altavista.digital.com/> firmou-se como uma das melhores e mais conhecidas ferramentas para o navegador. Virou até tema de livro -- "The AltaVista Search Revolution" -- sobre o qual pode-se ler a resenha em http://discuss.washingtonpost.com/wp-srv/WPlate/1997-03/22/015L-032297-idx.html

Particularmente não tenho reclamações dessa afamada maquineta de busca. Até antes de conhecer as investigações de um veterano WebMaster, John Pike <[email protected]>, era só querer encontrar algum treco na rede e lá ia eu para o AltaVista. O John andou pesquisando comparativamente o universo dessas engenhocas e chegou à conclusão que o AltaVista indexa a Web de forma bastante incompleta, falha, arbitrária e pouco aleatória. Chocada, leitora? Eu também.

Estimar o tamanho do acervo mundial de páginas Web é obviamente algo difícil, mas fala-se em coisa de 150 milhões de páginas. O AltaVista indexa cerca de 31 milhões delas, em aproximadamente 476 mil servidores. Mas e o resto?

Muitas páginas não são vistas pelos indexadores automáticos por vontade dos próprios WebMasters. Existe um artifício chamado REP (Robots Exclusion Protocol) que avisa às máquinas de busca para não indexarem este ou aquele site (diga "sáite" ou como traduz o von Piropus, "sítio" -- Eca! :-). Aliado a isso, alguns tipos de documento, como por exemplo os de formato PDF (Portable Document Format) da Adobe, não podem ser indexados. Em tem mais: alguns sites de grande porte, que geram seus conteúdos dinamicamente, acabam se tornando invisíveis para as aranhas indexadoras. Há também procedimentos especiais de segurança que impedem, ou tentam impedir, que os vasculhadores indexem esta ou aquela de uma árvore Web.

Mas toda essa conversa mole ainda não explica porque o AltaVista só indexa 20% da Web. Segundo o FAQ do AltaVista <http://altavista.digital.com/cgi-bin/query?pg=tmpl&v=faq.html>, para você incluir seu site no gigantesco índice deles, basta clicar no link "ADD URL" e o Scooter, nome do robô AltaVista, fará o resto.

Isso dá ao usuário a impressão de que, se o AltaVista souber o URL de um site, ele irá vasculhar automaticamente sua árvore inteira, desde que possa dispender tempo suficiente nesse afã. Daí a impressão geral de que "se não está no AltaVista, não está online".

Além de analisar diversas instalações, John Pike levantou no AltaVista as estatísticas de seu próprio site: http://www.fas.org/, uma árvore com cerca de 6 mil páginas, ocupando meio Giga online. O AltaVista só indexou 600 do total. Para o pessoal do AltaVista isso é considerado normal, pois de fato o Scooter não vai até as folhinhas de cada árvore. Haja disco, convenhamos.

O John conclui que, se um site for grande demais, apenas pequena parte dele será indexada pelo AltaVista. Se for pequeno demais e você estiver pendurado a um provedor grandioso, como o GeoCities ou o AOL (America OnLine), sua árvore quase nem vai aparecer na teia deles.

Confesso que fiquei meio caído com essas conclusões tão duras a respeito dessa maquininha a que eu já estava tão afeito. Mas decidi pesquisar o assunto no próprio AltaVista e encontrei um site que analisa semanalmente a cobertura dos índices de algumas das melhores search engines da teia. Esse site é o da MICA (Melee's Indexing Coverage Analysis), do qual deixo aqui o URL e faço um certo suspense. Faça suas próprias descobertas em http://www.melee.com/mica/index.html e seja feliz.


Eu achava que esse negócio do estacionamento dos shoppings fosse doideira do Piropo. Fomos então almoçar um dia desses e presenciei o ato, ao vivo e a cores, não sem certa satisfação. Aqui no município do Rio, o usuário de shopping não precisa pagar estacionamento. Pegue seu ticket normalmente ao entrar e, na hora de sair, diga para quem for receber o papelucho: "Lei 2050". A pessoa levanta a cancela e você sai tranqüilamente. Alguns shoppings solicitam que, no verso do ticket, você escreva nome, telefone e placa do carro. Fora isso, nenhum problema.


[ Voltar ]