O GLOBO - Informática Etc.
Carlos Alberto Teixeira - C@T

Google dentro da sua firewall

Artigo: 543

Máquina de busca oferece solução combinada de hardware e software

Publicado em:  2002-06-10
Escrito em:  2002-05-23

 

A turma do Google, a mais reputada máquina de busca da internet, vinha recebendo pedidos para que desenvolvesse uma solução para pesquisas locais em instalações protegidas por firewall e que fosse tão efetiva e fácil de usar quanto a ferramenta via Web. Como resposta, eles bolaram um software específico que roda num hardware dedicado incrustado numa jeitosa caixinha amarela e chamaram o conjunto de Google Search Appliance. A núcleo é uma maquineta rodando Linux num processador Intel. Com este GSA instalado no servidor de uma empresa, o funcionário, pesquisador, estudante ou usuário poderá efetuar buscas nos arquivos corporativos ou acadêmicos locais, externos e da intranet. Basta que sejam colocados numa área especial compartilhada todos os conteúdos que estarão sujeitos a busca.

O novo serviço/produto é o passo seguinte ao oferecimento do Hosted SiteSearch, também da Google, que era uma solução totalmente externa, do ponto de vista do usuário, e efetuava buscas customizadas em web sites externos, mediante uma taxa mensal. Pretende-se que a Google Search Appliance seja um sisteminha tipo plug-and-play, ou seja, basta tirar da caixa, pendurar no "rack" do sistema, plugar e pimba. Quanto ao preço, ainda estão fazendo jogo duro, alegando que não há termos de comparação, uma vez que não existe nada similar no mercado. Também ainda não foi dado um prazo de entrega para as primeiras unidades, mas a Google garante que não tarda o anúncio.

A própria empresa Google se compromete a dar suporte de hardware e software ao produto GSA, incluindo serviço remoto de diagnóstico, facilidade que poderá encher os olhos de uns, mas despertar pesadelos em outros. Motivo? Imagine a leitora uma caixinha plugada no servidor de sua empresa gerenciando todos os pedidos internos de busca por informações e com a possibilidade de, em algum canto, estar armazenando estatísticas e relatórios de palavras-chave e informações privadas ou não sobre os usuários. E depois, esta mesma caixinha, de tempos em tempos, se comunicando via modem 56kbps com um servidor externo central, enviando (a princípio) apenas dados de diagnóstico oriundos de seu sistema. Como saber se, entre um ciclo e outro de envios, ela não remete também para a central um resuminho esperto do que andou fazendo naquela plataforma específica? Pode ser paranóia de alguns doentes, mas a possibilidade talvez exista, mesmo que a Google, em algum lugar naqueles contratos quilométricos, tenha se comprometido a não cutucar onde não for chamada.

Sobre a facilidade de uso, um único administrador de sistemas poderá manter e gerenciar o módulo, graças a uma console de controle baseada na Web (IE5+ ou Netscape 4+), com interface amigável e intuitiva. No entanto, se assim se desejar, mais de uma conta de administrador poderá ser criada. Quanto ao conteúdo, ninguém precisa se preocupar com classificação manual, pois o ajuste de relevância dos documentos é feito de forma automática. O sistema oferece também um avançado algoritmo de verificação ortográfica que vai aprendendo sozinho, à medida que detecta erros e sugere correções específicas para o conteúdo da corporação em pauta, tudo isso nos seguintes idiomas: alemão, árabe, chinês (simplificado e tradicional), coreano, dinamarquês, espanhol, estoniano, finlandês, francês, grego, hebraico, holandês, húngaro, inglês (oh!), islandês, italiano, japonês, letão, lituano, norueguês, polonês, português (viva!), romeno, russo, sueco, tcheco e turco. As buscas podem também ser restritas a qualquer um desses idiomas.

Quanto à abrangência das buscas, a Google Search Appliance inclui arquivos HTML, documentos Microsoft Office, PDF, WordPerfect, PostScript, Lotus Domino e muitos outros, num total que supera 200 formatos distintos. Os resultados de busca encontrados em material não-HTML são reformatados para ser examinados em qualquer browser, dando aos usuários acesso às informações mesmo que a aplicação nativa não esteja mais disponível. Além disso, podem ser realizadas buscas com base em datas, que podem ser identificadas e informadas em qualquer formato internacional, sendo os resultados pinçados dos campos temporais das páginas varridas.

O sistema é capaz de varrer páginas HTML de até 2,5MB ou, no caso de outros formatos, 10MB, construindo um índice de até 150 mil documentos, num total de 10GB e permitindo um tráfego de até 60 consultas por minuto. A ferramenta PageRank de classificação de páginas pelo Google também estará em pleno funcionamento na GSA, juntamente com as outras dúzias de critérios de relevância empregados pelo sistema para determinar relevância. Através do PageRank é feita a análise da estrutura de links da rede corporativa de modo a determinar as páginas mais importantes e de melhor qualidade em todos os sites perscrutados. Após vasculhar todos os dados da matriz de servidores-alvo, o sistema sai atribuindo pesos a cada informação, de acordo com sua importância no acervo.


O vencedor da mensagem mais pauleira da "INFAME" disputa proposta na coluna passada foi o Vinícius <[email protected]>. Contribuíram 28 leitores e leitoras e a todos agradeço por sua participação. As mensagens automáticas propostas por eles, obviamente, não serão publicadas aqui nem em qualquer outro lugar, visto que imperam a sacanagem e a grosseria, aliás, exatamente conforme foi pedido. Quem tiver interesse, que entre em contato com o próprio Vinícius.

[ Voltar para o índice de 2002 ]

[ O Globo | Informática Etc. | coluna mais recente | enviar email
página pessoal C@T
| assinar lista InfoEtc | assinar GoldenList do C@T ]


powered by FreeFind