629

O GLOBO - Informática Etc.
Carlos Alberto Teixeira

Artigo: 629 / Publicação: 2005-09-26

CAPTCHAS

Clique na ilustração
para ampliá-la

Tenho quase certeza que na internet você já esbarrou pelo menos uma vez com um captcha mas não sabia que o nome dele era este. Pronuncia-se como "kép-txa" e vem do inglês "Completely Automated Public Turing test to tell Computers and Humans Apart", ou seja, uma aplicação pública completamente automatizada do teste de Turing para distinguir computadores de humanos. Cruzes, que diabo é isso?

Em 1950, Alan Turing propôs um teste para avaliar a habilidade de um computador conversar como se fosse um humano. No caso, era um humano "A" conversando via teclado com um outro humano "B" e com um computador, sem saber qual era qual. Se o computador conseguisse enganar o humano "A", teria passado no teste. Mas e o captcha, o que é afinal? Bem, às vezes você vai a um site abrir uma nova conta de email grátis num provedor e, depois de digitar suas informações obrigatórias, aparece uma quadrinho contendo letras e números embaralhados, distorcidos, com umas linhas no meio e com cores de fundo que confundem tanto a nossa vista que quase não conseguimos entender o que está escrito. E ainda pedem para digitarmos os caracteres num campo logo abaixo. Pois bem, aí está. Estas figurinhas confusas são chamadas captchas. E para quê servem?

Acontece que existem programinhas maliciosos, os "bots" (vem de robots, robôs em inglês), que automatizam operações repetitivas. Sem os captchas, esses bots seriam capazes de simular um humano digitando informações aleatórias de modo a criar centenas ou até milhares de contas novas de email em poucas horas. Um captcha apresenta caracteres tão distorcidos que quase nenhum programa seria capaz de interpretá-los e decifrá-los de maneira automática. Teoricamente, só mesmo um humano conseguiria entendê-lo e digitar a seqüência correta, comprovando que é um humano e não um bot.

Captchas também são usados para evitar a ação de bots em votações online, assinaturas em listas e em respostas a pedidos de confirmação de identidade, no caso de ferramentas ativas anti-spam. Até em consultas a CPF no site da Receita já se usam captchas. A rigor, um captcha na verdade é um teste de Turing reverso, pois é um computador que verifica se quem está do outro lado é um humano ou um "bot".

O termo "captcha" foi cunhado no ano 2000 por Luis von Ahn, Manuel Blum e Nicholas J. Hopper da Universidade Carnegie Mellon, e por John Langford da IBM. Mas a idéia é anterior, de 1997, quando Andrei Broder e seus colegas de trabalho no AltaVista usaram o primeiro captcha para evitar que bots inserissem URL's em sua máquina de busca. Tentando evitar ataques de bots que utilizassem técnicas de OCR (optical character recognition = reconhecimento óptico de caracteres), eles caíram de boca no manual de um scanner Brother e desenharam figuras com todos os defeitos que a publicação ensinava a evitar, caso se desejasse um bom reconhecimento de escrita.

Hoje em dia, encontrar um captcha não é nada difícil. Só que já tem uma rapaziada derrotando captcha. Acredite, tem sim. São brilhantes esses caras. Eles estão construindo bots que capturam um captcha original em um site X, apresentam-no a um humano num site diferente Y, em outro contexto, registram a resposta da criatura e submetem-na de volta ao campo digitado no site X de onde capturaram a figura, transpondo a barreira de segurança e ganhando acesso a seja lá o que for que estão querendo acessar. Em geral, esses gênios usam como site Y páginas de pornografia, que os tarados virtuais acessam em busca de material para seus devaneios. Assim, fingindo que é uma barreira real, o bot apresenta ao ávido internauta o captcha capturado no site X. O camarada vai lá e digita sua interpretação da figura. O bot pega os caracteres digitados no site pornô Y, que está sob seu controle, e "digita" os mesmos caracteres no site X. E pronto, mais uma vitória da inteligência a serviço do mal.

Existem outros métodos engenhosos para burlar captchas, como o uso de "sweatshops" de operadores humanos, a utilização de algoritmos cabeludos e o reaproveitamento da "session-ID" de um captcha conhecido. Mas o espaço aqui é pouco e não posso me alongar tanto. Estou certo, porém, que a leitora é boa de fuxicação e vai dar uma olhadela lá no verbete apropriado da Wikipedia. Pena que, por enquanto, só tem em inglês.

Devo a inspiração para o tema de hoje a um email enviado pelo leitor Marcelo Pinto, cuja cunhada estava preparando uma palestra no INPI sobre bancos de dados de patentes e, para ajudá-la, ele me perguntou qual o nome dos tais textos distorcidos. Como eu não sabia, fui ao Google e saí catando até achar. Usei como palavras-chave: "challenge sender machine image letters digits", sem as aspas. Valeu, Marcelo!

Saiba mais visitando os links de hoje, que estão em http://catalisando.com/infoetc/20050926.htm

[ Voltar para índice 2005 ]