O GLOBO - Informática Etc.
Carlos Alberto Teixeira - C@T

Compactação máxima

Artigo: 489

Gutenberg deve estar dando saltos mortais tríplices em sua tumba

Publicado em:  2001-03-12
Escrito em:  2001-03-02

 

Querida leitora, esfregue as mãozinhas e prepare-se para baixar uns trecos novos da web. Vamos começar uma nova aventura no processamento de imagens e você tem que estar pronta para essa onda que já está estourando na rede. Estou falando do formato DjVu <www.djvu.com>, do francês "déjà vu", significando "coisa já vista" e pronunciado "dejaví". Em 1996 começou-se a falar em novas técnicas matemáticas de processamento de imagens, os wavelets. Aqui mesmo este tema já foi abordado em <www.oglobo.com.br/info/cat/241.htm>. Naquele mesmo ano, a equipe dos laboratórios da AT&T <www.att.com/technology> estava se empenhando furiosamente nessa pesquisa. Depois de um certo sumiço do tema na tecnomídia, o assunto ressurgiu agora com força total, com o anúncio desta nova tecnologia de compressão, especificamente projetada para lidar com páginas scaneadas de livros, revistas, catálogos, jornais, publicações técnicas e documentos antigos e históricos.

Considerando que 90% das informações no planeta ainda estão disponíveis apenas em papel, o grande desafio é oferecer esse material via web, num formato suficientemente compactado que acabe com o inferno que é baixar páginas scaneadas no browser. Os formatos em uso -- JPG, GIF, PNG e PDF -- ainda produzem arquivos grandes demais, mas o DjVu entra em cena justamente para desbancá-los, com resultados impressionantes. A taxa de compressão do DjVu é de 5 a 10 vezes melhor do que JPG e GIF para documentos a cores, e de 3 a 8 vezes melhor do que TIFF para documentos P&B. Assim, exemplificando, uma página colorida scaneada a 300 dpi, ao invés de ocupar 25 MB, pode ocupar entre 20 e 100 kB. Se considerarmos documentos produzidos eletronicamente, em PostScript ou PDF, o tamanho de um arquivo típico DjVu a 300 dpi é de 15 a 20 kB. Uma detalhada comparação entre DjVu e JPG pode ser encontrada no site do DjVu. É realmente uma paulada na moleira.

Os AT&T Labs uniram-se a um parceiro comercial que está vendendo os produtos DjVu. Trata-se da LizardTech <www.lizardtech.com>, empresa sediada em Seattle, EUA. Como os caras não dormem de touca, resolveram abrir o formato DjVu e torná-lo público. Assim, o formato, o algoritmo de decodificação e partes do de codificação estão disponíveis no regime de "open source".

Minha sugestão é que você baixe imediatamente o plug-in gratuito DjVu para Win 9x/NT/2000 em <www.djvu.com/download.html, com cerca de 500 kB. É fácil de instalar e roda em Netscape 3.0+ e Internet Explorer 3.0+. Permite "zoom", "pan" e é rápido como diabo para descomprimir imagens, usando apenas 2 MB de RAM. Há também plug-ins grátis para Linux/Intel, MacOS8/ppc, Solaris2.x, Irix6.x, HP/UX e BSD.

O DjVu não descomprime a imagem inteira antes de exibi-la, como fazem os programas arcaicos. A descompactação é progressiva e dinâmica, mantendo a imagem em memória num formato resumido e mostrando na tela, aos poucos, só o necessário. Assim, o display inicial de uma página de revista com 2500 x 3000 pixels (300 dpi) demora apenas três segundos com modem de 56 kbps. Nos dois segundos seguintes, surgem as fotos e a imagem de fundo. E quando você acha que está tudo pronto, o software ainda exibe mais umas perfumariazinhas de imagem, para chegar à qualidade máxima final. O pulo do gato do DjVu é que ele separa o documento numa camada de background (fundo: fotos e textura do papel) e outra de foreground (frente: texto e linhas). O background é compactado usando uma técnica de tons contínuos baseada em wavelets chamada DjVuPhoto ou IW44. Por seu turno, o foreground é codificado usando um algoritmo de compressão bitonal conhecida como DjVuText ou JB2. Além desses dois métodos, o DjVu emprega quatro outros: (1) um algoritmo de segmentação, para separar as duas camadas do documento; (2) um codificador entrópico aritmético binário adaptativo de nome ZP-coder; (3) uma técnica de mascaramento irmã do IW44 para economizar bits nas porções de fundo cobertas por texto e; (4) a já mencionada técnica de descompressão dinâmica. Usando esse mingau matemático cabeludaço, o software é super-rápido e preserva as bordas nítidas do texto sem precisar caprichar tanto na resolução do resto.

É preciso que se diga que a compressão do DjVu tem perdas, mas isso não prejudica a legibilidade do documento original, coisa que o JPG infelizmente nunca logrou realizar. Outro detalhezinho é que a técnica DjVuPhoto/IW44 só suporta o modelo de cores YCrCb, o que para a maioria de nós mortais não faz a mínima diferença, mas que para a rapaziada que lida com imagens médicas e geoespaciais pode significar um problemão. A saída para esses especialistas é o padrão MrSID, também da LizardTech. Aliás, se a leitora quiser ficar boquiaberta com as esplêndidas taxas de compressão de imagens deste outro formato, aproveite o ensejo e baixe também o MrSID Browser Plug-In 1.3 e o MrSID Photo Solo, ambos em <www.lizardtech.com/products/mrsid>.

Várias empresas já usam DjVu, atestando o notável poder deste revolucionário formato. Que tal folhear em detalhe o catálogo de 1998 das lojas Sharper Image? Basta visitar o site de demonstração em <http://djvu.research.att.com/djvu/cat/sharper>

Você também pode embutir documentos DjVu em suas páginas web, bastando para isto ler o FAQ em <http://djvu.research.att.com/support/faq.html>. Na seção DjVu do site da LizardTech <www.lizardtech.com/products/djvu> você pode encontrar o software para codificar documentos, o DjVu Solo 3.1, que é oferecido em duas versões. A de uso pessoal é grátis, mas só permite codificação de documentos com apenas uma página. A versão comercial custa US$ 299 e, além das multi-páginas, oferece reconhecimento ótico de caracteres (OCR), permitindo busca por palavras-chave dentro do documento. Para maiores informações técnicas, visite <http://djvu.research.att.com/techpapers>.

[ Voltar para o índice de artigos de 2001 ]

[ O Globo | Informática Etc. | coluna mais recente | enviar email
página pessoal C@T
| assinar lista InfoEtc | assinar GoldenList do C@T ]


powered by FreeFind