Você já ajudou a digitalizar documentos históricos… E nem sabia disso!

A internet é um ambiente incrível. Quando usada da maneira certa ela nos proporcionará coisas maravilhosas. Amo tanto essa ferramenta que apesar de tudo (haters e stalkers) eu ainda enxergo um grande potencial nela para a educação. Por isso estou até hoje na batalha.

Recentemente emocionei-me ao saber que eu, você, seu vizinho, mãe, avó, etc, em algum momento das nossas vidas no meio digital já ajudamos a digitalizar um livro ou documento antigo. A forma vai surpreender vocês: sabem as irritantes CAPTCHA? Aquelas letras tortas e com riscos que aparecem quando vamos submeter alguns formulários para enviar e-mails, comentários, respostas de enquetes, cadastros, etc. Pois bem, além da sua utilidade principal, que é evitar que máquinas tentem se passar por humanos (não cara, não estou falando do “Exterminador do Futuro”) e roubar dados, toda vez que respondemos um determinado tipo de CAPTCHA (vocês verão qual mais abaixo) nossa resposta é armazenada em um banco de dados.

Paralelamente existem programas que “leem” documentos de textos digitalizados. Por exemplo, você tem um arquivo como uma certidão de nascimento e quer digitar as informações que estão nela, mas por algum motivo você não quer sentar em frente a um computador para digitar. Então você digitaliza esse documento e o joga em um OCR, que nada mais é que uma ferramenta que reconhece caracteres a partir de um arquivo de imagem. Seria muito simples, mas isso não funciona muito bem com documentos antigos ou avariados, como é o caso deste abaixo:

Recibo datado de 1825. Via.

Os computadores não conseguem distinguir algumas palavras, da mesma forma que os programas não conseguem desvendar uma CAPTCHA (ao menos em teoria, porque na prática não é bem assim…). E é aí onde entra a sacada genial dos criadores da CAPTCHA. Olhem o exemplo que selecionei:

Excerto do original de “O Exército de um Homem Só”. Foto: Delfos/Pucrs. Via.

Detalhe:

Não parece com algo que você já viu em algum lugar?

Via.

Assim, toda vez que desvendamos este tipo de CAPTCHA a nossa resposta é comparada com a de outros usuários e aquela que mais tiver repetições subtende-se que é a resposta correta. Depois tudo é unido com o texto já “desvendado” pelos programas. Centenas de livros e cópias de documentos antigos estão guardados no meio digital por conta disso. Não é legal?

Para saber como surgiu a ideia, veja a palestra do Luis Von Ahn para o TED, “Colaboração online em escala massiva”. Habilite a legenda do vídeo para assistir com a tradução. Ou clique aqui.

Avatar

Arqueóloga formada pela UFS com a monografia “Egito Submerso: a Arqueologia Marítima Egípcia” e mestra em Arqueologia também pela UFS com a pesquisa “Arqueologia de Ambientes Aquáticos no Egito: uma proposta de pesquisa das sociedades dos oásis do Período Faraônico”. É administradora do Arqueologia Egípcia.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *