Come preservare i libri con un software antispam

Un tool utilizzato per combattere lo spam aiuterà presto i ricercatori universitari a preservare dall’usura antichi testi e manoscritti. Molti siti web, come tutti noi sappiamo, utilizzano dei test automatici che chiedono all’utente, data una parola scritta in modo distorto o sfocato, di riscriverla in un campo di testo. Un “test” che serve principalmente per dare sicurezza al sito Web che colui che si sta iscrivendo a un determinato servizio o che sta facendo il login sia effettivamente una persona “umana” e non un sistema automatizzato.

Ebbene, non tutti lo sanno ma questo test, chiamato Captcha (Completely Automated Turing Test To Tell Computers and Humans Apart), è stato creato in origine dai ricercatori della Carnegie Mellon University per aiutare i computer a decifrare parole che i sistemi elettronici non possono leggere e permettendo ai diversi siti di utilizzarlo per combattere lo spam. Vediamo un po’ meglio in che modo.


Il lavoro dei ricercatori è quello di digitalizzare libri antichi e manoscritti (in modo da renderli “eterni”). Gli strumenti a disposizione sono il personale e il supporto di un’associazione no-profit, la “Internet Archive”, e un potente software Ocr (che esamina le pagine scannerizzate e le tramuta in testo). Purtroppo, però, il sistema Ocr non riconosce un decimo delle parole a causa della cattiva qualità dei documenti originali. Ecco che entra in scena il Captcha: le parole che il computer non riconosce vengono automaticamente distribuite nei siti affiliati in tutto il mondo – che li utilizzano come abbiamo visto per far autenticare le persone – che aderiscono al programma chiamato reCaptchas.

L’utente, quindi, registrandosi a un servizio pensa di riscrivere una parola apparentemente senza senso, ma in realtà sta aiutando i ricercatori a preservare antichi libri. Ovviamente, per evitare errori, ogni stringa di testo è sottoposta a due utenti: se le risposte sono uguali, allora la traduzione sarà accettata. I Captcha non sono molto popolari tra gli utenti internet: per molti sono una perdita di tempo e spesso sono difficili da decifrare. La prossima volta che vi imbattete in un Captcha, allora, non sbuffate: magari state aiutando la digitalizzazione di un testo del Trecento.

Via | Bbc News