Ex Indire

Formazione

Documentazione

Didattica

Comunicazione

Europa

Accesso progetti >>
- Abitare la scuola
- Bibl
- Bpn
- Caff� erasmus
- Dia
- Eda
- Eurydice
- Enis
- Eun
- Emer
- Gold
- Handitechno
- Ifts
- Intercultura
- Perine
- Pof
- Punto Edu
- Rivi
- Set
- Socrates
- Valutazione software
- Winiride

MEDIA EDUCATION

Organizzare l�informazione del mondo e renderla accessibile

Una missione semplice e ambiziosa: Google Books

di Valentina Piattelli

10 Aprile 2006

Si sta avverando quello che fino ad ora era solo un sogno di ogni topo di biblioteca: scatenare un motore di ricerca fra gli scaffali di una grande biblioteca.

Se si interroga il nuovo motore di ricerca sui libri http://books.google.it, si ottiene la copia della pagina cartacea che contiene le parole cercate, informazioni sul libro, la possibilit� di comprarlo presso le librerie online o addirittura le biblioteche locali pi� vicine che lo possiedono. Se si tratta di un libro coperto da diritto d�autore, vengono mostrate solo alcune pagine, o addirittura solo alcuni stralci; se invece si tratta di un libro non coperto da diritto d�autore (perch� pubblicato prima del 1922 o perch� l�editore ha rinunciato ai diritti), allora � possibile leggere l�intero libro online.

In effetti il �progetto libri� nasce davvero dal sogno di uno dei fondati di Google, coltivato fin dai tempi dell�Universit�. Come ricorda Mary Sue Coleman, preside della University of Michigan: �... uno dei nostri ex studenti, Larry Page, ci disse che gli sarebbe piaciuto digitalizzare la biblioteca dell�universit�, un�istituzione che conta circa 7 milioni di volumi. Poteva sembrare l�asserzione spavalda di un 29enne, se non fosse che Larry si era laureato splendidamente in ingegneria informatica e che si trattava di uno dei fondatori di Google�.

Ma non si tratta solo di una fantasia, � Google stesso che � stato fondato su questo sogno. Infatti nel 1996 Larry Page e Sergey Brin (che faranno nascere Google soltanto due anni dopo) cominciarono a lavorare ad un progetto di ricerca sulle biblioteche virtuali sostenuto dallo Stanford Digital Library Technologies Project. L�idea che ebbero per questo progetto � alla base del funzionamento di Google stesso: �In futuro, quando grandi quantit� di libri saranno digitalizzati, le persone useranno un motore di ricerca all�interno di questi libri. I contenuti saranno indicizzati e lo stesso accadr� per le interconnessioni fra i vari libri. In questo modo sar� possibile determinare la rilevanza e l�utilit� di un libro rilevando il numero e la qualit� delle citazioni che un libro ha ricevuto all�interno degli altri libri�. Com�� noto, questo � esattamente il sistema grazie al quale funziona Google, le cui risposte ad ogni ricerca vengono elencate in base alla rilevanza quantitativa (rating), cio� i collegamenti che ciascun sito ottiene nella rete di tutti i siti.

Le prime ad aderire entusiasticamente al progetto sono state antiche biblioteche come la Bodleian Library di Oxford e case editrici universitarie come quelle di Oxford e Cambridge, ma anche di Chicago, Princeton e altri celebri editori come Blackwell, Houghton Mifflin, Hyperion, McGraw-Hill, Pearson, Penguin, Perseus, Springer, Taylor & Francis, Thomson Delmar e Warner Books. Nel 2004 Google annunci� ufficialmente alla Fiera del Libro di Francoforte il progetto di acquisire in formato digitale i testi dei milioni di libri posseduti dai cinque soci del �progetto libri� - le Universit� di Harvard, Stanford, Oxford, Michigan, e la Biblioteca pubblica di New York � e i testi saranno resi disponibili per la ricerca su Internet.

Ma come verr� realizzato tecnicamente un progetto cos� ambizioso?
I creatori di Google sono sempre stati molto parchi di informazioni sul proprio lavoro e quando � stato chiesto all�ingegnere responsabile del Progetto Libri di Google, Daniel Clancy, come intendesse realizzarlo, questi disse che non poteva far commenti su come era stato deciso di risolvere la questione. Tanta riservatezza non stupisce, dato che devono aver trovato soluzioni nuove per riuscire a scannerizzare milioni di libri in pochi anni. Infatti, se si prende ad esempio un progetto simile, quello dell�Universit� Carnegie Mellon chiamato Million Book Project e che prevede appunto la scannerizzazione di un milione di libri, vediamo che per arrivare ad un milione ci sono voluti 7 anni e 40 centri di scannerizzazione in India e Cina, dove i lavoratori scannerizzano manualmente i libri arrivati via nave da mezzo mondo. Ma Clancy ha detto che faranno diversamente dal Million Book Project e che hanno sviluppato un nuovo ed esclusivo software per l�OCR (Optical-Character Recognition) e che la scannerizzazione dei libri sar� la meno distruttiva mai fatta. Sappiamo inoltre anche che i libri saranno scannerizzati vicino alle 5 universit� e biblioteche che partecipano al progetto, quindi certo non nel Terzo Mondo da lavoratori sottopagati. C�� poi il problema dei testi scritti in caratteri diversi da quelli latini. Per il Million Book Project sono stati sviluppati OCR nuovi per il cinese, per i testi scritti a mano e per l�arabo. Google prevede di scannerizzare libri in centinaia di lingue, ma non si sa ancora niente del software che useranno per il riconoscimento dei caratteri diversi da quelli latini.

Le uniche informazioni fatte trapelare da Google si trovano nella �History of Google Book Search�, un sito con cui Google stesso racconta le proprie gesta. Il �progetto libri� sarebbe cominciato veramente soltanto nel 2002, a partire da una domanda semplice e ambiziosa: quanto tempo occorre per scannerizzare tutti i libri del mondo? Per rispondere a questa domanda, Larry Page avrebbe personalmente scannerizzato un libro di 300 pagine e ci avrebbe messo 40 minuti. Nel 2003 un dipendente di Google sarebbe stato inviato a Phoenix, in Arizona, per comprare ad un mercatino di beneficenza una gran quantit� di libri da utilizzare per fare prove con una nuova tecnica di �scan non distruttivo�: �Dopo innumerevoli prove, il team di Google ha sviluppato un metodo di scan molto pi� delicato di quelli ultra-veloci attualmente usati, con gran gioia del team e dei libri stessi. Nel frattempo gli ingegneri informatici avevano fatti progressi nel risolvere le questioni tecniche pi� spinose che avevano incontrato nello scannerizzare libri con caratteri particolarmente strani e desueti e le altre questioni inaspettate incontrate nelle 430 lingue del progetto�.

Allo stato attuale, la �Google Book Search� � composta di due parti: il Programma Editori e il Programma Biblioteche; con il primo gli editori autorizzano Google a scannerizzare i propri libri, resi disponibili per la ricerca, ma gli editori decidono la quantit� di testo che pu� essere letto in rete; con il secondo i libri posseduti da svariati grandi biblioteche nel mondo vengono scannerizzati e resi disponibili per la ricerca. Se il primo non presenta problemi di copyright, il secondo permette di cercare con Google all�interno di libri ancora coperti da diritto d�autore, anche se vengono rese visibili soltanto alcune frasi prima e dopo il testo cercato. Nonostante questo accorgimento, nel 2005 la Societ� degli Editori Americani (AAP) ha denunciato Google per violazione del diritto d�autore. La causa � ancora in corso, ma nel diritto statunitense c�� stato di recente un caso simile, Kelly contro Arriba Software - 2003, che sembrerebbe dar ragione a Google. Un motore di ricerca di immagini, Arriba, in risposta alla ricerca fatta dagli utenti mostrava minuscole immagini (thumbnails) di anteprima delle foto tratte da siti web. Un fotografo lo ha denunciato dicendo che le sue foto erano coperte da diritto d�autore e che non potevano essere utilizzate in alcun modo da Arriba. Il tribunale ha ritenuto che il motore di ricerca portasse clienti al sito di Kelly, piuttosto che glieli sottraesse, e che la scarsa risoluzione delle anteprime mostrate dal motore di ricerca ne impedissero qualsiasi utilizzo anche se ingrandite. Comunque � la dottrina del statunitense �fair use� - derivata direttamente dalla Costituzione americana - a permettere la citazione non autorizzata, purch� circoscritta e contenente tutti i riferimenti al lavoro originale. L�eventuale vittoria di Google negli Usa per� non lo tutela da future cause legali nei vari paesi che con diversi sistemi legali proteggono il diritto d�autore.

Nel frattempo, una delle maggiori sostenitrici del progetto, la gi� citata preside della University of Michigan, Mary Sue Coleman, ha tenuto un discorso appassionato alla Societ� degli Editori Americani difendendo non solo la legalit� del progetto, ma la sua importanza per il progresso dell�umanit�: �Noi riteniamo che sia un�iniziativa legale, etica e nobile, che trasformer� la nostra societ�. Legale perch� riteniamo che le leggi sul diritto di autore ci consentano il fair use di milioni di libri. Etica perch� la conservazione e la protezione del sapere sono di importanza critica per il progresso dell�umanit�. E nobile perch� quest�impresa � giusta per il nostro tempo, giusta per il futuro, giusta per il mondo dell�editoria, giusta per tutti noi�. Secondo la preside, l�Universit� del Michigan aveva il dovere di partecipare al progetto poich� rientra pienamente fra i suoi scopi: la conservazione dei libri, l�accesso sempre pi� ampio all�informazione e la diffusione della conoscenza. In molte situazioni e contesti (es. guerre civili o disastri naturali), i libri digitali possono essere gli unici libri a sopravvivere, e anche dove vi sia massima cura nel preservare i libri, una buona parte va comunque persa per il normale deterioramento progressivo.

Ovviamente la preside ha voluto rassicurare gli editori sulla tutela del diritto d�autore da parte di Google, sottolineando come sar� permessa la lettura solo dei libri ormai non pi� coperti da copyright: �Il fatto che la nostra biblioteca possegga una copia digitale di un testo, non ci autorizza certo a ignorare la legge e distribuirlo in modo non autorizzato. Credetemi, gli studenti non leggeranno copie digitali di Harry Potter nei dormitori. Salvaguarderemo l�integrit� di questo archivio con la stessa diligenza che accordiamo ai nostri materiali pi� preziosi, come i registri medici, i dati del Dipartimento della Difesa, e i virus altamente infettivi usati per la ricerca�.
Inutile dire che l'esito della causa legale in corso negli Stati Uniti avr� conseguenze in tutto il mondo soprattutto riguardo alla questione cruciale della tutela del diritto d'autore contrapposta alla libera diffusione della conoscenza, in rete e non solo.

Agenzia Nazionale per lo Sviluppo dell'Autonomia Scolastica