Il Web Archiving. Conservazione e uso di una nuova fonte

 

Il web, come nota Julien Masanés[1], è stato a lungo considerato un self preserving medium, con ottimismo evidentemente eccessivo. La rete è infatti effimera ed estremamente variabile: la vita media di un url è molto breve, la persistenza dell’informazione bassa e la natura complessa delle pagine, che contengono formati diversi e link, rende altrettanto complessa la loro conservazione.

Negli ultimi vent’anni si è sviluppato il web archiving, cioè la cattura e conservazione sistematica di porzioni del web a cura di istituzioni della memoria, come archivi e biblioteche nazionali, istituzioni universitarie, fondazioni. La nuova disciplina è molto vivace ma solo negli ultimi anni ha visto un primo sviluppo nell’ambito italiano[2].

L’archivio non è solo il luogo per ritrovare riscontri puntuali, ma assume valore in quanto insieme organico, del quale vanno analizzati anche la struttura, le relazioni, le modalità di formazione. Per un uso ottimale della fonte occorre dunque una buona consapevolezza di tali aspetti, assieme a opportuni strumenti di corredo, che nel nostro caso rappresentano un percorso di studi appena avviato[3].

In questo contributo offriamo una panoramica dei principali aspetti del web archiving, e proponiamo alcune riflessioni sull’uso del web, in particolare di quello archiviato, come fonte[4].

 

Nascita e sviluppo del web archiving

La nascita del web archiving si data al 1996, con la fondazione di Internet Archive, per iniziativa di Bruce Gilliat e Brewster Khale, e di PANDORA, promossa da National Libraries of Australia. Il primo è una fondazione privata, con lo scopo di creare una digital library di siti internet e di altri prodotti culturali in formato digitale, e di renderli liberamente consultabili[5]. Il servizio di web archiving è svolto in particolare dalla WayBack Machine[6].

PANDORA è invece il più antico tra i progetti di web archiving promossi da un’istituzione pubblica, modello tuttora prevalente[7]. Negli anni successivi si sviluppano altre iniziative nazionali e collaborazioni internazionali. Tra le aree più attive il Nord Europa, con i progetti svedese (Culturawr3 1996), islandese (1997) e poi con il Nordic Web Archive (2000, biblioteche nazionali scandinave). Nel Regno Unito si sviluppano i progetti dei National Archives (per i siti governativi) e della British Library. Il progetto americano della Library of Congress prende avvio nel 2000, quello della Bibliotèque nationale de France due anni dopo. Nel 2003 viene fondato l’Internet Preservation Consortium (IIPC)[8], che mette in rete alcuni dei principali soggetti nazionali e svolge attività di promozione e sviluppo di standard e strumenti.

La lista delle iniziative di web archiving è in crescita costante. Una ricognizione si deve al team di Arquivo.pt, l’archivio web del Portogallo, che ha condotto due successivi censimenti[9] e ha reso disponibili i risultati nella pagina Wikipedia List of Web Archiving Initiatives[10]. L’indagine ha rilevato un incremento costante delle iniziative (42 nel 2010, 68 nel 2014) e dei paesi che le ospitano (26 nel 2010, 33 nel 2014). Il personale dedicato, invece, è decisamente esiguo: nel 2014 il web archiving impiegava, in tutto il mondo, solo 206 persone (108 full time e 197 part-time), con staff mediamente molto ridotti (circa 3,5 full time e 5 part-time).

Il web archiving è gestito in prevalenza da biblioteche – nazionali, regionali, universitarie – che estendono in ambito web la tradizionale attività legata al deposito legale delle opere pubblicate nel paese, dapprima a stampa e poi anche in formato digitale. Più ridotto il ruolo delle istituzioni archivistiche: tra i membri di IIPC, l’unico progetto legato a un archivio è lo UK Government Web Archive, creato dagli archivi nazionali britannici per la conservazione dei siti governativi.

Nel web archiving prevale dunque il punto di vista dei librarians, molto attenti al rapporto con l’utente e agli aspetti della comunicazione e dell’usabilità, mentre sono meno esplorati gli aspetti legati al mondo archivistico: descrizione, gerarchia, aggregazioni, definizione delle unità.

In questo senso il web archiving potrebbe rappresentare un fecondo terreno di scambio tra i due mondi, che il digitale ha avvicinato e ibridato e che, auspicabilmente, si troveranno sempre più a cooperare.

Le iniziative di web archiving sono state affiancate dallo sviluppo di una letteratura specifica e da incontri e workshop per la riflessione teorica. La prima monografia sul tema è Web Archiving di Julien Masanès (2006)[11]. Due anni dopo è stato pubblicato il primo manuale reperibile online, il capitolo del DCC Digital Curation Manual dedicato al web archiving[12], mentre al 2013 si data Web-Archiving: DPC Technology Watch Report di M. Pennock, promossa dalla Digital Preservation Coalition, che aggiorna la letteratura sul tema.

Tra gli incontri internazionali si segnala l’International Web Archiving Workshop (IWAW), che si è tenuto dal 2001 al 2010[13]. Più recente il Web Archiving and Digital Libraries (WADL), un appuntamento annuale organizzato dalla Joint Conference on Digital Library (JCDL)[14]. IIPC promuove la Web Archiving Week: l’edizione 2017 si è tenuta a Londra, con la collaborazione di National Archives e British Library[15].

È aumentata inoltre la consapevolezza, anche presso un pubblico di non specialisti, della rilevanza del web come fonte, sia storica che legale, e della sua estrema deperibilità. Sulla rivista The Atlantic[16], ad esempio, è stata segnalata la vicenda della web-serie The Crossing, realizzata nel 2007 dalla testa statunitense The Rocking a supporto di un’omonima inchiesta giornalistica. Il prodotto, innovativo per l’epoca, fu molto apprezzato e l’autore fu candidato a un premio Pulitzer. Il sito scomparve però di lì a pochi mesi, in seguito chiusura della testata.

Negli ultimi anni si è assistito a un crescente rilievo dei social network, influenti anche per la vita politica, e al loro impiego come oggetto di ricerca. Nel 2015 il Web Archives for Historical Research Group ha realizzato un monitoraggio dei tweet legati alle elezioni federali canadesi[17]. Tra la fine del 2016 e l’inizio del 2017, in seguito al rinnovo della presidenza degli Stati Uniti, la Casa Bianca ha comunicato al pubblico le modalità di versamento e conservazione dei profili social di Barack Obama, suscitando l’interesse della stampa[18]. Nel giugno 2017 un membro del Congresso ha proposto il Covfefe Act (Communications Over Various Feeds Electronically for Engagement Act), per dichiarare presidential record anche contenuti social[19]. L’acronimo deriva da un discusso tweet di Donald Trump del 31 maggio 2017, “Despite the constant negative press covfefe” (scil. “coverage”), contenente un evidente refuso e diventato fonte di dibattiti e meme.

Va rilevata la differenza tra le varie tipologie di sito web, aspetto che deve ancora trovare una compiuta definizione. Il sito web di un’istituzione o di una carica pubblica si trova a rivestire – a differenza delle testate online o dei blog – un peculiare valore legale e di prova, regolato dalla specifica normativa nazionale. La presenza di un contenuto, la sua eventuale rimozione, i metadati temporali, sono elementi che devono essere accuratamente valutati e regolati: non solo per deontologia e correttezza dell’informazione, ma anche per rispetto della normativa.

Potremmo parlare dunque, per proporre una prima definizione, di “siti-libro” e “siti-documento”, con specifiche caratteristiche e modalità di versamento e conservazione. Anzi, “siti-collana” e “siti-fondo”, data la loro complessità.

 

Come funziona un’iniziativa di web archiving

Vediamo dunque come progettare e gestire un’iniziativa di web archiving e quali aspetti vanno considerati. Possiamo esaminarli in una sequenza logica:

– aspetti legali

– definizione dell’utenza

policy di selezione

– raccolta e miglioramento della qualità dei dati

– descrizione e metadatazione

– conservazione a lungo termine

– servizi per l’accesso e la ricerca

L’aspetto legale è il primo da affrontare: occorre valutare quali risorse si abbia il diritto di raccogliere, come gestire i rapporti con i detentori dei contenuti e a quali condizioni consentire l’accesso al materiale, in modo da bilanciare i diritti del ricercatore e quelli dell’autore. Nella fase di progettazione sarebbe utile anche avere un quadro dei possibili utenti, soprattutto per raccolte di tipo tematico, e dei servizi e strumenti da mettere a loro disposizione. Le raccolte tematiche sono una delle due più diffuse policy di selezione: l’altra è la raccolta di dominio, più ampia e relativa a tutte le risorse relative al paese. A queste valutazioni, di tipo organizzativo, si accompagnano quelle di tipo tecnologico: scegliere la tecnica di raccolta e prevedere workflow per migliorare la qualità dei dati, che normalmente presentano ridondanze e incoerenze temporali. Un archivio non è tale senza una descrizione: nell’ambito digitale vanno previsti appositi metadati, che nel caso del web archiving sono ancora a un livello di prima definizione.

I vari elementi sono ovviamente correlati: la conservazione, in particolare, richiede una pianificazione precoce, fin dal momento della creazione.

Va poi tenuto presente il punto di vista degli utenti, con servizi che consentano ricerche efficaci per diversi scopi (scientifici o legali) e con diverse granularità. Tratteremo questo aspetto per ultimo, poiché permette di inserire alcune osservazioni sull’uso del web archiviato come fonte.

 

Gli aspetti legali

La valutazione degli aspetti legali dipende dal quadro normativo nazionale, generalmente relativo al deposito legale della produzione editoriale presso le biblioteche nazionali[20]. Nel Regno Unito, ad esempio, i servizi di web archiving si conformano alla normativa emanata nel 2013, che amplia il Legal Deposit Libraries Act del 2003[21], relativo alle pubblicazioni a stampa[22]. La Francia fa riferimento al Code du patrimoine[23], che estende il diritto di deposito al web e specifica le possibili strategie di selezione.

In Italia il quadro legislativo è delineato ancora parzialmente. Per il nostro paese la principale fonte di riferimento è costituita da due norme:

– la Legge 15 aprile 2004, n. 106, “Norme relative al deposito legale dei documenti di interesse culturale destinati all’uso pubblico”

– il successivo decreto attuativo, DPR 3 maggio 2006, n. 252, “Regolamento recante norme in materia di deposito legale dei documenti di interesse culturale destinati all’uso pubblico”.

La legge del 2004 ha inserito, tra i contenuti soggetti a deposito obbligatorio, i “documenti diffusi tramite rete informatica”[24], lasciando gli aspetti di dettaglio al successivo Regolamento emanato nel 2006. Questo ha affrontato la materia nei quattro articoli del Capo VII[25], ma con un dettato ancora lacunoso, che rimanda a un ulteriore regolamento la definizione delle modalità di deposito dei documenti diffusi tramite rete informatica[26]. Al momento, però, è intervenuto in materia solo il DM 28 dicembre 2007, che individua a livello regionale e provinciale gli istituti depositari dei documenti della produzione editoriale, ma non rileva per gli aspetti in esame.

È inoltre opportuno ricordare, anche se non riguardante il web archiving in modo specifico, il regolamento eIDAS[27], che istituisce un quadro giuridico europeo per i certificati di autenticazione dei siti web e per i relativi servizi e pone dunque il problema della loro conservazione, da punto di vista tecnologico e legale.

 

La valutazione dell’utenza

Un’indagine sui futuri utenti può migliore la progettazione dei servizi e orientare le policy di selezione. Si tratta di una prassi poco frequente, ma la cui utilità è stata rilevata in alcune iniziative nate quando la disciplina era più consolidata[28]. Questo tipo di indagini, che tratteremo più diffusamente nel paragrafo dedicato agli strumenti di ricerca, possono servirsi di studi su campioni di utenti in laboratorio o di questionari online, sfruttando dunque il web stesso. Va segnalata, come esempio particolarmente completo e dettagliato, la ricognizione svolta dal progetto BlogForever, che è stata condotta per tracciare un profilo dei produttori di blog e, su questa base, progettare strumenti specifici per la cattura e conservazione di questo particolare tipo di sito web[29].

 

Le policy di selezione

Come accennato sopra, si possono distinguere due metodi di selezione: raccolte di dominio e raccolte selettive, ognuno dei quali presenta vantaggi e criticità. Nelle raccolte di dominio il criterio è geografico: sono raccolti tutti i siti afferenti a un determinato paese, per nome di dominio, localizzazione dell’host o connessione tematica. In un esempio ipotetico: tutti i siti con dominio .it, tutti siti con dominio differente ma con host in Italia, tutti i siti localizzati in altri paesi ma relativi all’emigrazione italiana. Nelle raccolte selettive il taglio è invece monografico: sono raccolte tutte le risorse relative a un certo avvenimento o argomento, come gli attacchi terroristici a Londra del 2005[30] o il cambiamento climatico[31].

Le raccolte di dominio possono essere molto ampie e onnicomprensive, ma rischiano di essere incomplete, contenendo ad esempio link ciechi a risorse esterne che non sono state acquisite. Quelle tematiche, più ridotte e in sé conchiuse, garantiscono un buon collecting remit, ma possono essere influenzate da criteri soggettivi di raccolta: è dunque consigliabile affidare la selezione a un gruppo di lavoro, con confronti e supervisione[32].

 

Le tecniche di raccolta

Le principali tecniche per la raccolta del web (web harvesting) sono attualmente quattro: client-side archiving, transactional archiving, server-side archiving, uso di feed RSS.

Il primo, cioè l’archiviazione lato-client[33], è quello più comunemente usato, in particolare perché scalabile, efficiente in termini di costi e perché richiede un’azione minima da parte dei detentori dei contenuti. Questa soluzione si serve di un web crawler, cioè di un bot che periodicamente scansisce il web per indicizzarlo, mapparlo o raccogliere contenuti. Il crawler si comporta come un client e usa il protocollo http per richiedere e raccogliere i contenuti direttamente dal server. Questa tecnologia è stata sviluppata originariamente per l’indicizzazione da parte dei motori di ricerca ed è stata poi adattata per il web archiving. I due principali web crawler sono HTTrack ed Heritrix, entrambi open source. Il secondo, in particolare, è stato sviluppato da Internet Archive a partire dal 2003 ed è attualmente il più diffuso[34].

Il transactional archiving e il server-side archiving sono indicati per i contenuti che andrebbero persi con il crawling, per quanto frequente Entrambi i metodi richiedono la collaborazione del detentore del sito.

Il transactional archiving[35] intercetta e cattura le richieste e le risposte tra server e client, mantenendo traccia dei contenuti effettivamente visualizzati su un sito in un dato momento. È dunque conveniente per siti aggiornati con particolare rapidità e frequenza e per i contenuti generati a richiesta dell’utente, la cui evidenza può presentare anche risvolti legali, come nel caso delle pubbliche amministrazioni (catasto, albo pretorio) o delle società commerciali (ordini).

Il server-side archiving[36] cattura direttamente dal server le varie componenti dell’informazione, senza usare l’interfaccia http, ed è indicato per i contenuti ai quali è possibile accedere solo per mezzo di interazioni complesse (come le richieste tramite la compilazione di un modulo), che rientrano nel cosiddetto hidden web, cioè nella parte di web che non viene indicizzata dai motori di ricerca.

Più recentemente, per individuare e catturare in modo mirato gli aggiornamenti dei siti web, è stato sperimentato l’uso dei feed RSS[37], cioè dei file di testo contenenti le informazioni per reperire i nuovi contenuti pubblicati, utilizzati come servizio per gli utenti. Il crawler, in questo caso, visita prima i feed RSS, individua i nuovi contenuti e costruisce una lista di interesse degli url, che sarà usata per un nuovo crawl mirato[38]. Il metodo è però poco utilizzato e non esente da critiche, la principale delle quali rileva che i feed sono una tecnologia già obsoleta e in via di sostituzione da parte dei principali siti di informazione[39].

La raccolta dei contenuti (harvesting) deve essere accompagnata da processi per migliorare la qualità dei dati, in particolare per ridurre le ridondanze e per assicurare la coerenza temporale.

Il risultato “grezzo” di una cattura contiene normalmente numerosi duplicati[40], definiti “orizzontali” e ”verticali”. Il primo caso si verifica se uno stesso sito è associato a più url (mirroring) o, al suo interno, url diversi sono riferiti a uno stesso contenuto (uso di url alias). Il secondo dipende invece dall’incremento delle raccolte, nelle quali possono trovarsi duplicati esatti (quando crawl successivi raccolgono lo stesso contenuto) o parziali (quando il contenuto subisce cambiamenti non significativi). La duplicazione dei contenuti rallenta l’acquisizione, consuma spazio superfluo di archiviazione e peggiora la precisione della ricerca. I metodi di de-duplicazione sperimentati finora non hanno dato però risultati ottimali, non riuscendo ad eliminare tutte le tipologie di duplicato (orizzontale/verticale, esatto/parziale)[41]. L’identificazione dei duplicati parziali presenta inoltre elevati rischi di soggettività. In alcuni casi, d’altra parte, potrebbe essere preferibile mantenere la completezza dell’informazione: ad esempio per la rilevanza legale delle modifiche e del momento in cui sono avvenute. L’attività di de-duplicazione può dunque diventare essa stessa un’informazione, che sarà importante documentare.

L’altro elemento da tenere in considerazione per il raffinamento dei dati è la coerenza temporale, definibile come la capacità di un insieme di pagine web archiviate di restituire quanto era effettivamente esistente e fruibile in un dato momento: di fornire, cioè, un’istantanea fedele. Il crawling, specie per siti di grandi dimensioni, può però richiedere un lungo arco di tempo, nel quale è possibile che alcuni contenuti si modifichino, producendo incoerenze nella risorsa archiviata. Il problema è particolarmente rilevante nel sedimento di una collezione, oltre che nel singolo sito. Tra le soluzioni proposte si segnala il modello SOLAR (Scheduling of Downloads for Archiving of Web Sites)[42] che utilizza intervalli di visita e ri-visita delle pagine per individuare i disallineamenti e raffinare il risultato, per quanto possibile: sono infatti previste anche hopeless pages, cioè pagine troppo variabili per essere inserite in un insieme coerente.

 

Descrizione e metadatati di descrizione

L’evoluzione del web, e in particolare del web culturale, richiede standard e riflessioni metodologiche sull’uso dei metadati, indispensabili per favorire la condivisione delle risorse e la loro conservazione[43]. Nel caso del web archiving i metadati costituiscono un settore di studi ancora in via di definizione: solo nel 2018 sono state infatti pubblicate le prime linee guida per i metadati di descrizione[44], a cura del Web Archiving Metadata Working Group (WAM)[45].

Il WAM è partito da una ricognizione delle prassi, dei web archiving tools e della letteratura relativa ai metadati e ai bisogni degli utenti, rilevando l’assenza di strumenti comuni e il ricorso a metodi ibridi, che incrociano standard archivistici e biblioteconomici. Le recenti linee guida propongono un Data Dictionary di 14 elementi, modellato su quello di Dublin Core, uno degli standard più diffusi per la descrizione e condivisione di risorse digitali[46]: 8 elementi corrispondono esattamente a quelli del dizionario di DC (Contributor, Creator, Date, Description, Language, Relation, Subject, Title), 6 sono stati aggiunti o rielaborati, per venire incontro alle specificità degli archivi web (Collector, Extent, Genre/Form, Rights, Source of Description, URL).

L’attività di descrizione è complessa e molto dispendiosa in termini di tempo: è dunque indispensabile un set di metadati essenziali, che la renda economicamente e organizzativamente sostenibile, ma sia aperto anche a estensioni e affinamenti del dettaglio. In questo caso può rivelarsi significativo l’apporto della disciplina archivistica, che riserva un’attenzione particolare alla contestualizzazione della risorsa (descrizione del soggetto produttore e della storia archivistica), alle relazioni e alla documentazione dei processi di acquisizione e conservazione.

Va chiarito, inoltre, che la questione di fondo non è solo la definizione di set di metadati, ma piuttosto di modelli di rappresentazione. È dunque necessario identificare in modo non ambiguo gli oggetti coinvolti nella descrizione – cioè il sito web corrente, il sito archiviato e la raccolta – e le caratteristiche della loro struttura. Anche per questo aspetto la metodologia archivistica può venire in aiuto[47].

Prima di passare a un esame dettagliato è dunque opportuno richiamare il concetto di fondo archivistico, per il quale possiamo riportare la definizione di Paola Carucci[48]:

La parola fondo viene usata solo nell’ambito degli archivi storici. Indica un complesso organico di documenti riconducibili a un determinato soggetto produttore o che abbia, nel caso di provenienze diverse, un carattere di unitarietà. Pertanto rientrano nel concetto di fondo:

  1. a) complesso organico di documenti, senza distinzione di forma o di supporto, prodotti o acquisiti da un ente, da una famiglia o da una persona nello svolgimento della propria attività istituzionale, gestionale, professionale o personale. In questa accezione coincide con l’archivio in senso proprio;
  2. b) complesso organico di documenti […] confluiti […] in un complesso documentario […];
  3. c) complesso di documenti raccolti sulla base di una comune caratteristica (tipologia di documenti, materia, riferimento a un periodo o a un evento, presenza di autografi o altro) che si configura come raccolta, collezione o miscellanea.

Il sito web corrente, in quanto tale, non è un fondo: non rientra infatti nell’ambito degli archivi storici. Come il fondo, però, presenta le caratteristiche elencate nel punto a) ed è caratterizzato da una struttura ad albero molto ben identificabile, i cui livelli potrebbero essere definiti con la terminologia dello standard ISAD[49]. Le sezioni del sito possono essere assimilate a serie e, come queste, possono aprirsi e chiudersi in conseguenza dell’attività del produttore. L’unità archivistica è costituita dal singolo contenuto: una pagina del sito, un post all’interno di un blog, una notizia in un quotidiano. Tale unità può essere assimilata a un fascicolo: contiene infatti documenti diversi (testo, immagini, altri media), non solo creati ma anche ricevuti (i commenti degli utenti, che sedimentano in successione temporale.

Il sito web archiviato è invece assimilabile a un fondo, poiché la cattura fissa e “storicizza” la risorsa. Anch’esso presenta una struttura gerarchica, ma di diverso tipo e che non va confusa con quella del sito corrente: qui ne proponiamo un modello provvisorio. Il sito archiviato è una raccolta di successive catture, sedimentate nel tempo. Ogni cattura fissa il sito che era corrente in quel momento, con la sua struttura e le sue relazioni, creandone una copia. Esaminando la successione delle catture è possibile individuare cesure: un sito, generalmente, vede durante il proprio ciclo di vita operazioni di restyling, con un rinnovamento della grafica e dell’organizzazione della struttura e dei contenuti. Queste aggregazioni potrebbero essere accostate a serie archivistiche. In alcuni casi l’aggiornamento del sito prevede anche una migrazione su una diversa piattaforma, con modifica dell’indirizzo web e in particolare del dominio. Un ipotetico “mioblog.blogspot.it”, ad esempio, potrebbe migrare su una piattaforma più affidabile trasformandosi in “mioblog.wordpress.com” e in seguito acquistare un indirizzo a pagamento “mioblog.it”. L’autore potrebbe scegliere tra due diverse strategie di gestione dei contenuti: trasferirli sul nuovo sito, chiudendo il precedente, oppure lasciarli sul vecchio sito e ripartire da capo sul nuovo, eventualmente segnalando il collegamento nella sezione di presentazione. In entrambi i casi le iniziative di web archiving considerano generalmente i tre siti come oggetti distinti: è il caso di Internet Archive, che raccoglie e ricerca i siti in base all’ url. Concettualmente, però, questi potrebbero essere considerati come subfondi di un unico fondo (o fondi di un fondo complesso), che dovrebbe dunque essere coerentemente ricostituito nell’archivio web, collegando le catture delle diverse url.

La raccolta tematica è riconducibile alla tipologia c) di fondo archivistico definita da Carucci (raccolta, collezione o miscellanea) e può presentare o meno una struttura a livelli: tutti i siti selezionati perché attinenti a uno stesso evento, ad esempio, possono essere ulteriormente raggruppati per tipologie (siti istituzionali, siti di organi di informazione, siti personali).

Un punto di vista archivistico può dunque definire più chiaramente le risorse, mettere a fuoco gli aspetti strutturali e guidare nella scelta della granularità di descrizione, contribuendo a qualificare la fonte e a garantire l’autenticità dell’oggetto conservato.

 

Conservazione e archiviabilità

Conservare a lungo termine il web è un obiettivo molto ambizioso. Il “lungo termine” è definito dal modello OAIS[50] come un arco di tempo abbastanza ampio perché l’evoluzione tecnologica possa determinare un impatto sulle risorse digitali, oltre che sulla comunità di riferimento. Per un oggetto mutevole e complesso come un sito il compito è dunque impegnativo.

Due i principali problemi di conservazione[51]. Il primo è rappresentato dalla molteplicità di formati presenti sulle pagine, inevitabilmente soggetti a obsolescenza[52]: anche se il formato html risulta ben conservabile esistono infatti tag proprietari e prassi di ottimizzazione per i browser, che rendono i siti dipendenti dalla piattaforma. Il problema è ancora più evidente per i vari componenti digitali presenti nella pagina, come testi, immagini e altri media. Le difficoltà di conservazione aumentano con l’età del sito, sia perché i formati diventano più vulnerabili sia perché i siti più antichi sono stati creati in un contesto meno regolamentato da standard e buone pratiche.

Il secondo è la conservazione delle relazioni. Il web è basato sulla navigazione ipertestuale, attraverso link che collegano reciprocamente contenuti, pagine e siti. Nel web archiviato è frequente trovare link rotti, sia a risorse esterne sia all’interno del sito, in seguito a migrazioni o modifiche della struttura o dei nomi dei file. Tale problema è particolarmente evidente nelle raccolte di dominio.

La conservazione digitale è stata definita, nell’ambito del progetto InterPARES, come la capacità di riprodurre una copia autentica dell’oggetto digitale originale Nel contesto del web archiving è estremamente complesso definire quale sia la versione autentica di un sito archiviato, che si inserisce tra i documenti digitali di tipo esperienziale, interattivo e dinamico[53]. Il web archiviato è infatti una rappresentazione di quello corrente e la crescente complessità del web rende illusoria la possibilità di creare una versione archiviata esattamente identica a quella vivente; a ciò si aggiungono poi le già citate criticità relative alla coerenza temporale. È dunque necessario lavorare alla definizione delle proprietà significative di un sito web[54], in vista del loro mantenimento.

Per quanto riguarda le tecniche di conservazione, le soluzioni più diffuse sono la migrazione e l’emulazione[55].

La migrazione, attualmente considerata la più sostenibile, è un processo di conversione dei contenuti digitali dal formato originale in un nuovo formato meglio conservabile e leggibile. L’emulazione è invece la creazione di una versione virtuale dell’ambiente originale nel quale i file erano fruiti. Per accedere all’ambiente virtuale è usata un’applicazione di emulazione, con hardware e software moderni. L’emulazione permette di mantenere il contenuto e i formati originali e dunque un’esperienza d’uso più fedele. Non tutti gli ambienti, però, possono essere emulati con lo stesso livello di accuratezza e i sistemi stessi di emulazione sono soggetti ai meccanismi di obsolescenza.

Entrambe le soluzioni richiedono un adeguato piano di conservazione, che deve accompagnare la raccolta fin dalle fasi costitutive. Il principale formato di conservazione per il web è WARC, che permette di concatenare in un unico file gli oggetti digitali costitutivi della pagina assieme ai relativi metadati[56].

In tema di conservazione precoce è bene richiamare l’utilità delle buone pratiche di archiviabilità (archivability). Questa può essere definita come la capacità di un sito web di permettere il trasferimento dei propri contenuti a fine di conservazione e di garantirne la consultabilità e restituzione ottimale nel lungo periodo. Per valutare l’archiviabilità dei siti web sono stati elaborati il metodo CLEAR+ (Credible Live Evaluation of Archive Readiness)[57] e lo strumento online archiveready.com. Sulla stessa base sono state pubblicate linee guida destinate ai produttori, per la creazione di siti archiviabili. La redazione delle linee guida vede molto attivi gli istituti di area nordamericana e anglosassone, come Stanford, Library of Congress e UK National Archives[58].

 

Gli strumenti per l’accesso e la ricerca e l’uso degli archivi web come fonte

L’attenzione alle esigenze degli utenti sta assumendo una rilevanza crescente nella progettazione delle raccolte. L’IIPC Access Working Group ha definito una casistica di possibili ricerche e dei requisiti tecnologici necessari per soddisfarle[59], mentre studi successivi hanno esaminato le modalità di ricerca di utenti reali e censito le funzionalità effettivamente supportate da varie collezioni[60].

Sono state identificate varie categorie di ricercatori: oltre agli storici anche sociologi, linguisti, giornalisti, professionisti, pubblico comune. Lo studio del comportamento degli utenti ha individuato due approcci: “navigazionale” (la ricerca di una determinata pagina o sito) e “informazionale” (la ricerca di informazioni consultando più risorse)[61], permettendo di tracciare una tassonomia delle ricerche e degli strumenti necessari.

Ad un primo livello possiamo inserire l’individuazione di riscontri puntuali, come la presenza, la modifica o l’esistenza di copie di una risorsa. Altre ricerche prevedono invece la selezione e il confronto diacronico, per ricostruire la successione degli avvenimenti[62]. Per tali scopi possono essere sufficienti le funzionalità più elementari e più largamente supportate dalle raccolte, cioè la ricerca per url e quella full text, che permettono di identificare singoli contenuti ed esplorarli, gerarchicamente o per parole chiave. Per raffinare i risultati è necessario poter usare operatori booleiani, filtrare i contenuti per data[63], dominio o tipo di media, identificare e confrontare le copie o poter rilevare la modifica dei contenuti o la frequenza del loro aggiornamento. Alcune iniziative, come Internet Archive, permettono inoltre agli utenti di catturare contenuti non presenti nella raccolta, per ottenere citazioni affidabili e durevoli. Questo strumento è usato spesso anche per segnalare e smentire informazioni provenienti da siti poco affidabili (debunking), poiché permette di renderne noti i contenuti senza generare traffico in loro favore.

Indagini di più larga scala richiedono funzionalità di data mining o l’applicazione di algoritmi, per lo studio di fenomeni sociali o linguistici, come la percezione di particolari avvenimenti da parte della comunità web, il comportamento dei consumatori, l’andamento della web reputation, lo sviluppo di neologismi[64]. È richiesta, in questo caso, l’estrazione di set di dati interoperabili: questa funzionalità, ancora poco supportata, richiede una particolare attenzione in fase di progettazione della raccolta e dei metadati.[65].

Le ricerche possono focalizzarsi, oltre che sui contenuti, sull’aspetto tecnologico: per studiare l’evoluzione del web, dei suoi strumenti o del suo design[66], per la ricostruzione di siti perduti[67].

La ricognizione condotta da Niu nel 2012 rilevava l’assenza, nel campione esaminato, delle funzionalità di ricerca più avanzate, ma anche un costante miglioramento degli strumenti, assumendo una prospettiva ottimistica.

Nella progettazione degli strumenti per la ricerca va tenuta presente anche l’usabilità. Le interfacce dovrebbero essere chiare, intuitive e facilmente accessibili da pare di ogni tipologia di utenti[68]. È utile inoltre poter salvare agevolmente i relativi risultati, ad esempio disponendo di un proprio profilo utente nel quale conservarli e organizzarli in cartelle. L’attenzione ai feedback da parte delle diverse tipologie di ricercatori è fondamentale per migliorare le possibilità di ricerca e per sfruttare pienamente le possibilità offerte dal patrimonio conservato, come del resto dovrebbe avvenire anche per tutte le tipologie di archivio e raccolta, digitali e tradizionali.

 

L’uso del web archiviato dovrà comunque tenere conto dell’inevitabile incompletezza della fonte. Gli storici del futuro, come ha notato un recente articolo, “probabilmente non capiranno il nostro internet, e va bene così”[69]. Il volume, la ricchezza e la complessità delle informazioni in rete, oltre alla loro mutevolezza, rendono difficile la sua conservazione e la possibilità, in futuro, di accedere direttamente a tutti gli aspetti del suo ciclo di vita. Come, del resto, avviene per ogni fonte storica, non solo scritta.

La perdita di informazione fa dunque parte delle regole del gioco, così come l’affinamento delle tecnologie e dei metodi per prevederla, minimizzarla, tenerne conto nella formulazione di ipotesi. In un’ottica collaborativa.

 

*Data di ultima visualizzazione degli url: 22/12/2018. Nel caso di url inattivi è stata fornita la cattura da WayBack Machine

** Il saggio è stato sottoposto alla procedura di doppia revisione da parte di esperti esterni alla rivista (blind referees).

 

 

 

[1] J. Masanés, Web Archiving, Berlin, Springer, 2006, in particolare p. 7.

[2] La letteratura specifica è infatti molto recente: A. Becherucci, F. Capetta (a cura di), The Net. La rete come fonte e strumento di accesso alle fonti, Roma 2017 e C. Landino. P.A. Marzotti, Memorie dinamiche. La conservazione dei database e il web archiving, Roma 2018. Al tema del web archiving è stata dedicata l’edizione del 2015 del workshop annuale Il documento elettronico, con il titolo Web archiving. La rete come universitas rerum: per gli atti della giornata, http://www.documento-elettronico.it/workshop/workshop-2015/atti-della-giornata; per una sintesi, G. Bergamin, A. Cerchi, M.A. Panzanelli Fratoni, Archiviare la rete: strumenti e servizi. Osservazioni a margine del 6o Workshop sul documento elettronico, in Digitalia, Vol. 2016, http://digitalia.sbn.it/article/view/1627. Il nostro paese non ha ancora costituito un’iniziativa nazionale di web archiving, ma ospita gli Archivi web dell’Unione Europea, https://www.eui.eu/Research/HistoricalArchivesOfEU/AbouttheHistoricalArchives. Per una descrizione dell’iniziativa: M. Rulent, L’archiviazione web degli Archivi storici dell’Unione Europea, in A. Becherucci, F. Capetta 2016 cit.

[3] Sull’uso degli archivi e sull’importanza di inventari organici cfr. P. D’Angiolini, C. Pavone, Gli archivi, in Enciclopedia Einaudi, vol. 5, I documenti, pp. 1659-1691, in particolare pp. 1675-76.

[4] Il presente contributo è tratto dalla tesi di Specializzazione in scienze archivistiche e librarie discussa presso l’Università La Sapienza di Roma: L. Bracciotti, Il web archiving. Conservare e interrogare la rete, a.a. 2017/2018, relatore prof. Maria Guercio, che ringrazio per i preziosi suggerimenti

[5] Per una panoramica su Internet Archive si può seguire la TED Conversation tenuta da Khale nel dicembre 2006, A free digital library, https://www.ted.com/talks/brewster_kahle_builds_a_free_digital_library/transcript?language=en#t-327534.

[6] https://web.archive.org/

[7] Per la storia di PANDORA si veda la sezione dedicata sul sito web dell’iniziativa, http://pandora.nla.gov.au/historyachievements.html

[8] http://netpreserve.org/

[9] Il primo si è svolto nel 2010: i risultati, oltre che sulla pagina citata, sono stati pubblicati in D. Gomes, J. Miranda, M. Costa, A Survey on Web Archiving Initiatives, In S. Gradmann, F. Borri , C. Meghini., H. Schudt (eds) Research and Advanced Technology for Digital Libraries. TPDL 2011. Lecture Notes in Computer Science. Nel 2014 i dati wiki sono stati elaborati e confrontati con i precedenti in M. Costa, D. Gomes, M. J. Silva, The evolution of web archiving, International Journal on Digital Libraries, 3/2017

[10] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

[11] Masanés 2006 cit.

[12] D. Thompson, Archiving Web Resources, in S. Ross, M. Day (a cura di), DCC Digital Curation Manual, December 2008, https://core.ac.uk/download/pdf/279116.pdf

[13] https://web.archive.org/web/20171101000000*/http://iwaw.europarchive.org/

[14] Per l’edizione 2016, http://fox.cs.vt.edu/wadl2016.html; per l’edizione 2017, https://fox.cs.vt.edu/wadl2017.html

[15] http://netpreserve.org/wac2017/. Per una sintesi, Peter Webster Reflections on Web Archiving Week 2017, sul blog Webstory: Peter Webster’s blog, post del 19/06/2017, https://peterwebster.me/2017/06/19/reflections-on-web-archiving-week-2017/. Per gli atti dell’edizione 2018: http://netpreserve.org/events/wac2018/

[16] A. Lafrance, Raiders of the Lost Web. If a Pulitzer-finalist 34-part series of investigative journalism can vanish from the web, anything can, The Atlantic, 14 ottobre 2015, https://www.theatlantic.com/technology/archive/2015/10/raiders-of-the-lost-web/409210/

[17] N. Ruset, I. Milligan, An Open-Source Strategy for Documenting Events: The Case Study of the 42nd Canadian Federal Election on Twitter, Code4Lib Journal, Issue 32, 2016-04-25, http://journal.code4lib.org/articles/11358

[18] Per una sintesi in italiano, Come si archivia una presidenza social, Il Post, 16 gennaio 2017, http://www.ilpost.it/2017/01/06/barack-obama-social-archivi/

[19] D. Stafford, Congressman introduces ‘COVFEFE Act’ to make social media a presidential record, CNN, 12 giugno 2017, http://edition.cnn.com/2017/06/12/politics/quigley-covfefe-act/index.html

[20] Il deposito legale non è previsto in tutti i paesi: non esiste ad esempio nei Paesi Bassi, cfr. M. Ras, S. Van Bussel, Web Archiving User Survey, National Library of the Netherlands (Koninklijke Bibliotheek), July 2007, https://www.kb.nl/sites/default/files/docs/kb_usersurvey_webarchive_en.pdf

[21] https://www.legislation.gov.uk/ukpga/2003/28/contents

[22] La legge è accompagnata da una guida esplicativa, emanata nel 2013: Department for Culture, Media & Sport, Guidance on the Legal Deposit Libraries (Non-Print Works) Regulations 2013, https://www.gov.uk/government/publications/guidance-on-the-legal-deposit-libraries-non-print-works-regulations-2013

[23] Code du patrimoine, Version consolidée au 12 mai 2017, https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT000006074236

[24] Art. 4, lettera r.

[25] “Deposito dei documenti diffusi tramite rete”, artt. 37-40

[26] Art. 37, c. 1

[27] Regolamento (UE) n. 910/2014 del Parlamento Europeo e del Consiglio del 23 luglio 2014 in materia di identificazione elettronica e servizi fiduciari per le transazioni elettroniche nel mercato interno (eIDAS, Electronic IDentification, Authentication and trust Services). Ai certificati di autenticazione di siti web si riferiscono in particolare l’art. 45 e l’Allegato IV

[28] Cfr. M. Ras, S. Van Bussel 2007 cit.

[29] I report sono consultabili sul sito web del progetto, nella sezione Deliverables: http://blogforever.eu/deliverables/

[30] https://www.webarchive.org.uk/ukwa/collection/100757/page/1

[31] https://www.webarchive.org.uk/en/ukwa/collection/369

[32] Cfr. Pennock 2013 cit. p. 11.

[33] Cfr. Masanés 2006 cit., pp. 23-25.

[34] La documentazione è consultabile sui siti web dei due progetti: per HTTrack, http://www.httrack.com;

per Heritrix, http://crawler.archive.org/index.html e il successivo https://webarchive.jira.com/wiki/spaces/Heritrix/overview; per Heritrix, inoltre, G Mohr, M. Stack, I. Ranitovic, D. Avery and M. Kimpton, An Introduction to Heritrix. An open source archival quality web crawler, http://www.crawler.archive.org/Mohr-et-al-2004.pdf

[35] Masanés 2006 cit. p. 26. Il Los Alamos National Laboratory ha realizzato lo strumento open source SiteStory, cfr. J. F. Brunelle, M. L. Nelson, L. Balakireva, R. Sanderson and H. Van de Sompel, Evaluating the SiteStory Transactional Web Archive with the ApacheBench Tool, in International Conference on Theory and Practice of Digital Libraries, 2013 pp. 205-214, http://www.cs.odu.edu/~mln/pubs/tpdl-2013/paper_67.pdf

[36] Per l’illustrazione del procedimento Masanés 2006 cit. pp. 27-28

[37] Rich Summary Text o Really Simple Sindication

[38] Per una panoramica generale, Pennock 2013 cit. p. 7 con relativa bibliografia. Il metodo è stato sperimentato tra gli altri dalla Library of Congress: in proposito G. M. Jones, M. L. Neubert, Using RSS to Improve Web Harvest Results for New Web Sites, Journal of Western Archives, Volume 8, Issue 2 Web Archiving Special Issue, Article 3, http://digitalcommons.usu.edu/westernarchives/vol8/iss2/3/

[39] Cfr. K. Leetaru, Why are Librarie Failing At Web Archiving And Are We Loosing Our Digital History?, Forbes, 27/03/2017, https://www.forbes.com/sites/kalevleetaru/2017/03/27/why-are-libraries-failing-at-web-archiving-and-are-we-losing-our-digital-history/#3d4ff99d6ecd

[40] In uno studio del 2006 sono stati stimati attorno al 2%: cfr. D. Gomes, Managing duplicates in a web archive, 2006, http://xldb.lasige.di.fc.ul.pt/xldb/publications/gomesManaging.pdf, ripreso da Pennock 2013 cit. p. 14; cfr. inoltre, per un modello della persistenza dell’informazione sul web, D. Gomes., M. J. Silva, Modelling Information Persistence in the Web, 2006, http://xldb.fc.ul.pt/xldb/publications/fp613-gomes.pdf

[41] Una panoramica in Gomes 2006 cit. Il sistema messo a punto dal gruppo di lavoro portoghese con il gestionale Webstore, in particolare, permette di eliminare i duplicati esatti ma non quelli parziali: cfr. D. Gomes, Webstore, a Manager for Incremental Storage of Contents, 2004, http://repositorio.ul.pt/bitstream/10451/14204/1/04-15.pdf

[42] A. Mazeika, D. Denev, M. Spaniol, G. Weikum, G., The SOLAR System for Sharp Web Archiving, https://pdfs.semanticscholar.org/b66b/cbcd38e67bed19df3d58f9225f8cfd990a67.pdf

[43] Sulla centralità dei metadati per il web culturale cfr., da ultimo, P. Feliciati, Il futuro del web culturale: riflessioni su contenuti e contesti ad uso dei soggetti produttori, in A. Becherucci, F. Capetta 2016 cit.

[44] J. Dooley and K. Bowers, Descriptive Metadata for Web Archiving. Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group, Dublin, OH, OCLC Reserarch, https://www.oclc.org/content/dam/research/publications/2018/oclcresearch-wam-recommendations.pdf

[45] https://www.oclc.org/research/themes/research-collections/wam.html

[46] Per la Dublin Core Metadata Initiative si può consultare il sito dell’iniziativa, http://dublincore.org/. Per la traduzione italiana, il sito curato da Iccu, http://www.iccu.sbn.it/opencms/opencms/it/main/standard/metadati/pagina_116.html;jsessionid=F6AB7C6EBE5346B7BB3A32BA42349A3B

[47] Per il dialogo tra diplomatica tradizionale e digitale cfr. L. Duranti, Diplomatics: New Uses for an Old Science, Archivaria 28 (Summer 1989), pp. 7-27, https://archivaria.ca/index.php/archivaria/article/view/11567/12513

[48] P. Carucci, L’ordinamento, in P. Carucci, M. Guercio (a cura di), Manuale di archivistica, Roma 2008, pp. 67-90.

[49] International Council of Archives, ISAD (G): General International Standard Archival Description: adopted by the Committee on Descriptive Standards, Stockholm, Sweden, 19-22 September 1999, traduzione italiana a cura di S. Vitali, con la collaborazione di M. Savoja, Firenze 2000, http://media.regesta.com/dm_0/ANAI/anaiCMS/ANAI/000/0111/ANAI.000.0111.0002.pdf

[50] L’Open Archival Information System è un modello concettuale per la conservazione digitale. Online è possibile consultare la versione 2014, pubblicata dal Consultative Committee for Space Data Systems (CCSDS), https://web.archive.org/web/20160401000000*/https://public.ccsds.org/publications/archive/652x1m2.pdf

[51] Cfr. Thompson 2008 cit. e Pennock 2013 cit.

[52] Cfr. S. Allegrezza, I formati elettronici, in S. Pigliapoco, S. Allegrezza, Produzione e conservazione del documento digitale, Macerata, 2008

[53] Cfr. L. Duranti, L., K. Thibodeau, The Concept of Record in Interactive, Experiential and Dynamic Environments: the View of InterPARES, Archival Science,  March 2006, Volume 6, Issue 1, pp. 13–68

[54] Un modello delle proprietà significative in A. Ball, Web Archiving, Digital Curation Centre, 2010, http://www.dcc.ac.uk/resources/briefing-papers/technology-watch-papers/web-archiving

[55] A. Stawowczyk Long, Long term preservation of web archives. Experimenting with emulation and migration methodologies. IIPC project to evaluate emulation and migration as long-term preservation solutions for web archives, 10 December 2009, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.178.8091&rep=rep1&type=pdf

[56] S. Allegrezza, Nuove prospettive per il Web archiving: gli standard ISO 28500 (formato WARC) e ISO/TR 14873 sulla qualità del Web archiving, Digitalia, Vol. 2015, pp. 49-61

[57] V. Banos, Y. Manolopoulos , A quantitative approach to evaluate Website Archivability using the CLEAR+ method, International Journal on Digital Libraries (Springer), 12 March 2015

[58] Stanford Libraries, Archiviability, http://library.stanford.edu/projects/web-archiving/archivability; Library of Congress, Guide to Creating Preservable Websites, https://www.loc.gov/webarchiving/preservable.html; National Archives (UK), The UK Government Web Archive: guidance for digital and records management teams, http://www.nationalarchives.gov.uk/documents/web-archiving-technical-guidance.pdf

[59] IIPC Access Working Group, Use cases for Access to Internet Archives, May 2006

[60] Cfr. Ras-Van Bussel 2006 cit.; per l’esame delle modalità di ricerca degli utenti: M Costa, M.J. Silva, M.J., Understanding the Information Needs of Web Archive Users, in 10th International Web Archiving Workshop, Vienna, Austria, 2010, http://sobre.arquivo.pt/wp-content/uploads/understanding-the-information-needs-of-web-archive.pdf; per il censimento delle funzionalità supportate da un campione di raccolte, e per una revisione generale degli studi, J. Niu, Functionalities of Web Archive, D-Lib Magazine, March/April 2012, Volume 18, Number 3/4, http://www.dlib.org/dlib/march12/niu/03niu2.html

[61] Cfr. Costa Silva 2010 cit. con bibliografia precedente. Nel web archiviato prevale l’approccio navigazionale, in quello corrente quello informazionale.

[62] Sull’uso del web archiving per la ricostruzione della Rivoluzione egiziana del 2011 cfr. Y. AlNoamany, M. C. Weigle, M.L. Nelson, Stories from the Past Web, 17 maggio 2017, https://arxiv.org/abs/1705.06218

[63] Sull’uso della ricerca per data cfr. in particolare Costa – Silva 2010 cit.

[64] Una casistica in Costa Silva 2010 cit.

[65] Nell’analisi di Niu de 2012 non risultava supportata da nessuna iniziativa.

[66] Cfr. il sito webdesignmuseum.org.

[67] Una panoramica dei possibili temi di ricerca è offerta dalla call for papers 2017 della rivista Internet Histories, http://explore.tandfonline.com/page/ah/internet-histories. Sulla ricostruzione di siti, F. Nanni, Reconstructing a website’s lost past. Methodological issues concerning the history of www.unibo.it, https://arxiv.org/abs/1604.05923

[68] Cfr. Costa – Silva 2010: alcuni utenti del campione testato hanno rilevato le dimensioni troppo ridotte delle finestre di ricerca. Il World Wide Web Consortium (W3C) ha elaborato raccomandazioni per la creazione di siti accessibili a utenti con deficit sensoriali: W3C, How to Meet WCAG 2.0, https://www.w3.org/WAI/WCAG20/quickref/

[69] A.C. Madrigal, Future Historians Probably Won’t Understand Our Internet, and That’s Okay, The Atlantic, 06/12/2017, https://www.theatlantic.com/technology/archive/2017/12/it-might-be-impossible-for-future-historians-to-understand-our-internet/547463/

  • author's avatar

    By: Lorenzana Bracciotti

    Lorenzana Bracciotti si è diplomata presso la Scuola di archivistica, paleografia e diplomatica dell’Archivio di Stato di Firenze e la Scuola di specializzazione in scienze archivistiche e librarie dell’Università La Sapienza di Roma. Dal 2018 è archivista di Stato presso l’AS di Parma.

  • author's avatar

  • author's avatar

    See all this author’s posts

Print Friendly, PDF & Email

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *