Digital Preservation - Preservazione Digitale
Informazioni generali e strategie di sistema per la preservazione digitale
Come affermato in Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale, il Sistema Bibliotecario di Ateneo, al fine di sviluppare e mantenere gli archivi digitali per la conservazione a lungo termine degli oggetti digitali, conserva e preserva i dati digitali in infrastrutture di archiviazione e backup dell'Università di Padova (ASIT). Al fine di preservare l'integrità dei dati, vengono utilizzati servizi di replica verificata delle risorse digitali.
La infrastruttura ASIT (il Data Center dell'Università) è dotata di sistemi moderni per rilevare il deterioramento dei guasti software e hardware, e la sua gestione prevede la possibilità di sostituire e ripristinare l'hardware e il software in tempi brevi in caso di guasti. La ridondanza è uno dei componenti dell'infrastruttura e consente quindi di essere operativa anche in presenza di più guasti.
Un piano di ripristino dei dati e di continuità aziendale viene implementato in breve tempo tramite backup replicati, UPS, e con server, sistemi di servizio e apparecchiature di rete affidabili e ridondanti.
Sistemi software e hardware monitorano eventuali problemi essendo in grado di avvisare in caso di malfunzionamento, come ad esempio la sostituziobe di dischi o altre parti. L'infrastruttura hardware viene monitorata tramite ILO e il software tramite gli strumenti VMware al fine di ridurre al minimo i rischi. È garantito il backup e il ripristino delle immagini dei server e dei dati, e dispone di un numero adeguato di server in caso di malfunzionamenti nonché di storage primari e secondari. L'infrastruttura è in grado di reagire rapidamente a malfunzionamenti e battute d'arresto. ASIT è attrezzata a rispondere ad eventi catastrofici con l'obiettivo riportare i propri servizi online in breve tempo. Un'adeguata capacità di archiviazione fisica sui server è garantita per supportare le attività di Phaidra e Research Data Unipd.
Sono disponibili architetture avanzate per la replica multipla di dati, backup automatico in più sedi presso l'Università di Padova. Ogni notte è prevista una replica dei repository, con possibilità di ripristino in poco tempo.
La rete è protetta da firewall e l'accesso alle macchine è limitato agli operatori.
Il Sistema Bibliotecario di Ateneo garantisce adeguati sistemi hardware e software per trasferire, gestire e pubblicare i dati in modo sicuro e tracciabile. I responsabili della gestione dei dati documentano le procedure nel wiki interno, quindi ogni operazione di archiviazione può essere eseguita dal team con gli stessi risultati.
Per quanto riguarda i componenti elettrici, tutte le apparecchiature sono dotate di dispositivi di sicurezza conformi alle norme vigenti. Il sistema è sezionato con interruttori per ciascuna zona e tipo di utilizzo. Inoltre, due UPS ne garantiscono la continuità. I locali sono regolarmente monitorati dal servizio che si occupa di sicurezza all'Università di Padova.
Per quanto riguarda la connettività, il fornitore è l'Università di Padova, che utilizza la rete GARR come rete di ricerca italiana. L'Università è in grado di fornire e ripristinare la connettività in breve tempo. I dispositivi sono tutti dotati di UPS per consentire la continuità del servizio in caso di blackout.
Per quanto riguarda l'archiviazione, si utilizzano sistemi di storage di tipo enterprise che implementano tutte le misure di ridondanza (RAID, alimentazione elettrica) in caso di guasti.
Prove pubbliche:
- la sezione seguente sulle strategie generali di conservazione digitale
- il wiki interno (https://wiki.cab.unipd.it/wiki-itcab/index.php/Servizi/Storage) descrive le procedure
Di seguito è riportato un breve riepilogo del contenuto.
Procedure per la gestione dell'archiviazione nel sistema di libreria
La gestione dei dati nel Sistema Bibliotecario di Ateneo avviene principalmente attraverso la gestione delle macchine virtuali che li contengono. Le principali operazioni sono:
Creazione di una macchina virtuale
Attraverso l'ambiente VMware, i data manager possono creare una nuova macchina virtuale. I passaggi sulla configurazione di rete e di archiviazione richiedono la massima attenzione. Per la rete, la macchina deve essere inserita nella rete pertinente, assicurandosi che utilizzi un indirizzo appropriato. Per la parte di archiviazione, è necessario selezionare il profilo predefinito nella fase di selezione dello storage, ad eccezione delle macchine virtuali con attività speciali.
Spostamento di una macchina virtuale
Le macchine virtuali sono generalmente assegnate ai server nel pool disponibile. Utilizzando gli strumenti VMware, è possibile spostare una macchina da un server a un altro, con tempi di inattività minimi, in caso di necessità (manutenzione pianificata o non pianificata, ad esempio).
Ripristino di una macchina virtuale
Tramite il software Veeam è possibile ripristinare una macchina virtuale da un archivio di backup apposito. Il ripristino può sostituire la macchina esistente dopo o durante un ripristino di emergenza, per un ripristino parziale dei dati o per l'esigenza di confrontare l'evoluzione dei dati nel tempo.
Allocazione di un disco aggiuntivo in una macchina virtuale
Un disco aggiuntivo può essere creato ed assegnato alle macchine virtuali. È consigliato per macchine che contengono molti dati. Utilizzando gli strumenti VMware è possibile creare un nuovo disco (selezionare la politica predefinita se non indicato diversamente) nella macchina. Il disco, nella politica di base, sarà sottoposto a backup tramite quello della VM.
Sicurezza
Il sistema bibliotecario ha personale informatico che gestisce i servizi di informazione del sistema bibliotecario. Si tratta di quattro informatici del Settore Back Office e Sistemi Informativi dell'Ufficio Biblioteca Digitale. Due informatici di questo Settore lavorano su Phaidra e Research Data Unipd.
Il Sistema Bibliotecario di Ateneo ha tra i suoi obiettivi la sicurezza dei suoi spazi di lavoro. C'è un responsabile della sicurezza locale nel piano di sicurezza dell'Università di Padova, che è in grado di valutare i rischi e prevenire eventuali pericoli. In ogni caso, la gestione della sicurezza è a carico dell'Università di Padova, che effettua controlli periodici ai fini della prevenzione dei rischi degli impianti, dalle intrusioni, delle manipolazioni o dal furto di dati. Le infrastrutture tecnologiche si trovano in luoghi appositi a cui hanno accesso solo persone autorizzate e qualificate. Oltre ai backup locali e remoti, abbiamo un sistema di backup Bacula su NAS. Le apparecchiature sono posizionate in stanze sorvegliate con accesso controllato. Il supporto tecnico per operazioni ordinarie e straordinarie è garantito da un servizio apposito dell'Università di Padova.
In sintesi, le infrastrutture sono protette da piani di sicurezza da un punto di vista fisico, oltre a essere monitorate e accessibili solo da personale autorizzato. Ciò garantisce che i dati siano in sicurezza per la conservazione a lungo termine e per il loro utilizzo.
Dal punto di vista informatico, i dati sono protetti dalla presenza di firewall che limitano l'accesso all'infrastruttura. I server sono accessibili solo tramite la rete locale o tramite VPN e l'accesso è limitato solo agli operatori autorizzati con il proprio account. Esistono esperti che valutano i rischi di attacchi informatici e disponiamo di strumenti di monitoraggio per la rete e i server.
Oltre ai backup, esistono procedure interne con istruzioni per gli operatori in caso di ripristino di dati o infrastrutture e per la regolamentazione dell'accesso ai sistemi da parte del personale autorizzato.
Per quanto riguarda le procedure di ripristino, in caso di problemi sulla infrastruttura IT principale, è possibile fare affidamento su un'infrastruttura IT secondaria e anche sul sistema Veeam, che può riportare l'immagine online direttamente dal backup.
In caso di incidente di sicurezza, il problema viene segnalato ad ASIT (Area Servizi Informatici e Telematici), un ufficio specializzato per la sicurezza IT.
Phaidra
Workflow di sottomissione
Phaidra si basa su Fedora, "a robust, modular, open source repository system for the management and dissemination of digital content", che include funzionalità in conformità al modello OAIS. Descriveremo ora i due passaggi del deposito.
Nella prima fase, l'ingesting, viene ricevuto un SIP (Submission Information Package) per la selezione, la valutazione e l'organizzazione del contenuto. Esistono due procedure predefinite, il client Phaidra Importer e lo script di caricamento massivo, ma il contenuto viene solitamente inviato tramite l'interfaccia web semplice e intuitiva di Phaidra.
I producer necessitano di autenticazione utilizzando un account locale con il quale possono caricare gli oggetti digitali.
Il secondo passaggio, l'invio, viene eseguito automaticamente dalla piattaforma, in conseguenza del quale vengono convalidati e memorizzati i metadati e i dati binari (Octets). Da quest'ultimi vengono creati e memorizzati i checksum. Viene quindi viene generato un AIP (Archival Information Package) per memorizzare e archiviare dei dati. La piattaforma ha generato automaticamente il DIP, poiché la diffusione dei dati è aperta, tranne nei casi in cui i produttori hanno chiuso l'accesso al contenuto binario. Per i metadati, invece, la piattaforma ne consente sempre la diffusione.
L'AIP è costituito da metadati e dati in formati adatti per l'archiviazione a lungo termine. Tutti i dati del sistema vengono regolarmente sottoposti a backup. Tutti i server si trovano in una stanza monitorata e il cui accesso fisico è limitato al personale autorizzato. Quando il personale non è presente, è garantito un sistema di allarme e un monitoraggio remoto della sicurezza. I locali sono regolarmente monitorati dal servizio che si occupa di sicurezza all'Università di Padova.
Phaidra ha un sistema di backup automatizzato. Ogni elemento (metadati e file) viene salvato insieme al checksum MD5 per la verifica dell'integrità. Phaidra ha gli strumenti per eseguire analisi regolari e intervenire se necessario.
Solo gli utenti con un account verificato possono caricare oggetti digitali nella piattaforma.
Conservazione digitale
La conservazione digitale nasce dalla combinazione di politiche, strategie e azioni per garantire l'autenticità dei contenuti e la conservazione a lungo termine, indipendentemente dai futuri cambiamenti tecnologici. La conservazione digitale si applica sia al contenuto nativo digitale che a quello digitalizzato.
Le attività strategiche a supporto della conservazione digitale seguono i regolamenti del Sistema Bibliotecario di Ateneo, ovvero gestire e garantire la conservazione, l'aggiornamento e la fruizione del patrimonio bibliografico e documentale e l'accesso all'informazione scientifica attraverso lo sviluppo della Biblioteca Digitale dell'Università (Regolamento del Sistema Bibliotecario dell'Università di Padova, titolo I, articolo 1, paragrafi 1 e 2).
Le strategie e le azioni per la conservazione digitale si applicano alla creazione, all'integrità e al mantenimento dei contenuti.
Le principali azioni perseguite dallo SBA per la conservazione a lungo termine delle collezioni digitali sono le seguenti:
- sviluppo e manutenzione di archivi digitali per la conservazione a lungo termine di oggetti digitali
- gestione di diversi formati di file e metadati
- implementazione di solidi processi e procedure automatizzate al fine di garantire una buona gestione e conservazione dei contenuti
- accesso continuo e affidabile al contenuto di oggetti digitali per la comunità di riferimento
La nostra strategia di conservazione a lungo termine si basa principalmente sulla standardizzazione dei dati in input.
Il documento Formati dei file raccomandati per l’archiviazione a lungo termine e per la disseminazione web in Phaidra offre una panoramica dei formati di file da utilizzare per l'archiviazione e il caricamento a lungo termine su Phaidra. Il documento recita:
Non esistono criteri assoluti nella scelta del formato dei file. La scelta è sempre dipendente da differenti valutazioni che chi archivia dovrà fare puntualmente, caso per caso, e risulterà spesso in un compromesso tra la miglior qualità ottenibile e i limiti imposti dai costi di produzione, elaborazione e stoccaggio dei file, nonché, per il pregresso, dall’opportunità di una conversione a nuovo formato.
Questa scelta è particolarmente significativa nell’ottica dell’archiviazione a lungo termine per la quale sono desiderabili una qualità che rispetti l’autenticità e l’integrità del documento originale e un formato che garantisca l’accesso ai dati nel lungo periodo.
Esistono alcuni criteri generali ai quali ci si può attenere per quanto riguarda la scelta del formato più adatto all’archiviazione: apertura, portabilità, qualità e funzionalità, supporto allo sviluppo, diffusione, trasparenza, auto-documentazione.
Per la nostra comunità di riferimento, la priorità è la conservazione del contenuto delle informazioni (immagini, libri, video, ecc.). Abbiamo un unico livello di conservazione, data la varietà di contenuti archiviati nella piattaforma.
I passaggi importanti per garantire la conservazione della piattaforma sono:
- Controllo sull'intera catena di immissione e ricezione dei dati. Tutte le azioni necessarie sono intraprese con il producer per integrare le informazioni mancanti, prestando molta attenzione alla completezza dei dati, sia per la conservazione a lungo termine (provenienza, proprietà, diritti, caratteristiche tecniche) sia alla scelta di formati adatti alla conservazione a lungo termine . Ad esempio, anche se gestiamo un file immagine con formato proprietario e non documentato in origine, lo convertiamo nel formato di file TIFF.
- Controllo dell'integrità dei dati. Ogni modifica dei dati viene registrata, usando principalmente i meccanismi integrati di Fedora. In particolare, ogni modifica dei metadati viene salvata ed è disponibile per il repository. I checksum vengono applicati su dati e metadati, quindi possiamo monitorare e intervenire in caso di modifiche accidentali, errori del software o incidenti di altra natura, attraverso il recupero dei dati dal sistema di gestione dello storage e del backup.
- Leggibilità dei dati. L'obiettivo di Phaidra è che i dati siano sempre leggibili e interpretabili dalla comunità di riferimento. Interagiamo con essa sull'uso dei dati e ci teniamo aggiornati sull'evoluzione dei formati di testo, immagini, audio e video.
Insieme al producer, Phaidra analizza le questioni legali, etiche e di copyright, preservando queste informazioni in modo da preservare l'usabilità dei dati per il futuro. L'usabilità è garantita dalla conservazione del contenuto e dalla ricchezza di informazioni per lo studio e la comprensione da parte della comunità di riferimento.
Esiste un chiaro accordo tra il producer e Phaidra attraverso le Condizioni d'uso. Accettando le Condizioni d'uso, il producer accetta che la piattaforma gestisca e diffonda i contenuti. Inoltre, il producer sottoscrive di essere in possesso dei diritti per depositare l'oggetto, che il copyright e la riservatezza dei dati sono stati verificati ed implementati e che ha valutato le questioni etiche, seguendo le linee guida del codice etico dell'Università di Padova.
Phaidra implementa un inserimento semplice e sicuro di dati (file e metadati), inclusi i metadati sulla provenienza ed il ciclo di vita dell'oggetto digitale.
Phaidra è impegnata nella custodia a lungo termine degli oggetti depositati nel repository e si impegna ad adottare le migliori pratiche attuali nella conservazione digitale.
Come spiegato in Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale, sono soddisfatte tutte le condizioni per garantire la continuità di servizio. I formati di file e metadati rispettano le caratteristiche di conservazione a lungo termine e soddisfano la nostra comunità di riferimento. Di seguito una descrizione del piano di migrazione di Phaidra:
- Sottomissione il nostro piano alle parti interessate per l'approvazione
- Analisi delle funzionalità della piattaforma individuata per la migrazione
- Fase preliminare di analisi sui formati di file e sul livello di conservazione richiesto per dati e metadati. Questa fase è facilitata dalle scelte fatte sui formati e sul documento di analisi del formato, nonché dalla natura del formato dei metadati
- Determinazione delle azioni di conservazione basate sull'analisi del formato
- Analisi dei metadati, normalizzazione dei vocabolari e altre operazioni preliminari
- Redazione delle azioni necessarie, compresa un'eventuale trasformazione dei formati in base al livello di conservazione richiesto, copia dei dati e mappatura dei metadati su nuovi formati, se necessario, considerato il livello di conservazione richiesto.
- Definizione dei criteri di test per valutare il successo della migrazione
- Definizione e pianificazione di eventuali costi e verifica della disponibilità delle risorse pianificate
- Individuazione delle responsabilità all'interno del piano e definizione dei workflow per migrazione
Nella fase di migrazione sarà necessario:
- operare la pulizia dei dati
- eseguire un test di migrazione. Questa fase è molto importante perché permette di valutare le azioni pianificate e di verificarle, apportando le correzioni necessarie
- eventuale modifica del piano e conseguente aggiornamento della documentazione
Un piano di migrazione richiede un alto livello di collaborazione di tutte le parti interessate, dagli stakeholder a tutti coloro che devono fornire informazioni (ad es. il livello di conservazione, sulla verifica del successo della migrazione e le informazioni sulla piattaforma di destinazione).
Ad oggi, la responsabilità della conservazione digitale segue il documento Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale per il livello istituzionale e nella sezione Sicurezza (di seguito) per la parte tecnica.
Le Condizioni d'uso specificano il livello di responsabilità definito da Phaidra nei confronti degli utenti e le esigenze relative alla conservazione a lungo termine (vedi: "l’Ateneo si impegna a conservare al meglio delle sue capacità gli oggetti digitali archiviati in Phaidra e a renderli accessibili e fruibili nel tempo") e autorizzare Phaidra a gestire i dati in modo adeguato allo scopo (vedi: "Gli utenti autorizzati possono depositare oggetti digitali nella piattaforma rendendoli disponibili - secondo le licenze rilasciate - ai terzi").
Architettura software
L'architettura software di Phaidra si basa su Fedora Commons 3.8.X, una delle piattaforme open source più utilizzate per creare repository digitali. Seguendo le indicazioni della comunità di riferimento, Phaidra ha sviluppato un modello di dati basato su LOM, Dublin Core e gli standard museali italitani dell'ICCD - Istituto Centrale per il Catalogo e la Documentazione del Ministero della Cultura). Fedora segue il modello di riferimento OAIS. Fedora e Phaidra sono entrambi supportati dalla comunità di sviluppatori. Il wiki pubblico di Phaidra documenta le specifiche tecniche della piattaforma (fare riferimento a GitHub).
I metadati di Phaidra sono prevalentemente testuali e descrittivi. Gli standard spaziali, come Google KML, sono implementati in parte. JSON e XML sono i formati di scambio utilizzati dalla piattaforma e nei componenti interni. Per una sicurezza dei dati a basso livello, le autorizzazioni granulari XACML di Fedora assicurano che solo gli account e i ruoli designati possano accedere agli oggetti, controllando l'autorizzazione per le operazioni di modifica, creazione ed eliminazione. Gli account vengono gestiti utilizzando LDAP di Active Directory.
Per quanto riguarda il software, abbiamo sviluppato un strumento, basato su Java, denominato Phaidra Importer per l'importazione massiva di raccolte di immagini, documenti PDF, video e di libri. Tutti i componenti di Phaidra funzionano su piattaforme open source di chiara fama, come Apache e Ngix, utilizzando perl, java, script di shell come linguaggi di programmazione e le moderne tecnologie web (html5, framework javascript, CSS3) per frontend web. Usiamo Debian Linux come sistema operativo per i nostri server.
La documentazione è disponibile su GitHub; ci sono informazioni sulle specifiche tecniche di Phaidra.
Research Data Unipd
È il servizio per la gestione e l'archiviazione a lungo termine dei dati di ricerca prodotti dalle comunità di riferimento, cioè di tutti gli utenti dotati di un account istituzionale (Single Sign-On) che producono dati di ricerca.
La piattaforma consente di archiviare, rendere accessibili e riutilizzabili i dati necessari a validare i risultati presentati in una pubblicazione scientifica, così come richiesto dai principali enti finanziatori e da numerose riviste internazionali.
Deposito
Il workflow di gestione del dato riceve l’impulso di partenza dall’azione di deposito effettuata dai componenti della comunità di ricerca, tramite accesso alla piattaforma.
Per le specifiche sul workflow di sottomissione dei dati l’utente può consultare la pagina Howto, dove sono presenti guide dettagliate. Per la fase di pre-ingesting, le specifiche e le raccomandazioni sono presenti alla pagina Before you start to upload data.
La video guida in inglese e in italiano spiega i passaggi principali, dall’accesso fino al completamento della sottomissione. La walkthrough guide accompagna l’utente spiegando nel dettaglio tutte le opzioni e le funzionalità dell’archivio, nonché le diverse modalità di visualizzazione a seconda dell’accesso come utente depositante o utente esterno.
Formato dei file
La pagina "Recommended formats and data files" del repository offre informazioni sui formati di file da preferire per garantire l’accessibilità a lungo termine dei dati e indicazioni sulla dimensione dei file. E’ a disposizione degli utenti anche il documento Formati dei file raccomandati per l’archiviazione a lungo termine e per la disseminazione web in Phaidra.
Licenze e riuso
Tutti i metadati pubblicati sono rilasciati con licenza CC0.
L’utente depositante è incoraggiato ad attribuire licenze ai dataset per promuovere il riutilizzo dei dati di ricerca.
La pagina "Access and re-use of data" offre informazioni sulle licenze disponibili.
Licenza all’archivio
Accettando il Data deposit agreement, l’utente accetta che la piattaforma gestisca e diffonda i contenuti. Inoltre, chi deposita sottoscrive di essere in possesso dei diritti per depositare l'oggetto, che il copyright e la riservatezza dei dati sono stati verificati ed implementati e che ha valutato le questioni etiche, seguendo le linee guida del codice etico dell'Università di Padova.
Controllo pre-pubblicazione
I metadati e i dati della ricerca sottomessi vengono revisionati da personale bibliotecario specializzato nella cura dei metadati e successivamente pubblicati. Vengono valutati anche i metadati per la conservazione a lungo termine e il formato dei file depositati.
Autenticità dei dati
Ogni modifica dei dati viene registrata, usando principalmente i meccanismi integrati di Eprints. In particolare, ogni modifica dei metadati viene salvata ed è disponibile per il repository.
Infrastruttura
Research Data Unipd si basa sul software EPrints, "the world-leading open-source digital repository platform", molto diffuso tra università ed altre istituzioni per la disseminazione di contenuti digitali, ad esempio pubblicazioni, tesi o dati della ricerca, con una storica presenza nel mondo dell'Open Access.