Numérisation, préservation et intégration

From Wiki
Revision as of 21:23, 18 March 2024 by DEV (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Introduction

Maintenant que nous avons achevé la phase de planification et d’organisation et que nous avons obtenu le Plan Général , le tableau de la structure des archives, les descriptions du matériel et une décision sur le logiciel et les supports de stockage pour le Système d’Archivage Numérique, nous sommes prêts pour la prochaine étape. C’est ici que la véritable magie opère : la création de notre archive numérique.

Cette étape est non seulement porteuse de grandes promesses, mais elle est également la plus dynamique et complexe, ainsi que la plus exigeante en termes de ressources, d’expertise et de technologie pour notre organisation.

Notre objectif à ce stade est de traiter et de préparer tout le matériel sélectionné, qu’il soit physique ou numérique, afin de le rendre prêt pour la préservation numérique. Cela signifie qu’à la fin de cette étape, nous aurons préparé le matériel en respectant toutes les exigences techniques et archivistiques nécessaires, afin qu’il puisse être transféré dans notre Système d’Archivage Numérique nouvellement sélectionné. Cela comprend une série d’actions utilisant des logiciels et d’autres outils technologiques qui seront appliqués à notre matériel source sélectionné afin de l’archiver correctement et de le préserver à long terme.

De plus, si nous travaillons à la préservation numérique d’un matériel source qui est en partie ou en totalité physique, cette étape comprend une étape majeure préalable : la numérisation.

Numérisation

Grâce au processus de numérisation, nous créons des copies numériques, également appelées « substituts », des éléments physiques originaux. Ces copies numériques sont ensuite traitées comme des objets d’archives numériques, préservés et rendus accessibles. Nous allons donc nous focaliser sur la conservation de ces copies numériques, plutôt que sur les éléments physiques originaux. Consultez l’Annexe II pour plus de conseils.

Il existe différents types d’objets physiques que nous pouvons vouloir numériser qui peuvent être stockés sur une variété de supports. Il peut s’agir, par exemple, de textes, de photographies, de dessins, de cartes, de vidéos , d’audios et d’autres types de contenu stockés sur papier, des cassettes audio, des bandes 16 mm ou de tout autre support de stockage physique ou analogique.


Ainsi que des objets tels que des vêtements, des bannières, des objets personnels, etc.

Évidemment, le type de matériel que nous devons numériser définira les décisions majeures et spécifiques à prendre dans le processus. Chaque organisation les prendra en fonction de ses objectifs et de ses capacités. Cependant, il existe aussi des éléments généraux du processus qui doivent être abordés dans tous les projets de numérisation. Ce chapitre présente les éléments de la numérisation pertinents pour le processus, indépendamment du type, du contenu ou du support de stockage du matériel.

Information de derniere minute: L’internalisation de la numérisation coûte sûrement plus cher que l’externalisation.
Si les capacités de l’organisation ne sont pas suffisantes pour répondre aux exigences du processus de numérisation, il convient d’envisager la décision de faire appel à une entreprise externe pour le projet. La réponse à cette question peut déterminer le succès ou l’échec du programme. Commencer la numérisation sans une préparation, des ressources et des capacités adéquates pourrait engendrer plus de coûts que de résultats, avec peu ou pas de valeur à long terme. D’un autre côté, une externalisation bien planifiée, exécutée avec soin et garantie en termes de qualité, pourrait faire gagner beaucoup de temps et d’efforts.

Ainsi, l’internalisation de la numérisation, avec les différents coûts qu’elle implique, peut parfois coûter plus cher à l’organisation que l’externalisation du travail.

La numérisation est un projet d’archivage majeur et exigeant qui nécessite une attention particulière, une planification minutieuse et une mise en œuvre dédiée. Puisque nous considérons la numérisation comme faisant partie d’un processus plus vaste de création d’une archive numérique, nous avons déjà abordé certains des défis posés, notamment ceux liés aux premières étapes du processus. Un aperçu du processus de numérisation est présenté dans les figures 9a et 9b.

Figura 9a. Aperçu des étapes et des actions à suivre lors du processus de numérisation
1. Planification

Générale : par exemple, objectif, résultats, calendrier ou ressources.

Logistique et organisation : par exemple, gestion des flux de travail,

conditions et aménagement de l’espace, dénomination, équipement, métadonnées.

Exigences en matière d’archivage et de technologie :

qualité, format, nommage des fichiers, équipement et

métadonnées.

Planification de la conservation des éléments physiques

originaux.

2. Préparation du material

Création d’un inventaire du matériel physique

Examen du matériel et sélection du matériel

à numériser

Description du matériel

Préparation des éléments physiques en vue de la numérisation

Figura 9a. Aperçu des étapes et des actions à suivre lors du processus de numérisation
3. Préparation de données/ technologie

Définir les besoins de la numérisation :

dénomination des fichiers, sélection de format(s), norme de

qualité, collecte de métadonnées.

Obtention et installation de l’équipement de numérisation,

des logiciels et des supports de stockage.

Mise en place de l’équipement pour répondre aux exigences de la numérisation,

test et mise au point.

4. Mise en œuvre
  • Préparation du matériel
  • Programmation du processus
  • Numérisation
  • Contrôle de qualité
  • Post-traitement et OCR
  • Stockage et sauvegardes

Dans les chapitres précédents, nous avons abordé l’élaboration d’un plan général, la création d’un inventaire, la sélection et la description du matériel – qui sont également les premières étapes du processus de numérisation. Ainsi, ayant déjà effectué les deux premières étapes, nous pouvons reprendre le processus de numérisation au début de la troisième, qui consiste en la préparation des éléments archivistiques et technologiques du processus.

Information de dernière minute: La numérisation peut être réalisée à petite échelle et avec un budget modeste.
Les projets de numérisation à petite échelle doivent être adaptés aux capacités et aux ressources limitées. En règle générale, cela signifie qu’il peut y avoir une ou deux personnes chargées d’effectuer toutes les étapes du processus de numérisation sur un seul ordinateur

et avec des ressources réduites. Le processus est certainement moins efficace, moins fiable et moins rapide dans ces conditions. Cependant, il est faisable et, au cas où aucune autre option ne serait disponible, il est hautement recommandable. Tout travail de numérisation que nous pouvons effectuer peut être très significatif, surtout si le matériel est fragile et susceptible de se détériorer.

Spécifier une Convention de Dénomination pour les Fichiers Numérisés

Le nom d’un fichier numérique destiné à l’archivage et à la conservation n’est pas simplement un nom. Il s’agit également d’un descripteur très important de cet élément particulier, qui doit contenir des informations permettant d’identifier l’élément et son contenu, afin de le localiser dans les archives et de le gérer et de le préserver correctement. Le développement et l’application d’un ensemble cohérent de règles, appelé « convention de dénomination », pour nommer les substituts numériques créés à partir d’éléments physiques constituent un élément essentiel des spécifications du processus de numérisation.

Il n’existe pas de règles universelles pour la dénomination des fichiers. Chaque organisation doit développer sa propre convention de dénomination qui répond le mieux à ses besoins d’archivage. Cependant, le nom d’un substitut numérique devrait toujours fournir une référence et établir un lien entre lui et l’élément physique à partir duquel il a été créé par la numérisation. En principe, le nom d’un fichier doit contenir plusieurs éléments qui l’identifient, tels que son numéro d’identification unique, sa date de création, une référence à son contenu, ainsi que la série, la sous-série ou le dossier dont il fait partie.

Nous devons également garder à l’esprit que ces noms de fichiers doivent avant tout être traités et compris par les logiciels que nous utilisons pour gérer nos archives numériques. Par conséquent, notre préoccupation principale lors de la nomination des fichiers est d’appliquer une convention qui permettra à notre Système d’Archivage Numérique d’identifier correctement le fichier et d’utiliser les informations qu’il contient. Cependant, il est bon d’inclure également un élément descriptif dans le nom d’un fichier, pour qu’il puisse être compris par les humains, par exemple, une référence à son titre ou à son contenu.

Bien que, comme nous l’avons mentionné, il n’existe pas de règles universelles concernant l’élaboration d’une convention de dénomination, vous pouvez néanmoins identifier quelques recommandations de base, dont certaines sont présentées dans la figure 10.

Figure 10. Recommendations for a file naming convention
Général Identifiants Normes
Utilisez un nombre raisonnable de composants dans le nom de fichier.

Les noms doivent être aussi courts que possible. Utilisez donc des abréviations.

Soyez cohérent dans l’application de la convention de dénomination des fichiers et ne prévoyez pas d’exceptions.

Intégrez des identifiants clés comme composantes du nom de fichier

, tels que le numéro d’identification de l’élément.

Il est recommandé d’inclure des éléments descriptifs tels que la date, le titre ou une référence au contenu.

Utilisez uniquement les lettres de l’alphabet anglais (a-z), les chiffres

(0-9), le tiret (-) et le trait de soulignement (_)

Les dates doivent être saisies dans le format standard ISO, c’est-à-dire aaaa-dd-mm.

Spécification des formats de fichier et de la qualité

En plus du nom de fichier d’un substitut numérique, son format numérique et la norme de qualité à laquelle il sera numérisé doivent par ailleurs être spécifiés, avant que le processus ne puisse sérieusement commencer.

Étant donné que différents formats numériques peuvent être utilisés pour stocker le même type de fichiers, tels que des documents, des photographies ou des vidéos, il est important de préciser les formats qui seront utilisés pour les substituts numériques créés à partir des éléments physiques.

Puisque le but de la numérisation du matériel est de le conserver à long terme, il est important de choisir des formats qui garantissent une visualisation et une utilisation correctes à l’avenir, malgré l’arrivée régulière de nouvelles générations de logiciels. Pour éviter que nos fichiers numérisés ne deviennent obsolètes, il est donc essentiel de choisir des formats résistants et durables aux changements dans le temps.

Cela signifie que nous devons rechercher des formats qui répondent aux normes nécessaires, qui sont bien connus et largement utilisés, avec un retour d’information substantiel et positif de la part des utilisateurs. Les formats que nous choisissons doivent également nous permettre d’ajouter des informations, des métadonnées, aux fichiers, et doivent bénéficier d’un support stable, soit commercial, soit par le biais d’une communauté open-source.

Évidemment, nous allons envisager différents ensembles de formats en fonction du type d’éléments que nous numérisons : documents, photographies, vidéos, etc. L’étendue des options de format peut décourager, et il n’existe pas de solution universelle idéale pour chaque type de contenu numérisé. La sélection, là encore, dépend des besoins et des caractéristiques spécifiques de l’archive. Néanmoins, il existe des formats qui ont fait la preuve de leur robustesse et de leur adaptabilité aux changements. La figure 11 donne un aperçu de ces formats pour les types d’éléments physiques les plus fréquemment numérisés : documents, images, audio et vidéo.

Figure 11. Aperçu des formats numériques robustes pour numériser différents types d’éléments physiques.
Type d’élément physique Format de fichier numérique fiable et résistant
Documents PDF
Photographies RAW or TIF
Diapositives et négatifs RAW or TIF
Audio WAV
Video MP4

Spécifier la ou les normes de qualité pour les fichiers numérisés

Il est crucial de définir cette norme en fonction des besoins spécifiques de l’archive et des utilisateurs prévus afin de garantir la qualité des copies numériques créées. C’est ce que l’on appelle généralement la « résolution » d’un document, d’une photographie ou d’une vidéo numérisée. Un substitut numérique de haute définition proposera une meilleure qualité d’image, permettra une utilisation plus large et sera plus fidèle à l’original qu’un fichier à faible résolution. Cependant, une résolution plus élevée signifie également que le substitut numérique aura une taille numérique plus importante, il prendra donc plus de place sur vos supports de stockage.

Image partagée par FAMDEGUA, organisation partenaire de GIJTR au Guatemala.

Par conséquent, lors de la spécification de la résolution des substituts numériques que nous allons créer, il est important de trouver un compromis entre les exigences de qualité de ces derniers et l’espace de stockage numérique demandé pour nos archives.

En tant qu’organisations de défense des droits de l’homme travaillant avec des matériaux uniques et de grande valeur, il est facile de succomber à la tentation de numériser tous vos matériaux à la plus haute définition possible pour garantir la meilleure qualité possible des substituts numériques. Cependant, cela ne serait ni réalisable ni durable, car cela créerait d’énormes difficultés non seulement pour le stockage, mais encore pour le traitement et la préservation de tels fichiers durablement. Les organisations doivent donc établir des spécifications de qualité de numérisation en fonction de leurs objectifs et de leurs capacités. À titre indicatif, le tableau 12 donne un aperçu de ce qui est souvent considéré comme des niveaux de résolution minimaux et optimaux pour numériser différents types d’éléments physiques.

Figure 12. Aperçu des niveaux de résolution minimaux et optimaux pour numériser différents types d’éléments physiques.
Type d’élément Qualité Minimale Qualité optimale
Documents 300 PPP (DPI en anglais) 600 PPP
Photographies 600 PPP 1 200 PPP ou plus
Diapositives et négatifs 1 200 PPP 2 400 PPP ou plus
Audio 16 bits et 44,1 kHz 24 bits et 96 kHz
video 1080 P ou 2 mégapixels Plus de 2 K ou 4 mégapixels.

Métadonnées : Description des fichiers numériques

Dans la section consacrée à la planification et à l’organisation d’une archive numérique, nous avons abordé l’important processus de description du matériel d’archives sur plusieurs de ses attributs pertinents. Nous avons également expliqué comment créer un lien entre ces descriptions et le matériel en les enregistrant dans un tableau. Ce processus est nécessaire, car il nous permettra ultérieurement de rechercher, localiser et identifier des éléments et des groupes d’éléments grâce à ces descriptions. Cela facilitera par ailleurs la gestion, la préservation et l’utilisation correcte des matériels d’archives. Le même principe s’applique aux substituts numériques.

Après la numérisation, les fichiers numériques que nous créons à partir des originaux physiques deviendront les éléments de notre archive numérique. Par conséquent, il faudra aussi les décrire et les lier à leurs descriptions pour que plus tard, on puisse les trouver, les consulter et les préserver.

Ces descriptions interconnectées d’éléments d’archives sont connues sous le nom de « métadonnées », ou encore de données sur les données.

Dans le processus de numérisation, il est essentiel de collecter les métadonnées pertinentes et de les rattacher aux substituts numériques que nous créons. En effet, sans ses métadonnées, un substitut numérique devient dépourvu de signification et inutilisable. Nous pourrions être incapables de le trouver ou de l’identifier, de comprendre son contenu, son contexte, son histoire, son créateur, ou encore de savoir où il doit être rangé dans l’archive.

La plupart des métadonnées que nous devons préserver sont liées aux fichiers d’archives numériques qu’elles décrivent. Elles sont créées et capturées à travers les outils logiciels que nous utilisons pour numériser, gérer et archiver les données. Cela comprend des métadonnées de base telles que la date de création/numérisation, ainsi que des types de métadonnées très techniques liées à la validité ou à l’intégrité des fichiers numériques. Les outils logiciels peuvent donc nous permettre de capturer les métadonnées. Des solutions techniques concrètes pour capturer et préserver différents types de métadonnées sont expliquées plus en détail dans le manuel. Cependant, notre préoccupation principale ici est de sélectionner les types de métadonnées que nous souhaitons enregistrer et conserver dans nos fichiers d’archives numériques.

Contrairement aux originaux physiques, les substituts numériques nécessitent et permettent la collecte de toute une gamme de métadonnées supplémentaires. Ceci comprend des métadonnées telles les spécifications techniques d’un fichier numérique d’archives, et des informations sur sa création et toute autre action numérique effectuée sur ce fichier. Pour les OSC travaillant avec des matériels relatifs aux droits de l’homme, ces métadonnées techniques sont importantes pour la conservation, mais également pour maintenir la crédibilité des substituts numériques et tracer leur chaîne de surveillance.

Il existe une gamme variée de types de métadonnées qui peuvent être collectées sur les substituts numériques pendant et après le processus de numérisation. Les types les plus utilisés, selon leur objectif et leur fonction, sont résumés dans la Figure 13.

Figure 13. Types of Metadata
Descriptif et structurel Administration et préservation Technique
Les métadonnées descriptives permettent de fournir des informations détaillées sur un enregistrement numérique et son contenu, afin de faciliter sa recherche.

Métadonnées structurelles : fournissent des informations sur la structure interne d’un fichier numérique, y compris des informations telles que la page, la section ou l’index.

Les métadonnées administratives font référence aux informations concernant la gestion d’un enregistrement numérique, telles que l’identité de son créateur ou les personnes autorisées à y accéder.

Les métadonnées de préservation permettent une utilisation facile des enregistrements numériques à l’avenir. Elles incluent des informations sur le logiciel ou le matériel requis pour ouvrir et utiliser un fichier numérique

Métadonnées techniques : non créées à des fins d’archivage, les métadonnées techniques sont souvent capturées automatiquement par le logiciel ou le matériel utilisé pour créer un document numérique. Par exemple, les photos créées par un appareil photo numérique capturent automatiquement des informations sur l’image et intègrent ces informations dans le fichier lui-même.

Le choix des métadonnées pour un projet de numérisation dépendra, entre autres, du contexte et des circonstances du projet, des ressources et des capacités de l’organisation, du type de matériel utilisé, de la façon dont il sera utilisé, ainsi que des types d’accès et des besoins des utilisateurs.

Les normes existantes pour les métadonnées et des profils spécifiques des métadonnées et des ensembles de métadonnées testés et largement utilisés fournissent des indications dans le dédale des nombreux types et des formats de métadonnées. Cependant, il existe aujourd’hui tellement de normes différentes pour les métadonnées et les ensembles de métadonnées, élaborées et proposées par tant d’organisations différentes, que leur nombre constitue un obstacle en soi pour identifier celles que nous voulons et devons utiliser.

Un bon point de départ est ce qu’on appelle le « Dublin Core Metadata Element Set ». Le Dublin Core est un ensemble très largement utilisé de 15 propriétés ou éléments pour décrire les fichiers numériques. Ces éléments sont souvent considérés comme un ensemble standard de métadonnées qui s’appliquent presque indépendamment du type de matériel d’archives, du thème de l’archive ou du type de logiciel utilisé dans le Système d’Archivage Numérique. En outre, à des fins de conservation, la norme de métadonnées PREMIS constitue une référence et une indication utiles (PREMIS: Preservation Metadata Maintenance Activity (Library of Congress)).

Quel que soit l’ensemble de métadonnées que nous choisissons pour notre collection, il y a encore d’autres décisions à prendre pour préciser les spécifications de leur numérisation. Parmi ces décisions, où les métadonnées seront-elles stockées ? Comment seront-elles capturées ? À quel moment du processus les capturons-nous ?

Quel que soit l’ensemble de métadonnées que nous choisissons pour notre collection, il y a encore d’autres décisions à prendre pour préciser les spécifications de leur numérisation. Parmi ces décisions, où les métadonnées seront-elles stockées ? Comment seront-elles capturées ? À quel moment du processus les capturons-nous ?

Rendre nos métadonnées interopérables nous permettra de gagner du temps, des ressources et d’éviter des complications dans le processus, notamment lors de l’étape suivante où nous devrons recueillir et rendre opérationnelles ces métadonnées, accompagnées des fichiers de substitution numériques auxquels elles sont liées, dans notre système d’archivage numérique. Nous aborderons ces défis liés au traitement des fichiers numériques et à leurs métadonnées plus en détail dans la prochaine section, lorsque nous examinerons comment l’ensemble de notre matériel – qu’il soit numérique natif ou non – doit être préparé pour être intégré dans notre système d’archivage numérique.

Sélection, configuration et test des équipements : logiciels, matériels et supports de stockage

Ce manuel ne peut pas fournir de recommandations sur des équipements de numérisation, des logiciels et des supports de stockage spécifiques, ni sur la manière dont ils doivent être installés et optimisés. De tels conseils seraient nécessairement trop généraux pour répondre aux exigences d’un projet spécifique, et ils risqueraient également de devenir rapidement obsolètes.

Image partagée par CONAVIGUA, organisation partenaire de GIJTR au Guatemala.

Toutefois, il convient de mentionner trois éléments qui doivent guider nos décisions dans le choix de la technologie à utiliser pour la numérisation : les caractéristiques du matériel, les capacités et les ressources de l’organisation, ainsi que les besoins et exigences des archives.

Tout d’abord, l’équipement que nous choisissons et la manière dont il sera configuré et réglé dépendent du matériel que nous numérisons : type, format, état de conservation, taille/longueur des originaux et quantité. Le matériel fragile, par exemple, nécessitera un équipement et une configuration plus perfectionnés et plus sensibles, tandis qu’une grande quantité de matériel exigera une solution permettant un traitement rapide.

En outre, nos décisions seront dictées par les ressources en termes de temps, d’expertise, de personnel, d’espace et de finances dont nous disposons. Chacun de ces aspects fixera les limites des solutions réalisables pour notre projet.

Information de dernière minute: Un Équipement Plus Coûteux Peut Faire Baisser Le Coût Global de la Numérisation
Gardons à l’esprit que, bien que la numérisation puisse être réalisée avec des budgets très variés, il est important de considérer les coûts totaux du projet plutôt que les coûts ponctuels pris

séparément, tels que le coût d’un élément de l’équipement. Le coût total du projet doit inclure les salaires du personnel, l’équipement, le temps, etc. Un équipement plus coûteux qui traite les éléments plus rapidement pourrait nous faire économiser beaucoup plus que le coût initial supplémentaire si l’on prend également en compte le temps et les salaires des employés.

Enfin, et surtout, les besoins de notre archive et de ses futurs utilisateurs, ainsi que les modes d’utilisation prévus pour les matériels que nous numérisons, doivent définir les exigences minimales et optimales de l’équipement.

En ce qui concerne le matériel et les logiciels, quelle que soit la forme physique des matériels (documents, photographies, vidéos ou autres), l’exigence sera de fournir des substituts numériques de qualité souhaitée dans des formats aptes à recueillir les métadonnées choisies. En ce qui concerne les supports de stockage, les aspects les plus importants à prendre en compte sont leur fiabilité (résistance à la perte de données), leur pérennité (utilisation sur une longue période) et leur évolutivité (possibilité d’étendre l’espace de stockage des données selon les besoins).

Une fois notre équipement choisi et livré, nous devons l’installer et le configurer correctement selon nos besoins de numérisation. Ce processus est important et doit être réalisé correctement, sinon, même un bon équipement ne donnera pas les résultats escomptés. Par conséquent, pour une organisation qui ne dispose pas d’une expertise interne, une assistance externe est recommandée à ce stade.

Cela est particulièrement vrai, car la mise en place et son affinement ne sont pas des activités ponctuelles. Le processus nécessite des tests répétés et des changements itératifs pour obtenir le résultat requis. Le processus de test devrait inclure un échantillon de différents groupes de matériels et impliquer l’ensemble du processus de numérisation d’un élément, également appelé le flux de travail de numérisation.

Image partagée par CONAVIGUA, organisation partenaire de GIJTR au Guatemala.


Mise en œuvre : Flux de numérisation

La dernière étape de la numérisation est la mise en œuvre de tous les différents éléments que nous avons planifiés, décidés et conçus au cours des étapes précédentes. La numérisation est un processus complexe, mais si toutes ses parties et fonctions sont bien planifiées et conçues à l’avance, sa mise en œuvre sera simplifiée et effectuée avec succès.

C’est pourquoi, en rassemblant tous les éléments, il est important d’élaborer un flux de travail de numérisation détaillé qui inclut toutes les actions et opérations, en commençant par l’examen et la préparation des objets physiques et de l’espace de travail, jusqu’à l’achèvement du flux de travail en stockant les substituts numériques créés et en effectuant des copies de sauvegarde.

Chaque projet de numérisation aura son propre flux de travail unique et une séquence spécifique d’actions et d’opérations de numérisation. De plus, certaines activités telles que le contrôle de la qualité seront répétées à différentes étapes du processus, tandis que d’autres seront exécutées simultanément ou en parallèle. Bien que les actions spécifiques et leur séquence soient adaptées à chaque projet concret, il est possible d’identifier les éléments clés requis dans tout flux de travail de numérisation : préparation, programmation du processus, numérisation, contrôle de la qualité, post- traitement, stockage et sauvegarde.

Préparation du matériel, des protocoles et de l’espace de travail

Le processus de numérisation commence par la mise en place d’un espace de travail propre et approprié, offrant suffisamment de place pour travailler avec les matériels physiques, l’équipement de numérisation et un ordinateur. En supposant que tout matériel fragile ou compromis a été retiré auparavant, nous pouvons procéder au nettoyage de notre matériel physique en enlevant tout élément ajouté, tel que des trombones ou des agrafes sur les documents.

Les informations et les spécifications de numérisation pertinentes, telles que le nom des fichiers, leur résolution, leur format et les métadonnées à enregistrer, doivent être disponibles et bien organisées.

Planification du processus

Dans le cadre du flux de travail, il est essentiel de programmer explicitement l’ensemble du processus. C’est-à-dire de déterminer, de documenter et d’appliquer avec attention la séquence précise d’opérations à effectuer au cours du processus de numérisation. La planification doit inclure un temps supplémentaire pour les événements imprévus.

Alerte aux ressources !
D’excellents exemples de flux de travail et de planification de la numérisation pour les organisations qui s’occupent de la conservation du patrimoine culturel sont fournis dans le

document « Technical Guidelines for Digitizing Cultural Heritage Materials », publié par la USA Federal Agencies Digital Guidelines Initiative.

Traitement de la numérisation

Le processus de numérisation variera considérablement selon le type, le volume, le contenu et les autres caractéristiques du matériel. Les documents papier et les photographies peuvent être numérisés assez rapidement, tandis que les documents audio et vidéo analogiques doivent être numérisés en temps réel. Les œuvres d’art et les documents historiques nécessitent des spécifications de numérisation distinctes pour leur paramétrage par rapport à un document administratif.

Quelles que soient les différences, il est bon de numériser, au début de chaque séance de numérisation, un élément de référence (document, photographie, court échantillon, audio ou vidéo) et d’examiner le résultat par rapport aux spécifications comme forme de contrôle qualité ad hoc. S’il y a un écart par rapport aux spécifications de numérisation, il est nécessaire de vérifier l’équipement et d’ajuster sa configuration. Cela permettra d’éviter la perte de séances de travail entières en raison de problèmes d’équipement ou de configuration.

Post-traitement

Le traitement post-numérisation des substituts numériques consiste à apporter de légères corrections à un fichier pour l’ajuster à une norme ou à une spécification de projet particulières. Il peut s’agir d’actions telles que l’augmentation de la netteté du son dans un fichier vidéo, ou de la luminosité d’une image sur un document.

Le post-traitement peut également inclure la création de copies secondaires du fichier. Ces copies sont créées à des fins spécifiques, telles que la fourniture d’un accès, la production de reproductions de haute qualité, ainsi que la création de documents entièrement consultables à partir de fichiers d’images initialement non consultables, grâce à l’application d’un logiciel de reconnaissance optique de caractères (OCR en anglais). En substance, en exécutant un logiciel d’OCR sur l’image numérisée d’un document, nous ajoutons une couche de texte sur ce fichier image, pour que d’autres logiciels puissent le lire, ce qui rend le document complètement consultable. Ceci est essentiel pour rendre les archives des droits de l’homme plus accessibles et plus visibles, ce qui est souvent un objectif clé de leur numérisation. Étant donné l’importance de l’application de la technologie OCR pour créer des fichiers texte complètement consultables à partir des fichiers d’image de substitution numérique, nous avons fourni une série de recommandations sur son utilisation dans l’annexe IV.

Contrôle de la qualité

Le contrôle de la qualité de la numérisation comporte deux éléments et tous deux peuvent et doivent être effectués à plusieurs périodes du processus, c’est-à-dire pendant et après la numérisation, ainsi qu’à intervalles réguliers au cours du projet. Le premier élément consiste à s’assurer que tous les objets physiques destinés à la numérisation ont, en effet, été numérisés. Cependant, cette opération doit être accompagnée d’une vérification manuelle des échantillons pour confirmer que les substituts numériques correspondent bien à leurs originaux physiques.

Le deuxième élément du contrôle de la qualité consiste à s’assurer que les spécifications de la numérisation ont toutes été respectées, que les substituts numériques sont créés en respectant le format et la qualité déterminés, avec des noms de fichiers appropriés, et que les métadonnées sélectionnées ont été capturées. Pour ce faire, nous devrons utiliser une combinaison de contrôles de qualité manuels et automatisés grâce à des outils logiciels et des applications tels que « JHOVE ».

Stockage des produits De numérisation

Image partagée par ASOMOVIDINQ, organisation partenaire de GIJTR au Guatemala.

À la fin du processus, nous devons temporairement stocker les produits de la numérisation sur un ou plusieurs supports de stockage, jusqu’à ce qu’ils soient préparés et intégrés dans un Système d’Archivage Numérique. Le résultat final du processus doit consister en un ou plusieurs substituts numériques de l’original, souvent appelés « fichiers maîtres ». Ceux-ci sont stockés dans une structure de répertoire de fichiers créée à cet effet.

Les fichiers maîtres sont les fichiers de la meilleure qualité possible produits par numérisation. Ils sont destinés à être préservés à long terme sans perte de caractéristiques essentielles. Le nombre de fichiers maîtres que nous créerons dépendra du contenu des originaux et des utilisations prévues du substitut numérique.

En plus des fichiers maîtres, nous pouvons également produire un certain nombre de fichiers secondaires, appelés fichiers d’« accès » ou de « service ». Ces fichiers sont créés à partir du fichier maître et optimisés pour l’utilisation prévue, par exemple, pour le web ou pour la recherche.

Pour les organisations travaillant avec de la documentation sur les violations des droits de l’homme, il est particulièrement important de noter que ces fichiers dérivés sont utilisés pour la création de fichiers dont le contenu textuel est entièrement consultable grâce à l’OCR. La pratique habituelle est de stocker uniquement les fichiers maîtres à des fins de conservation. Cependant, étant donné l’importance des versions OCR (entièrement consultables) des documents pour les archives des droits de l’homme, il est recommandé de créer et de stocker également deux fichiers lisibles, l’un pour l’accès et l’autre à des fins de conservation. Il en va de même pour les fichiers maîtres : il est préférable de créer, si possible, au moins deux copies de sauvegarde et de les stocker sur deux supports de stockage distincts.

Préservation et préparation à l’intégration


Nous sommes maintenant pleinement entrés dans l’univers de l’archivage numérique.

Tout notre matériel est désormais sous forme numérique.

Nous disposons également d’un dépôt d’archives numériques sous forme d’un Système d’Archivage Numérique.

Pour finaliser le processus de création d’une archive numérique, nous devons maintenant utiliser un ensemble de techniques d’archivage numérique basées sur des logiciels pour traiter à la fois notre matériel numérisé et nativement numérique. Ceci est nécessaire pour le préparer à son intégration et à sa conservation à long terme dans le Système d’Archivage Numérique. Il est également nécessaire de mettre en place et de préparer notre Système d’Archivage Numérique, y compris ses bases de données, ses outils logiciels et ses applications, afin de recevoir, stocker et préserver correctement nos matériels d’archives numériques.

Pour ce faire, nous devons d’abord passer en revue nos outils d’archivage de base (le tableau de la structure archivistique et les descriptions du matériel), qui seront sous forme de bases de données et de fichiers texte contenant des répertoires de fichiers, des métadonnées et une documentation des données. Il est donc essentiel de clarifier deux concepts clés uniques à l’archivage numérique – les métadonnées et la documentation des données – pour comprendre comment notre contenu d’archives numériques est organisé, décrit, lié, géré et utilisé dans un système d’archivage numérique.

Qu’est-ce que les métadonnées et la documentation des données ?.

Les métadonnées sont des données, des informations sur les données, concernant le contenu d’archives numériques. Elles sont stockées sous une forme structurée convenant à un traitement logiciel. Les métadonnées correspondent globalement aux descriptions archivistiques du contenu numérique. En effet, les descriptions de notre contenu que nous avons réalisées lors de la phase précédente deviendront désormais des métadonnées dans le Système d’Archivage Numérique. Elles s’ajouteront ainsi à d’autres types de métadonnées, telles que les métadonnées techniques générées par le système ou les métadonnées sur l’historique d’accès d’un élément. Les métadonnées sont donc nécessaires pour atteindre les objectifs de conservation et d’accès à long terme, car elles permettent de maintenir l’intégrité, la qualité et la facilité d’utilisation du contenu.

La documentation des données fournit des informations sur le contexte de notre contenu d’archives numériques. Elle est souvent fournie sous forme textuelle ou sous d’autres formats compréhensibles par les humains. En fait, la documentation des données complète les métadonnées et fournit des informations qui permettent aux autres d’utiliser le contenu archivé de manière fluide, précise et naturelle. Par exemple, si nous avons mené une enquête auprès de victimes et que nous conservons leurs questionnaires remplis comme données d’archives numériques, nous devons également conserver la documentation relative aux données, telle qu’un document détaillant la conception et la méthodologie de l’enquête. Étant donné que la documentation des données se réfère aux « données sur les données », elle peut être considérée comme une forme particulière de métadonnées qui fournit un contexte et qui est enregistrée dans un format facilement compréhensible par les humains.

Préparation des métadonnées et de la documentation des données

Image partagée par CCJ, organisation partenaire de GIJTR au Colombia.

Pendant que nos fichiers numériques sont stockés et sauvegardés en toute sécurité sur des supports de stockage, en attendant d’être intégrés et archivés dans notre système d’information numérique, nous devons effectuer quelques tâches. Il s’agit de préparer nos métadonnées et notre documentation des données pour le processus à venir, afin d’assurer une intégration sans heurts et un archivage correct des fichiers.

Cela implique d’avoir un enregistrement clair et bien organisé de la documentation des données et des métadonnées créées jusqu’à ce stade du processus – ce qu’elles contiennent et comment elles sont liées les unes aux autres. Cela comprend des tableaux/bases de données avec des listes (ou des répertoires) des noms de fichiers, des métadonnées des fichiers et de la documentation des données. Dans les chapitres précédents, nous avons décrit comment ces documents sont développés ou générés par la planification, la création de l’inventaire, l’examen, la sélection, l’organisation, la description et la numérisation du matériel. Par conséquent, à ce stade du processus, nous devrions avoir créé les métadonnées et la documentation des données suivantes :

A. Au départ, ce document était un simple inventaire d’identification. Pourtant, au fil du temps, grâce à l’organisation et à la description minutieuses des archives, il est devenu le Tableau de la Structure des Archives. Il contient des métadonnées sur la structure des archives, le regroupement des fichiers en séries, sous-séries et dossiers, ainsi que des métadonnées descriptives et techniques supplémentaires que nous avons choisi d’intégrer.

B. Grâce au processus de numérisation, nous avons créé des bases de données dans lesquelles nous avons enregistré chaque substitut numérique produit de même que les métadonnées sélectionnées le concernant.

En outre, les matériels et logiciels de numérisation ont également généré des bases de données supplémentaires contenant des métadonnées que nous avons sélectionnées pour capturer les attributs techniques des substituts numériques et/ou l’historique des actions effectuées sur eux tout au long du processus de numérisation.

Enfin, nous avons peut-être aussi produit des documents textuels contenant de la documentation sur les données, des informations sur le contexte des substituts numériques que nous avons créés, ou sur le processus de numérisation lui-même. Cela permettra aux autres de comprendre comment nos données peuvent être interprétées ou utilisées.

C. Une base de données de fichiers numériques natifs pour la préservation avec leurs métadonnées de base existera déjà ou sera facilement créée à l’aide d’outils logiciels simples tels que « DROID » ou « IngestList ».

D. Il peut exister d’autres tables/bases de données ou fichiers texte préexistants contenant des métadonnées et/ou de la documentation sur certains groupes d’éléments ou sur l’ensemble de la collection.

Pour que notre contenu numérique, nos métadonnées et notre documentation de données soient intégrés correctement dans le Système d’Archivage Numérique, nous devons fournir des instructions au logiciel du système sur la nature de ces documents et sur leur lien les uns avec les autres. Ainsi, le système peut associer les métadonnées d’une base de données aux éléments correspondants décrits dans une autre base de données, puis les relier à la documentation des données qui fournit des informations sur le contexte des éléments concernés.

Dans le cadre des préparatifs, nous devons sûrement également diviser, fusionner ou combiner manuellement certaines de nos tables/bases de données afin de les transformer dans un format plus approprié.

Les étapes précises à suivre dans le processus de préparation de nos métadonnées et de notre documentation de données, ainsi que la manière dont nous allons entrer des informations sur leurs interrelations dans le Système d’Archivage Numérique, dépendent des caractéristiques de l’archive et du système lui-même.

Pourtant, indépendamment de ces spécificités, nous aurons toujours besoin d’une vue d’ensemble claire, d’une carte ou d’un schéma de nos métadonnées et de notre documentation de données, et de la manière dont elles sont liées, avant de pouvoir commencer l’intégration.

Conservation et préparation des données pour L’archivage

Nous pouvons maintenant passer aux actions de conservation et de préparation de nos données numériques pour l’intégration et l’archivage.

Nettoyage

Avant de travailler sur des données numériques destinées à la conservation, il est recommandé de procéder à une analyse antivirus en connectant le support de stockage à un ordinateur préalablement analysé qui n’est pas connecté à un réseau local ni à Internet.

Sauvegarde

Ensuite, nous devons nous occuper de la sauvegarde. À la fin du processus de numérisation, nous avons déjà créé des sauvegardes des fichiers maîtres des substituts numériques. Si ce n’est pas encore fait pour les données numériques natives, nous devrions créer maintenant des copies de sauvegarde en produisant deux exemplaires et en les stockant sur des supports de stockage distincts, idéalement dans deux emplacements différents.

Nommage des fichiers

Alors que les fichiers de nos substituts numériques ont déjà été nommés conformément à la convention de nommage que nous avons développée et adoptée, nos fichiers numériques natifs peuvent encore porter leur nom d’origine. Nous devons donc appliquer notre convention de nommage aux fichiers nativement numériques et les nommer en conséquence. Leurs noms contiendront ainsi les mêmes éléments – identification, description, technique ou autre – que ceux que nous avons sélectionnés et utilisés pour les substituts numériques, de la manière décrite dans le chapitre sur la numérisation. Il existe des outils logiciels relativement simples et faciles à utiliser qui peuvent effectuer cette tâche de renommer nos fichiers numériques automatiquement selon les paramètres que nous avons définis, tels que « Rename Master » et « File Renamer Basic ».

Métadonnées

Dans la section précédente, nous avons fait le point sur les métadonnées et la documentation des données que nous avons recueillies jusqu’à présent dans le processus. Comme nous l’avons expliqué, nous devrons intégrer nos métadonnées dans un format spécifique et fixe, reconnu par notre Système d’Archivage Numérique. Ce format spécifique de métadonnées sera fondé sur la norme que nous avons choisie de mettre en œuvre plus tôt dans le processus, et que nous devons maintenant appliquer pour intégrer les données dans notre Système d’Archivage Numérique.

Si, comme conseillé dans ce manuel, vous avez déjà pris une décision sur la norme que vous utiliserez pour la collecte de métadonnées et l’avez mise en œuvre lors des phases de description et de numérisation, alors vos métadonnées auront été recueillies conformément à cette norme. Par conséquent, vous devriez être en mesure de les classer et les préparer pour l’intégration conformément au format reconnaissable par le système en effectuant seulement des classements techniques de base, ou la mise en correspondance de nos métadonnées avec la norme. Par exemple, dans la section sur la numérisation, nous avons indiqué que la norme de métadonnées de base, appelée « Dublin Core », est prise en charge par la plupart des logiciels d’archivage numérique. Par conséquent, si nous avons appliqué cette norme pour la collecte des métadonnées depuis le début et que nous avons sélectionné le logiciel qui la prend en charge, nous pourrons maintenant traduire les métadonnées collectées dans le format que notre Système d’Archivage Numérique peut reconnaître et intégrer correctement.

Conservation des Métadonnées

Dans la discussion précédente sur les métadonnées et l’importance de leur collecte et de leur gestion, nous avons mentionné le rôle clé qu’elles jouent dans la conservation à long terme des données d’archives numériques.

Ce point devient encore plus important et pertinent à ce stade du processus, notamment en ce qui concerne la préparation de l’intégration et de la conservation à long terme de notre matériel. Et ce, parce que avant d’intégrer et d’archiver nos données, nous devons nous assurer de capturer les métadonnées nécessaires qui permettront à notre matériel numérique d’être conservé de manière adéquate, de maintenir son authenticité et de rester utilisable à l’avenir. Pour comprendre quel ensemble essentiel de métadonnées, nous devons capturer pour préserver nos précieuses données, nous devons apprendre à connaître un peu mieux nos fichiers numériques et leurs formats, y compris des éléments tels que la validité, la qualité et l’intégrité de nos fichiers.

Identifier et convertir les formats de fichiers

Dès le début du processus de numérisation, nous avons établi la nécessité de stocker notre matériel numérique dans des formats de fichier adaptés à la conservation à long terme. Il s’agit principalement de formats qui bénéficient d’une large communauté d’utilisateurs ou de soutien et qui se sont avérés adaptables aux changements dans le temps. C’est également pourquoi on les appelle souvent des formats « sans perte » en opposition aux formats « avec perte » qui ont tendance à perdre en qualité et/ou à se dégrader avec le temps.

Notre matériel numérisé a déjà été stocké dans des formats de préservation appropriés lors de la numérisation. Il est maintenant important de veiller à ce que notre matériel nativement numérique soit aussi stocké dans des formats de préservation adaptés.

Il est d’abord nécessaire d’identifier le format de nos fichiers numériques natifs, ce qui peut être fait avec l’aide de logiciels spécialisés tels que « DROID » ou « Siegfried ». Ces logiciels nous permettent d’identifier automatiquement le format de lots de nos fichiers numériques. Nous procéderons alors au changement de format des fichiers qui nécessitent, selon nous, un nouveau format, adapté à la conservation. Un logiciel spécialisé dans la conversion des fichiers en différents formats peut être très utile dans ce processus. Il existe des logiciels spécifiques à chaque format (par exemple, « Convertisseur audio/vidéo en format WAV ») qui convertissent les fichiers audio et vidéo en format WAV, ou « Conversion CDS », qui permet de convertir des documents, des présentations et des images entre différents formats de logiciels.

’’’L’importance d’utiliser des formats de préservation appropriés’’’
Les formats sans perte produisent également des fichiers de plus grande taille. Par conséquent, pour les grandes collections et les petites organisations, telles que les OSC, cela peut représenter un défi en termes de capacités de stockage supplémentaires qu’ils peuvent nécessiter. Toutefois, ce manuel déconseille de faire trop de compromis dans le choix des formats de fichiers, car l’utilisation de formats de conservation appropriés est essentielle pour toutes les actions de conservation suivantes et la réussite du processus dans son ensemble.

Validation des fichiers

L’étape suivante de la préparation de votre contenu numérique pour une conservation adéquate dans le Système d’Archivage Numérique est la validation de nos fichiers, c’est-à-dire la confirmation qu’ils sont vraiment ce que nous pensons qu’ils sont.

En substance, la validation des fichiers permet de vérifier si le format d’un fichier est approprié et correct – autrement dit, s’il est valide. Ainsi, grâce à la validation du format de fichier, nous pouvons vérifier si un fichier est conforme à la spécification dudit format (les normes qu’un format de fichier spécifique tel que .jpg, .doc. ou TIFF doit respecter). Pour donner un exemple, la validation du format de fichier pourrait être comparée à l’inspection de boîtes ou de dossiers dans une archive physique pour s’assurer qu’ils ne sont pas endommagés. Sinon, des éléments pourraient tomber ou être endommagés.

Dans l’archivage numérique, la validation du format de fichier est particulièrement importante pour assurer la conservation et l’accès à long terme, pour plusieurs raisons. Les fichiers dont le format n’est pas valide sont difficiles à gérer dans le temps, surtout lorsqu’il est nécessaire de les convertir ou de les migrer. De plus, l’accès pourrait devenir difficile, voire impossible, car les fichiers avec des formats non conformes deviennent de plus en plus difficiles à ouvrir et à utiliser au fil du temps. Enfin, les fichiers qui ne sont pas valides seront plus difficiles, voire impossibles, à restituer correctement par les futurs logiciels.

Bien entendu, vous n’aurez pas à vérifier manuellement la conformité d’un format de fichier à ses spécifications. Des logiciels sont disponibles pour remplir cette fonction et identifier les fichiers non valides, en créant des rapports à cet effet. Nous vous avons déjà parlé d’un de ces logiciels – « JHOVE », dans le chapitre sur le contrôle de qualité à la fin du processus de numérisation. Cependant, il existe d’autres outils, la plupart spécialisés pour un certain groupe de formats.

’’’Les actions de préservation devraient immédiatement suivre la numérisation’’’
La validation du format de fichier et d’autres actions de préservation Ainsi que les procédures de contrôle de qualité, doivent être effectuées immédiatement à la fin du processus de numérisation. Cela peut être fait en alternative ou en complément des préparatifs d’intégration, en fonction des besoins et du flux de travail spécifiques d’un projet.


Intégrité

L’intégrité, un élément crucial pour préserver long terme des fichiers ainsi que pour maintenir leur authenticité et leur utilisabilité, se définit comme un état d’immuabilité ou de permanence. En substance, la vérification de l’intégrité nous permet de déterminer si un fichier a été altéré ou corrompu au fil du temps et de suivre et d’enregistrer ces changements.

Pour ce faire, nous utiliserons l’intégrité pour enregistrer l’état initial d’un fichier avant son intégration, en prenant son « empreinte numérique ». En effet, le logiciel « Fixity » va enregistrer un certain nombre de caractéristiques techniques spécifiques à ce fichier et créer un code alphanumérique – une « somme de contrôle » (checksum en anglais). Cette dernière, comme les empreintes digitales pour les humains, sera unique pour ce fichier et ne changera pas avec le temps. La somme de contrôle d’un fichier sera enregistrée dans le cadre de ses métadonnées, pour que nous puissions toujours effectuer le même contrôle d’intégrité et établir si la somme de contrôle du fichier a changé, c’est-à-dire si le fichier a changé. L’enregistrement de ce type de métadonnées de conservation est crucial pour établir et confirmer la « chaîne de surveillance » d’un élément numérique.

En plus de nous permettre d’établir les changements qu’un fichier a subis au fil du temps, le contrôle de l’intégrité est également utile lorsque nous migrons des fichiers entre différents supports, unités de stockage ou dépôts numériques. Il est fortement conseillé d’appliquer un contrôle d’intégrité après chaque transfert de fichier, afin de déterminer les changements qui ont pu se produire durant la migration du fichier.

En outre, la vérification de l’intégrité nous permettra de nous assurer que toutes les copies d’un fichier que nous créons pour la sauvegarde sont complètes et correctes. La somme de contrôle d’intégrité peut aussi être donnée aux autres utilisateurs potentiels du fichier, afin qu’ils puissent vérifier qu’ils ont reçu le bon fichier. Il existe une gamme de logiciels capables d’effectuer la vérification d’intégrité, tels que « Checksum » et « Exact. File », pour n’en citer que quelques-uns.

Contrôle de la qualité

De nombreux problèmes peuvent survenir avec les fichiers numériques lors de leur création, de leur gestion et de leur stockage, avant qu’ils n’atteignent le stade d’intégration. Pendant la numérisation et le transfert de fichiers, les fichiers peuvent être endommagés, rendus incomplets ou subir une réduction de qualité. Il est donc recommandé d’effectuer un contrôle de qualité aussi complet que possible de tous ses fichiers numériques, avant leur intégration et leur archivage. Il existe toute une série d’outils qui effectuent soit une action spécifique, soit un groupe d’actions de contrôle de la qualité. Citons, par exemple, un logiciel comme le File Analyzer et le Metadata Harvester de NARA, qui dispose d’un large éventail de fonctions, ou, à l’opposé, « Fingerdet », à fonction très spécifique, qui permet de détecter les empreintes digitales sur les éléments numérisés.

Élimination des doublons et nettoyage des fichiers

Pendant que nous y sommes, nous devrions profiter de cette occasion pour faire un peu de ménage dans nos fichiers. Lors de la collecte, de l’organisation, de la copie et du stockage temporaire de nos fichiers numériques, il est probable que nous ayons créé des doublons ou que des dossiers contiennent des fichiers cachés ou des fichiers qui n’appartiennent pas à ces dossiers. Les doublons et autres fichiers indésirables dans votre collection peuvent être source de confusion, en plus d’occuper inutilement de l’espace sur votre stockage. Il est donc bon de les supprimer avant l’intégration. En fonction de la taille de la collection, cette tâche peut être très chronophage et source d’erreurs si elle est effectuée de manière manuelle. Il existe heureusement des outils logiciels qui peuvent le faire de manière efficace et fiable. Nous pouvons citer : « FolderMatch » et « CloneSpy ».

Métadonnées sur les données privées, sensibles, confidentielles ou soumises aux droits d’auteur

Étant donné l’importance de la sécurité des données lors de l’archivage de matériels relatifs aux violations des droits de l’homme, il est fortement recommandé, à ce stade, avant que le contenu ne soit intégré, de procéder à une révision supplémentaire du matériel pour le respect de la vie privée, la sensibilité, la confidentialité et les droits d’auteur.

Au cours du processus de description, nous devrions déjà avoir identifié des groupes de matériels ou même des éléments individuels qui contiennent des informations personnelles ou sensibles. À ce stade, nous devons nous assurer que toutes les métadonnées concernant ce matériel sont collectées et liées aux éléments de manière adéquate. En fonction du matériel et de la politique d’accès de l’archive propriétaire, il peut être utile, voire nécessaire, d’ajouter d’autres métadonnées ici, en particulier celles contenant des instructions pour la gestion future liée aux droits d’auteur, à la protection ou à l’accès restreint au matériel.

Heureusement, il existe des normes et des logiciels développés pour faciliter ce processus.

Normes

Les normes relatives à la sélection, la collecte et l’utilisation des métadonnées comprennent souvent toute une série de métadonnées de conservation. L’application de ces normes de métadonnées favorise la conservation des éléments numériques et garantit leur utilisation à long terme. Une série de normes a été développée pour gérer la conservation et les métadonnées de manière générale. Une telle amplitude d’options peut fréquemment empêcher d’avoir une vision claire. Nous recommandons donc d’utiliser la norme « Preservation Metadata Implementation Strategies » (PREMIS) comme point de départ.

Ressources à ne pas manquer!
PREMIS est devenue la norme internationale reconnue pour les métadonnées de préservation. Un avantage, mais aussi une limite de la norme PREMIS est qu’elle doit être adaptée pour répondre aux exigences du contexte spécifique ; il ne s’agit pas d’une solution toute prête qu’un service d’archives peut simplement et directement appliquer à ses données. Certains éléments de PREMIS peuvent ne pas être pertinents et une organisation peut aussi estimer qu’il faudra des informations supplémentaires, au-delà de ce qui est défini par la norme PREMIS, pour répondre à ses besoins.

À noter que les différentes normes de métadonnées seront souvent intégrées (ou du moins compatibles) aux logiciels que nous utilisons pour les fonctions de collecte et de gestion des métadonnées.

Outils logiciels

Jusqu’ici, nous avons cité des exemples de différentes solutions logicielles qui peuvent effectuer des fonctions spécifiques de collecte et de gestion des métadonnées de conservation, telles que l’identification des fichiers, la conversion, les contrôles de validité et d’intégrité. Ces outils sont parfois effectivement conçus pour exécuter une seule fonction spécifique, ou un groupe de fonctions similaires. Cependant, ces outils individuels sont également fréquemment combinés pour donner une solution logicielle plus large, capable de fournir une gamme complète de fonctions liées à la conservation et aux métadonnées. De plus, ces outils multifonctionnels destinés aux métadonnées sont ensuite intégrés dans des solutions logicielles complètes qui peuvent gérer l’ensemble du processus d’archivage numérique au sein d’un Système d’Archivage Numérique donné.

Dans la section de planification de ce manuel, où nous discutons de la sélection d’une solution logicielle pour notre Système d’Archivage Numérique, nous examinons si l’option que nous choisissons comprend une prise en charge intégrée de la norme de métadonnées sélectionnée, ainsi que tous les outils logiciels nécessaires pour collecter et gérer les métadonnées de préservation conformément aux exigences de notre archive. À ce stade, nous pourrions opter pour une solution commerciale, qui propose une option tout-en-un intégrant toutes les normes et tous les outils nécessaires. Un autre choix serait de construire une solution qui réponde à nos besoins grâce à différents logiciels interopérables, chacun remplissant une des fonctions de conservation.

Cette étape de préparation des données pour l’intégration et la capture des métadonnées de conservation met en évidence l’importance de notre choix de logiciel d’archivage numérique et son impact sur les technologies et les outils informatiques que nous pouvons et devons utiliser. Par conséquent, les outils informatiques spécifiques que nous utiliserons durant cette phase, ainsi que par la suite, dépendront entièrement du type de solution que nous choisirons pour notre logiciel d’archivage numérique.

La criminalistique numérique
Si l'on travaille avec des formats de stockage de données plus anciens ou du matériel numérique dont l'origine et les caractéristiques ne sont pas claires - en particulier lorsqu'il faut établir un historique du matériel et une "chaîne de possession" - un domaine de développement prometteur est l’investigation numérique, qui offre des avantages en matière d'authenticité, de responsabilité et d'accessibilité numériques. Cette technologie forensique peut permettre d'identifier les problèmes de confidentialité, d'établir une chaîne de contrôle pour la provenance, d'utiliser une protection en écriture pour la capture et le transfert, et de détecter la falsification ou la manipulation. Elle peut également extraire et exploiter les métadonnées et les contenus pertinents, permettre une indexation et une recherche efficaces par les conservateurs et faciliter le contrôle d'audit et les privilèges d'accès granulaires. Les technologies de criminalistique numérique varient considérablement en termes de capacité, de coût et de complexité, certains équipements pouvant être gratuits ou onéreux. Certaines techniques sont très simples à utiliser, tandis que d'autres doivent être appliquées avec beaucoup de soin et de sophistication. Il existe un ensemble de plus en plus riche d'outils de criminalistique à source ouverte (par exemple, "BitCurator") dont l'obtention et l'utilisation sont gratuites..

Préparation du système d’archivage numérique

La mise en place et la préparation du Système d’Archivage Numérique pour sa première intégration de fichiers numériques est un processus complexe qui nécessite du temps, des efforts, de la patience et des connaissances, et des compétences informatiques relativement avancées.

Les systèmes d’archivage numérique ne peuvent pas simplement être installés et utilisés immédiatement, comme on a l’habitude de le faire avec les logiciels commerciaux. Cela s’explique par le fait que tout Système d’Archivage Numérique doit être informé de chaque aspect de ses opérations. En fonction de nos besoins, nous devons définir les paramètres dans le système, créer ou concevoir des bases de données, établir des liens entre les données et les métadonnées, etc. Pour fournir ces « instructions » à notre logiciel, il peut être nécessaire de simplement remplir un formulaire électronique ou de choisir une option dans un menu déroulant, mais cela peut également nécessiter des compétences avancées en codage informatique et autres compétences informatiques.

Image partagée par AVIPA, organisation partenaire de GIJTR au Guinea.

Selon le type de solution logicielle choisie pour le Système d’Archivage Numérique, ce processus nécessite plus ou moins de temps et d’expertise. La règle empirique que nous avons appliquée à la sélection du logiciel s’applique également ici. Les solutions commerciales seront plus simples à mettre en place et à utiliser, mais elles offriront probablement moins d’options d’adaptation. Les solutions établies à partir d’un ou des logiciels libres nécessitent généralement plus d’expertises informatiques et de temps, mais peuvent fournir des solutions plus adaptées et personnalisées.

Intégration

C’est le moment où tous les efforts et le processus menés jusqu’à présent se rejoignent et se concrétisent dans la création de notre archive.

Cependant, il ne faut pas se faire d’illusion en pensant qu’il suffit de cliquer sur un bouton, de faire une pause, et de revenir pour constater que toutes nos données, métadonnées et documentation sont parfaitement intégrées et connectées entre elles. Au contraire, le processus d’intégration devra se faire en plusieurs étapes en transférant le matériel par groupe. Pendant le processus, il est également probable que nous rencontrions des erreurs, que nous découvrions des spécifications incorrectes dans le système, ou d’autres problèmes similaires qui devront être résolus. Nous devrons donc ajuster le système et répéter le processus d’intégration.

Après l’intégration de chaque groupe de matériel, il faut produire au moins une copie maîtresse d’archivage de chaque élément, au moins deux copies de sauvegarde et toute copie de travail dérivée dont nous pourrions avoir besoin.

Il est recommandé de créer des copies de sauvegarde et de les stocker conformément aux règles de bonnes pratiques décrites précédemment (par exemple, créer plusieurs copies sur deux supports de stockage différents et les stocker à des endroits distincts).

En dernière étape, il faut effectuer le même ensemble d’actions de conservation que nous avons appliquées à notre contenu avant l’intégration. Il s’agit notamment d’utiliser un logiciel antivirus pour le matériel, ainsi que toutes les copies de sauvegarde et de vérifier l’intégrité, la validité et la qualité de chaque fichier.

Si nous avons pris en compte tous les éléments de base et que nous avons vérifié que tout est prêt, le processus devrait aboutir avec succès. Nous pourrons alors profiter du résultat de notre travail : notre précieux matériel, autrefois disséminé dans le bureau et dans des unités de stockage ou des sous-sols, est désormais transformé en une archive numérique.

À l’étape suivante, nous allons agir pour garantir que les objectifs de notre archive soient atteints, c’est-à-dire qu’elle préserve notre matériel sur le long terme de manière sûre et qu’elle offre un accès aussi large que possible à son contenu.

06:00