Portail BAnQ Nétiquette

Dix ans de collecte du Web québécois

5 mars 2019 par Carnet de la Bn   Pas de commentaires

Martine Renaud
Bibliothécaire, Direction du dépôt légal et des acquisitions

 

En 2009, après plusieurs années de travaux et de réflexion, la Bibliothèque nationale a entrepris la collecte et l’archivage des sites Web québécois. Nous avons décrit, dans un article précédent, ce patrimoine documentaire souvent volatile et éphémère. Les premières collectes ont été effectuées dans le cadre d’un projet pilote. 

 

 

L’actualité de 2009

 

Ces premières collectes avaient une portée modeste : environ 25 organismes gouvernementaux, essentiellement des ministères.

Qu’apprend-on en examinant les sites collectés en 2009? Ils reflètent bien sûr l’actualité de l’époque. On faisait grand cas en 2009 de l’épidémie d’influenza. Qui se souvient du célèbre virus H1N1? Une vaste campagne de vaccination battait son plein à l’hiver 2009 et le gouvernement québécois avait alors un site consacré à ce sujet :

 

 

Le site Pandémie influenza, qui n’existe plus aujourd’hui.

 

 

Sur le site du ministère des Finances, on trouvait plusieurs documents sur les effets de la crise financière mondiale de 2008 sur l’économie québécoise :

 

 

Site du ministère des Finances, 2009.

 

 

Toujours d’actualité

Si la pandémie de grippe et la crise financière semblent bel et bien derrière nous, certains sujets de l’époque sont encore d’actualité.  En 2009, on pouvait consulter les rapports déposés dans le cadre des consultations de la commission Bouchard-Taylor sur le site de celle-ci :

 

 

Site de la Commission de consultation sur les pratiques d’accommodement reliées aux différences culturelles, qui n’existe plus.

 

La question des accommodements et des différences culturelles demeure très actuelle.

 

 

L’Assemblée nationale

 

Le site de l’Assemblée nationale offre également des perspectives historiques intéressantes. On peut, entre autres, y consulter les pages consacrées à François Legault, alors député du Parti québécois, à Éric Caire, alors député  de l’Action démocratique du Québec et à Marguerite Blais, alors députée du Parti libéral du Québec.

 

 

 

Le Web québécois collecté depuis 2009

 

Dix ans plus tard, la portée des collectes et leur nombre ont considérablement augmenté et se sont également beaucoup diversifiés; BAnQ ratisse maintenant plus large que le seul Web gouvernemental. 

Voici un tableau comparatif des collectes de 2009 et de celles en date du 1er mars 2019 :

 

  2009 2009-2019
 Nombre de collectes 16 12 823
 Nombre d’organismes dont le site Web est diffusé 25 1 295
 Documents collectés 17 026 257 149 647 697
 Taille totale des archives (téraoctets) 0,90 31

 

 

Il est également intéressant de constater la progression de l’utilisation des images ainsi que des ressources audio et vidéo :

 

  2009 2009-2019
Type de documents collectés Nombre Taille (Gb) Nombre Taille (Gb)
 Pages HTML 15 073 735 306 122 146 682 4 967
 Images 1 275 183 49 18 159 220 1 454
 Applications(PDF,Word,Excel,etc.) 644 117 526 5 702 995 3 695
 Documents vidéo 17 009 19 1 309 413 20 288
 Documents audio 7 458 4 79 660 320
 Autres 8 755 0,01 2 249 727 235

 

La multiplication des applications utilisées est un défi majeur pour les institutions qui collectent le Web. Les membres de l’International Internet Preservation Consortium (IIPC), qui assurent la maintenance de Heritrix, le robot collecteur que BAnQ utilise (une création d’Internet Archive), tentent à chacune de ses mises à jour de l’adapter aux nouvelles applications utilisées. Les contenus dynamiques sont souvent les plus difficiles à collecter.

 

Un contenu à explorer…

 

Depuis 2009, les collectes se sont progressivement élargies. Elles offrent maintenant plusieurs corpus susceptibles d’intéresser les chercheurs, particulièrement dans le domaine des humanités numériques.  Des sites concernant les élections provinciales québécoises de 2012, 2014 et 2018 ont été collectés, (principaux partis, blogues politiques, sites d’actualités, etc.), les élections municipales de 2013 et 2017 ont également été couvertes. Nous collectons également des sites dits « thématiques » (c’est-à-dire non gouvernementaux) : organisations culturelles (musées, bibliothèques et archives), organismes communautaires, associations professionnelles, journaux régionaux, etc.

 

… et à exploiter

 

The Archives Unleashed Project, une organisation visant à faire connaître et utiliser les archives Web, organise des hackathons réunissant bibliothécaires, chercheurs et programmeurs analystes qui, en utilisant des corpus spécifiques, créent des outils et des applications permettant d’exploiter et d’analyser les données, ce qui permet de découvrir de nouvelles avenues de recherche.  Voici quelques exemples :

Extracting Place Names from Web Archives at Archives Unleashed Vancouver

Archive spotlight: Heritage Community Foundation Alberta Online Encyclopedia

 


Catégorie(s) : Acquisition, Archives Web, Archives Web, Archives Web, Conservation, Diffusion

Les sites Web : un patrimoine documentaire à conserver

4 avril 2018 par Carnet de la Bn   1 Commentaire

par Carole Gagné,
Bibliothécaire – dépôt des publications numériques et collectes des sites web,
Direction du dépôt légal et de la conservation des collections patrimoniales.

Le Web est désormais une source d’information incontournable avec des contenus souvent exclusifs : blogues, vidéos, etc. Pour nous, il s’agit d’une source primordiale pour l’étude de notre société par les chercheurs d’aujourd’hui et de demain. Les sites Web font partie du patrimoine documentaire québécois et à ce titre ils doivent être conservés et diffusés.

Depuis le début des années 2000, nous menons des travaux de réflexions sur le numérique et les questions relatives au Web.

Carole Gagné
Photo: Martine Renaud

Un programme de dépôt de publications numériques gouvernementales a été mis en place en 2001. Ces publications sont disponibles sur les sites web gouvernementaux en version PDF le plus souvent, mais aussi parfois en HTML. Ces cas nous ont amenés à rechercher une méthode pour conserver et diffuser ces publications dans leur contexte original, afin d’en préserver toute la signification.

La Bibliothèque nationale n’est bien sûr pas la seule institution de mémoire à réfléchir sur ce nouvel aspect du patrimoine documentaire. Nous avons découvert une communauté d’experts en joignant l’IIPC en 2009. L’International Internet Preservation Consortium est un regroupement de 50 institutions, notamment des bibliothèques nationales, des universités et des organisations s’intéressant à la sauvegarde des contenus Web, par exemple Internet Archive.

La mission de l’IIPC est de développer des outils, des normes et des pratiques en matière de collecte de sites web et de faire la promotion de l’accès et de l’utilisation de ce type de contenu. Le regroupement fonctionne selon un mode collaboratif, c’est-à-dire grâce à une mise en commun d’expertise et un développement partagé des outils. Heritrix, le robot qui nous permet de collecter les sites, est né de cette collaboration entre plusieurs membres fondateurs de l’IIPC.

En 2009 ont eu lieu les premières collectes de la Bibliothèque dans le cadre d’un projet pilote, puis en 2012, le programme a officiellement été instauré.

À ce jour, 4 vagues de collectes ont été effectuées :

  • Sites gouvernementaux depuis 2009 jusqu’à présent ;
  • Élections provinciales en 2012 et 2014 ;
  • Élections municipales de 2013 et 2017 ;
  • Collectes thématiques depuis 2015 jusqu’à présent. Il s’agit de 800 sites dans plusieurs secteurs : organismes communautaires, associations, organismes culturels (musées, théâtres, bibliothèques, etc.), individus (artistes, comédiens, musiciens, humoristes, etc.), entreprises privées, organismes parapublics (écoles, hôpitaux, etc.) et sites événements (festivals, conférences, etc.)

Vous pouvez consulter cette collection dans l’interface Archivage web. Dans un prochain billet, nous vous expliquerons quels outils sont utilisés pour rassembler ce patrimoine bien particulier.

 

À titre d’exemple, nous avons collecté le premier site du gouvernement du Québec.  Ce site a été mis en ligne en 1995, alors qu’il n’y avait que 23 000 sites diffusés.

 

 


Catégorie(s) : Acquisition, Archives Web, Archives Web, Diffusion




© Bibliothèque et Archives nationales du Québec