Portail BAnQ Nétiquette

Dix ans de collecte du Web québécois

5 mars 2019 par Carnet de la Bn | Catégorie(s) : Acquisition, Conservation, Diffusion

Martine Renaud
Bibliothécaire, Direction du dépôt légal et des acquisitions

 

En 2009, après plusieurs années de travaux et de réflexion, la Bibliothèque nationale a entrepris la collecte et l’archivage des sites Web québécois. Nous avons décrit, dans un article précédent, ce patrimoine documentaire souvent volatile et éphémère. Les premières collectes ont été effectuées dans le cadre d’un projet pilote. 

 

 

L’actualité de 2009

 

Ces premières collectes avaient une portée modeste : environ 25 organismes gouvernementaux, essentiellement des ministères.

Qu’apprend-on en examinant les sites collectés en 2009? Ils reflètent bien sûr l’actualité de l’époque. On faisait grand cas en 2009 de l’épidémie d’influenza. Qui se souvient du célèbre virus H1N1? Une vaste campagne de vaccination battait son plein à l’hiver 2009 et le gouvernement québécois avait alors un site consacré à ce sujet :

 

 

Le site Pandémie influenza, qui n’existe plus aujourd’hui.

 

 

Sur le site du ministère des Finances, on trouvait plusieurs documents sur les effets de la crise financière mondiale de 2008 sur l’économie québécoise :

 

 

Site du ministère des Finances, 2009.

 

 

Toujours d’actualité

Si la pandémie de grippe et la crise financière semblent bel et bien derrière nous, certains sujets de l’époque sont encore d’actualité.  En 2009, on pouvait consulter les rapports déposés dans le cadre des consultations de la commission Bouchard-Taylor sur le site de celle-ci :

 

 

Site de la Commission de consultation sur les pratiques d’accommodement reliées aux différences culturelles, qui n’existe plus.

 

La question des accommodements et des différences culturelles demeure très actuelle.

 

 

L’Assemblée nationale

 

Le site de l’Assemblée nationale offre également des perspectives historiques intéressantes. On peut, entre autres, y consulter les pages consacrées à François Legault, alors député du Parti québécois, à Éric Caire, alors député  de l’Action démocratique du Québec et à Marguerite Blais, alors députée du Parti libéral du Québec.

 

 

 

Le Web québécois collecté depuis 2009

 

Dix ans plus tard, la portée des collectes et leur nombre ont considérablement augmenté et se sont également beaucoup diversifiés; BAnQ ratisse maintenant plus large que le seul Web gouvernemental. 

Voici un tableau comparatif des collectes de 2009 et de celles en date du 1er mars 2019 :

 

  2009 2009-2019
 Nombre de collectes 16 12 823
 Nombre d’organismes dont le site Web est diffusé 25 1 295
 Documents collectés 17 026 257 149 647 697
 Taille totale des archives (téraoctets) 0,90 31

 

 

Il est également intéressant de constater la progression de l’utilisation des images ainsi que des ressources audio et vidéo :

 

  2009 2009-2019
Type de documents collectés Nombre Taille (Gb) Nombre Taille (Gb)
 Pages HTML 15 073 735 306 122 146 682 4 967
 Images 1 275 183 49 18 159 220 1 454
 Applications(PDF,Word,Excel,etc.) 644 117 526 5 702 995 3 695
 Documents vidéo 17 009 19 1 309 413 20 288
 Documents audio 7 458 4 79 660 320
 Autres 8 755 0,01 2 249 727 235

 

La multiplication des applications utilisées est un défi majeur pour les institutions qui collectent le Web. Les membres de l’International Internet Preservation Consortium (IIPC), qui assurent la maintenance de Heritrix, le robot collecteur que BAnQ utilise (une création d’Internet Archive), tentent à chacune de ses mises à jour de l’adapter aux nouvelles applications utilisées. Les contenus dynamiques sont souvent les plus difficiles à collecter.

 

Un contenu à explorer…

 

Depuis 2009, les collectes se sont progressivement élargies. Elles offrent maintenant plusieurs corpus susceptibles d’intéresser les chercheurs, particulièrement dans le domaine des humanités numériques.  Des sites concernant les élections provinciales québécoises de 2012, 2014 et 2018 ont été collectés, (principaux partis, blogues politiques, sites d’actualités, etc.), les élections municipales de 2013 et 2017 ont également été couvertes. Nous collectons également des sites dits « thématiques » (c’est-à-dire non gouvernementaux) : organisations culturelles (musées, bibliothèques et archives), organismes communautaires, associations professionnelles, journaux régionaux, etc.

 

… et à exploiter

 

The Archives Unleashed Project, une organisation visant à faire connaître et utiliser les archives Web, organise des hackathons réunissant bibliothécaires, chercheurs et programmeurs analystes qui, en utilisant des corpus spécifiques, créent des outils et des applications permettant d’exploiter et d’analyser les données, ce qui permet de découvrir de nouvelles avenues de recherche.  Voici quelques exemples :

Extracting Place Names from Web Archives at Archives Unleashed Vancouver

Archive spotlight: Heritage Community Foundation Alberta Online Encyclopedia

 

Laissez un commentaire

%d blogueurs aiment cette page :



© Bibliothèque et Archives nationales du Québec