Dix ans de collecte du Web québécois
Martine Renaud
Bibliothécaire, Direction du dépôt légal et des acquisitions
En 2009, après plusieurs années de travaux et de réflexion, la Bibliothèque nationale a entrepris la collecte et l’archivage des sites Web québécois. Nous avons décrit, dans un article précédent, ce patrimoine documentaire souvent volatile et éphémère. Les premières collectes ont été effectuées dans le cadre d’un projet pilote.
L’actualité de 2009
Ces premières collectes avaient une portée modeste : environ 25 organismes gouvernementaux, essentiellement des ministères.
Qu’apprend-on en examinant les sites collectés en 2009? Ils reflètent bien sûr l’actualité de l’époque. On faisait grand cas en 2009 de l’épidémie d’influenza. Qui se souvient du célèbre virus H1N1? Une vaste campagne de vaccination battait son plein à l’hiver 2009 et le gouvernement québécois avait alors un site consacré à ce sujet :

Sur le site du ministère des Finances, on trouvait plusieurs documents sur les effets de la crise financière mondiale de 2008 sur l’économie québécoise :

Toujours d’actualité
Si la pandémie de grippe et la crise financière semblent bel et bien derrière nous, certains sujets de l’époque sont encore d’actualité. En 2009, on pouvait consulter les rapports déposés dans le cadre des consultations de la commission Bouchard-Taylor sur le site de celle-ci :

La question des accommodements et des différences culturelles demeure très actuelle.
L’Assemblée nationale
Le site de l’Assemblée nationale offre également des perspectives historiques intéressantes. On peut, entre autres, y consulter les pages consacrées à François Legault, alors député du Parti québécois, à Éric Caire, alors député de l’Action démocratique du Québec et à Marguerite Blais, alors députée du Parti libéral du Québec.
Le Web québécois collecté depuis 2009
Dix ans plus tard, la portée des collectes et leur nombre ont considérablement augmenté et se sont également beaucoup diversifiés; BAnQ ratisse maintenant plus large que le seul Web gouvernemental.
Voici un tableau comparatif des collectes de 2009 et de celles en date du 1er mars 2019 :
2009 | 2009-2019 | |
Nombre de collectes | 16 | 12 823 |
Nombre d’organismes dont le site Web est diffusé | 25 | 1 295 |
Documents collectés | 17 026 257 | 149 647 697 |
Taille totale des archives (téraoctets) | 0,90 | 31 |
Il est également intéressant de constater la progression de l’utilisation des images ainsi que des ressources audio et vidéo :
2009 | 2009-2019 | |||
Type de documents collectés | Nombre | Taille (Gb) | Nombre | Taille (Gb) |
Pages HTML | 15 073 735 | 306 | 122 146 682 | 4 967 |
Images | 1 275 183 | 49 | 18 159 220 | 1 454 |
Applications(PDF,Word,Excel,etc.) | 644 117 | 526 | 5 702 995 | 3 695 |
Documents vidéo | 17 009 | 19 | 1 309 413 | 20 288 |
Documents audio | 7 458 | 4 | 79 660 | 320 |
Autres | 8 755 | 0,01 | 2 249 727 | 235 |
La multiplication des applications utilisées est un défi majeur pour les institutions qui collectent le Web. Les membres de l’International Internet Preservation Consortium (IIPC), qui assurent la maintenance de Heritrix, le robot collecteur que BAnQ utilise (une création d’Internet Archive), tentent à chacune de ses mises à jour de l’adapter aux nouvelles applications utilisées. Les contenus dynamiques sont souvent les plus difficiles à collecter.
Un contenu à explorer…
Depuis 2009, les collectes se sont progressivement élargies. Elles offrent maintenant plusieurs corpus susceptibles d’intéresser les chercheurs, particulièrement dans le domaine des humanités numériques. Des sites concernant les élections provinciales québécoises de 2012, 2014 et 2018 ont été collectés, (principaux partis, blogues politiques, sites d’actualités, etc.), les élections municipales de 2013 et 2017 ont également été couvertes. Nous collectons également des sites dits « thématiques » (c’est-à-dire non gouvernementaux) : organisations culturelles (musées, bibliothèques et archives), organismes communautaires, associations professionnelles, journaux régionaux, etc.
… et à exploiter
The Archives Unleashed Project, une organisation visant à faire connaître et utiliser les archives Web, organise des hackathons réunissant bibliothécaires, chercheurs et programmeurs analystes qui, en utilisant des corpus spécifiques, créent des outils et des applications permettant d’exploiter et d’analyser les données, ce qui permet de découvrir de nouvelles avenues de recherche. Voici quelques exemples :
Extracting Place Names from Web Archives at Archives Unleashed Vancouver
Archive spotlight: Heritage Community Foundation Alberta Online Encyclopedia
Web Archives: A Tool for Geographical Research?
Les sites Web collectés par la Bibliothèque nationale sont accessibles via une interface. Les chercheurs intéressés peuvent également avoir accès directement aux données sur demande.