Tim Berners-Lee l'écrivait déjà en 98 : Cool URIs don't change.
Pourtant, encore aujourd'hui, les liens morts sont un fléau du Web. Des fils brisés d'une toile d'araignée, perdus aux quatre vents. 😿
Et surtout, des bouts d'information parfois perdus à jamais. Étant donnée notre -déraisonnable- obsession pour les sources, c'est avec douleur que nous constations, il y a presque un an, notre premier lien mort.
Une aiguille dans une botte de joint
Phénomène capitaliste admis : plus un truc est rare, plus il est précieux. Même si le truc est pas ouf. Et dans un système majoritairement prohibitionniste, les données sont parfois plus rares qu'une Marlène Schiappa dans le crâne d'une bonne idée (mettre les mots dans le sens qui vous arrange).
Cette étude bof bof à n=5
, ce post de forum obscur probablement écrit sous α-PVP : voilà les métaux précieux dont l'extraction fait le feu de Mixtures.
Nous sélectionnons ces sources car elles nous semblent utiles, pertinentes ; mais aussi parfois car ce sont les seules que nous ayons. Les voir disparaître d'Internet, c'est voir mourir l'information. La réduction des risques fondée sur les faits est une activité suffisamment délicate pour que logistiquement, mais aussi politiquement, la pertes de sources constitue pour nous quelque chose d'inacceptable.
En conséquence, nous avons décidé de ne pas nous laisser abattre, et de développer une solution automatisée d'extraction et d'archivage de nos sources. Vous avez peut être remarqué la nouvelle section Sources maintenant présente en bas de nos fiches. Pour le nom, j'étais peut être pas très inspirée...
Mais comment que ça marche dis donc ?
Tout cela est possible grâce aux incroyables services fournis par l'Internet Archive, qui permet un accès programmatique à sa formidable Wayback Machine. Et aussi grâce à Charles Leifer, développeur principal de huey, une task queue sensée et raisonnable qui permet de ne pas avoir à déployer Celery, RabbitMQ et une montagne de bordel pour lancer trois tâches en arrière plan. Merci mec.
Fabriquer ce système n'a pas été une décision facile, et l'investissement en temps de prototypage et de développement a été important. Techniquement, la complexité introduite dans Mixtures est même déraisonnable en proportion du reste de l'application, en ajoutant des workers, de la communication asynchrone, et des tas de trucs compliqués.
Pour conclure
Berners-Lee l'a très bien dit un quart de siècle avant moi : en théorie, il n'y a aucune raison pour que les liens du Web se brisent. En pratique, ces raisons sont indénombrables.
Si toute cette énergie a été déployée, ce n'est pas seulement dans notre intérêt. Indépendamment du travail de synthèse que nous proposons, permettre à ces documents d'être archivés, c'est rendre service à tout le monde — me semble-t-il. Je le vois comme un retour d'ascenseur que nous faisons à celles et ceux que nous citons. Même dans une timeline post-Mixtures, nos sources resteront au chaud sur les serveurs de l'Internet Archive... et de toute façon, iels ont également en mémoire la plupart de nos pages. 😉