Exporter la page au format Open Document

Titre

Falsifiabilité du texte numérique et caractère instable du web, l'impensé de la non distribution des sources en ligne

Résumé

Le web est souvent qualifié d'instable en ce que l'information qu'il véhicule et les outils qui le constituent ne sont pas pérennes. Nous faisons l'hypothèse selon laquelle un usage plein du net, notamment en tant que système d'information distributif, renverse cette idée d'un web intrinsèquement instable et falsifiable.
Développé nativement comme réseau acentré, actif/passif et maillé, le web est actuellement exploité en réseau acentré, passif et en étoile, dans lequel une information donnée est exclusive à son émetteur, à une infrastructure serveur sous une autorité unique. En conséquence le web est aujourd'hui un environnement hyper-centralisé d'un point de vue information-centrique, bien au-delà de la question des géants du net, et c'est cette absence de distribution qui le fragilise. Tout au long de l'histoire du document, la distribution, à la fois processus social et technique, fut pourtant gage de pérennité plus que ne le furent les matériaux, papier ou serveurs. C'est cette distribution, ce maillage d'hébergements indépendants quant à une ressource donnée qu'il faut repenser aujourd'hui au-delà du paradigme de l'accès.

Mots-clefs

  • fr : source, philologie numérique, distribution, pérennité, hébergement
  • en : source, digital philology, distribution, sustainability, hosting

Article

Une référence bibliographique indique une situation documentaire donnée : auteur(s), titre, éditeur, année, nombre de pages, numéro d'impression, etc. La référence désigne un Vu, l'une des trois dimensions théoriques d'étude du document tel que théorisé par Roger T. Pédauque (Pédauque, 2003). C'est une étiquette et non une empreinte, elle n'a aucune relation de nécessité avec ce Vu.

La référence porte, ou portait, la transaction informationnelle suivante : « Tous les lecteurs qui accèdent au Vu déclaré ici accèdent au même Vu ». Cette transaction reposait jusqu'à présent sur une économie et une mécanique de fabrication du document qui garantissaient à peu près l'identité entre deux exemplaires sous une même référence. L'impression offset, assez coûteuse en matériel et manipulations, imposait la production en série. La chaîne d'impression consistait en une reproduction du même : une source unique projetée sur papier en de multiples exemplaires identiques les uns aux autres. La référence désignait l'ensemble des exemplaires de cette situation documentaire.
Les technologies numériques ont transformé la fabrication du document. Avec l'impression numérique, qui ne demande pas de calage coûteux, chaque projection sur papier peut être unique et donc re-produite à chaque exemplaire indépendamment du précédant ou du suivant. La projection sur écran est quant à elle re-produite à chaque ouverture, à chaque rendu du document.
Les technologies de rendu et d'impression numérique ont donc pour effet dans la chaîne de fabrication documentaire de nous faire passer de l'ère de la série à celle de l'exemplaire unique, de la reproduction à la re-production. Alors que Robert Escarpit considérait le document comme un anti-événement élaboré par l'homme pour échapper à la contrainte du temps voici le document lui-même devenu événement et la référence remise en question (Escarpit, 1976).

Cette transition met à mal la transaction portée jusque-là par la référence bibliographique. Derrière une référence donnée peut aujourd'hui ne se trouver qu'un « exemplaire » unique, la source ou le rendu pouvant différer de l'exemplaire suivant. Cette déclaration bibliographique ne permet plus d'identifier avec quasi certitude le même Vu. Si, comme l'écrit Dominique Cotte, le texte et le document sont des « objets qui permettent la relation entre les hommes » (Cotte 2004) alors que pouvons-nous envisager comme dispositif qui permette de retrouver une certaine stabilité de ceux-là et une référence de confiance ? Notre travail de terrain nous permet de tester plusieurs hypothèses.

Pour des questions de faisabilité notre objet documentaire est circonscrit aux ordres de discours livre et article, en particulier en sciences humaines. Nous postulons cependant que notre travail et nos conclusions devraient être vérifiables pour tous les types documentaires, qu'il s'agisse de billets de blog ou de microbloguing, de vidéos, etc.

Notre recherche a porté sur la manipulation et la diffusion des sources auprès de différents acteurs de l'édition : éditeurs indépendants (éditions Droz, Zoé, Vrin, Les Belles-Lettres…), groupes éditoriaux (Éditis, Hachette), diffuseurs (OpenEdition, Cairn, Erudit.org…), distributeurs (Immatériel, Éditis, Hachette…), projets d'archivage ou d'accès (Lockss), imprimeurs. Nous avons avons procédé au moyen d'entretiens semi-directionnels sur les modalités techniques et organisationnelles de la fabrication et de la diffusion des sources et rendus, sur la question de l'intégrité des contenus, sur leurs métadonnées et sur les contrats d'exploitation. Nous avons interrogé ces acteurs sur leurs documents aux formats PDF, ePUB et Html. C'est ce dernier format qui fait en particulier notre objet en tant que format privilégié pour la constitutions et l'étude de corpus en ligne ainsi que la fouille de texte, activités fondamentales en SHS.

En amont du document, se trouve la source, le ou les fichiers numériques destinés à cette opération de rendu en une unité discursive. Une première hypothèse suggère d'envisager que la référence doive indiquer cette source plutôt que son rendu situé, plutôt que le Vu. La source en contexte numérique est-elle plus stable et plus fiable que le document et comment l'identifier de manière univoque ? Notre terrain, restreint à la chaîne du livre et de l'article, en particulier en SHS en France, montre la vanité de l'hypothèse selon laquelle l'on pourrait s'assurer qu'une source donnée ne soit pas modifiée entre deux rendus. Qu'il s'agisse de négligence, de censure délibérée ou de choix d'auteur, il est peu ou pas de moyens techniques ou sociaux pour empêcher toute modification de la source. Quand bien même l'éditeur ou l'auteur n'interviendraient pas sur le texte-à-voir (terme choisi en cohérence avec la notion de Vu issu du rendu de la source) il faut noter la présence dans un fichier numérique d'un second registre de texte, que nous appellerons texte machine et qui, lui, doit nécessairement évoluer, ne serait-ce qu'afin que le fichier reste exploitable dans un environnement technique lui-même très évolutif : évolution des machines, des logiciels et des formats.
Face à cette instabilité du rendu comme de la source certains diffuseurs font le choix d'adapter la référence. Cela se traduit alors par des formules telles que « consulté le… » ou « généré le… » avec finalement pour seul effet d'indiquer qu'il y a un possible de Vu non commun. La transaction portée par la référence dans l'ordre du document papier produit en série n'est pas rétablie. La question de la garantie d'un Vu commun reste entière.
On peut encore proposer de remplacer la référence, l'étiquette, par une empreinte, celle-ci ayant un rapport essentiel au contenu. Une telle proposition demande d'abord de séparer le texte-à-voir de la source du texte machine. Le texte-à-voir doit ensuite être chiffré (hash), générant ainsi une clef unique. Il faut encore qu'un lecteur accédant à un Vu puisse vérifier qu'il corresponde à cette empreinte. Une telle opération demande la séparation du Vu du paratexte qui peut lui avoir été adjoint dans son contexte de publication : menus, numéros de paragraphes, icônes, etc. Finalement il faudra que le lecteur accède à un système de vérification de l'adéquation empreinte-Vu/empreinte-texte-à-voir. Un répertoire de ces empreintes peut être envisagé dans un système de blockchain, plusieurs acteurs, et notamment l'éditeur du texte pouvant proposer différentes fenêtres d'accès à ce répertoire pour comparaison des clefs de chiffrement. De tels systèmes de vérification de transactions enregistrées dans la blockchain existent pour de nombreuses applications1). Cet aspect n'est pas bloquant. La séparation Vu/paratexte par contre peut s'avérer très complexe pour être juste. Or si elle présente la moindre faille cette opération générera une empreinte du Vu différente de celle du texte-à-voir de la source. Alors le lecteur devra conclure que le texte qu'il voit n'est pas conforme à l'original, créant un doute sur ce qu'il partage avec d'autres lecteurs de cette référence.
La référence par empreinte n'est aujourd'hui appropriée que dans le contexte de formats stables, images ou pdf, laissant de côté tout document en flux (Xhtml), du fait de leur caractère très agrégatif. Ce type de processus est appliqué par exemple dans le cadre de la certification de diplômes ou de documents notariés. Il n'y a précisément pas de manipulation de sélection du contenu à tester. C'est le document dans son intégralité qui est testé. On pourrait appliquer un tel système au monde du livre et de l'article PDF, dans l'hypothèse où aucune manipulation ne serait apportée audit PDF entre sa production par l'éditeur et sa mise à disposition au lecteur. Ceci exclut toute apposition de DRM, tout changement de métadonnées, etc. Et cela ne répond pas à la demande de certification pour les documents en flux.

À ce point de notre travail le constat est donc le suivant : le Vu est chaque fois potentiellement re-reproduit, qu'il soit papier ou écran, rien ne peut garantir la clôture ferme de la source, la comparaison texte-à-voir/Vu est particulièrement complexe sinon impossible et une référence contextuelle ne garantit plus son rôle relationnel. À l'échelle d'un contenu donné la réponse à cette question de clôture et de référence univoque semble donc toujours être négative : le texte numérique est toujours réinscriptible.

Reste l'archivage, la création de registres centralisés d'autorité. Cependant l'archivage de fichiers numériques est aujourd'hui une question de maintenance évolutive. S'il tient à ce que le texte-à-voir puisse être rendu à long terme, un conservateur va devoir accepter et procéder à l'évolution du texte machine. Ce processus de maintenance-évolution est donc ici aussi un nœud pour une éventuelle corruption du texte-à-voir.

La non falsifiabilité du fichier numérique semble donc impossible car si elle est envisageable techniquement, même de manière complexe, elle repose toujours in fine sur une instance sociale, que l'histoire du livre et de la censure nous empêche de poser en garantie.

On remarquera que notre réflexion repose jusqu'à ce point sur une approche verticale, de la fabrication par l'éditeur jusqu'à l'appropriation par le lecteur, d'un fichier source unique (possédé par l'éditeur) sous une autorité unique faisant foi(le conservateur, le diffuseur, l'éditeur). Qu'en est-il si l'on considère, selon une approche plus horizontale de l'environnement informationnel et d'Internet en particulier, un grand nombre de fichiers disséminés auprès d'un grand nombre d'autorités ? L'hypothèse que envisageons ici est celle selon laquelle la distribution est le dispositif technique d'organisation des connaissances le plus fort en gage de pérennité et d'intégrité de l'information. Le corolaire suggère que la centralisation des sources participe de l'instabilité du web et que la distribution peut y remédier en partie.
Par distribution il faut entendre ici dissémination technique et sociale : une source supposée intègre est disséminée sou de multiples autorités, les Vus sont rendus et « servis » depuis des points multiples, par des diffuseurs indépendants les uns des autres. A contrario une ressource servie depuis un point unique, ou depuis des points multiples sous une même autorité, n'est pas distribuée.

Notre hypothèse est qu'aucun moyen technique ne permet de garantir la solidité de la relation référence/référé et que seul un moyen social, la distribution, la dissémination, permet d'envisager la conservation en aval de la preuve. L'argument, probabiliste, consiste à dire qu'il existe toujours une autorité susceptible de modifier une source alors que la multiplication des autorités possédant un exemplaire, de la source ou du document, garantit qu'ils ne seront jamais tous modifiés de manière homogène.

Cette hypothèse trouve son origine dans l'histoire du livre papier dont la production avait jusqu'à l'offset pour avantage d'une part de produire de nombreux originaux identiques les uns aux autres, des séries, et d'autre part de disséminer chacun des exemplaires de ces séries sous différentes latitudes et autorités par le biais de la distribution. Si le livre papier a pu sembler si pérenne c'est bien par le biais de ces deux processus conjoints : multiplication et dissémination. Les médium papier et encre ne sont pas à eux seuls si solides face au feu, à l'eau et à la censure. Peut-on considérer que la dissémination des fichiers numérique source complique voire empêche leur corruption ou leur disparition totale de manière et permette de retrouver un original ? C'est ce que Joël Faucilhon envisageait dans son « Portrait du pirate en conservateur de bibliothèque » et que nous nous proposons de tester :

[...] ce qu’une bibliothèque patrimoniale peut envisager, en matière d’efforts financiers, pour pérenniser le savoir numérique et sans pour autant obtenir de certitudes, aucune autre structure ne peut le faire. Le risque de la page blanche, d’un effacement partiel ou total du savoir conservé sous forme numérique, est donc bien réel. [...] En réalité, la seule issue, compte tenu de la fragilité du support numérique, reste de disséminer le savoir numérique (Faucilhon, 2010).

L'hypothèse est au départ fragile, car la dynamique de la suppression active, de la perte ou de l'écrasement d'un fichier numérique ne peut sans doute pas être comparée à la destruction manuelle d'un volume papier, qui demande un réel effort, ou à un système coûteux de pilon. Aussi distribué soit-il un fichier numérique reste techniquement fragile. L'hypothèse repose finalement sur une probabilité.

Cette hypothèse de la stabilisation de la source par la distribution a également le mérite imprévu de rejoindre les préoccupations quant à l'instabilité du Web et d'Internet en général. Les machines, programmes, protocoles et formats sur lequel Internet repose changent régulièrement. Migration, maintenance et évolution des structures et normes du web, processus impératifs dans le numérique, peuvent induire notamment des bris de liens de localisation, des effacements de données, etc. Le web est meuble. Mais si le web est instable ce n'est pas seulement par défaut de sécurité ou du fait de la médiocrité de l'hébergeur. Le web est instable aussi parce que les autorités administrant les sources sont instables : changements politiques, rachat d'un acteur par un autre, changement de positionnement économique, etc. Qu'il s'agisse de sécurité technique ou de stabilité sociale aucune garantie définitive ne peut être apportée, que l'on songe au numérique ou à quelque autre environnement de production que ce soit. Cela nous amène à questionner une vision centralisée du web et de l'archive et à proposer que la distribution constitue une stabilisation des sources mais aussi, en conséquence, du Web et du Net. Autrement dit, Internet est-il instable de sa centralisation technique et sociale ?

Notre recherche s'est donc orientée vers les questions d'hébergement, le cœur des questions de distribution/centralisation. Une recherche bibliographique sur les plate-formes spécialisées comme au moyen d'outils généralistes ne renvoie qu'une bibliographie très rare. Le sujet n'est abordé que pour indiquer la sécurité de l'infrastructure de tel ou tel projet de recherche ou de diffusion localisée dans des institutions réputées telles que le CINES2) ou l'IN2P33). La question de la distribution des sources n'est quant à elle jamais évoquée.
Le sujet de la confiance dans la source et dans sa pérennité est pourtant bien réel dans le métier, ainsi que l'indique par exemple ce slogan de Datacite, l'une des agence d'enregistrement de DOI (Digital Object Identifier) : « Cite your research sources with confidence4) ». La question des DOI est très intéressante car elle révèle une confusion entre localisation directe et confiance, pérennité ou intégrité. Un DOI est en fait une étiquette au même titre qu'une référence bibliographique. Elle n'a pas plus de lien nécessaire au contenu malgré le discours qui le laisse supposer. Un autre aspect des DOI est, comme nous l'avons montré ailleurs (Girard, 2017), son aspect extrêmement centralisé et centralisateur. Cette centralisation est d'ailleurs souhaitée et organisée comme le déclare le Cléo5) sur son site d'accompagnement aux éditeurs en explicitant les DOI :

Le corollaire de ce système est la génération d’un code permanent même en cas de déplacement de la ressource. Il est important de garantir la pérennité de la ressource pour intégrer ces bases et donc d’éviter les doublons, et les suppressions de documents((http://www.maisondesrevues.org/253)).

Les DOI garantissent uniquement la validité de l'URL déclaré. Mais l'argument de la pérennité est mis en avant pour favoriser un partenariat entre les trois grands diffuseurs français de contenus SHS en ligne, OpenEdition, Cairn et Persée, qui s'assurent de ne pas doublonner les contenus d'une de leurs plate-formes à l'autre, ce dont on peut voir un exemple ici : https://www-cairn-info.faraway.parisnanterre.fr/revue-techniques-et-culture-1-2010-1-page-291.htm.

Quoi qu'il en soit de cette localisation directe, notre terrain révèle de fait une centralisation très forte et organisée des sources. Il révèle également qu'aucune barrière technique ou sociale ne permet de valider la relation centralisation/pérennité. Chaque éditeur ou diffuseur peut à loisir modifier les sources sous sa responsabilité. L'argument qui semble le plus cohérent avec cette centralisation est l'argument économique, qu'il est difficile de nier puisque c'est la logique bien connue du monopole. Un autre argument en faveur de la centralisation pourrait être la difficulté technique de la transmission des sources, difficulté que nous n'avons pu tester faute d'acteurs engagés dans ce type de processus mais qui est tout à fait concevable. Finalement, du site MédiaPart aux diffuseurs en ligne de travaux de recherche chacun s'assure de l'exclusivité de son « catalogue ».

Il existe cependant un projet en particulier dont le principe repose au contraire sur la distribution. Il s'agit du projet Lockss, monté à par des bibliothèques universitaires sur une idée de l'université de Stanford, dont le principe est clair : Lots of copies keep stuff safe (Beaucoup de copies garde les choses en sécurité). Cependant le projet n'a pas pour vocation de conserver les sources. Il conserve l'accès au source. Ainsi, si la source est modifiée chez le diffuseur elle cela modifiée dans le réseau en pair à pair monté par Lockss. Mais on voit ici une première association entre la dissémination en P2P et la conservation. C'est un premier jalon vers notre hypothèse complète. La recherche sur les systèmes en P2P montre cependant leur grande volatilité : les acteurs (seeds et leechers) sont volatiles et les sources partagées disparaissent en relation directe avec leur perte d'actualité (Utard, 2004).

Ces données suggèreraient pour la conservation et l'intégrité des sources de monter des projets de distribution en pair à pair mais dirigés, c'est-à-dire assurant le partage continu de l'ensemble du catalogue concerné, indépendamment de la demande en lecture.

La mise en œuvre d'un tel modèle semble actuellement peu probable. Tous nos résultats suggèrent au contraire un changement de paradigme quant à la diffusion du texte en ligne, passant de celui de la distribution à celui de la centralisation accessible. Le web se révèle être aujourd'hui hyper-centralisé d'un point de vue information-centrique, caractère masqué par l'accès, qui plus est s'il est libre (gratuit) et universel (depuis quelque point du globe que cela soit). Cette centralisation reste à documenter, ainsi que les arguments qui la portent. Au-delà de l'aspect économique s'ajoute aujourd'hui celui de la dispersion des données sur la donnée. Comment en effet mesurer par exemple l'usage d'un texte donné s'il est dispersé chez plusieurs diffuseurs ? Une première réponse pourrait consister à se demander si la décentralisation du net n'est pas un point plus important sur le plan informationnel que la mesure d'un usage, peut-être plus marketing. Mais sur un plan technique on peut arguer de manière plus forte que les technologies telles que les identifiants uniques et le moissonnage, y compris le P2P ou distributed data mining (Urmela, 2017), transcendent largement la dispersion sur plusieurs infrastructures. Distribution et mesures agrégées ne sont pas incompatibles.

Un autre argument peut aller contre la distribution. C'est celui de l'inconfort quant à la localisation de la source. C'est un argument assez fort, un argument d'usage, sur lequel s'est aussi développé le système des registres DOI : ne pas chercher le document, y avoir un accès direct c'est-à-dire en un clic et sans risque de bris. On pourrait répondre à cet inconfort précis qu'il s'accompagne de moteurs de recherche très performants et de professionnels de la localisation que sont les bibliothécaires. À quoi s'ajoute l'avantage de l'errance créative en recherche. Mais de manière plus large cette question de l'inconfort nous semble un sujet de recherche à développer : quelle part d'inconfort l'internaute, et en particulier le chercheur, est-il prêt à accepter pour favoriser un Internet plus stable et plus indépendant ?

Notre travail sur la certification du Vu en contexte numérique nous amène finalement à formuler deux constats et deux propositions. Il faut faire le constat actuel d'une hyper centralisation de l'information quant à son hébergement et sa diffusion ainsi que de sa constante falsifiabilité. En réponse à quoi l'on proposera d'une part d'organiser la distribution des sources et plus généralement d'Internet, et d'autre part d'accepter un certain inconfort dans le signalement et la localisation des documents. La pérennité et l'intégrité de la ressource doivent être repensées sous l'angle non plus du support mais de la distribution, un paradigme disparu du web au profit de l'accès. C'est précisément ce maillage des ressources et nœuds que permet un réseau tel qu'Internet et qui le distingue des médias de masse, aspect que nous devons questionner et réactualiser.

Cotte, Dominique. (2004). Le concept de « document numérique ». In: Communication et langages, n°140, 2ème trimestre. Dossier : Du « document numérique » au « textiel ». pp. 31-41.

Escarpit, R. (1991). L information et la communication: théorie générale (Version orig). Paris: Hachette.

Faucilhon, Joël. (2010 ). Portrait du pirate en conservateur de bibliothèque in : Read/Write Book : Le livre inscriptible, Marseille : OpenEdition Press. URL : http://books.openedition.org/oep/153. ISBN : 9782821809529. DOI : 10.4000/books.oep.153.

Girard, Chloé. (2017). Les mécanismes de centralisation des données de la recherche, Revue française des sciences de l’information et de la communication, 11. URL : http://journals.openedition.org/rfsic/3255 ; DOI : 10.4000/rfsic.3255.

Pédauque, Roger T. (2003). Document : forme, signe et médium, les re-formulations du numérique. juillet. www.rechercheisidore.fr, https://archivesic.ccsd.cnrs.fr/sic_00000511

Urmela, S. & Nandhini, M. (2017). Approaches and Techniques of Distributed Data Mining : A Comprehensive Study. In International Journal of Engineering and Technology. 9. 63-76. 10.21817/ijet/2017/v9i1/170901408.

Utard, G. & Vernois, A. (2004). Data durability in peer to peer storage systems. 90-97. 10.1109/CCGrid.2004.1336553.


1)
On trouve de nombreuses entreprises offrant ce type de services, telles que https://www.bcdiploma.com/, aussi bien que des institutions d'enseignement telles que le MIT : https://credentials.mit.edu/
2)
Centre Informatique National de l’Enseignement Supérieur
3)
Institut national de physique nucléaire et de physique des particules
4)
https://datacite.org/, 15 avril 2019
5)
Unité de service et de recherche qui porte notamment la plate-forme OpenEdition.org
Entrer votre commentaire. La syntaxe wiki est autorisée:
A​ Z E C V
 
  • doctorales/2019sfsic2.txt
  • Dernière modification: 2019/05/27 11:42
  • par chloe