Frédéric Glorieux est entré en CAPE chez Optéos en janvier 2020. Il signe son contrat d’entrepreneur-salarié l’année suivante. Son domaine d’activité ? Développeur de logiciels libres, spécialisé dans l’édition électronique et le traitement de la langue.
Les humanités numériques, ou sciences humaines numériques, sont un domaine de recherche et d’enseignement. Les humanités sont les disciplines de la culture telles qu’elles sont désignées dans l’Antiquité, la Renaissance, ou le monde anglo-américain : lettres, histoire, philosophie, arts… Les humanités numériques désignent aujourd’hui les méthodes informatiques qui aident la diffusion et la recherche dans les humanités.
Un exemple permet de mieux se représenter la discipline. Homère ou la Bible sont étudiés depuis des siècles. Compter les mots pour mieux comprendre le texte (via les statistiques lexicales) est une idée qui est apparue dans l’Antiquité à la bibliothèque d’Alexandrie : il s’agissait déjà d’une pratique d’humanité numérique. Avec les données massives et la puissance informatique, l’époque actuelle permet des approches nouvelles d’analyse des textes, mais aussi des images, ou des volumes, par exemple dans la simulation 3D en archéologie.
Un parcours atypique mais cohérent
Mais revenons à notre entrepreneur ! Le chemin jusqu’aux humanités numériques n’a pas été si simple pour Frédéric, bien au contraire. Professeur des écoles dans le Nord, puis professeur du secondaire en Aveyron dans les années 1990, ce père de famille avait alors une voie toute tracée pour vivre une vie heureuse. Trop prévisible, et trop ennuyeux. Frédéric démissionne de la fonction publique, tente sa chance dans l’informatique, et de Montpellier à Lille, sa ville d’origine, en passant par Bordeaux et Paris, il expérimente son nouveau métier d’informaticien au service de divers laboratoires de recherche.
Les projets de logiciels libres
Devenu ingénieur de recherche indépendant en informatique linguistique et documentaire, Frédéric conduit plusieurs projets de logiciels libres, notamment pour le Laboratoire LABEX OBVIL (Observatoire de la vie littéraire) de l’Université de Paris-Sorbonne. Plusieurs logiciels naissent des travaux de cet expert en philologie numérique : Alix (traitement linguistique en ligne), Odette (qui transforme un document traitement de texte en format structuré XML/TEI), Teinte (librairie logiciel destinée à la publication de documents XML/TEI en HTML), Cataviz (qui permet d’explorer une partie du catalogue de la BNF), depub (extraction de données à partir d’un fichier epub).
Dans un même temps, Frédéric tient un carnet de recherches en ligne – J’attends des résultats – Fouille de documents, expériences réussies et ratées – dans lequel il commente ses expériences de fouille textuelle.
Si cet ancien professeur de philosophie aime écrire et réfléchir, il aime aussi exprimer sa créativité par l’art pictural, comme en témoigne la calligraphie du chiffre 51 présentée en haut de cette page, extraite de sa série “Humanités Numériques” qui va de 1 à 99.
Les champs d’exploration
Le travail de ce consultant indépendant en humanités numériques consiste à créer des plateformes open source pour le traitement et la fouille textuelle d’écrits ou d’œuvres couvrant tout le spectre des sciences humaines et sociales. Si les domaines de la littérature, de la philosophie ou de l’histoire en représentent l’aspect le plus emblématique, Frédéric intervient également sur l’ensemble des sciences sociales, comme par exemple en contribuant à un projet de méta dictionnaire médical multilingue.
Le statut d’entrepreneur-salarié est un choix logique, imposé par la nature même du marché des humanités numériques.
Frédéric propose aujourd’hui ses services en tant que prestataire extérieur. Il a été membre salarié du LABEX OBVIL pendant 4 ans, mais l’Université ne titularise que très rarement son personnel technique. Le statut d’entrepreneur-salarié est un choix logique, imposé par la nature même du marché des humanités numériques.
Quelques sites emblématiques
Évoluant au sein d’équipes de recherche universitaire, le fruit de ce travail collaboratif est visible en ligne grâce à la publication de plusieurs sites d’humanités
numériques.
Le projet Rougemont 2.0
Réalisé par une équipe multidisciplinaire de l’Université de Genève, ce site a pour ambition de publier en libre accès l’intégrale de l’auteur suisse Denis de Rougemont (1906-1985). C’est à ce jour un travail inédit pour un écrivain contemporain.
Le mise en ligne des nombreux écrits (œuvres et manuscrits, correspondance, documents de toutes sortes) de cet auteur foisonnant, à la fois militant fédéraliste et écrivain engagé, s’accompagne de la publication de travaux de recherche autorisés par la numérisation des textes et leur enrichissement en métadonnées. Le site permet ainsi d’offrir de nouvelles perspectives d’interprétation de l’œuvre, d’interroger l’histoire politique, littéraire et intellectuelle du XXe siècle, et ses problématiques contemporaines.
Résultat de recherche des mots significatifs, Texte de Denis de Rougemont, “L’avenir est notre affaire”, 1977 – Université de Genève. Laboratoire en développement réalisé avec le logiciel Alix. https://lunacirougem1.unige.ch/ddrlab/index.jsp
Le projet eBalzac
Ce projet est quant à lui consacré à l’œuvre d’Honoré de Balzac. Il est articulé autour de trois axes :
- L’édition électronique de son œuvre – une nouvelle édition est proposée, avec pour ambition d’être aussi fidèle que possible au fac-similé de l’exemplaire de
l’auteur, ainsi que les états imprimés antérieurs ; - L’étude génétique des différents textes – les différentes versions d’un même texte sont comparées à l’aide du logiciel MEDITE, permettant ainsi d’étudier
le processus de création chez Balzac ; - L’étude de l’hypertexte, expérimentation consistant à mettre en résonance l’œuvre balzacienne avec un corpus d’écrits contemporains qui ont pu la nourrir, textes littéraires et non littéraires dont on a pu repérer la trace dans l’œuvre de Balzac.
Financé par l’Agence Nationale de la Recherche, le projet rassemble des chercheurs en littérature et en informatique de Lille, de l’Université Paris-Sorbonne et de l’Université Pierre et Marie Curie – UPMC (Paris 6).
Merveilles de la Cour
C’est une bibliothèque numérique consacrée aux divertissements de cour au XVIIe siècle. Son originalité est de recueillir un corpus significatif d’imprimés, d’images et de manuscrits afin de les lire, de les comparer, de repérer des écarts, et ainsi de mieux comprendre les enjeux politiques de cette époque. Dirigée par Marine Roussillon, maîtresse de conférences en littérature française à l’Université d’Artois, cette bibliothèque numérique est portée par la Maison européenne des Sciences de l’Homme (MESHS Lille) avec le soutien de l’équipe « Textes et Cultures » de l’Université d’Artois et de l’Université Yale.
Un projet d’envergure
L’équipe
Merveilles de la cour est, de par sa nature, pluridisciplinaire et regroupe des chercheuses et chercheurs de plusieurs universités. L’équipe regroupe ainsi des scientifiques de l’Université de Lille, d’Artois, de Yale, de Rouen Normandie, de Paris-Sorbonne, et de l’Université Rennes 2. Il bénéficie également d’un partenariat avec la plateforme Othoné pour la littérature d’Ancien Régime, du soutien de la TGIR Huma-Num (structure hébergeante de l’infrastructure des humanités numériques ) et de l’apport de deux informaticiens : Frédéric Glorieux pour le développement du site et des humanités numériques, Jean-Marie Trouillier pour la conception graphique.
L’encodage XML/TEI
La première et plus longue partie du projet consiste en l’encodage XML/TEI des documents pour l’extraction et la fouille textuelle – notons qu’ici la fouille textuelle est limitée par la nature graphique des documents. Marine Roussillon, la directrice scientifique du projet, insiste sur l’apport de Frédéric à ce stade du projet :
« Frédéric Glorieux agit en prestataire extérieur au projet, mais se comporte comme un membre à part entière de l’équipe. Son implication est remarquable, notamment dans toute l’étape de formation du personnel universitaire et étudiant au travail fastidieux d’encodage. En plus d’être un véritable expert des protocoles XML/TEI, Frédéric est un pédagogue et excelle dans le travail en équipe et en collaboration indispensable au travail de transcription. »
Le site web
La conception et la réalisation du site web se fait dans un second temps. Ce travail d’architecture se conçoit à partir d’un cahier des charges et ne peut être réalisé que par des spécialistes des humanités numériques. Comprendre un besoin de recherche en sciences sociales et humaines n’est pas l’apanage de tous les informaticiens, quelles que soient leurs compétences dans leurs langages de développement.
Une fois réalisé, le site poursuit sa vie et sa destination de bibliothèque numérique : recueillir encore et encore des nouveaux documents encodés, et traiter ces documents à l’aide d’outils de recherche sémantique.
Frédéric Glorieux intervient ainsi à tous les stades de conception et de réalisation d’un site comme « Merveilles de la cour« , de l’encodage au traitement textuel en passant par l’édition numérique.
Pour aller plus loin
Carnet de recherche de Frédéric Glorieux : “J’attends des résultats”.
Retrouvez également Frédéric sur Github et sur Flickr.
Un grand merci à Marine Roussillon, maîtresse de conférences de Littérature française à l’UFR Lettres et Arts, Centre de recherche Textes et Cultures de l’Université d’Artois, et directrice scientifique de la bibliothèque numérique Merveilles de la cour. Son Carnet de recherche « Politiques du Grand-siècle ».
Petit lexique
Lucene : bibliothèque open source écrite en java qui permet d’indexer et de chercher du texte. Projet de la fondation Apache, Lucene est également disponible
en Ruby, Perl, C++, PHP, C# et Python.
XML / TEI : protocole d’encodage du texte (Text Encoding Initiative), le TEI est un format de balisage standard permettant d’unifier l’encodage de ressources numériques, notamment textuelles. Il est couplé au format XML, Extensible Markup Language, standard d’échange de données entre systèmes d’informations hétérogènes ayant pour particularité de décrire sa structure dans son contenu. Le XML / TEI est un protocole standard permettant d’uniformiser le codage textuel, facilitant ainsi l’exploitation des œuvres après leur édition électronique.