Camille Girard-Chanudet : « Il faut énormément d’humains pour faire fonctionner l’IA »

Publié le 24/02/2025
Camille Girard-Chanudet : « Il faut énormément d’humains pour faire fonctionner l’IA »
Blue Planet Studio / AdobeStock

Comment l’intelligence artificielle progresse-t-elle au sein du monde judiciaire ? Quels sont ses outils ? Où en est l’Open Data des décisions, annoncé en 2016 dans la loi pour une République numérique ? Camille Girard-Chanudet est chercheuse en sociologie au Centre d’études de l’emploi et du travail du CNAM. Elle est allée à la rencontre des magistrats, juristes, startupers, qui fabriquent l’intelligence artificielle dans le domaine de la justice. Pour Actu-Juridique, elle revient sur les principaux apports de sa thèse, soutenue en 2023 à l’École des Hautes Études en Sciences Sociales. Rencontre.

Actu-Juridique : Comment avez-vous commencé cette thèse ?

Camille Girard-Chanudet : Je m’intéresse depuis longtemps à la construction des données et des algorithmes. J’ai une formation en politique publique et je me suis demandée comment un secteur régalien, comme la justice, allait les utiliser. J’avais envie de suivre toute la chaîne de l’IA dans la justice, de la production des outils à leurs usages. J’ai commencé mon travail de thèse en 2018, deux ans après l’adoption de la loi pour une République numérique qui prévoyait un principe de diffusion publique par défaut des décisions de justice. C’était un moment particulier pour les outils d’IA juridique, qui traitent ce nouveau matériau à l’aide d’algorithmes d’apprentissage automatique. Il y avait une effervescence autour des start-up de la Legal Tech qui créaient les premiers outils qualifiés « justice prédictive », terme dont on est revenu aujourd’hui. Je me suis intéressée à la manière dont les professionnels du droit, avocats et magistrats, se saisissaient de ces premiers outils. Je voulais voir ce qu’il en était sur le terrain, en mettant de côté les idées reçues, qu’elles soient dystopiques ou positives. Je me suis posée des questions concrètes : comment, à partir des décisions rendues par les tribunaux, fabrique-t-on un algorithme ? Qu’est-ce que cela change au fonctionnement de la justice ?

AJ : Quels étaient les premiers outils d’IA dans le domaine de la justice ?

Camille Girard-Chanudet : Un écosystème de start-up a émergé dans le sillage de la loi de 2016. Ces start-up ont pensé que les décisions de justice allaient constituer une nouvelle manne de données qu’elles pourraient exploiter avec des algorithmes d’apprentissage automatiques. Les premiers outils d’IA ont été diffusés à partir de 2016. Pourtant, les start-up ont initialement obtenu moins de données que ce qu’elles espéraient, car les décisions de justice n’ont pas été immédiatement rendues publiques. Ces entreprises n’avaient pas pris en compte la complexité du chantier de l’Open Data juridique. En tout état de cause, les premières start-up proposaient des moteurs de recherche avancés, qui existent encore aujourd’hui de manière plus sophistiquée. Ils permettent de chercher des décisions spécifiques dans des masses de jurisprudences, et de calculer les résultats moyens des procès, en particulier s’agissant de contentieux chiffrés comme les contentieux corporels. En renseignant les caractéristiques de la victime – son âge, sa profession, sa ville de résidence – l’algorithme peut, par exemple, produire un chiffre d’indemnisation potentielle, à partir d’une comparaison avec des cas similaires existant dans la base de données.

AJ : Les avocats ont-ils utilisé ces algorithmes ?

Camille Girard-Chanudet : Les outils ont été créés par des start-up dans lesquels il y avait peu de juristes, mais plutôt des personnes venues de la tech et du marketing. C’est frappant. Ces legaltechs ne sont pas des produits basés initialement sur l’expertise juridique. Ces algorithmes produisent des résultats qui ne sont pas très précis par rapport aux attendus des professionnels du droit. En réalité, les juristes, et notamment les avocats, utilisent peu les fonctionnalités « prédictives » de ces outils car leur expérience professionnelle leur permet de chiffrer les préjudices aussi bien voire mieux que l’algorithme. Certains avocats s’en servent néanmoins pour faire de la recherche documentaire ou pour rassurer des clients, auxquels ils peuvent montrer que leur résultat rejoint celui produit par l’algorithme. Les principaux utilisateurs de ces algorithmes sont des professionnels extérieurs au monde du droit. Par exemple, des compagnies d’assurances les utilisent pour donner à leurs assurés une estimation de l’indemnisation qui pourrait leur être proposée par un tribunal, afin de leur offrir un montant légèrement inférieur qui leur épargnera une procédure longue et incertaine. Ces acteurs périphériques sont ainsi susceptibles de se réattribuer une partie de la mission des professionnels du droit. Ce n’était pas prévu à la base mais c’est un effet important du développement de l’IA juridique.

AJ : Une partie de votre travail porte sur l’Open Data. Quand et comment le monde judiciaire l’a-t-il appréhendé ?

Camille Girard-Chanudet : La loi sur la République numérique, en 2016, prévoyait la mise en place de l’Open Data des décisions de justice. L’idée était de rendre publique l’ensemble des 4 millions de décisions rendues par les tribunaux chaque année. Le monde judiciaire s’est retrouvé obligé d’appliquer ce principe, assez éloigné du fonctionnement originel de la justice. La justice a toujours diffusé une sélection de décisions choisies pour leur intérêt juridique spécifique, intégrées dans des recueils de jurisprudence par des magistrats. L’Open Data, c’est le passage d’un principe de sélection à un principe d’exhaustivité. Cela a donc mis du temps à se mettre en place. Loïc Cadiet, professeur à l’École de droit de la Sorbonne (université Paris I), a été chargé par la garde des Sceaux de rendre un rapport sur l’Open Data des décisions de justice, dans le cadre duquel ont été interrogés un grand nombre d’acteurs de ce chantier. En effet, beaucoup de questions se posaient à l’époque. Sur un plan institutionnel, qui allait être responsable de ces diffusions ? Dans certains pays, le ministère de la Justice diffuse ces décisions judiciaires. Mais en France, les magistrats, qui tiennent à leur indépendance du pouvoir judiciaire, y étaient opposés. Chaque juridiction aurait pu diffuser ses propres décisions, comme c’est le cas aux États-Unis. Les éditeurs juridiques, gardiens traditionnels de la jurisprudence, étaient également candidats. Après la remise du rapport Cadiet, en 2017, les cours suprêmes, Cour de cassation et Conseil d’État, ont finalement été désignées. Une fois cette décision prise, il restait à organiser la mise en place de l’Open Data.

AJ : Quel travail y a-t-il derrière l’Open Data ?

Camille Girard-Chanudet : C’est toute une organisation. Les décisions étaient stockées dans chaque tribunal, imprimées et rangées au format papier dans des classeurs. Il a fallu les numériser, les standardiser, les stocker dans des serveurs dans chacune des juridictions suprêmes. Assez vite s’est posée la question de l’anonymisation. Ces 4 millions de décisions comportent des informations personnelles, souvent à caractère sensible. En 2021, quand j’ai préparé mon terrain, l’anonymisation constituait l’un des principaux chantiers de l’Open Data. La réglementation en matière de protection des données personnelles (RGPD) interdit la diffusion de ce type d’informations. Les cours suprêmes doivent donc tenir ensemble l’impératif d’ouvrir l’accès aux décisions de justice, et celui de protéger les données à caractère personnel qu’elles contiennent. Cela implique d’occulter tout ce qui est identifiant dans les décisions de justice. Ça, c’était clair pour tout le monde dès le début du processus. En revanche, la définition de ce qui est « identifiant » ne l’était pour personne. Des groupes de travail de magistrats se sont réunis à huis clos au sein de la Cour de cassation, pour savoir comment définir les informations identifiantes. À partir d’exemples de décisions, ils ont réfléchi au cas par cas sur ce qu’il fallait enlever de manière systématique. Ils ont établi une liste d’une quinzaine d’éléments à occulter : plaques d’immatriculation, numéro d’INSEE, adresse, date de mariage, date de naissance, etc. À cela peuvent s’ajouter d’autres éléments à la demande du magistrat qui rend la décision. Ces éléments peuvent prendre des formes différentes dans la décision. À la base, la Cour de cassation diffusait une portion restreinte de décisions, anonymisées à la main par une petite équipe. La Cour de cassation s’est rendu compte que pour 4 millions de décisions, cela ne serait pas possible, et a choisi d’engager l’automatisation de cette anonymisation. En 2021, j’ai passé 6 mois à la Cour de cassation avec les équipes qui conçoivent l’algorithme d’IA chargé de ce travail.

AJ : Quelles sont les équipes qui préparent l’IA à la Cour de cassation ?

Camille Girard-Chanudet : À l’époque, une équipe d’une vingtaine de personnes était mobilisée pour concevoir l’algorithme d’intelligence artificielle utilisé pour anonymiser les décisions de justice. Deux magistrates s’occupaient du respect juridique ; deux data scientist étaient chargés de l’entraînement du modèle algorithmique. Une équipe de développeurs s’occupait de la diffusion des résultats sur le site internet. Et enfin, une quinzaine d’annotatrices annotaient à la main les décisions qui servent à entraîner le modèle, et corrigeaient les résultats produits par l’algorithme. Celui-ci se trompe en effet très souvent : s’il est capable de gérer des cas connus et de répéter des choses apprises dans la phase d’entraînement, il ne peut pas gérer les cas nouveaux ou imprévus que contiennent toujours les décisions de justice, car le droit comme la société changent. Cette équipe d’annotatrices est fixe, et n’a pas vocation à être réduite dans le temps. C’est une brique centrale de l’Open Data, qui restera en place. Créer un outil algorithmique pour anonymiser les décisions est un chantier dans le chantier…

AJ : Où en est ce travail d’Open Data ?

Camille Girard-Chanudet : Aujourd’hui l’algorithme fonctionne. Il pré-annote les décisions et permet d’accélérer le travail. En revanche, toutes les décisions, en particulier celles qui concernent les contentieux sensibles, comme droit de la famille ou droit social, sont relues par des humains avant d’être diffusées pour éviter que des informations personnelles sur les personnes citées dans les décisions soient diffusées sur internet. Il y a vraiment une articulation permanente entre l’algorithme qui permet d’accélérer le travail en pré-annotant des choses et les humains, qui restent complètement indispensables. Cela vaut pour tous les projets d’IA. Il faut toujours des personnes pour corriger le fonctionnement du modèle. Quand on est sur des données issues du monde réel, des ajustements sont toujours nécessaires. Les décisions d’appel en matière civile et celles des tribunaux administratifs sont déjà disponibles. En matière pénale, les premières décisions devraient être disponibles à la fin de l’année 2025.

AJ : L’Open Data peut-il changer la manière de rendre la justice ?

Camille Girard-Chanudet : Avant l’Open Data, le principe était la diffusion d’une sélection de décisions choisies pour leur intérêt juridique dans le cadre d’une production doctrinale. Le gros des décisions de première instance n’intéressait pas grand monde. Seuls les cas emblématiques, intéressants d’un point de vue juridique, importaient. Désormais, ce n’est plus tant la décision juridiquement innovante qui importe que l’analyse statistique de masse de décisions qui vont permettre de révéler des régularités. Cela provoque un glissement dans les expertises structurantes de la justice. En France, on est encore dans un régime juridique dans lequel les magistrats se réfèrent peu aux décisions précédentes, contrairement à ceux du système anglo-saxon. Du fait de l’Open Data, le précédent pourrait être plus important dans la manière de juger. Plusieurs magistrats m’ont d’eux-mêmes expliqué qu’ils allaient consulter de façon accrue les décisions de justice, alors qu’auparavant ils ne s’intéressaient qu’au cas qui leur était soumis. Maintenant, ils cherchent davantage à s’aligner sur des cas similaires. En ce sens, les algorithmes pourraient provoquer une certaine « moyennisation » de la justice. L’Open Data reconfigure également les équilibres entre acteurs du droit. Il donne plus d’importance à des acteurs extérieurs, tels que les legaltechs et les compagnies d’assurances. Ce sont les deux grands mouvements auxquels il faut s’attendre, mais seuls le temps et l’évolution des usages pourront le dire. Il faudra voir avec l’aboutissement de l’Open Data comment cela va se réarticuler.

AJ : Comment l’Open Data est-il accueilli par le monde judiciaire ?

Camille Girard-Chanudet : De façon très hétérogène. L’Open Data met en lumière des lignes de fracture déjà existantes entre des élites parisiennes, jeunes et technophiles, souvent dans des positions de pouvoir à la tête de juridiction ou dans des cours suprêmes, et des professionnels qui exercent en juridiction dans des tribunaux de province. L’élite, proche du pouvoir politique qui a débloqué des fonds pour l’IA juridique au début de la présidence d’Emmanuel Macron, s’intéresse à ces outils avec curiosité. La Cour de cassation a ainsi bénéficié de l’appui de programmes de modernisation de l’action publique, grâce à l’engagement de magistrats technophiles. À l’autre bout du spectre, il y a des professionnels de justice qui ne sont pas foncièrement opposés à l’IA mais n’ont pas de moyens de base, tels que des timbres ou des imprimantes. Pour eux, l’Open Data n’est pas une priorité. Dans un contexte de surtravail et de manque de moyens, il y a une déconnexion entre l’élite et les professionnels de terrain qui se posent des questions plus pressantes que celle de l’IA.

AJ : Justement, l’IA pourrait-elle être une solution au manque de moyens ?

Camille Girard-Chanudet : En pratique, on voit que ce n’est pas du tout le cas. Les cours d’appel de Rennes et Douai ont testé l’outil Prédictice en 2017. Les magistrats ont trouvé que cela ne correspondait pas du tout à leurs besoins et l’expérimentation s’est soldée par un échec. Les juges ont déjà des outils, barèmes et référentiels, qui leur servent à homogénéiser leurs pratiques et à travailler plus vite. Je ne pense pas que l’IA permettra de compenser le manque de moyens : pour être bien utilisés, ces outils sont extrêmement coûteux, à la fois en ressources matérielles et en travail.

Plan