Contrôle fiscal et intelligence artificielle : des résultats prometteurs

Publié le 20/01/2021

Analyse prédictive et analyse de données automatisées : les nouvelles armes de Bercy commencent à révéler leur efficacité.

En matière de la lutte contre la fraude et l’évasion fiscales, Bercy s’enorgueillit cette année de très bons résultats. En 2019, les recettes effectivement encaissées par le contrôle fiscal s’élèvent à 11 Mds d’€ soit 2 Mds de plus que ce qui avait été annoncé. Ces recettes s’ajoutent à celles encaissées par le service de traitement des déclarations rectificatives (STDR), d’un montant de 358 Md’€, et la convention judiciaire d’intérêt public, d’un montant de 530 Md€, soit un total de 12 Md€ de recettes encaissées. Ces excellents résultats découlent d’une part, des mesures adoptées dans le cadre des lois relatives à la lutte contre la fraude et de la loi ESSOC  ainsi que du succès de la procédure de régularisation en cours de contrôle. Celle-ci a concerné 36 000 dossiers au cours desquels le contribuable a accepté de rectifier son impôt en cas d’erreur. Surtout, le recours au data mining dans de nombreux dossiers a permis de rapporter près de 785 Md€.

Des contrôles mieux ciblés

Grâce à l’utilisation de nouvelles modalités d’exploitation des données et des méthodes d’analyse prédictive les contrôles fiscaux sont désormais mieux ciblés. La programmation du contrôle fiscal est optimisée grâce à l’utilisation de ces deux nouvelles méthodes : le recours à l’intelligence artificielle et au data mining. Ces techniques basées sur le recoupement de données, l’analyse statistique et l’apprentissage automatique, permettent un traitement optimal du volume et de la masse des données détenues par la DGFiP. Ces contenus sont élargis aux données externes utiles, notamment celles résultant de l’échange automatique d’informations entre États. Elle contribue ainsi à mieux détecter les comportements frauduleux.

En 2019, 22 % des contrôles fiscaux ont été programmés en utilisant des méthodes d’analyse des données. Ce sont ainsi 100 000 dossiers issus du ciblage qui ont été adressés aux services opérationnels de contrôle fiscal, grâce au travail de la petite trentaine de data scientists qui ont intégré les rangs de l’administration fiscale. Cette part attribuée aux techniques du data mining et de l’intelligence artificielle dans la programmation du contrôle fiscal devrait être portée à 35 % en 2020, d’après les objectifs que l’administration fiscale s’est fixés. En 2022, cette proportion devrait passer à 50 %.

Un programme performant

Depuis 2014, Bercy dispose d’une cellule de data mining spécialisée, qui utilise un outil dédié au ciblage de la fraude et valorisation des requêtes (CVFR). Initialement, ce traitement automatisé de données a porté sur la détection de la fraude en matière de TVA. Par la suite, les investigations ont principalement ciblé les entreprises et leurs dirigeants. En 2017, ce dispositif de traitement automatisé de données a été étendu aux particuliers, de façon expérimentale, par voie d’arrêté. Il s’est accompagné d’une nouvelle organisation des travaux de programmation du contrôle fiscal (professionnalisation d’une équipe dédiée centrale appuyée sur des pôles interrégionaux d’expertise). L’expérience a été jugée suffisamment concluante pour être pérennisée en 2019. Avec l’aval de la Commission nationale de l’informatique et des libertés (Cnil), ce dispositif permet à Bercy de détecter à grande échelle des indices de fraude en croisant un grand nombre de bases de données (déclarations de revenus, fichiers des comptes bancaires, organismes sociaux, etc.) et même de modéliser des comportements frauduleux, permettant ainsi d’affiner les méthodes de profilage pour les personnes physiques. La DGFiP avait déjà accès à tous ces éléments mais de manière cloisonnée : un agent de contrôle devait utiliser manuellement plusieurs applications pour comparer ces données. C’est désormais effectué à grande échelle par l’intelligence artificielle. Pour Bercy, l’identification automatisée des risques de fraude reposant sur l’utilisation de l’intelligence artificielle a pour objectif de mieux cibler les dossiers à fort enjeu. La DGFiP s’attache à acquérir et fidéliser des compétences de data science permettant de maîtriser les dernières techniques d’analyse sur ce marché émergent. Ce programme a nécessité la mise en place d’une plate-forme informatique garantissant la puissance de calcul, les logiciels et le stockage nécessaire au fonctionnement du data warehouse.

Main de robot tenant une loupe au-dessus de feuille représentant des graphiques

La manne des données des réseaux sociaux

L’article 154 de la loi de finances pour 2020 a donné le coup d’envoi d’une autre expérimentation relative à la collecte de données à caractère personnel publiées sur internet par les utilisateurs de plate-formes en ligne. Ce programme prévu pour une durée de trois ans doit permettre aux data scientists d’affiner leur méthode de profilage pour les personnes physiques. Il s’agit de renforcer les outils de détection des fraudes fiscales ou douanières particulièrement graves, pour lesquels les moyens d’investigation traditionnels des administrations sont insuffisants : fausse domiciliation fiscale à l’étranger, activité commerciale occulte, activités illicites telles que la contrebande de tabac ou le commerce de stupéfiants. Concrètement, ce texte autorise les administrations fiscales et douanières à collecter et exploiter au moyen de traitements automatisés, les données publiées par les internautes sur les plate-formes de mise en relation en ligne (telles que les places de marché ou les réseaux sociaux). Précisons que l’administration des douanes s’appuie sur son service d’analyse de risque et de ciblage (SARC) pour les traitements de data mining des données recueillies.

L’avis réservé de la Cnil

Consultée en amont sur le projet de loi, la Cnil a émis de nombreuses réserves sur cette expérimentation (délibération n° 2019-114 du 12 septembre 2019 portant avis sur le projet d’article 9 du projet de loi de finances pour 2020). Compte tenu de l’impact du dispositif sur la vie privée et ses possibles effets sur la liberté d’expression en ligne, la Cnil a appelé à la mise en place de garanties fortes afin de préserver les droits et libertés des personnes concernées. En effet, le dispositif prévu pose « des questions inédites en matière de protection des données personnelles », qui devraient inciter à la plus « grande prudence ». En effet, il rend possible « une collecte générale préalable de données » qui correspond à un renversement des méthodes de travail de l’administration fiscale puisqu’elles ne consisteraient plus à étayer un doute ou une suspicion et représente un changement d’échelle significatif. Un décret pris en Conseil d’État après avis de la Cnil devrait permettre de préciser ces garanties.

Des garde-fous

L’administration fiscale s’est voulue rassurante et a communiqué sur la nécessité d’apporter « une réponse aux limites de nos systèmes de détection actuels ». Bercy a précisé mettre en place « toutes les garanties nécessaires au regard du droit au respect de la vie privée ». Le recours a ces nouvelles techniques est justifié par la nécessité de lutter contre « des comportements de fraude qui s’adaptent en permanence à leur environnement et des fraudes plus complexes, plus sophistiquées qui se sont développées ».

D’ores et déjà, un certain nombre de garde-fous ont été dressés. Le champ des données a clairement été déterminé : les traitements informatisés et automatisés ne porteront que sur des données librement accessibles sur les sites internet concernés et rendues publiques par les utilisateurs eux-mêmes. Le dispositif ne prévoit aucun système de reconnaissance faciale. Les infractions recherchées sont limitativement listées : activité occulte, fausse domiciliation à l’étranger et vente de produits contrefaits en matière douanière. La durée de conservation des données dépend de leur nature et de leur utilisation. Seuls des agents spécialement habilités pourront effectuer les traitements. L’administration fiscale n’a pas la possibilité de sous-traiter la collecte ou le stockage des données. Si ces retraitements permettent de réunir des indices des infractions recherchées, ils ne peuvent pas donner lieu à l’engagement automatique d’un contrôle fiscal. En outre, ils ne pourront être opposés au contribuable que dans le respect du principe du contradictoire, dans le cadre d’une procédure de contrôle fiscal, le cas échéant.

X