L'article 10 du Règlement (UE) 2024/1689 établit les exigences relatives aux données et à la gouvernance des données pour les systèmes d'IA à haut risque utilisant des techniques d'apprentissage automatique. Cette disposition reconnaît le rôle fondamental des données dans la performance, la fiabilité et l'équité des systèmes d'IA : des données de mauvaise qualité, biaisées ou inadaptées conduiront inévitablement à un système d'IA défaillant, quels que soient la sophistication des algorithmes et la puissance de calcul disponible.

L'article 10 impose des exigences de qualité pour les ensembles de données utilisés lors de l'entraînement, de la validation et du test des systèmes d'IA. Ces exigences portent sur la pertinence, la représentativité, l'exactitude et la complétude des données. Au-delà de ces critères de qualité, l'article impose également la mise en place de pratiques appropriées de gouvernance et de gestion des données, couvrant l'ensemble du cycle de vie des données : de leur collecte à leur utilisation, en passant par leur préparation et leur conservation.

Cette disposition s'inscrit dans une approche globale de maîtrise des risques : les exigences relatives aux données constituent l'une des mesures essentielles de gestion des risques prévues à l'article 9. L'article 10 traduit également une préoccupation majeure du législateur européen concernant les biais discriminatoires des systèmes d'IA, qui trouvent souvent leur origine dans les données d'entraînement. En imposant des exigences strictes en matière de qualité et de gouvernance des données, le règlement vise à prévenir ces biais dès la source.

Texte officiel de l'article 10 de l'AI Act

L'article 10 de l'AI Act dispose :

« 1. Les systèmes d'IA à haut risque qui utilisent des techniques faisant intervenir l'entraînement de modèles d'IA avec des données sont développés sur la base d'ensembles de données d'entraînement, de validation et de test qui satisfont aux critères de qualité visés aux paragraphes 2 à 5.

2. Les ensembles de données d'entraînement, de validation et de test sont soumis à des pratiques appropriées de gouvernance et de gestion des données. Ces pratiques concernent en particulier :

a) les choix pertinents en matière de conception ;

b) les processus de collecte de données et les processus de collecte d'origine des données et, dans le cas de données à caractère personnel, la ou les finalités initiales de la collecte de ces données à caractère personnel ;

c) les opérations pertinentes de préparation des données, telles que l'annotation, l'étiquetage, le nettoyage, la mise à jour, l'enrichissement et l'agrégation ;

d) la formulation d'hypothèses pertinentes, notamment en ce qui concerne les informations que les données sont censées mesurer et représenter ;

e) une évaluation préalable de la disponibilité, de la quantité et de l'adéquation des ensembles de données nécessaires ;

f) l'examen des biais éventuels susceptibles d'affecter la santé et la sécurité des personnes, d'avoir un impact négatif sur les droits fondamentaux ou d'entraîner une discrimination interdite par le droit de l'Union, en particulier lorsque les sorties de données influencent les entrées pour de futures opérations ;

g) le recensement des lacunes ou carences pertinentes dans les données, et la façon dont ces lacunes et carences peuvent être comblées.

3. Les ensembles de données d'entraînement, de validation et de test sont pertinents, suffisamment représentatifs et, dans toute la mesure du possible, exempts d'erreurs et complets au regard de la finalité prévue. Ils possèdent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou groupes de personnes à l'égard desquels le système d'IA à haut risque est destiné à être utilisé. Ces caractéristiques des ensembles de données peuvent être satisfaites au niveau d'ensembles de données individuels ou d'une combinaison de ceux-ci.

4. Les ensembles de données d'entraînement, de validation et de test tiennent compte, dans toute la mesure du possible, des caractéristiques ou éléments propres au contexte géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d'IA à haut risque est destiné à être utilisé.

5. Dans toute la mesure dans laquelle cela est strictement nécessaire pour garantir le suivi, la détection et la correction des biais en relation avec les systèmes d'IA à haut risque, les fournisseurs de tels systèmes peuvent traiter des catégories particulières de données à caractère personnel visées à l'article 9, paragraphe 1, du règlement (UE) 2016/679, à l'article 10 de la directive (UE) 2016/680 et à l'article 10, paragraphe 1, du règlement (UE) 2018/1725, sous réserve de garanties appropriées pour les droits et libertés fondamentaux des personnes physiques. Outre les règles énoncées dans ces règlements et directives, toutes les conditions suivantes s'appliquent :

a) le traitement de biais ne peut pas être effectué de manière satisfaisante par le traitement d'autres données, y compris des données synthétiques ou anonymisées ;

b) les catégories particulières de données à caractère personnel sont soumises à des mesures techniques de limitation de l'accès et à des mesures de préservation de la vie privée, telles que la pseudonymisation ou le chiffrement lorsque l'anonymisation risque d'affecter sensiblement la finalité poursuivie ;

c) les catégories particulières de données à caractère personnel sont supprimées une fois que le biais a été corrigé et que la correction du système a été obtenue ;

d) les registres des activités de traitement conformément au règlement (UE) 2016/679 et à la directive (UE) 2016/680 comprennent les raisons pour lesquelles le traitement de catégories particulières de données à caractère personnel a été strictement nécessaire pour détecter et corriger des biais et pourquoi cet objectif n'a pas pu être atteint par le traitement d'autres données ;

e) les données à caractère personnel traitées pour détecter et corriger les biais sont soumises aux dispositions de sécurité applicables aux données à caractère personnel en vertu du règlement (UE) 2016/679 et de la directive (UE) 2016/680. »

Cet article établit donc un cadre complet et rigoureux pour la gouvernance des données des systèmes d'IA à haut risque, en mettant l'accent sur la qualité, la représentativité et la gestion des biais.

Analyse juridique de l'article 10

Champ d'application et ensembles de données concernés

L'article 10, paragraphe 1, délimite son champ d'application aux systèmes d'IA à haut risque utilisant des techniques faisant intervenir l'entraînement de modèles avec des données. Cette formulation vise principalement les systèmes d'apprentissage automatique (machine learning), qui constituent aujourd'hui la majorité des systèmes d'IA à haut risque, mais exclut les systèmes d'IA basés sur des règles expertes prédéfinies qui ne nécessitent pas d'apprentissage à partir de données.

L'article distingue trois types d'ensembles de données : les données d'entraînement (utilisées pour l'apprentissage initial du modèle), les données de validation (utilisées pour ajuster les hyperparamètres et éviter le surapprentissage) et les données de test (utilisées pour évaluer les performances finales du modèle sur des données qu'il n'a jamais vues). Cette distinction reflète les bonnes pratiques de l'apprentissage automatique et impose que chacun de ces ensembles satisfasse aux critères de qualité définis dans l'article.

La mention « dans toute la mesure du possible » qui apparaît aux paragraphes 3 et 4 introduit une certaine flexibilité, reconnaissant que l'état de l'art ne permet pas toujours d'obtenir des ensembles de données parfaits. Cette formulation n'exonère toutefois pas les fournisseurs de leur obligation de moyens : ils doivent démontrer qu'ils ont mis en œuvre toutes les mesures raisonnablement possibles pour satisfaire aux exigences de qualité.

Pratiques de gouvernance et de gestion des données

L'article 10, paragraphe 2, énumère sept catégories de pratiques de gouvernance et de gestion des données que les fournisseurs doivent mettre en œuvre. Cette liste, bien que formulée de manière non exhaustive (« en particulier »), couvre l'ensemble du cycle de vie des données.

Le point a) concerne les choix de conception, qui incluent notamment les décisions relatives aux types de données à collecter, aux sources de données à utiliser, à l'architecture des bases de données et aux outils de gestion des données. Ces choix doivent être documentés et justifiés au regard de la finalité du système.

Le point b) impose la traçabilité de la collecte des données, incluant l'identification des processus et des sources. Pour les données à caractère personnel, il faut également documenter les finalités initiales de leur collecte, ce qui permet de vérifier la compatibilité avec leur utilisation pour l'entraînement d'un système d'IA au regard du principe de limitation des finalités du RGPD (article 5, paragraphe 1, point b).

Le point c) vise les opérations de préparation des données, qui constituent souvent l'essentiel du travail dans un projet d'IA. L'annotation et l'étiquetage (labeling) des données doivent être réalisés selon des procédures rigoureuses et documentées, idéalement par plusieurs annotateurs indépendants pour réduire la subjectivité. Le nettoyage, la mise à jour, l'enrichissement et l'agrégation doivent également faire l'objet de procédures tracées.

Le point d) impose la formulation explicite des hypothèses sous-jacentes à l'utilisation des données. Par exemple, si un système d'IA médical est entraîné sur des données collectées dans un certain type d'établissement hospitalier, il faut expliciter l'hypothèse selon laquelle ces données sont représentatives de l'ensemble des contextes d'utilisation prévus.

Le point e) exige une évaluation préalable des besoins en données. Cette évaluation doit identifier la quantité de données nécessaire pour atteindre un niveau de performance satisfaisant (cette quantité varie considérablement selon la complexité du modèle et de la tâche) et vérifier la disponibilité effective de ces données avant d'engager le développement.

Le point f) constitue l'une des exigences les plus importantes : l'examen systématique des biais susceptibles d'affecter la santé, la sécurité ou les droits fondamentaux, ou d'entraîner une discrimination. Cet examen doit être particulièrement approfondi lorsque le système génère des sorties qui influencent les entrées futures (phénomène de boucle de rétroaction ou feedback loop pouvant amplifier les biais initiaux).

Le point g) impose le recensement des lacunes et carences des données, ainsi que l'identification de moyens pour les combler. Il est fréquent que certaines catégories de personnes ou certaines situations soient sous-représentées dans les données disponibles ; le fournisseur doit identifier ces lacunes et, dans la mesure du possible, collecter des données complémentaires ou utiliser des techniques de compensation (surpondération, génération de données synthétiques, etc.).

Critères de qualité des ensembles de données

L'article 10, paragraphe 3, énonce quatre critères de qualité cumulatifs : pertinence, représentativité, exactitude (absence d'erreurs) et complétude.

La pertinence signifie que les données doivent être en rapport avec la finalité prévue du système. Des données non pertinentes, même en grande quantité, ne permettront pas d'entraîner un système performant. Par exemple, pour un système de diagnostic médical d'une pathologie spécifique, les données doivent inclure des cas confirmés de cette pathologie et de pathologies susceptibles d'être confondues avec elle.

La représentativité est un critère essentiel pour éviter les biais et garantir que le système fonctionne correctement pour l'ensemble des personnes et des situations auxquelles il sera appliqué. Un ensemble de données représentatif doit refléter la diversité de la population cible en termes de caractéristiques démographiques, géographiques, socio-économiques et autres variables pertinentes. Le paragraphe 3 précise que cette représentativité peut être atteinte soit au niveau d'un ensemble de données unique, soit par la combinaison de plusieurs ensembles.

L'exactitude (absence d'erreurs) suppose que les données soient correctes et fiables. Cela inclut l'exactitude des données elles-mêmes (par exemple, des mesures correctement calibrées) et l'exactitude des étiquettes ou annotations associées aux données. Des erreurs d'annotation, même en faible proportion, peuvent significativement dégrader les performances d'un système d'IA.

La complétude signifie que les données doivent couvrir l'ensemble des cas d'usage prévus et ne pas présenter de lacunes importantes. Un ensemble de données incomplet peut conduire à un système performant dans certains cas mais défaillant dans d'autres.

Prise en compte du contexte d'utilisation

L'article 10, paragraphe 4, impose que les données tiennent compte des caractéristiques spécifiques au contexte d'utilisation prévu. Cette exigence reconnaît qu'un même type de système d'IA peut nécessiter des données différentes selon le contexte géographique (par exemple, les caractéristiques démographiques varient selon les pays), le contexte comportemental (les comportements des utilisateurs peuvent différer selon les cultures), le contexte fonctionnel (un même outil peut être utilisé différemment selon les secteurs) ou le contexte situationnel (les conditions d'utilisation peuvent varier).

Cette exigence implique que les fournisseurs doivent bien définir le ou les contextes d'utilisation prévus de leur système et s'assurer que les données d'entraînement, de validation et de test reflètent ces contextes. Un système entraîné sur des données collectées dans un contexte spécifique ne doit pas être déployé sans précaution dans un contexte significativement différent.

Traitement de catégories particulières de données personnelles

L'article 10, paragraphe 5, crée un régime dérogatoire permettant, sous conditions strictes, le traitement de catégories particulières de données à caractère personnel (données sensibles au sens de l'article 9 du RGPD : données révélant l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses, l'appartenance syndicale, les données génétiques, biométriques, de santé ou concernant la vie sexuelle) aux fins de détection et de correction des biais.

Cette dérogation reconnaît un paradoxe : pour détecter et corriger les biais discriminatoires d'un système d'IA, il est souvent nécessaire de traiter les données relatives aux caractéristiques protégées (par exemple, pour vérifier qu'un système de recrutement ne discrimine pas selon le sexe ou l'origine ethnique, il faut analyser les résultats du système en fonction de ces caractéristiques). Or, le RGPD interdit en principe le traitement de ces données sensibles.

L'article 10, paragraphe 5, pose cinq conditions cumulatives pour autoriser ce traitement dérogatoire. Premièrement (point a), le traitement doit être strictement nécessaire : il ne doit pas être possible d'atteindre le même objectif par d'autres moyens (données anonymisées, données synthétiques, proxies). Cette condition impose aux fournisseurs d'explorer toutes les alternatives avant de recourir aux données sensibles.

Deuxièmement (point b), des mesures de protection strictes doivent être mises en place : limitation technique de l'accès (par exemple, par des contrôles d'accès granulaires et des journaux d'audit) et mesures de préservation de la vie privée (pseudonymisation ou chiffrement). L'anonymisation complète n'est pas exigée car elle pourrait empêcher la détection des biais (il faut pouvoir relier les résultats du système aux caractéristiques protégées).

Troisièmement (point c), les données doivent être supprimées une fois que le biais a été corrigé. Cette obligation de suppression garantit que les données sensibles ne sont conservées que le temps strictement nécessaire et ne sont pas réutilisées à d'autres fins.

Quatrièmement (point d), le registre des activités de traitement prévu par le RGPD doit documenter les raisons pour lesquelles le traitement de données sensibles était strictement nécessaire et pourquoi les alternatives n'étaient pas suffisantes. Cette documentation permettra aux autorités de contrôle de vérifier le respect des conditions.

Cinquièmement (point e), les mesures de sécurité du RGPD s'appliquent pleinement à ces données, ce qui inclut notamment les obligations de l'article 32 du RGPD (sécurité du traitement) et, le cas échéant, l'obligation de notification des violations de données (articles 33 et 34 du RGPD).

Exemples concrets d'application

📋 Exemple concret d'application de l'article 10 de l'AI Act

Cas d'un système d'IA de scoring crédit :
Une banque développe un système d'IA destiné à évaluer automatiquement la solvabilité des personnes physiques demandant un crédit à la consommation. Ce système relève de l'annexe III (accès aux services privés essentiels) et constitue donc un système d'IA à haut risque soumis à l'article 10.

Application de l'article 10, paragraphe 1 :
La banque constitue trois ensembles de données distincts :
- Données d'entraînement : 100 000 dossiers de crédit historiques avec leurs résultats (remboursement ou défaut) ;
- Données de validation : 20 000 dossiers pour ajuster les paramètres du modèle ;
- Données de test : 20 000 dossiers pour évaluer les performances finales.
Ces trois ensembles sont strictement séparés pour éviter toute contamination.

Application de l'article 10, paragraphe 2 (pratiques de gouvernance) :
La banque met en place les pratiques suivantes :
- Choix de conception (point a) : Documentation des décisions relatives aux variables retenues (revenus, dépenses, historique bancaire, etc.) et aux variables exclues (pour éviter les discriminations indirectes) ;
- Traçabilité de la collecte (point b) : Les données proviennent des dossiers de crédit de la banque, initialement collectés aux fins de gestion des demandes de crédit. Une analyse de compatibilité RGPD est réalisée pour vérifier que l'utilisation pour l'entraînement d'un système d'IA est compatible avec la finalité initiale ;
- Préparation des données (point c) : Nettoyage des données aberrantes, imputation des valeurs manquantes selon une méthode documentée, normalisation des variables numériques, encodage des variables catégorielles ;
- Hypothèses (point d) : Documentation de l'hypothèse selon laquelle les comportements de remboursement passés constituent un indicateur fiable des comportements futurs ;
- Évaluation préalable (point e) : Analyse statistique confirmant que 100 000 dossiers sont suffisants pour entraîner un modèle performant compte tenu de la complexité du problème ;
- Examen des biais (point f) : Analyse révélant plusieurs biais potentiels :
  * Sous-représentation des jeunes emprunteurs dans les données historiques ;
  * Biais géographique (surreprésentation de certaines régions) ;
  * Risque de biais de genre indirect (si certaines variables corrèlent avec le sexe) ;
  * Risque de boucle de rétroaction (si le système favorise certains profils, ces profils seront surreprésentés dans les futures données d'entraînement).
- Recensement des lacunes (point g) : Identification de lacunes pour certaines catégories (travailleurs indépendants, personnes ayant des revenus irréguliers) et plan d'action pour collecter des données complémentaires.

Application de l'article 10, paragraphe 3 (critères de qualité) :
- Pertinence : Les variables retenues (revenus, charges, historique de paiement) sont directement pertinentes pour évaluer la capacité de remboursement ;
- Représentativité : Analyse statistique montrant que les données reflètent la composition de la clientèle cible en termes d'âge, de catégorie socio-professionnelle et de région. Pour corriger la sous-représentation des jeunes, la banque surpondère leurs dossiers dans l'entraînement ;
- Exactitude : Vérification de la cohérence et de l'exactitude des données, avec correction des erreurs identifiées (par exemple, dates incohérentes) ;
- Complétude : Vérification que les données couvrent l'ensemble des types de crédits et de profils d'emprunteurs auxquels le système sera appliqué.

Application de l'article 10, paragraphe 4 (contexte d'utilisation) :
Le système étant destiné à être utilisé en France métropolitaine, la banque s'assure que les données d'entraînement proviennent exclusivement de cette zone géographique et reflètent les spécificités du marché français (notamment en termes de législation du crédit et de comportements des emprunteurs).

Application de l'article 10, paragraphe 5 (données sensibles) :
Pour détecter d'éventuels biais discriminatoires, la banque doit analyser les résultats du système en fonction de caractéristiques protégées (sexe, origine, etc.). Elle procède comme suit :
- Tentative d'utilisation de données anonymisées : cette approche ne permet pas une analyse suffisamment fine des biais (point a non satisfait) ;
- Traitement temporaire de données relatives au sexe (inféré à partir du prénom) et à l'origine (inférée à partir du nom de famille, avec toutes les limites de cette approche) ;
- Mise en place de mesures strictes : accès limité à trois personnes habilitées, pseudonymisation des identifiants, chiffrement des données au repos et en transit (point b) ;
- Suppression programmée des données sensibles après correction des biais identifiés et validation des performances équitables du système (point c) ;
- Documentation complète dans le registre RGPD, incluant la justification de la nécessité et l'absence d'alternatives suffisantes (point d) ;
- Application de toutes les mesures de sécurité RGPD, incluant une analyse d'impact relative à la protection des données (AIPD) spécifique à ce traitement (point e).

Après correction des biais identifiés (notamment par réentraînement avec surpondération des catégories sous-représentées et ajustement de certains seuils décisionnels), la banque valide que le système ne présente pas de discrimination significative et supprime les données sensibles temporairement traitées.

Articulation avec les autres dispositions de l'AI Act

L'article 10 s'inscrit dans le prolongement direct de l'article 9 sur la gestion des risques. Les exigences relatives à la qualité et à la gouvernance des données constituent l'une des principales mesures de gestion des risques pour les systèmes d'IA basés sur l'apprentissage automatique. L'analyse des biais prévue à l'article 10, paragraphe 2, point f), fait écho à l'obligation de l'article 9, paragraphe 4, point b), de rechercher si les résultats du système peuvent impliquer une discrimination et de l'atténuer techniquement si possible.

L'article 10 s'articule également avec l'article 11 sur la documentation technique, qui doit inclure une description détaillée des données utilisées pour l'entraînement, la validation et le test du système. Les pratiques de gouvernance des données mises en place au titre de l'article 10 doivent être documentées dans cette documentation technique.

L'article 10 est en lien étroit avec l'article 15 sur l'exactitude, la robustesse et la cybersécurité. La qualité des données conditionne directement l'exactitude et la robustesse du système : des données de mauvaise qualité conduiront à un système peu fiable, quels que soient les autres efforts de développement. De même, les mesures de sécurité des données contribuent à la cybersécurité globale du système.

Enfin, l'article 10, paragraphe 5, crée une interface spécifique avec le RGPD en autorisant, sous conditions strictes, le traitement de données sensibles aux fins de détection et de correction des biais. Cette disposition doit être lue conjointement avec les articles 6 (licéité du traitement) et 9 (traitement de catégories particulières de données) du RGPD, dont elle constitue une exception spécifique dans le contexte de l'AI Act.

Implications pratiques pour les organisations

Pour les fournisseurs de systèmes d'IA à haut risque, l'article 10 impose une rigueur méthodologique importante dans la gestion des données. Cela nécessite la mise en place de processus structurés couvrant l'ensemble du cycle de vie des données : de leur collecte à leur utilisation, en passant par leur préparation, leur documentation et leur maintenance.

La constitution d'ensembles de données de qualité représente souvent l'un des défis les plus importants et les plus coûteux dans le développement d'un système d'IA. Les organisations doivent allouer des ressources significatives à la collecte, au nettoyage et à l'annotation des données. L'exigence de représentativité peut notamment nécessiter des efforts spécifiques pour collecter des données relatives à des catégories sous-représentées.

L'examen systématique des biais (article 10, paragraphe 2, point f) requiert des compétences spécialisées et l'utilisation d'outils et de méthodes appropriés. Les organisations doivent développer ou acquérir une expertise en matière d'équité et de non-discrimination des systèmes d'IA, domaine en évolution rapide nécessitant une veille scientifique et technique continue.

Le traitement de données sensibles aux fins de détection des biais (article 10, paragraphe 5) doit être géré avec une prudence particulière. Les organisations doivent s'assurer que toutes les conditions cumulatives sont remplies et que les mesures de protection requises sont effectivement mises en place. Il est recommandé de consulter le délégué à la protection des données et, le cas échéant, l'autorité de contrôle (CNIL en France) avant d'engager un tel traitement.

La documentation des pratiques de gouvernance des données constitue un élément essentiel de la conformité. Les organisations doivent conserver une traçabilité complète de la provenance des données, des opérations de préparation effectuées, des hypothèses formulées, des biais identifiés et des mesures prises pour les corriger. Cette documentation sera examinée par les autorités compétentes et les organismes notifiés dans le cadre de l'évaluation de la conformité.

L'article 10 de l'AI Act établit un cadre complet et rigoureux pour la gouvernance des données des systèmes d'IA à haut risque utilisant l'apprentissage automatique. En imposant des exigences strictes en matière de qualité (pertinence, représentativité, exactitude, complétude) et en détaillant les pratiques de gouvernance nécessaires, il vise à garantir que les systèmes d'IA sont développés sur la base de données fiables et non biaisées.

La prise en compte systématique des biais et l'obligation de les corriger lorsque c'est techniquement possible traduisent la volonté du législateur européen de prévenir les discriminations algorithmiques dès la phase de développement. Le régime dérogatoire permettant, sous conditions strictes, le traitement de données sensibles aux fins de détection des biais reconnaît le paradoxe inhérent à cette exigence tout en l'encadrant rigoureusement.

Pour les organisations, l'article 10 impose une rigueur méthodologique importante et la mobilisation de compétences spécialisées en science des données, en équité algorithmique et en protection des données personnelles. La qualité des données constituant un facteur déterminant de la performance et de l'équité des systèmes d'IA, les investissements dans la gouvernance des données sont essentiels non seulement pour la conformité réglementaire, mais aussi pour le succès technique et l'acceptabilité sociale des systèmes développés.