L'article 15 du Règlement (UE) 2024/1689 impose aux systèmes d'IA à haut risque d'atteindre un niveau approprié d'exactitude, de robustesse et de cybersécurité, et de maintenir ces performances de manière constante tout au long de leur cycle de vie. Cette triple exigence constitue le socle technique de la fiabilité des systèmes d'IA : un système inexact, fragile ou vulnérable aux attaques ne peut être considéré comme sûr, quelle que soit la qualité des autres mesures de conformité mises en place.
L'exactitude (accuracy) désigne la capacité du système à produire des résultats corrects conformément à sa finalité prévue. La robustesse (robustness) se réfère à la capacité du système à maintenir ses performances face à des perturbations, des erreurs ou des conditions d'utilisation dégradées. La cybersécurité (cybersecurity) concerne la protection du système contre les attaques malveillantes visant à compromettre son fonctionnement, à altérer ses données ou à en extraire des informations sensibles. Ces trois dimensions sont complémentaires et interdépendantes : un système vulnérable aux attaques ne peut garantir son exactitude ; un système non robuste verra son exactitude se dégrader dans des conditions réelles d'utilisation.
L'article 15 s'inscrit dans la continuité des exigences de sécurité et de fiabilité déjà présentes dans d'autres législations européennes d'harmonisation (dispositifs médicaux, machines, etc.), tout en les adaptant aux spécificités des systèmes d'IA. Il reconnaît notamment le caractère évolutif des systèmes d'IA, qui peuvent voir leurs performances se dégrader au fil du temps en raison de l'évolution de leur environnement d'exploitation (data drift, concept drift), et impose donc une exigence de constance des performances nécessitant une surveillance et une maintenance continues.
Texte officiel de l'article 15 de l'AI Act
L'article 15 de l'AI Act dispose :
« 1. Les systèmes d'IA à haut risque sont conçus et développés de manière à atteindre un niveau approprié d'exactitude, de robustesse et de cybersécurité, et à fonctionner de manière constante à ces égards tout au long de leur cycle de vie.
2. Les niveaux d'exactitude et les mesures pertinentes d'exactitude du système d'IA à haut risque sont déclarés dans les instructions d'utilisation qui l'accompagnent.
3. Les systèmes d'IA à haut risque sont aussi robustes que possible en ce qui concerne les erreurs, les défauts ou les incohérences pouvant survenir au sein du système ou dans l'environnement dans lequel le système fonctionne, en particulier en raison de l'interaction avec des personnes physiques ou d'autres systèmes. La robustesse peut être atteinte par des solutions techniques de redondance, qui peuvent comprendre des solutions de secours ou de sécurité intégrée (fail-safe).
4. Les systèmes d'IA à haut risque sont résilients contre les tentatives de tiers non autorisés visant à altérer leur utilisation, leurs sorties ou leurs performances en exploitant les vulnérabilités du système. Les solutions techniques visant à garantir la cybersécurité des systèmes d'IA à haut risque sont appropriées aux circonstances pertinentes et aux risques. Les solutions techniques visant à traiter les vulnérabilités spécifiques à l'IA comprennent, le cas échéant, des mesures visant à prévenir, détecter, répondre, résoudre et contrôler les attaques tentant de manipuler l'ensemble de données d'entraînement (empoisonnement des données), les données d'entrée conçues pour provoquer une erreur du modèle (exemples adverses), ou des faiblesses du modèle. »
Cet article établit donc un cadre complet couvrant les trois dimensions essentielles de la fiabilité technique des systèmes d'IA à haut risque, avec une attention particulière aux vulnérabilités spécifiques aux systèmes d'apprentissage automatique.
Analyse juridique de l'article 15
Exigence générale : niveau approprié et constance dans le temps
L'article 15, paragraphe 1, pose une double exigence. Premièrement, les systèmes d'IA à haut risque doivent « atteindre un niveau approprié » d'exactitude, de robustesse et de cybersécurité. L'utilisation du terme « approprié » introduit un principe de proportionnalité : le niveau requis n'est pas absolu, mais doit être adapté à la finalité du système, aux risques qu'il présente et à l'état de l'art. Un système utilisé pour des décisions critiques (par exemple, diagnostic médical, contrôle de sécurité) devra atteindre un niveau de performance plus élevé qu'un système utilisé pour des applications moins sensibles.
Deuxièmement, les systèmes doivent « fonctionner de manière constante » à ces égards « tout au long de leur cycle de vie ». Cette exigence de constance reconnaît que les performances des systèmes d'IA peuvent se dégrader au fil du temps pour diverses raisons : évolution des données d'entrée (data drift), évolution des concepts que le système est censé capturer (concept drift), dégradation des composants matériels ou logiciels, émergence de nouvelles vulnérabilités. Les fournisseurs et déployeurs doivent donc mettre en place des mécanismes de surveillance continue des performances et de maintenance préventive et corrective.
L'expression « conçus et développés de manière à » souligne qu'il s'agit d'exigences de conception (accuracy by design, robustness by design, security by design), qui doivent être prises en compte dès les premières phases de développement du système. L'ajout ultérieur de mesures visant à améliorer l'exactitude, la robustesse ou la cybersécurité d'un système déjà développé est généralement plus coûteux et moins efficace qu'une intégration native de ces exigences.
Exactitude : déclaration et mesures
L'article 15, paragraphe 2, impose que « les niveaux d'exactitude et les mesures pertinentes d'exactitude » soient déclarés dans les instructions d'utilisation. Cette exigence crée un lien direct avec l'article 13 et impose une transparence sur les performances réelles du système.
La notion de « mesures pertinentes d'exactitude » reconnaît que l'exactitude peut être évaluée selon différentes métriques selon la nature du système et de sa tâche. Pour un système de classification, les mesures pertinentes peuvent inclure le taux de précision global (accuracy), mais aussi la précision (precision) et le rappel (recall) pour chaque classe, le score F1, la matrice de confusion, ou encore les courbes ROC et l'aire sous la courbe (AUC). Pour un système de régression, les mesures pertinentes peuvent inclure l'erreur quadratique moyenne (RMSE), l'erreur absolue moyenne (MAE), ou le coefficient de détermination (R²). Pour un système de détection d'objets, les mesures pertinentes incluent le taux de détection, le taux de faux positifs et de faux négatifs, et la précision de localisation.
L'obligation de déclarer ces mesures dans les instructions d'utilisation permet aux déployeurs de former des attentes réalistes sur les performances du système et de déterminer s'il est adapté à leur cas d'usage spécifique. Elle facilite également le contrôle par les autorités compétentes et la comparaison entre différents systèmes.
Il est important de noter que l'article 15 n'impose pas de seuil minimal d'exactitude universel : le niveau « approprié » dépend du contexte d'utilisation et des risques. Toutefois, les fournisseurs doivent démontrer que le niveau d'exactitude atteint est suffisant pour garantir que les risques résiduels sont acceptables au sens de l'article 9, paragraphe 3.
Robustesse : résilience aux erreurs et aux perturbations
L'article 15, paragraphe 3, définit la robustesse comme la capacité du système à résister aux « erreurs, défauts ou incohérences pouvant survenir au sein du système ou dans l'environnement dans lequel le système fonctionne ». Cette définition large couvre plusieurs catégories de perturbations.
Les erreurs et défauts « au sein du système » peuvent inclure : bugs logiciels, défaillances matérielles, erreurs de configuration, corruption de données internes. Les systèmes robustes doivent être capables de détecter ces erreurs et de les gérer de manière appropriée (par exemple, en déclenchant des alertes, en basculant sur des modes de fonctionnement dégradés mais sûrs, ou en se mettant en état de sécurité).
Les erreurs et incohérences « dans l'environnement » peuvent inclure : données d'entrée bruitées, incomplètes ou aberrantes ; conditions d'utilisation différentes de celles prévues ; évolution du contexte d'utilisation (data drift, concept drift) ; interactions imprévues avec des utilisateurs ou d'autres systèmes. Le paragraphe 3 mentionne explicitement « l'interaction avec des personnes physiques ou d'autres systèmes » comme sources potentielles d'incohérences, reconnaissant que les systèmes d'IA fonctionnent rarement de manière isolée.
Le paragraphe 3 suggère que « la robustesse peut être atteinte par des solutions techniques de redondance », qui peuvent comprendre des « solutions de secours ou de sécurité intégrée (fail-safe) ». La redondance désigne la duplication de composants critiques pour garantir la continuité de service en cas de défaillance. Les solutions de secours (backup) permettent de basculer vers un système alternatif en cas de défaillance du système principal. Les mécanismes fail-safe garantissent qu'en cas de défaillance, le système se met dans un état sûr minimisant les risques (par exemple, arrêt contrôlé, basculement vers un mode manuel, activation d'alarmes).
L'utilisation de « peut être atteinte » indique que ces solutions ne sont pas obligatoires dans tous les cas, mais constituent des exemples de mesures techniques appropriées. D'autres approches peuvent être pertinentes selon le contexte : techniques de validation des données d'entrée, mécanismes de détection d'anomalies, apprentissage continu permettant l'adaptation à l'évolution de l'environnement, conception de modèles intrinsèquement robustes (par exemple, par entraînement adversarial).
Cybersécurité : protection contre les attaques malveillantes
L'article 15, paragraphe 4, impose que les systèmes d'IA à haut risque soient « résilients contre les tentatives de tiers non autorisés visant à altérer leur utilisation, leurs sorties ou leurs performances ». Cette exigence reconnaît que les systèmes d'IA peuvent être la cible d'attaques malveillantes visant différents objectifs : compromettre l'intégrité des décisions du système, en extraire des informations confidentielles, le rendre indisponible, ou encore l'utiliser à des fins non autorisées.
Le paragraphe 4, alinéa 1, précise que « les solutions techniques visant à garantir la cybersécurité des systèmes d'IA à haut risque sont appropriées aux circonstances pertinentes et aux risques ». Cette formulation introduit un principe de proportionnalité : les mesures de cybersécurité doivent être adaptées au niveau de risque et au contexte d'utilisation. Un système traitant des données très sensibles ou présentant des risques élevés nécessitera des mesures de cybersécurité plus robustes qu'un système à moindre risque.
Le paragraphe 4, alinéa 2, énumère de manière non exhaustive (« comprennent, le cas échéant ») des catégories spécifiques de vulnérabilités propres aux systèmes d'IA et les mesures associées. Cette reconnaissance des vulnérabilités spécifiques à l'IA est importante : les systèmes d'apprentissage automatique présentent des vecteurs d'attaque qui n'existent pas pour les systèmes logiciels traditionnels.
L'empoisonnement des données (data poisoning) désigne l'injection de données malveillantes dans l'ensemble d'entraînement pour corrompre le modèle appris. Par exemple, un attaquant ayant accès à la base de données d'entraînement d'un système de détection de spam pourrait y injecter des exemples étiquetés de manière à ce que le système apprenne à classer comme légitimes certains types de spam. Les mesures de prévention peuvent inclure : validation et filtrage des données d'entraînement, contrôles d'accès stricts aux données, détection d'anomalies dans les données, utilisation de techniques d'apprentissage robuste à l'empoisonnement.
Les exemples adverses (adversarial examples) désignent des données d'entrée spécialement conçues pour tromper le modèle en exploitant ses faiblesses. Par exemple, une image légèrement modifiée de manière imperceptible pour l'œil humain mais provoquant une mauvaise classification par un système de reconnaissance d'images. Les mesures de défense peuvent inclure : entraînement adversarial (inclusion d'exemples adverses dans l'entraînement), détection d'exemples adverses en entrée, architecture de modèles robustes, mécanismes de validation croisée des décisions.
Les « faiblesses du modèle » (model flaws) peuvent inclure diverses vulnérabilités : extraction du modèle (model extraction) permettant à un attaquant de reconstruire un modèle équivalent en interrogeant le système, inversion du modèle (model inversion) permettant de retrouver des données d'entraînement sensibles, attaques par canal auxiliaire (side-channel attacks) exploitant des informations comme le temps de réponse ou la consommation énergétique. Les mesures de protection peuvent inclure : limitation du nombre de requêtes, ajout de bruit aux sorties, techniques de confidentialité différentielle (differential privacy), chiffrement des modèles.
Le paragraphe 4 mentionne des mesures visant à « prévenir, détecter, répondre, résoudre et contrôler » les attaques. Cette formulation reflète une approche de cybersécurité en profondeur (defense in depth) combinant plusieurs lignes de défense : prévention (empêcher les attaques de réussir), détection (identifier les attaques en cours), réponse (contrer les attaques détectées), résolution (corriger les vulnérabilités exploitées) et contrôle (surveiller en continu la sécurité du système).
Articulation avec les standards de cybersécurité
Bien que l'article 15 n'impose pas de référence obligatoire à des standards spécifiques, la mise en œuvre de ses exigences nécessitera généralement le respect de standards reconnus en matière de cybersécurité et de sécurité des systèmes. Les standards pertinents peuvent inclure : ISO/IEC 27001 (système de management de la sécurité de l'information), ISO/IEC 27701 (extension pour la protection de la vie privée), ISO/IEC 15408 (critères communs pour l'évaluation de la sécurité des technologies de l'information), NIST Cybersecurity Framework, standards sectoriels spécifiques (par exemple, IEC 62304 pour les logiciels médicaux).
La Commission européenne pourra également publier des spécifications harmonisées ou des standards communs relatifs à l'exactitude, la robustesse et la cybersécurité des systèmes d'IA à haut risque, dont le respect créera une présomption de conformité aux exigences de l'article 15.
Surveillance continue et maintenance
L'exigence de « fonctionner de manière constante » tout au long du cycle de vie implique la mise en place de mécanismes de surveillance continue des performances et de maintenance régulière. Cette surveillance doit porter sur les trois dimensions : exactitude (détection de dégradation des performances), robustesse (identification de nouvelles sources d'erreurs ou de perturbations) et cybersécurité (détection de nouvelles vulnérabilités ou de tentatives d'attaque).
La maintenance peut prendre différentes formes : corrections de bugs, mises à jour de sécurité, réentraînement du modèle sur des données actualisées pour compenser le data drift, ajustement des paramètres, renforcement des mécanismes de cybersécurité. L'article 16 impose d'ailleurs aux fournisseurs de prévoir et de documenter des processus de mise à jour et de maintenance.
Exemples concrets d'application
📋 Exemple concret d'application de l'article 15 de l'AI Act
Cas d'un système d'IA de diagnostic médical assisté par ordinateur (radiologie)
Un fournisseur développe un système d'IA destiné à détecter des nodules pulmonaires suspects sur des scanners thoraciques et à assister les radiologues dans leur diagnostic. Ce système relève de l'annexe III (dispositifs médicaux) et constitue un système d'IA à haut risque soumis aux exigences de l'article 15.
1. EXACTITUDE (article 15, paragraphes 1 et 2)
Conception pour l'exactitude :
Le système est développé selon les bonnes pratiques de développement de modèles d'apprentissage automatique :
- Utilisation d'un ensemble de données d'entraînement de haute qualité (25 000 scanners annotés par des radiologues experts) ;
- Architecture de réseau de neurones convolutif (CNN) optimisée pour la détection de nodules ;
- Validation croisée pendant l'entraînement pour éviter le surapprentissage ;
- Évaluation rigoureuse sur un ensemble de test indépendant (5 000 scanners) jamais vu pendant l'entraînement.
Niveaux d'exactitude atteints :
Sur l'ensemble de test représentatif, le système atteint les performances suivantes :
- Sensibilité (taux de détection) : 94,2% pour les nodules ≥6mm (c'est-à-dire que le système détecte 94,2% des nodules réellement présents de cette taille) ;
- Spécificité : 91,8% (le système évite les faux positifs dans 91,8% des cas où aucun nodule n'est présent) ;
- Valeur prédictive positive (PPV) : 78,3% (lorsque le système détecte un nodule, il s'agit réellement d'un nodule dans 78,3% des cas) ;
- Valeur prédictive négative (NPV) : 98,5% (lorsque le système ne détecte pas de nodule, il n'y en a effectivement pas dans 98,5% des cas) ;
- Score F1 : 0,85 (mesure combinant précision et rappel) ;
- Aire sous la courbe ROC (AUC) : 0,96 (excellente capacité discriminante).
Déclaration dans les instructions d'utilisation (article 15, paragraphe 2) :
Les instructions d'utilisation du système contiennent une section dédiée présentant :
- Tableau complet des métriques de performance ci-dessus ;
- Détail des performances selon la taille des nodules (les petits nodules étant plus difficiles à détecter) ;
- Performances par sous-groupes démographiques (âge, sexe) pour vérifier l'absence de biais ;
- Description de l'ensemble de test (caractéristiques des patients, types de scanners, contexte clinique) ;
- Comparaison avec les performances de radiologues humains (benchmark) montrant que le système atteint des performances comparables à un radiologue expérimenté ;
- Limitations : circonstances dans lesquelles les performances peuvent être inférieures (scanners de faible qualité, pathologies pulmonaires complexes, nodules atypiques).
Constance de l'exactitude dans le temps :
Pour maintenir l'exactitude tout au long du cycle de vie :
- Surveillance continue des performances en conditions réelles d'utilisation via le système de surveillance après commercialisation (article 72) ;
- Réentraînement annuel du modèle sur des données actualisées pour compenser l'évolution des technologies de scanner et des pratiques cliniques ;
- Procédure d'alerte si les performances mesurées en usage réel descendent en dessous de 90% de celles déclarées.
2. ROBUSTESSE (article 15, paragraphe 3)
Robustesse aux erreurs au sein du système :
- Validation des données d'entrée : vérification que les images reçues sont bien des scanners thoraciques au format DICOM avec les métadonnées requises ; rejet automatique des images incompatibles avec des messages d'erreur explicites ;
- Gestion des défaillances logicielles : mécanismes d'exception et de gestion d'erreur robustes ; en cas d'erreur non gérée, le système s'arrête de manière sûre en affichant un message d'erreur plutôt que de produire un résultat incorrect ;
- Vérification de l'intégrité du modèle : au démarrage, le système vérifie que le modèle d'IA chargé correspond bien à la version attendue (vérification de checksum cryptographique) pour détecter d'éventuelles corruptions.
Robustesse aux incohérences de l'environnement :
- Gestion de la variabilité des données d'entrée : le système a été entraîné sur des scanners provenant de différents constructeurs et avec différents protocoles d'acquisition, le rendant robuste à cette variabilité ;
- Détection d'images hors distribution : mécanisme détectant lorsqu'une image diffère significativement des images d'entraînement (par exemple, scanner d'une autre région anatomique, qualité exceptionnellement faible) et alertant l'utilisateur que les performances peuvent être dégradées ;
- Robustesse au bruit : tests spécifiques de robustesse avec ajout de bruit artificiel aux images, montrant que les performances se dégradent progressivement (graceful degradation) plutôt que de s'effondrer brutalement.
Robustesse aux interactions avec les utilisateurs :
- Interface utilisateur robuste : l'interface empêche les actions incorrectes (par exemple, impossibilité de valider un diagnostic sans avoir examiné toutes les détections proposées) ;
- Gestion des interruptions : si l'utilisateur interrompt le traitement d'une image, le système sauvegarde l'état et permet de reprendre plutôt que de perdre le travail effectué ;
- Feedback utilisateur : mécanisme permettant aux radiologues de signaler les erreurs du système, alimentant l'amélioration continue.
Solutions de redondance et fail-safe :
- Redondance de calcul : pour les détections critiques (nodules de grande taille avec caractéristiques suspectes), le système effectue une double analyse avec deux variantes du modèle et alerte en cas de désaccord ;
- Mode dégradé : si le module d'IA principal rencontre une erreur, le système bascule sur un mode permettant l'examen manuel sans assistance IA, garantissant la continuité du travail du radiologue ;
- Fail-safe : en cas de défaillance grave (panne matérielle, corruption de données), le système affiche un message d'erreur clair et empêche la production de résultats potentiellement incorrects plutôt que de fonctionner en mode dégradé non signalé.
3. CYBERSÉCURITÉ (article 15, paragraphe 4)
Protection contre les attaques traditionnelles :
- Contrôles d'accès : authentification forte des utilisateurs (identifiant + mot de passe robuste + double authentification pour les administrateurs) ; gestion fine des permissions (principe du moindre privilège) ;
- Chiffrement : chiffrement des données au repos (base de données, fichiers) et en transit (communications réseau via TLS 1.3) ;
- Journalisation : logs détaillés de tous les accès et actions pour permettre la détection d'activités suspectes et les investigations en cas d'incident ;
- Mises à jour de sécurité : processus de surveillance des vulnérabilités et de déploiement rapide de correctifs de sécurité ;
- Isolation réseau : le système est déployé dans un segment réseau isolé et protégé par pare-feu.
Protection contre l'empoisonnement des données :
- Contrôle de la source des données d'entraînement : les données d'entraînement proviennent exclusivement de sources fiables (hôpitaux partenaires avec lesquels le fournisseur a des accords formels) ;
- Validation des annotations : chaque image d'entraînement est annotée indépendamment par au moins 2 radiologues experts, avec arbitrage en cas de désaccord, réduisant le risque d'annotations malveillantes ;
- Détection d'anomalies dans les données : analyse statistique de l'ensemble d'entraînement avant utilisation pour détecter d'éventuelles anomalies (distribution anormale, outliers suspects) ;
- Traçabilité complète : pour chaque image d'entraînement, enregistrement de la provenance, de la date d'acquisition, des annotateurs, permettant de retracer l'origine en cas de suspicion d'empoisonnement.
Protection contre les exemples adverses :
- Entraînement adversarial : inclusion d'exemples adverses dans l'entraînement du modèle pour le rendre plus robuste à ce type d'attaque ;
- Détection d'anomalies en entrée : mécanisme détectant lorsqu'une image d'entrée présente des caractéristiques statistiques anormales pouvant signaler une manipulation adversariale ;
- Validation croisée : pour les détections critiques, comparaison avec des détections effectuées sur des versions légèrement transformées de l'image (par exemple, rotation, recadrage) ; une forte variation des résultats peut signaler une tentative d'attaque adversariale ;
- Surveillance humaine systématique : conformément à l'article 14, toutes les détections sont examinées par un radiologue qui peut identifier des incohérences suggérant une manipulation.
Protection contre l'extraction et l'inversion du modèle :
- Limitation du taux de requêtes : un même utilisateur ne peut soumettre plus de 100 images par heure, rendant difficile l'extraction du modèle par requêtes massives ;
- Détection de patterns suspects : surveillance des utilisateurs effectuant des requêtes atypiques (par exemple, images très similaires avec variations systématiques) ;
- Ajout de bruit aux sorties : léger bruit aléatoire ajouté aux scores de confiance (sans affecter significativement l'utilité clinique) pour rendre plus difficile l'extraction précise du modèle ;
- Protection du modèle : le modèle d'IA (poids du réseau de neurones) n'est jamais transmis aux clients ; seul le logiciel exécutant le modèle est déployé, avec le modèle chiffré et protégé contre l'extraction.
Mesures de prévention, détection, réponse, résolution et contrôle :
- Prévention : toutes les mesures ci-dessus visant à empêcher les attaques ;
- Détection : système de détection d'intrusion (IDS) surveillant le trafic réseau et les logs pour identifier des activités suspectes ; alertes automatiques en cas d'anomalie ;
- Réponse : procédure de réponse aux incidents documentée, incluant l'isolation du système compromis, l'investigation de l'étendue de l'attaque, la notification aux parties affectées ;
- Résolution : correction des vulnérabilités exploitées, mise à jour du système, réentraînement du modèle si nécessaire (en cas d'empoisonnement détecté) ;
- Contrôle : audits de sécurité réguliers (annuels) par des experts indépendants, tests de pénétration, revue de code, analyse de vulnérabilités.
Maintien de la cybersécurité dans le temps :
- Surveillance continue des vulnérabilités publiées affectant les technologies utilisées (CVE - Common Vulnerabilities and Exposures) ;
- Abonnement à des services de veille en cybersécurité de l'IA pour être informé des nouvelles techniques d'attaque ;
- Mises à jour de sécurité régulières (mensuelles pour les correctifs non critiques, sous 48h pour les vulnérabilités critiques) ;
- Participation à des communautés de partage d'informations sur les menaces (threat intelligence sharing).
Conformité aux standards :
Le système est développé et maintenu conformément à :
- ISO/IEC 27001 : système de management de la sécurité de l'information ;
- IEC 62304 : logiciels de dispositifs médicaux (processus de cycle de vie du logiciel) ;
- ISO 13485 : système de management de la qualité pour dispositifs médicaux ;
- OWASP Top 10 : prévention des principales vulnérabilités des applications web.
La conformité à ces standards est vérifiée par des audits indépendants et fait partie de la documentation technique.
Articulation avec les autres dispositions de l'AI Act
L'article 15 s'articule étroitement avec l'article 9 sur la gestion des risques : l'exactitude, la robustesse et la cybersécurité constituent des mesures essentielles de gestion des risques. L'analyse des risques réalisée au titre de l'article 9 doit identifier les exigences spécifiques en matière d'exactitude, de robustesse et de cybersécurité nécessaires pour ramener les risques à un niveau acceptable. Le niveau « approprié » mentionné au paragraphe 1 de l'article 15 est déterminé en fonction des résultats de cette analyse des risques.
L'article 15 est directement lié à l'article 10 sur la qualité des données : l'exactitude et la robustesse d'un système d'IA dépendent fondamentalement de la qualité des données utilisées pour son entraînement. Des données biaisées, incomplètes ou de mauvaise qualité conduiront inévitablement à un système peu exact et peu robuste, quels que soient les efforts techniques par ailleurs. Les articles 10 et 15 doivent donc être lus conjointement comme formant un cadre cohérent pour la fiabilité technique des systèmes d'IA.
L'article 15, paragraphe 2, crée un lien direct avec l'article 13 sur la transparence en imposant que les niveaux d'exactitude soient déclarés dans les instructions d'utilisation. Cette obligation de transparence sur les performances permet aux déployeurs de déterminer si le système est adapté à leur cas d'usage et de former des attentes réalistes. Elle facilite également l'exercice de la surveillance humaine prévue à l'article 14 : pour surveiller efficacement le système, les opérateurs doivent connaître ses performances attendues.
L'article 15 s'inscrit dans le prolongement de l'article 11 sur la documentation technique, qui doit inclure des informations détaillées sur les performances du système (exactitude, robustesse, cybersécurité), les tests effectués, et les mesures mises en place pour garantir ces performances. La documentation technique constitue le support permettant de démontrer aux autorités compétentes que les exigences de l'article 15 sont satisfaites.
L'article 15 doit également être lu conjointement avec l'article 12 sur la tenue de registres : les logs enregistrés peuvent fournir des informations précieuses pour la surveillance continue des performances (détection de dégradations de l'exactitude ou de la robustesse) et pour la détection d'attaques (analyse des patterns d'utilisation anormaux, identification de tentatives d'exploitation de vulnérabilités).
Enfin, l'article 15 s'articule avec l'article 43 sur les procédures d'évaluation de la conformité et l'article 72 sur la surveillance après commercialisation. L'évaluation de conformité initiale doit vérifier que le système atteint les niveaux appropriés d'exactitude, de robustesse et de cybersécurité avant sa mise sur le marché. La surveillance après commercialisation permet de vérifier que ces performances sont maintenues dans le temps et de détecter d'éventuelles dégradations nécessitant des mesures correctives.
Implications pratiques pour les organisations
Pour les fournisseurs de systèmes d'IA à haut risque, l'article 15 impose l'intégration des exigences d'exactitude, de robustesse et de cybersécurité dès la conception des systèmes. Cette approche « by design » nécessite une collaboration étroite entre les équipes de data science (responsables de l'exactitude et de la robustesse du modèle), les équipes de développement logiciel (responsables de la robustesse du système complet) et les équipes de sécurité (responsables de la cybersécurité).
L'évaluation de l'exactitude nécessite la constitution d'ensembles de test représentatifs et la définition de métriques appropriées à la tâche du système. Les fournisseurs doivent documenter rigoureusement les protocoles de test et les résultats obtenus, et s'assurer que les performances déclarées sont reproductibles et vérifiables. Il est recommandé d'effectuer des évaluations sur plusieurs ensembles de test indépendants et, lorsque possible, de comparer les performances du système avec celles d'experts humains (benchmark).
L'atteinte d'un niveau approprié de robustesse nécessite des tests spécifiques simulant diverses conditions dégradées ou perturbations : données bruitées, données incomplètes, données hors distribution, défaillances de composants, conditions d'utilisation atypiques. Ces tests de robustesse doivent être intégrés dans les processus d'assurance qualité dès les premières phases de développement. Les techniques d'apprentissage robuste (robust machine learning) permettant d'améliorer la résilience des modèles doivent être mobilisées lorsque pertinent.
La cybersécurité des systèmes d'IA nécessite une approche multicouche combinant les mesures de sécurité applicables à tout système informatique (contrôles d'accès, chiffrement, journalisation, etc.) et des mesures spécifiques aux vulnérabilités propres à l'IA (protection contre l'empoisonnement des données, les exemples adverses, l'extraction de modèle). Les fournisseurs doivent développer ou acquérir une expertise en sécurité de l'IA (AI security), domaine en évolution rapide nécessitant une veille scientifique et technique continue.
Le maintien de l'exactitude, de la robustesse et de la cybersécurité tout au long du cycle de vie nécessite la mise en place de processus de surveillance continue et de maintenance. Les fournisseurs doivent définir des indicateurs de performance (KPIs) permettant de détecter les dégradations, des seuils d'alerte déclenchant des investigations, et des procédures de mise à jour et de réentraînement. Ces processus doivent être documentés et intégrés dans le système de management de la qualité de l'organisation.
Pour les déployeurs de systèmes d'IA à haut risque, l'article 15 impose de vérifier que les systèmes acquis atteignent effectivement les niveaux de performance déclarés et de surveiller le maintien de ces performances en conditions réelles d'utilisation. Les déployeurs doivent également mettre en œuvre les mesures de cybersécurité recommandées par le fournisseur (par exemple, configuration sécurisée, mises à jour régulières, surveillance des tentatives d'attaque) et adapter ces mesures à leur contexte spécifique de déploiement.
Les contrats entre fournisseurs et déployeurs devraient inclure des clauses spécifiques relatives aux performances garanties (niveaux d'exactitude, de robustesse et de cybersécurité), aux engagements de maintien de ces performances, et aux modalités de support et de mise à jour. Des accords de niveau de service (SLA - Service Level Agreements) peuvent formaliser ces engagements et prévoir des mécanismes de compensation en cas de non-respect.
L'article 15 de l'AI Act établit un cadre complet et exigeant pour garantir la fiabilité technique des systèmes d'IA à haut risque à travers trois dimensions complémentaires : l'exactitude, la robustesse et la cybersécurité. En imposant que ces systèmes atteignent un niveau approprié de performance pour chacune de ces dimensions et maintiennent ce niveau de manière constante tout au long de leur cycle de vie, le règlement vise à garantir que seuls des systèmes d'IA fiables et sûrs sont déployés pour des applications à haut risque.
La reconnaissance des vulnérabilités spécifiques aux systèmes d'IA, notamment en matière de cybersécurité (empoisonnement des données, exemples adverses, extraction de modèle), témoigne de la maturité technique du règlement et de sa capacité à appréhender les risques propres aux technologies d'apprentissage automatique. Cette reconnaissance impose aux opérateurs de développer une expertise en sécurité de l'IA allant au-delà de la cybersécurité traditionnelle.
Pour les organisations, l'article 15 impose des investissements importants dans la conception, le test, la surveillance et la maintenance des systèmes d'IA à haut risque. Ces investissements sont essentiels non seulement pour la conformité réglementaire, mais aussi pour la confiance des utilisateurs et des personnes affectées. Un système d'IA inexact, fragile ou vulnérable aux attaques ne peut durablement réussir sur le marché, quels que soient ses autres qualités. La fiabilité technique constitue ainsi un facteur de compétitivité autant qu'une exigence réglementaire.