L'article 51 du Règlement (UE) 2024/1689 établit les critères permettant d'identifier les modèles d'intelligence artificielle à usage général (General Purpose AI models ou GPAI models) qui présentent un risque systémique en raison de leurs capacités particulièrement élevées. Cette disposition reconnaît que certains modèles d'IA, en raison de leur puissance de calcul exceptionnelle et de leurs capacités avancées, peuvent avoir un impact significatif à l'échelle de la société et nécessitent donc des obligations renforcées au-delà de celles applicables aux modèles d'IA à usage général standard.
La notion de « risque systémique » dans le contexte de l'AI Act ne désigne pas uniquement les risques traditionnels de sécurité ou de protection des données, mais englobe un spectre plus large de risques potentiels pour la société : diffusion massive de désinformation, capacités d'assistance à des activités malveillantes à grande échelle, impacts économiques disruptifs, ou encore émergence de capacités imprévues potentiellement dangereuses. Ces risques systémiques se distinguent des risques individuels par leur ampleur, leur portée et leur potentiel de causer des dommages à l'échelle sociétale.
L'article 51 adopte une approche pragmatique et objective pour identifier ces modèles à risque systémique, en se fondant principalement sur un seuil quantitatif de puissance de calcul utilisée pour l'entraînement du modèle. Ce critère objectif permet une application prévisible et vérifiable, tout en reflétant une corrélation généralement observée entre la puissance de calcul mobilisée et les capacités du modèle résultant. Le règlement prévoit également des mécanismes d'ajustement de ce seuil et de classification complémentaire pour tenir compte de l'évolution rapide des technologies d'IA.
Texte officiel de l'article 51 de l'AI Act
L'article 51 de l'AI Act dispose :
« 1. Un modèle d'IA à usage général est considéré comme présentant un risque systémique si l'une des conditions suivantes est remplie :
a) il possède des capacités ou un impact à haute incidence évalués sur la base de méthodologies et d'outils techniques appropriés, y compris des indicateurs et des critères de référence ;
b) sur la base d'une décision de la Commission, de sa propre initiative ou à la suite d'une alerte qualifiée d'un groupe scientifique, il présente un risque pour la santé, la sécurité, les droits fondamentaux, la société, la démocratie, l'environnement ou possède un impact négatif sur le marché unique.
2. Un modèle d'IA à usage général est présumé présenter un risque systémique si la quantité cumulée de calcul utilisée pour son entraînement, mesurée en opérations en virgule flottante (FLOPs), est supérieure à 10^25.
3. La Commission adopte des actes délégués conformément à l'article 97 pour modifier le seuil prévu au paragraphe 2 du présent article, ainsi que pour compléter les critères de référence et les indicateurs prévus au paragraphe 1, point a), après avoir pris en compte les évolutions du marché et des technologies, comme les avancées algorithmiques ou l'augmentation de l'efficacité du matériel informatique.
4. Sur proposition du Bureau de l'IA, la Commission peut décider, au moyen d'actes d'exécution, qu'un modèle d'IA à usage général présente un risque systémique au sens du paragraphe 1, point b). Ces actes d'exécution sont adoptés conformément à la procédure d'examen prévue à l'article 98, paragraphe 2. »
Cet article établit donc un cadre flexible et évolutif permettant d'identifier les modèles d'IA à usage général présentant un risque systémique, en combinant un critère quantitatif objectif (seuil de calcul) et des mécanismes d'évaluation qualitative complémentaires.
Analyse juridique de l'article 51
Critère principal : le seuil de puissance de calcul
L'article 51, paragraphe 2, établit une présomption de risque systémique pour les modèles dont l'entraînement a nécessité plus de 10^25 opérations en virgule flottante (FLOPs). Ce seuil, qui équivaut à 10 000 000 000 000 000 000 000 000 FLOPs ou 10 zettaFLOPs, correspond à une puissance de calcul considérable, accessible uniquement aux acteurs disposant de ressources informatiques massives.
Pour mettre ce chiffre en perspective, les grands modèles de langage récents comme GPT-4 (estimé à environ 10^24 FLOPs), Claude 3 Opus, ou Gemini Ultra se situent à proximité ou au-delà de ce seuil. Le critère vise donc clairement les modèles les plus avancés et les plus puissants actuellement disponibles, ainsi que les générations futures qui dépasseront ce seuil. À mesure que la puissance de calcul devient plus accessible et que les techniques d'entraînement évoluent, davantage de modèles pourraient franchir ce seuil, d'où l'importance des mécanismes d'ajustement prévus au paragraphe 3.
L'utilisation de la notion de « calcul cumulé » (cumulative compute) reflète une métrique largement reconnue dans la communauté de recherche en IA pour mesurer la complexité et la puissance des modèles. Cette métrique présente l'avantage d'être objectivement vérifiable et difficilement contestable, contrairement à des critères plus subjectifs basés sur les « capacités » du modèle. Les fournisseurs devront documenter et justifier les calculs effectués pour déterminer si leur modèle dépasse le seuil.
Critères alternatifs : capacités et impact
L'article 51, paragraphe 1, point a), prévoit qu'un modèle peut également être considéré comme présentant un risque systémique s'il « possède des capacités ou un impact à haute incidence ». Cette disposition permet de capturer des modèles qui, bien qu'entraînés avec moins de 10^25 FLOPs, présenteraient néanmoins des capacités exceptionnelles en raison d'innovations algorithmiques, d'architectures particulièrement efficaces, ou de techniques d'entraînement optimisées.
L'évaluation des « capacités ou impact à haute incidence » doit se faire « sur la base de méthodologies et d'outils techniques appropriés, y compris des indicateurs et des critères de référence ». Ces méthodologies pourront inclure des benchmarks standardisés évaluant les performances du modèle sur diverses tâches (compréhension du langage, raisonnement, génération de code, etc.), des tests de capacités émergentes (comme la capacité à effectuer des tâches pour lesquelles le modèle n'a pas été explicitement entraîné), ou encore des évaluations de l'impact potentiel du modèle (nombre d'utilisateurs, diversité des cas d'usage, intégration dans des infrastructures critiques).
Le paragraphe 3 prévoit que la Commission adoptera des actes délégués pour « compléter les critères de référence et les indicateurs », offrant ainsi un cadre évolutif capable de s'adapter aux avancées technologiques. Ces actes délégués préciseront les méthodologies d'évaluation, permettant une application plus harmonisée et prévisible de ce critère.
Décision de classification par la Commission
L'article 51, paragraphe 1, point b), et paragraphe 4, prévoient que la Commission peut décider, sur proposition du Bureau de l'IA, de classer un modèle comme présentant un risque systémique, même s'il ne répond pas aux critères quantitatifs, s'il « présente un risque pour la santé, la sécurité, les droits fondamentaux, la société, la démocratie, l'environnement ou possède un impact négatif sur le marché unique ».
Cette disposition offre une soupape de sécurité permettant de réagir rapidement à l'émergence de modèles présentant des risques spécifiques non capturés par les critères quantitatifs. Par exemple, un modèle spécialisé dans la génération de contenus de désinformation hautement convaincants, ou un modèle présentant des capacités d'assistance à des activités criminelles, pourrait être classé comme présentant un risque systémique même avec un calcul d'entraînement inférieur au seuil.
La décision de la Commission peut intervenir « de sa propre initiative ou à la suite d'une alerte qualifiée d'un groupe scientifique ». Cette procédure permet aux experts scientifiques de signaler des risques émergents, garantissant que la classification repose sur une expertise technique solide. Les actes d'exécution classant un modèle comme présentant un risque systémique sont adoptés selon la procédure d'examen prévue à l'article 98, paragraphe 2, impliquant les États membres et garantissant un processus transparent et contradictoire.
Mécanisme d'ajustement du seuil
L'article 51, paragraphe 3, reconnaît que le seuil de 10^25 FLOPs devra évoluer au fil du temps pour tenir compte des « évolutions du marché et des technologies, comme les avancées algorithmiques ou l'augmentation de l'efficacité du matériel informatique ». Cette clause de révision est essentielle pour garantir la pertinence durable du critère.
À mesure que la puissance de calcul devient plus accessible (effet de la loi de Moore et de ses équivalents modernes), davantage d'acteurs pourraient atteindre le seuil de 10^25 FLOPs, y compris pour des modèles ne présentant pas nécessairement un risque systémique. Inversement, les progrès algorithmiques pourraient permettre de développer des modèles très capables avec moins de calcul. La Commission devra donc ajuster périodiquement le seuil pour maintenir un équilibre approprié.
Les actes délégués permettant ces ajustements seront adoptés conformément à l'article 97, garantissant un processus législatif approprié avec consultation du Parlement européen et du Conseil. Ces ajustements devront être fondés sur des données objectives et des analyses techniques, potentiellement informées par les rapports du Bureau de l'IA et des groupes scientifiques.
Conséquences de la classification
La classification d'un modèle d'IA à usage général comme présentant un risque systémique entraîne l'application d'obligations renforcées prévues notamment aux articles 55 et suivants de l'AI Act. Ces obligations incluent notamment :
- L'obligation d'effectuer une évaluation des modèles, incluant des tests adversariaux
- L'obligation d'évaluer et d'atténuer les risques systémiques
- Le suivi et le signalement d'incidents graves
- La mise en place de garanties appropriées en matière de cybersécurité
- La documentation détaillée du processus d'entraînement et de validation
Ces obligations renforcées reflètent le niveau de risque plus élevé associé à ces modèles et visent à garantir que les fournisseurs prennent toutes les mesures appropriées pour identifier, évaluer et atténuer les risques systémiques potentiels.
Exemples concrets d'application
Exemple concret d'application de l'article 51 de l'AI Act
Cas 1 : Grand modèle de langage commercial
Une entreprise américaine de premier plan dans le domaine de l'IA développe la nouvelle version de son modèle de langage phare. Le modèle est entraîné sur une infrastructure de calcul massive comprenant 25 000 GPU de dernière génération fonctionnant pendant 3 mois.
Calcul du seuil :
L'équipe technique de l'entreprise calcule le total de FLOPs utilisés pour l'entraînement :
- Chaque GPU effectue environ 300 téraFLOPs par seconde (300 × 10^12 FLOPs/s)
- 25 000 GPU × 300 × 10^12 FLOPs/s = 7,5 × 10^18 FLOPs/s
- Durée d'entraînement : 3 mois = ~7,8 × 10^6 secondes
- Total : 7,5 × 10^18 × 7,8 × 10^6 ≈ 5,85 × 10^25 FLOPs
Application de l'article 51, paragraphe 2 :
Le calcul cumulé (5,85 × 10^25 FLOPs) dépasse largement le seuil de 10^25 FLOPs. Le modèle est donc présumé présenter un risque systémique au sens de l'article 51, paragraphe 2.
Conséquences :
En tant que modèle d'IA à usage général présentant un risque systémique :
1. L'entreprise doit se conformer aux obligations renforcées des articles 55 et suivants, notamment :
- Réaliser une évaluation approfondie du modèle incluant des tests adversariaux pour identifier les vulnérabilités potentielles
- Évaluer et documenter les risques systémiques potentiels (désinformation, assistance à des activités malveillantes, biais sociétaux, etc.)
- Mettre en place des mesures d'atténuation appropriées
- Établir un système de surveillance continue des incidents graves
- Garantir un niveau de cybersécurité élevé pour protéger le modèle contre les accès non autorisés
2. L'entreprise doit désigner un représentant autorisé dans l'UE conformément à l'article 54 si elle est établie hors UE
3. L'entreprise doit documenter précisément le calcul des FLOPs pour pouvoir le justifier auprès des autorités de surveillance
Cas 2 : Modèle spécialisé sous le seuil
Une start-up européenne développe un modèle d'IA à usage général spécialisé dans la génération de code informatique. Grâce à des innovations algorithmiques (architecture efficiente, techniques d'entraînement optimisées), le modèle atteint des performances comparables aux grands modèles généralistes, mais avec un calcul d'entraînement estimé à 3 × 10^24 FLOPs, donc inférieur au seuil de 10^25 FLOPs.
Application de l'article 51, paragraphe 1, point a) :
Bien que le modèle ne dépasse pas le seuil quantitatif, il pourrait être considéré comme présentant un risque systémique s'il « possède des capacités ou un impact à haute incidence ».
Évaluation :
- Le modèle est largement adopté et utilisé par des millions de développeurs
- Il est intégré dans des infrastructures de développement critiques
- Des benchmarks montrent qu'il égale ou surpasse les performances de modèles entraînés avec 10^25 FLOPs sur certaines tâches
- Son utilisation pourrait avoir un impact systémique sur la sécurité des logiciels si le modèle génère du code vulnérable à grande échelle
Dans ce scénario, le Bureau de l'IA pourrait proposer à la Commission de classer ce modèle comme présentant un risque systémique malgré le calcul d'entraînement inférieur au seuil, en raison de ses capacités élevées et de son impact à grande échelle. La décision finale appartiendrait à la Commission, sur la base d'actes d'exécution adoptés selon la procédure de l'article 98.
Cas 3 : Ajustement du seuil par acte délégué
En 2027, la Commission européenne constate que :
- Les progrès en matière de matériel informatique ont réduit de moitié le coût d'entraînement de modèles atteignant 10^25 FLOPs
- De nombreux acteurs moyens peuvent désormais entraîner des modèles de cette ampleur
- Les modèles présentant réellement un risque systémique dépassent désormais systématiquement 5 × 10^25 FLOPs
- Les innovations algorithmiques permettent d'atteindre des capacités équivalentes avec moins de calcul
Application de l'article 51, paragraphe 3 :
La Commission adopte un acte délégué révisant le seuil de risque systémique à 5 × 10^25 FLOPs, mieux adapté à l'état actuel de la technologie. Cet acte délégué précise également les nouveaux indicateurs et critères de référence pour évaluer les « capacités à haute incidence », reflétant les progrès des méthodologies d'évaluation.
Cet ajustement garantit que la réglementation reste pertinente et ciblée sur les modèles présentant effectivement un risque systémique, sans imposer de charges disproportionnées à des modèles moins puissants devenus plus courants.
Articulation avec les autres dispositions de l'AI Act
L'article 51 constitue la pierre angulaire du régime spécifique applicable aux modèles d'IA à usage général présentant un risque systémique. Il s'articule directement avec l'article 3 qui définit la notion de « modèle d'IA à usage général », et avec les articles 52 et 53 qui établissent les obligations générales applicables à tous les modèles d'IA à usage général, que ceux-ci présentent ou non un risque systémique.
Les modèles classés comme présentant un risque systémique en application de l'article 51 sont soumis aux obligations renforcées prévues notamment à l'article 55, qui impose des évaluations approfondies incluant des tests adversariaux, et aux articles suivants relatifs à l'atténuation des risques systémiques, à la surveillance des incidents et à la cybersécurité renforcée. Ces obligations viennent s'ajouter aux obligations générales applicables à l'ensemble des modèles d'IA à usage général.
L'article 51 s'articule également avec l'article 54 sur les représentants autorisés : les fournisseurs de modèles à risque systémique établis hors de l'Union européenne devront désigner un représentant dans l'UE pour faciliter la surveillance et garantir la conformité aux obligations renforcées.
Le mécanisme de classification prévu à l'article 51 doit être lu en cohérence avec les procédures de gouvernance établies aux articles 65 et suivants, qui créent le Bureau européen de l'IA et les groupes scientifiques chargés de conseiller la Commission. Ces structures institutionnelles joueront un rôle central dans l'application de l'article 51, notamment pour proposer des ajustements du seuil, développer des méthodologies d'évaluation, ou alerter sur des modèles présentant des risques systémiques émergents.
Enfin, l'article 51 s'inscrit dans une logique de proportionnalité qui traverse l'ensemble de l'AI Act : les obligations applicables sont graduées selon le niveau de risque. Les modèles d'IA à usage général standard sont soumis à des obligations de base (article 53), tandis que les modèles présentant un risque systémique sont soumis à des obligations renforcées, et les systèmes d'IA présentant un risque inacceptable sont purement et simplement interdits (article 5).
Implications pratiques pour les organisations
Pour les fournisseurs de modèles d'IA à usage général, l'article 51 impose en premier lieu d'évaluer avec précision le calcul cumulé utilisé pour l'entraînement de leurs modèles. Cette évaluation nécessite une traçabilité rigoureuse de l'infrastructure de calcul utilisée (nombre et type de processeurs, durée d'utilisation) et une méthodologie de calcul documentée et vérifiable. Les organisations devront mettre en place des processus de comptabilité du calcul (compute accounting) dès les premières phases de développement.
Pour les modèles approchant ou dépassant le seuil de 10^25 FLOPs, les fournisseurs doivent anticiper l'application des obligations renforcées et intégrer ces exigences dès la conception du modèle. Cela inclut la planification d'évaluations approfondies, le développement de méthodologies de tests adversariaux, la mise en place de processus d'identification et d'atténuation des risques systémiques, et l'établissement de systèmes de surveillance continue des incidents.
Les fournisseurs doivent également surveiller les évolutions réglementaires, notamment l'adoption d'actes délégués ajustant le seuil ou précisant les critères d'évaluation des capacités à haute incidence. Une veille réglementaire active et une participation aux processus de consultation sont recommandées pour anticiper les changements et adapter les processus de conformité en conséquence.
Pour les modèles entraînés avec un calcul inférieur au seuil mais présentant des capacités exceptionnelles, les fournisseurs doivent évaluer si leur modèle pourrait être considéré comme présentant un risque systémique au sens du paragraphe 1, point a). Cette auto-évaluation devrait prendre en compte les capacités du modèle évaluées par des benchmarks reconnus, l'adoption et l'utilisation du modèle à grande échelle, son intégration dans des infrastructures critiques, et son potentiel d'impact à l'échelle sociétale. Une approche prudente consisterait à mettre en œuvre volontairement certaines des obligations renforcées, même en l'absence de classification formelle, pour réduire les risques et démontrer un engagement proactif en matière de responsabilité.
Les organisations développant des modèles d'IA à usage général doivent également se préparer à d'éventuelles procédures de classification par la Commission. Cela implique de maintenir une documentation complète sur les caractéristiques techniques du modèle, ses capacités, son utilisation, et les mesures de gestion des risques mises en place. En cas de proposition de classification, les fournisseurs devront être en mesure de présenter des éléments factuels et techniques pour éclairer la décision de la Commission.
Pour les fournisseurs établis hors de l'Union européenne, la classification d'un modèle comme présentant un risque systémique déclenchera l'obligation de désigner un représentant autorisé dans l'UE. Cette désignation doit être anticipée et le représentant doit disposer des moyens et de l'autorité nécessaires pour assurer la conformité et servir de point de contact avec les autorités européennes.
Enfin, les organisations doivent intégrer dans leurs processus de développement des mécanismes de révision des classifications. Un modèle initialement sous le seuil pourrait le dépasser après un réentraînement ou un entraînement additionnel (fine-tuning à grande échelle). Les fournisseurs doivent donc réévaluer régulièrement la classification de leurs modèles et adapter leurs processus de conformité en conséquence.
L'article 51 de l'AI Act établit un cadre clair et objectif pour identifier les modèles d'intelligence artificielle à usage général qui, en raison de leurs capacités exceptionnelles ou de leur puissance de calcul considérable, présentent un risque systémique nécessitant des obligations renforcées. En fixant un seuil quantitatif objectif de 10^25 FLOPs, le règlement offre une prévisibilité bienvenue pour les fournisseurs tout en préservant la flexibilité nécessaire pour s'adapter aux évolutions technologiques rapides qui caractérisent le domaine de l'intelligence artificielle.
Le cadre établi par l'article 51 reconnaît que certains modèles d'IA, par leur puissance et leur potentiel d'impact à grande échelle, soulèvent des enjeux qui dépassent les questions traditionnelles de sécurité des produits ou de protection des données personnelles. Ces modèles peuvent influencer l'information à l'échelle sociétale, transformer des secteurs économiques entiers, ou présenter des capacités émergentes aux implications difficiles à anticiper. Le régime de risque systémique vise à garantir que ces modèles font l'objet d'une vigilance et d'une gouvernance appropriées.
Pour les organisations développant des modèles d'IA à usage général de grande ampleur, l'article 51 impose d'intégrer dès la conception une réflexion sur les risques systémiques potentiels et de mettre en place des processus rigoureux d'évaluation, de surveillance et d'atténuation de ces risques. Ces investissements, bien que substantiels, sont essentiels non seulement pour la conformité réglementaire, mais également pour préserver la confiance du public et garantir le développement responsable de l'intelligence artificielle à l'échelle de la société.