Architecture de securite

11 juin 20268 min

Comment construire un Security Engine IA lifecycle-aware

La securite IA moderne ne peut pas se resumer a une enorme verification preflight. Decouvrez comment un Security Engine lifecycle-aware doit fonctionner, ce qu'impliquent les recommandations recentes d'OWASP et du NIST, et comment l'architecture par etapes d'Odock se compare.

Youcef Kaddour

Fondateur d’Odock et ingénieur en infrastructure IA

Youcef Kaddour est le fondateur d’Odock et un ingénieur en infrastructure IA spécialisé dans les systèmes LLM sécurisés, la gouvernance MCP, les guardrails runtime et les architectures IA multi-provider prêtes pour la production.

À retenir

1Un AI firewall unique en mode oui/non est une mauvaise abstraction pour le trafic LLM et MCP en production.
2Les documents recents d'OWASP et du NIST pointent vers des controles par etapes : limites de capacites, output handling, runtime containment et preuves.
3Notre modele runtime separe deja les policy gates amont de l'enforcement SafetySec sur prompts et reponses, ce qui va dans la bonne direction pour l'infrastructure IA.

Trop de designs de securite IA partent encore de l'idee d'un gros filtre unique au debut du chemin de requete. Ce design ne tient pas en production. Certains controles ont besoin du contexte reseau, d'autres de l'identite et du scope de ressource, d'autres encore des tokens et du budget, d'autres du texte du prompt, et d'autres enfin de la sortie finale du model. Un Security Engine IA exploitable doit etre lifecycle-aware.

Le mauvais modele mental : un enorme AI firewall

Le design de securite IA le plus simple est aussi le moins realiste. Les equipes placent un classifieur ou un jeu de regles devant le model et attendent qu'il reponde a toutes les questions : la requete doit-elle etre autorisee, le prompt est-il malveillant, l'utilisateur est-il autorise, la sortie est-elle sure, la requete va-t-elle casser le budget, et le model peut-il appeler des outils ?

Cela ne fonctionne pas parce que ces questions apparaissent a des moments differents.

Une regle reseau peut s'executer avant l'auth.
Une decision d'access grant a besoin de l'identite appelante et de la ressource selectionnee.
Un gate de tokens ou de cout a besoin du contexte model et de l'enveloppe token.
Un controle de securite de prompt a besoin du texte decode du prompt.
Un controle de fuite cote reponse a besoin de la sortie provider.
Une reconciliation finale de cout a besoin que la requete soit terminee.

Des qu'on accepte cette realite de timing, l'architecture change. On cesse de chercher un AI firewall magique et on commence a construire un enforcement par etapes.

Ce qu'impliquent les recommandations recentes pour le design de l'engine

Le meilleur signal public ici n'est pas un cadre unique. C'est le recouvrement entre plusieurs sources.

En janvier 2024, le NIST a publie Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations. Ce rapport compte parce qu'il structure la securite IA autour des etapes du cycle de vie, des objectifs de l'attaquant, de ses capacites, du poisoning, des attaques vie privee, de l'extraction de model et des variantes de prompt injection en GenAI. C'est deja un raisonnement par etapes.

Le 12 mars 2025, le Top 10 OWASP mis a jour pour les applications LLM et GenAI a renforce le meme point du cote applicatif. Prompt injection, divulgation d'informations sensibles, improper output handling, excessive agency et consommation non bornee sont des classes d'echec differentes. Aucun gate unique ne peut toutes les voir avec le bon contexte.

Le 25 mai 2026, le crosswalk AIUC-1 d'OWASP pour les applications agentiques a encore pousse l'architecture en appelant explicitement des manques autour de l'identite des agents, du runtime containment, de l'architectural monitoring, de l'attestation de supply chain et des schema controls. C'est en pratique un avertissement contre une securite trop mince et mono-etape.

Pris ensemble, ces documents disent qu'un vrai Security Engine IA a besoin :

de controles par etapes
de frontieres d'acces sensibles aux capacites
de gestion cote reponse, pas seulement d'un filtrage cote entree
de controles de cout et d'abus dans le chemin runtime
de preuves et de monitoring apres la decision

Les etapes dont un vrai Security Engine IA a besoin

Voici la forme pratique d'un engine pret pour la production.

1. Controles d'admission request-aware. Ils gerent IP policy, taille du payload, debit de requetes, concurrence et autres protections peu couteuses avant le travail cher.

2. Controles d'identite et d'acces. Ils repondent a qui appelle, quelle virtual key ou quel tenant porte la requete, et si cette identite peut atteindre le model ou le serveur MCP choisi.

3. Controles resource-aware et token-aware. Ils raisonnent sur le model selectionne, l'enveloppe token, les budgets, les quotas et autres frontieres d'usage qui dependent du contexte de requete decodee.

4. Controles de contenu cote requete. Ils inspectent le texte du prompt, redigent les donnees sensibles en entree, detectent la prompt injection ou les jailbreak patterns et decident si l'execution upstream doit continuer.

5. Controles d'outils et de plugins. Ils appliquent des regles de capacites explicites aux outils MCP ou a d'autres points d'extension afin qu'un prompt faible ne se transforme pas en chemin d'action fort.

6. Controles cote reponse et preuves. Ils inspectent la sortie du model pour y chercher des fuites ou du contenu dangereux, redigent si approprie, bloquent si necessaire et enregistrent suffisamment de preuves pour que les operateurs comprennent ce qui s'est passe.

Cette sequence n'est pas de la sur-ingenierie. C'est la structure minimale pour repondre a des questions de securite differentes avec les bonnes donnees.

Comment Odock se compare

Chez Odock, notre runtime suit presque exactement ce schema par etapes. Notre cycle de vie passe par des request-aware gates, des identity and access gates, des resource-aware gates, des token and cost gates, la securite cote requete, des plugin gates, l'execution upstream, la securite cote reponse, les plugin gates post-upstream, l'ecriture de la reponse puis les preuves finales d'usage.

SafetySec traite ensuite les parties sensibles au contenu de ce flux. Dans SafetySec, nous gerons :

la detection de prompt injection
la detection de jailbreak patterns
la sensitive redaction
la detection de data leakage
la repeated-risk awareness
les safety evidence

C'est un choix de design important. SafetySec ne remplace pas le controle d'acces, les budgets, les quotas ou la policy de capacites MCP. Il gere la securite des prompts et des reponses pendant que d'autres guardrails gerent la forme du trafic, l'acces et les frontieres de ressources.

Le mapping est simple :

Controles de requete amont :

Nous arretons l'abus avant le travail couteux avec des request-aware gates sur l'origine, le payload, les rate limits et la concurrence.

Permissions liees a l'identite :

Nous gardons l'acces aux models et aux outils attache aux principals avec des access grants explicites pour les models et les serveurs MCP.

Enforcement tokens et cout :

Nous evitons le denial of wallet et l'usage hors de controle avec les token gates, les budgets, les quotas et la reconciliation lifecycle-aware.

Defense de prompt cote requete :

Nous stoppons les entrees dangereuses avant l'execution upstream avec les controles SafetySec de prompt risk cote requete et l'input redaction.

Gouvernance des capacites d'outils :

Nous limitons ce que les agents peuvent reellement faire avec les allowed tools, blocked tools, scopes et semantic filters MCP.

Defense cote reponse :

Nous attrapons les fuites ou sorties dangereuses avant le client avec les controles SafetySec de data leakage cote reponse et l'output redaction.

Preuves et audit :

Nous rendons les decisions explicables et observables avec les safety evidence ainsi que l'enregistrement de l'usage, du statut, du cout et de la latency.

Pourquoi c'est plus solide que des filtres applicatifs

Les filtres applicatifs ne sont pas inutiles. Ils sont simplement insuffisants comme surface de controle principale.

Dans des systemes IA distribues, la securite au niveau applicatif derive vite :

des services differents implementent des regles differentes
les equipes ne release pas a la meme vitesse
l'acces aux outils est ajoute avant revue plateforme
la forme des logs diverge
les limites de cout deviennent best-effort au lieu d'etre enforcees

Une approche lifecycle-aware au niveau gateway corrige le point de controle. Les equipes produit continuent de livrer des fonctionnalites, mais l'enforcement le plus risque reste dans une infrastructure partagee.

C'est particulierement important pour les systemes agentiques. A partir du moment ou un model peut appeler un outil repository, navigateur, ticketing ou une action interne, le rayon d'impact n'est plus seulement "du mauvais texte" mais "de vrais effets de bord". C'est la que l'enforcement par etapes compte.

La frontiere realiste de l'engine

Meme un bon Security Engine n'est pas tout le programme. Chez Odock, nous ne survendons pas ce point.

Il faut encore du travail adjacent pour :

le developpement securise et le patching des serveurs MCP et des plugins
les controles de supply chain pour les models, datasets et dependances
les revues d'architecture sur les workflows a haut risque
la validation de schema et de regles metier dans les handlers d'outils
la gouvernance de release, l'evaluation et le red teaming hors du chemin de requete live

Mais si la couche runtime est faible, tous les autres controles compensent le mauvais probleme. Le chemin runtime est l'endroit ou les requetes deviennent des actions, des couts et des sorties. C'est pour cela que le design de l'engine compte autant.

Sources

À retenir

1
Un AI firewall unique en mode oui/non est une mauvaise abstraction pour le trafic LLM et MCP en production.
2
Les documents recents d'OWASP et du NIST pointent vers des controles par etapes : limites de capacites, output handling, runtime containment et preuves.
3
Notre modele runtime separe deja les policy gates amont de l'enforcement SafetySec sur prompts et reponses, ce qui va dans la bonne direction pour l'infrastructure IA.

Questions fréquentes

Pourquoi une seule verification de securite preflight ne suffit-elle pas ?

Parce que beaucoup d'informations importantes n'existent pas encore au moment de l'admission. La sortie finale n'est pas connue, le model ou le plan d'outils resolu peut ne pas l'etre non plus, et le cout ne peut pas etre reconcilie avant la fin de la requete.

Qu'est-ce qui rend un Security Engine lifecycle-aware ?

Le fait d'appliquer des controles differents a des etapes differentes du cycle de vie de la requete, selon le contexte disponible a chaque etape. Limites reseau amont, controles d'acces lies a l'identite, gates de tokens et de budget, controles de prompt cote requete, controles de fuite cote reponse et preuves post-flight appartiennent chacun a un moment distinct.

Est-ce seulement pertinent pour l'IA agentique ?

Non. Les systemes agentiques rendent le probleme plus visible, mais meme une simple API LLM a besoin de controles par etapes pour l'admission, l'identite, la gestion des prompts, la gestion des sorties et la gouvernance d'usage.

Besoin d'un Security Engine couvrant tout le cycle de vie d'une requete IA ?

Odock combine enforcement de policies par etapes, controles SafetySec sur prompts et reponses, gouvernance MCP et preuves d'usage dans un seul chemin gateway.

Parler a l'equipe Voir sur GitHub

Articles liés

Securite IA9 min

Securite IA en 2026 : prompt injection, tool poisoning et nouveau risque agentique

La securite IA ne concerne plus seulement les mauvais prompts. Elle couvre aussi l'abus d'outils, le poisoning MCP, la consommation non bornee et les fuites cote reponse. Cet article compare ces risques avec les controles runtime reelles d'Odock.

Lire l'article

Sécurité IA7 min

Prompt injection, fuite de données et pourquoi les guardrails LLM doivent vivre dans le gateway

Quand chaque équipe gère la sécurité IA dans son propre service, la protection devient incohérente. Cet article explique pourquoi les guardrails au niveau du gateway sont le modèle le plus sûr et comment cela s’applique à Odock.

Lire l'article

Observabilité IA8 min

Que logger, monitorer et tracer dans les applications LLM en production

Quand le trafic IA traverse providers, outils, tenants et équipes, l’observabilité doit relier qualité, latency, coût, sécurité et décisions de routing.

Lire l'article

AI Security12 min

Les agents IA sont désormais des non-human identities : le problème de credential sprawl de 2026

Vos agents IA ne sont pas de simples features. Ce sont des non-human identities : ils détiennent des credentials, agissent de façon autonome, et la plupart des équipes de sécurité n'ont aucun lifecycle prévu pour eux. Voici pourquoi la multiplication des NHI est devenue le risque agentic AI silencieux de 2026, et ce qu'il faut réellement faire pour y remédier.

Lire l'article

Auteur

Youcef Kaddour

Fondateur d’Odock et ingénieur en infrastructure IA

Profile

Dans cet article

À retenir

1
Un AI firewall unique en mode oui/non est une mauvaise abstraction pour le trafic LLM et MCP en production.
2
Les documents recents d'OWASP et du NIST pointent vers des controles par etapes : limites de capacites, output handling, runtime containment et preuves.
3
Notre modele runtime separe deja les policy gates amont de l'enforcement SafetySec sur prompts et reponses, ce qui va dans la bonne direction pour l'infrastructure IA.

Retour au blog