Le classifieur interne Sonic chez OpenAI, Chatgpt / IA
par Aurélien Bardon
 1 juin 2025
        Classé dans : intelligence artificielle
        	
        
Qu’est-ce que le classifieur Sonic de ChatGPT ?
Un classifieur est un composant qui analyse les requêtes ou les réponses d’un modèle d’IA pour détecter certains types de contenu sensibles ou non conformes aux politiques d’usage.
- Contenu haineux
- Contenu sexuel explicite
- Violence ou incitation à la violence
- Informations personnelles ou données sensibles
- Spams ou tentatives de phishing
- Désinformation ou théories complotistes

Le rôle de Sonic
Sonic est un classifieur de sécurité interne à OpenAI. Il fait partie d’un ensemble de filtres (appelé safety stack) qui assurent la conformité et la sécurité des interactions avec les modèles comme GPT.
- Détecte les contenus sensibles dans les requêtes utilisateur ou les réponses générées.
- Joue un rôle de filtre en amont (avant génération) et en aval (après génération).
- Travaille en coordination avec d’autres classifieurs internes.
Fonctionnement typique de Sonic
- L’utilisateur envoie une requête à l’IA.
- La requête est analysée par Sonic (et d’autres classifieurs).
- Deux cas de figure :
- Si la requête est jugée sûre → elle est transmise au modèle pour génération.
- Si la requête est jugée sensible → elle est bloquée et un message standard est renvoyé.
- Une fois la réponse générée, elle peut être de nouveau analysée avant d’être affichée.
Aspects techniques de Sonic
- Sonic est un modèle de classification supervisée, distinct du LLM principal.
- Il est entraîné sur des jeux de données annotés manuellement.
- Il produit des scores de probabilité pour différentes classes de risque.
- Un seuil de confiance est utilisé pour décider du blocage ou non du contenu.
A retenir
- Sonic est un classifieur interne développé par OpenAI.
- Il détecte les contenus sensibles dans les prompts et les outputs.
- Il ne génère pas de texte, mais agit comme un filtre de sécurité.
- Il fait partie d’un ensemble de filtres appelés « safety stack ».
- Il prend des décisions basées sur des scores de probabilité entraînés.
Récapitulatif des modules OpenAI
| Nom du module | Fonction principale | |
|---|---|---|
| Sonic | Filtrage rapide de contenu | |
| Fortis | Surveillance réglementaire et thématique | |
| Labrador | Suivi de cohérence contextuelle | |
| Moderation | Classifieur général à haut niveau | |
| Sentinel | Défense contre attaques prompt injection | |
| Critic | Analyse logique et éthique des réponses | |
| Observer | Journalisation des décisions internes | |
| Compass | Alignement éthique et culturel | |
| Router | Dispatch vers sous-modules / agents | |
| Retriever | Récupération de documents / connaissances | RAG / Connaissance | 
Aurélien Bardon
Dites STOP aux régressions SEO avec Oseox
Je vous recommande de lire également