Le classifieur interne Sonic chez OpenAI, Chatgpt / IA
par Aurélien Bardon
1 juin 2025
Classé dans : intelligence artificielle
Qu’est-ce que le classifieur Sonic de ChatGPT ?
Un classifieur est un composant qui analyse les requêtes ou les réponses d’un modèle d’IA pour détecter certains types de contenu sensibles ou non conformes aux politiques d’usage.
- Contenu haineux
- Contenu sexuel explicite
- Violence ou incitation à la violence
- Informations personnelles ou données sensibles
- Spams ou tentatives de phishing
- Désinformation ou théories complotistes
Le rôle de Sonic
Sonic est un classifieur de sécurité interne à OpenAI. Il fait partie d’un ensemble de filtres (appelé safety stack) qui assurent la conformité et la sécurité des interactions avec les modèles comme GPT.
- Détecte les contenus sensibles dans les requêtes utilisateur ou les réponses générées.
- Joue un rôle de filtre en amont (avant génération) et en aval (après génération).
- Travaille en coordination avec d’autres classifieurs internes.
Fonctionnement typique de Sonic
- L’utilisateur envoie une requête à l’IA.
- La requête est analysée par Sonic (et d’autres classifieurs).
- Deux cas de figure :
- Si la requête est jugée sûre → elle est transmise au modèle pour génération.
- Si la requête est jugée sensible → elle est bloquée et un message standard est renvoyé.
- Une fois la réponse générée, elle peut être de nouveau analysée avant d’être affichée.
Aspects techniques de Sonic
- Sonic est un modèle de classification supervisée, distinct du LLM principal.
- Il est entraîné sur des jeux de données annotés manuellement.
- Il produit des scores de probabilité pour différentes classes de risque.
- Un seuil de confiance est utilisé pour décider du blocage ou non du contenu.
A retenir
- Sonic est un classifieur interne développé par OpenAI.
- Il détecte les contenus sensibles dans les prompts et les outputs.
- Il ne génère pas de texte, mais agit comme un filtre de sécurité.
- Il fait partie d’un ensemble de filtres appelés « safety stack ».
- Il prend des décisions basées sur des scores de probabilité entraînés.
Récapitulatif des modules OpenAI
Nom du module | Fonction principale | |
---|---|---|
Sonic | Filtrage rapide de contenu | |
Fortis | Surveillance réglementaire et thématique | |
Labrador | Suivi de cohérence contextuelle | |
Moderation | Classifieur général à haut niveau | |
Sentinel | Défense contre attaques prompt injection | |
Critic | Analyse logique et éthique des réponses | |
Observer | Journalisation des décisions internes | |
Compass | Alignement éthique et culturel | |
Router | Dispatch vers sous-modules / agents | |
Retriever | Récupération de documents / connaissances | RAG / Connaissance |
Aurélien Bardon
Dites STOP aux régressions SEO avec Oseox
Je vous recommande de lire également