Le classifieur interne Sonic chez OpenAI, Chatgpt / IA

Qu’est-ce que le classifieur Sonic de ChatGPT ?

Un classifieur est un composant qui analyse les requêtes ou les réponses d’un modèle d’IA pour détecter certains types de contenu sensibles ou non conformes aux politiques d’usage.

Contenu haineux
Contenu sexuel explicite
Violence ou incitation à la violence
Informations personnelles ou données sensibles
Spams ou tentatives de phishing
Désinformation ou théories complotistes

sonic chatgpt openai

Le rôle de Sonic

Sonic est un classifieur de sécurité interne à OpenAI. Il fait partie d’un ensemble de filtres (appelé safety stack) qui assurent la conformité et la sécurité des interactions avec les modèles comme GPT.

Détecte les contenus sensibles dans les requêtes utilisateur ou les réponses générées.
Joue un rôle de filtre en amont (avant génération) et en aval (après génération).
Travaille en coordination avec d’autres classifieurs internes.

Fonctionnement typique de Sonic

L’utilisateur envoie une requête à l’IA.
La requête est analysée par Sonic (et d’autres classifieurs).
Deux cas de figure :

Si la requête est jugée sûre → elle est transmise au modèle pour génération.

Si la requête est jugée sensible → elle est bloquée et un message standard est renvoyé.

Une fois la réponse générée, elle peut être de nouveau analysée avant d’être affichée.

Aspects techniques de Sonic

Sonic est un modèle de classification supervisée, distinct du LLM principal.
Il est entraîné sur des jeux de données annotés manuellement.
Il produit des scores de probabilité pour différentes classes de risque.
Un seuil de confiance est utilisé pour décider du blocage ou non du contenu.

A retenir

Sonic est un classifieur interne développé par OpenAI.
Il détecte les contenus sensibles dans les prompts et les outputs.
Il ne génère pas de texte, mais agit comme un filtre de sécurité.
Il fait partie d’un ensemble de filtres appelés « safety stack ».
Il prend des décisions basées sur des scores de probabilité entraînés.

Récapitulatif des modules OpenAI

Nom du module	Fonction principale
Sonic	Filtrage rapide de contenu
Fortis	Surveillance réglementaire et thématique
Labrador	Suivi de cohérence contextuelle
Moderation	Classifieur général à haut niveau
Sentinel	Défense contre attaques prompt injection
Critic	Analyse logique et éthique des réponses
Observer	Journalisation des décisions internes
Compass	Alignement éthique et culturel
Router	Dispatch vers sous-modules / agents
Retriever	Récupération de documents / connaissances	RAG / Connaissance