Le classifieur interne Sonic chez OpenAI, Chatgpt / IA

par Aurélien Bardon

Qu’est-ce que le classifieur Sonic de ChatGPT ?

Un classifieur est un composant qui analyse les requêtes ou les réponses d’un modèle d’IA pour détecter certains types de contenu sensibles ou non conformes aux politiques d’usage.

  1. Contenu haineux
  2. Contenu sexuel explicite
  3. Violence ou incitation à la violence
  4. Informations personnelles ou données sensibles
  5. Spams ou tentatives de phishing
  6. Désinformation ou théories complotistes

sonic chatgpt openai

Le rôle de Sonic

Sonic est un classifieur de sécurité interne à OpenAI. Il fait partie d’un ensemble de filtres (appelé safety stack) qui assurent la conformité et la sécurité des interactions avec les modèles comme GPT.

  1. Détecte les contenus sensibles dans les requêtes utilisateur ou les réponses générées.
  2. Joue un rôle de filtre en amont (avant génération) et en aval (après génération).
  3. Travaille en coordination avec d’autres classifieurs internes.

Fonctionnement typique de Sonic

  1. L’utilisateur envoie une requête à l’IA.
  2. La requête est analysée par Sonic (et d’autres classifieurs).
  3. Deux cas de figure :

  1. Si la requête est jugée sûre → elle est transmise au modèle pour génération.
  2. Si la requête est jugée sensible → elle est bloquée et un message standard est renvoyé.
  3. Une fois la réponse générée, elle peut être de nouveau analysée avant d’être affichée.

Aspects techniques de Sonic

  1. Sonic est un modèle de classification supervisée, distinct du LLM principal.
  2. Il est entraîné sur des jeux de données annotés manuellement.
  3. Il produit des scores de probabilité pour différentes classes de risque.
  4. Un seuil de confiance est utilisé pour décider du blocage ou non du contenu.

A retenir

  1. Sonic est un classifieur interne développé par OpenAI.
  2. Il détecte les contenus sensibles dans les prompts et les outputs.
  3. Il ne génère pas de texte, mais agit comme un filtre de sécurité.
  4. Il fait partie d’un ensemble de filtres appelés « safety stack ».
  5. Il prend des décisions basées sur des scores de probabilité entraînés.

Récapitulatif des modules OpenAI

Nom du module     Fonction principale
Sonic Filtrage rapide de contenu
Fortis Surveillance réglementaire et thématique
Labrador Suivi de cohérence contextuelle
Moderation Classifieur général à haut niveau
Sentinel Défense contre attaques prompt injection
Critic Analyse logique et éthique des réponses
Observer Journalisation des décisions internes
Compass Alignement éthique et culturel
Router Dispatch vers sous-modules / agents
Retriever Récupération de documents / connaissances RAG / Connaissance

Aurélien Bardon
Dites STOP aux régressions SEO avec Oseox

Je vous recommande de lire également

  • Pearl Harbor Russe : L’attaque des drones en vidéo
  • 10 modules internes de l’IA OpenAI / ChatGPT
  • Module Retriever de chez chatGPT, OpenAI / IA
  • Composant Router / Orchestrator chez OpenAI, Chatgpt et IA
  • Module Compass de OpenAI, ChatGPT / IA