Module Retriever de chez chatGPT, OpenAI / IA

par Aurélien Bardon

Qu’est-ce que Retriever ?

Retriever est un module chargé de récupérer des informations externes pertinentes pour enrichir les réponses du modèle. Il fait partie d’un système de type RAG (Retrieval-Augmented Generation), où la génération est précédée d’une étape de recherche documentaire ou factuelle.

Retriever ne génère pas lui-même de texte, mais fournit au LLM des passages ou des documents issus de bases de données, fichiers, API ou moteurs de recherche. Ces éléments sont ensuite utilisés comme contexte pour améliorer la précision des réponses.

module retriever de chatgpt openai

Rôle principal de Retriever chez ChatGPT

  • Accéder à des sources d’information à jour ou spécialisées
  • Fournir un contexte documentaire fiable au LLM
  • Réduire les hallucinations en s’appuyant sur des données réelles
  • Permettre au modèle de répondre à des questions basées sur des connaissances non intégrées dans ses poids

Sources typiques utilisées par Retriever

  • Bases de données vectorielles (ex. Pinecone, FAISS, Weaviate)
  • Fichiers utilisateur (PDF, DOCX, TXT…)
  • Contenus web via un navigateur intégré ou une API
  • Corpus internes d’entreprise (confluence, intranet, base client, etc.)

Fonctionnement général

  • Le prompt utilisateur est transformé en vecteur de recherche
  • Retriever interroge une base de documents ou un index vectoriel
  • Il sélectionne les passages les plus pertinents
  • Ces passages sont injectés dans le contexte donné au LLM pour la génération

Exemples d’utilisation

  • Lire un document PDF envoyé par l’utilisateur pour répondre à des questions précises
  • Consulter une base interne pour générer un résumé client ou une recommandation juridique
  • Accéder à des informations web en temps réel (si navigation activée)
  • Construire des agents capables de s’appuyer sur des corpus métier

Différences avec d’autres modules

  • Retriever fournit de la matière première, mais ne décide rien ni ne génère
  • Contrairement à Compass ou Fortis, il n’a pas de logique éthique ou réglementaire
  • Il complète la mémoire temporaire ou persistante du modèle en ajoutant des données externes ciblées

Objectifs finaux de Retriever

  • Permettre des réponses mieux documentées, plus précises et vérifiables
  • Combler le fossé entre connaissance embarquée et savoir actualisé
  • Renforcer les cas d’usage professionnels basés sur des données spécifiques
  • Faire de l’IA un outil documenté, capable de raisonner à partir de sources réelles

Récapitulatif des modules OpenAI

Nom du module Fonction principale
Sonic Filtrage rapide de contenu
Fortis Surveillance réglementaire et thématique
Labrador Suivi de cohérence contextuelle
Moderation Classifieur général à haut niveau
Sentinel Défense contre attaques prompt injection
Critic Analyse logique et éthique des réponses
Observer Journalisation des décisions internes
Compass Alignement éthique et culturel
Router Dispatch vers sous-modules / agents
Retriever Récupération de documents / connaissances RAG / Connaissance

 

Aurélien Bardon
Dites STOP aux régressions SEO avec Oseox

Je vous recommande de lire également

  • 10 modules internes de l’IA OpenAI / ChatGPT
  • Composant Router / Orchestrator chez OpenAI, Chatgpt et IA
  • Module Compass de OpenAI, ChatGPT / IA
  • Module Observer chez ChatGPT, OpenAI / IA