01
📖 Qu'est-ce qu'une hallucination IA ?
Une hallucination IA se produit lorsqu'un modèle de langage (LLM) génère une information fausse, non fondée ou incohérente avec la réalité, tout en la présentant avec confiance. C'est un problème majeur pour l'adoption des LLM en production, particulièrement dans les domaines sensibles.
⚠️ Le problème : Les LLM ne "comprennent" pas la réalité. Ils sont des modèles statistiques qui prédisent la prochaine séquence de mots. Ils peuvent donc générer des informations plausibles mais fausses.
🔴 Exemple d'hallucination :
Question : "Quel livre Victor Hugo a-t-il écrit en 1850 ?"
Réponse hallucinée : "Victor Hugo a écrit 'Les Travailleurs de la mer' en 1850."
(En réalité, 'Les Travailleurs de la mer' a été publié en 1866)
04
🎯 Exemples concrets
Exemple 1 : Hallucination factuelle (notre domaine)
❓ Question : "Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?"
✅ Réponse correcte : "L'Appel du 18 juin et l'Appel du 22 juin."
🔴 Hallucination possible : "Charles de Gaulle a prononcé le 'Discours de Bayeux' en 1940."
(Le Discours de Bayeux date de 1946)
Exemple 2 : Hallucination relationnelle
❓ Question : "Quel président a nommé Charles de Gaulle ?"
✅ Réponse correcte : "Charles de Gaulle n'a pas été nommé président. Il est devenu président par élection."
🔴 Hallucination possible : "Le président René Coty a nommé Charles de Gaulle en 1958."
(C'est inexact - De Gaulle a été appelé par le président Coty pour former un gouvernement, mais pas 'nommé président')
Exemple 3 : Hallucination d'inventaire
❓ Question : "Quels sont les discours célèbres de Victor Hugo ?"
✅ Réponse correcte : "Discours sur la peine de mort (1829), Discours sur l'avenir de l'Europe (1848), Discours sur la misère (1849)"
🔴 Hallucination possible : Ajout de discours inexistants dans la liste.
💡 Impact métier : Dans les domaines sensibles (médecine, droit, finance), une hallucination peut avoir des conséquences graves. D'où l'importance de solutions comme le RAG et les graphes de connaissances.
05
🛡️ Stratégies de réduction des hallucinations
1. RAG (Retrieval-Augmented Generation)
Fournir un contexte pertinent à chaque requête. Le LLM s'appuie sur des faits réels plutôt que sur sa mémoire.
Réduction : 40-70%
2. Graphe de connaissances
Interroger un graphe structuré de faits vérifiés. Chaque réponse peut être sourcée.
Réduction : 50-80%
3. Fine-tuning
Entraîner le modèle sur des données spécifiques et vérifiées pour réduire les erreurs.
Réduction : 20-40%
4. Prompt engineering
Instructions claires : "Ne réponds que si tu es sûr", "Cite tes sources".
Réduction : 10-30%
5. Self-consistency
Générer plusieurs réponses et prendre la plus cohérente.
Réduction : 15-25%
6. Vérification par LLM
Utiliser un second LLM pour vérifier les faits de la réponse.
Réduction : 20-30%
📊 Meilleure approche : Combiner RAG + graphe de connaissances pour une réduction maximale des hallucinations (>80%).
06
📚 RAG : la solution de base contre les hallucinations
Le RAG (Retrieval-Augmented Generation) réduit les hallucinations en fournissant un contexte réel au LLM.
# Sans RAG (risque élevé d'hallucination)
response = llm.invoke("Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?")
# → "Charles de Gaulle a prononcé le Discours de Bayeux" (FAUX)
# Avec RAG (faible risque)
context = vector_search.search("Charles de Gaulle 1940 discours")
# → "Appel du 18 juin, Appel du 22 juin"
response = llm.invoke(
f"Contexte: {context}\nQuestion: Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?"
)
# → "Charles de Gaulle a prononcé l'Appel du 18 juin et l'Appel du 22 juin" (VRAI)
💡 Pourquoi ça marche : Le LLM ne "devine" plus. Il s'appuie sur les faits fournis dans le contexte.
07
🕸️ Graphe de connaissances : la solution premium
Le graphe de connaissances va plus loin que le RAG vectoriel en fournissant des relations explicites et vérifiables.
RAG vectoriel seul
Trouve des documents par similarité sémantique.
→ Peut manquer des relations complexes.
RAG + graphe
Navigation dans les relations, inférences, sources traçables.
→ Hallucinations quasi éliminées.
📊 Exemple :
Question : "Quels discours de Charles de Gaulle citent l'Appel du 18 juin ?"
RAG vectoriel : Peut trouver des discours similaires, mais pas forcément la relation "cite".
Graphe : Navigue directement dans la relation "cite". Réponse précise et sourcée.
🎯 Notre approche chez Le Monde Sémantique :
- ✅ Graphe RDF de 50+ orateurs et 100+ discours
- ✅ Relations explicites (aPrononce, concerne, cite)
- ✅ RAG hybride (vectoriel + graphe)
- ✅ Taux d'hallucination < 5% sur les questions factuelles