Hallucinations IA : pourquoi les LLM inventent et comment les réduire

01

📖 Qu'est-ce qu'une hallucination IA ?

Une hallucination IA se produit lorsqu'un modèle de langage (LLM) génère une information fausse, non fondée ou incohérente avec la réalité, tout en la présentant avec confiance. C'est un problème majeur pour l'adoption des LLM en production, particulièrement dans les domaines sensibles.

⚠️ Le problème : Les LLM ne "comprennent" pas la réalité. Ils sont des modèles statistiques qui prédisent la prochaine séquence de mots. Ils peuvent donc générer des informations plausibles mais fausses.

🔴 Exemple d'hallucination :
Question : "Quel livre Victor Hugo a-t-il écrit en 1850 ?"
Réponse hallucinée : "Victor Hugo a écrit 'Les Travailleurs de la mer' en 1850."
(En réalité, 'Les Travailleurs de la mer' a été publié en 1866)

02

🔍 Types d'hallucinations

Type	Description	Exemple
Factuelle	Information contredisant des faits établis	"Victor Hugo a écrit Le Comte de Monte-Cristo" (faux, c'est Dumas)
Temporelle	Erreur sur les dates ou chronologie	"L'Appel du 18 juin a été prononcé en 1945" (faux, c'est 1940)
Relationnelle	Relation incorrecte entre entités	"Charles de Gaulle était président des États-Unis"
Inventaire	Liste d'éléments inexistants	"Victor Hugo a écrit 'Le Dernier Jour', 'La Légende', 'L'Homme qui rit'" (mélange vrai et faux)
Incohérence	Contradiction interne dans la réponse	"L'Appel du 18 juin a été prononcé en 1940 puis en 1942"

03

🧠 Pourquoi les LLM hallucinent ?

📊 Nature probabiliste

Les LLM prédisent la probabilité du mot suivant. Ils n'ont pas de "vérificateur de vérité" intégré.

📚 Connaissance figée

La connaissance du LLM est figée à la date de son entraînement. Les événements récents sont inconnus.

🎯 Biais d'ancrage

Le LLM peut être trop influencé par le prompt ou des exemples donnés.

🔄 Manque de contexte

Sans contexte suffisant, le LLM comble les lacunes avec des informations plausibles mais fausses.

📈 Surapprentissage

Le modèle peut avoir mémorisé des erreurs ou des biais présents dans les données d'entraînement.

🔀 Ambiguïté

Une question ambiguë peut mener à une réponse incorrecte.

04

🎯 Exemples concrets

Exemple 1 : Hallucination factuelle (notre domaine)

❓ Question : "Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?"

✅ Réponse correcte : "L'Appel du 18 juin et l'Appel du 22 juin."

🔴 Hallucination possible : "Charles de Gaulle a prononcé le 'Discours de Bayeux' en 1940."
(Le Discours de Bayeux date de 1946)

Exemple 2 : Hallucination relationnelle

❓ Question : "Quel président a nommé Charles de Gaulle ?"

✅ Réponse correcte : "Charles de Gaulle n'a pas été nommé président. Il est devenu président par élection."

🔴 Hallucination possible : "Le président René Coty a nommé Charles de Gaulle en 1958."
(C'est inexact - De Gaulle a été appelé par le président Coty pour former un gouvernement, mais pas 'nommé président')

Exemple 3 : Hallucination d'inventaire

❓ Question : "Quels sont les discours célèbres de Victor Hugo ?"

✅ Réponse correcte : "Discours sur la peine de mort (1829), Discours sur l'avenir de l'Europe (1848), Discours sur la misère (1849)"

🔴 Hallucination possible : Ajout de discours inexistants dans la liste.

💡 Impact métier : Dans les domaines sensibles (médecine, droit, finance), une hallucination peut avoir des conséquences graves. D'où l'importance de solutions comme le RAG et les graphes de connaissances.

05

🛡️ Stratégies de réduction des hallucinations

1. RAG (Retrieval-Augmented Generation)

Fournir un contexte pertinent à chaque requête. Le LLM s'appuie sur des faits réels plutôt que sur sa mémoire.

Réduction : 40-70%

2. Graphe de connaissances

Interroger un graphe structuré de faits vérifiés. Chaque réponse peut être sourcée.

Réduction : 50-80%

3. Fine-tuning

Entraîner le modèle sur des données spécifiques et vérifiées pour réduire les erreurs.

Réduction : 20-40%

4. Prompt engineering

Instructions claires : "Ne réponds que si tu es sûr", "Cite tes sources".

Réduction : 10-30%

5. Self-consistency

Générer plusieurs réponses et prendre la plus cohérente.

Réduction : 15-25%

6. Vérification par LLM

Utiliser un second LLM pour vérifier les faits de la réponse.

Réduction : 20-30%

📊 Meilleure approche : Combiner RAG + graphe de connaissances pour une réduction maximale des hallucinations (>80%).

06

📚 RAG : la solution de base contre les hallucinations

Le RAG (Retrieval-Augmented Generation) réduit les hallucinations en fournissant un contexte réel au LLM.

# Sans RAG (risque élevé d'hallucination)
response = llm.invoke("Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?")
# → "Charles de Gaulle a prononcé le Discours de Bayeux" (FAUX)

# Avec RAG (faible risque)
context = vector_search.search("Charles de Gaulle 1940 discours")
# → "Appel du 18 juin, Appel du 22 juin"

response = llm.invoke(
    f"Contexte: {context}\nQuestion: Quel discours Charles de Gaulle a-t-il prononcé en 1940 ?"
)
# → "Charles de Gaulle a prononcé l'Appel du 18 juin et l'Appel du 22 juin" (VRAI)

💡 Pourquoi ça marche : Le LLM ne "devine" plus. Il s'appuie sur les faits fournis dans le contexte.

07

🕸️ Graphe de connaissances : la solution premium

Le graphe de connaissances va plus loin que le RAG vectoriel en fournissant des relations explicites et vérifiables.

RAG vectoriel seul

Trouve des documents par similarité sémantique.
→ Peut manquer des relations complexes.

RAG + graphe

Navigation dans les relations, inférences, sources traçables.
→ Hallucinations quasi éliminées.

📊 Exemple :
Question : "Quels discours de Charles de Gaulle citent l'Appel du 18 juin ?"

RAG vectoriel : Peut trouver des discours similaires, mais pas forcément la relation "cite".
Graphe : Navigue directement dans la relation "cite". Réponse précise et sourcée.

🎯 Notre approche chez Le Monde Sémantique :

✅ Graphe RDF de 50+ orateurs et 100+ discours
✅ Relations explicites (aPrononce, concerne, cite)
✅ RAG hybride (vectoriel + graphe)
✅ Taux d'hallucination < 5% sur les questions factuelles

08

Hallucinations IA