Boostez la précision de vos LLMs en répétant vos prompts

Vous posez une question précise à ChatGPT, Claude ou Gemini après lui avoir fourni un long contexte. La réponse est décevante — le modèle semble avoir oublié la moitié de ce que vous lui avez donné. Ce n'est pas un bug. C'est un problème d'attention.

Les modèles de langage (LLMs) ne traitent pas l'information comme un humain qui relit ses notes. Ils parcourent le texte de manière séquentielle, et plus le contexte est long, plus les premières informations se retrouvent diluées dans le bruit. C'est un phénomène documenté par la recherche : le "lost in the middle" problem.

Pourquoi les LLMs perdent le fil

Le mécanisme d'attention des Transformers

Les LLMs modernes reposent sur une architecture appelée Transformer. Au cœur de cette architecture se trouve le mécanisme d'attention : pour chaque mot généré, le modèle "regarde" l'ensemble du contexte et décide quelles parties sont les plus pertinentes.

Le problème, c'est que cette attention n'est pas infinie. Plus le contexte est long, plus elle se dilue. Les informations situées au milieu d'un long document reçoivent statistiquement moins d'attention que celles au début ou à la fin.

Le modèle voit le contexte avant la question

Quand vous envoyez un prompt structuré comme [contexte long] + [question], le modèle traite d'abord tout le contexte sans savoir ce que vous allez lui demander. Il ne peut pas deviner quelles informations seront pertinentes.

L'analogie est simple : c'est comme lire un livre de 500 pages avant de savoir qu'il y aura un quiz sur le chapitre 3. Vous n'avez porté aucune attention particulière à ce chapitre, et vos réponses seront approximatives.

La solution : le Double Prompt

Une étude publiée fin 2025 (arXiv:2512.14982) a formalisé une technique aussi simple qu'efficace : envoyer le même prompt deux fois.

Le principe

Au lieu d'envoyer une seule requête [contexte + question], on procède en deux étapes :

Premier prompt : on envoie [contexte + question] → le modèle produit une réponse brute
Second prompt : on renvoie [contexte + question + réponse brute] → le modèle produit une réponse affinée

Lors du second passage, le modèle dispose d'un "brouillon" dans son contexte. Ce brouillon guide son attention vers les parties pertinentes du contexte initial. Le modèle sait maintenant quoi chercher.

C'est exactement comme relire sa copie d'examen après un premier jet : on repère les imprécisions, on corrige les oublis, on affine le raisonnement.

Les résultats sont spectaculaires

Les benchmarks de l'étude montrent des améliorations mesurables sur plusieurs types de tâches :

Sur certaines tâches de raisonnement multi-étapes, la précision passe de 21% à 97%
Les gains sont particulièrement importants sur l'extraction d'information dans des documents longs
Le résumé avec contraintes (longueur, format, critères précis) bénéficie largement de cette approche
La technique fonctionne avec tous les LLMs testés : GPT-4, Claude, Gemini, Llama

Le gain n'est pas marginal. Sur les tâches complexes où le contexte est long et la question précise, le double prompt transforme une réponse médiocre en réponse exploitable.

Comment NetworkGlue utilise cette technique

Nos modules d'IA appliquent ce pattern en interne pour garantir des résultats plus fiables.

Analyse de compatibilité CV / offre d'emploi

Premier pass : extraction des mots-clés, compétences et critères de l'offre d'emploi
Second pass : scoring de compatibilité entre le CV et l'offre en s'appuyant sur les mots-clés extraits au premier pass

Le premier passage identifie ce qui compte. Le second mesure la correspondance avec précision.

Génération de lettres de motivation

Premier pass : identification des points de correspondance entre le CV du candidat et les exigences de l'offre
Second pass : rédaction de la lettre en s'appuyant sur ces points de correspondance pour construire une argumentation cohérente

Le résultat : des lettres qui reprennent les bons mots-clés et mettent en avant les expériences réellement pertinentes, au lieu de produire du texte générique.

Comment l'appliquer vous-même

En utilisant ChatGPT, Claude ou Gemini manuellement

La méthode est accessible à tous, sans compétence technique :

Envoyez votre prompt normalement (contexte + question)
Lisez la réponse — ne la jetez pas
Renvoyez le même prompt en ajoutant : "Voici une première analyse : [collez la réponse précédente]. Affine cette réponse en corrigeant les erreurs et en complétant les manques."
La seconde réponse sera significativement plus précise

En développement via API

Si vous intégrez des LLMs dans vos applications :

Faites 2 appels API au lieu d'un seul
Injectez la réponse du premier appel dans le contexte du second
Le coût en tokens est environ 2x, mais la qualité est souvent nettement supérieure
Particulièrement rentable pour les tâches complexes : analyse de documents, raisonnement, extraction structurée

Quand utiliser (et ne pas utiliser) le double prompt

Cette technique n'est pas toujours nécessaire. Réservez-la aux cas où la précision compte :

| Utile | Pas nécessaire | |-------|---------------| | Analyse d'un document de 10 pages | Traduction d'une phrase | | Raisonnement en plusieurs étapes | Question factuelle simple | | Extraction de données structurées | Génération créative libre | | Résumé avec critères précis | Conversation informelle |

La règle est simple : si le contexte est long et la question précise, le double prompt vaut le coût supplémentaire. Pour les tâches simples, un seul passage suffit.

Conclusion

Le double prompt exploite une faiblesse connue des LLMs — la dilution de l'attention sur les contextes longs — en leur donnant une seconde chance de bien répondre. C'est une technique validée par la recherche, simple à mettre en œuvre, et qui produit des gains mesurables.

La prochaine fois que vous obtenez une réponse décevante d'un LLM, avant de reformuler votre question, essayez simplement de lui renvoyer la même question avec sa propre réponse en contexte. Le résultat pourrait vous surprendre.