Technique5 min de lecture

Économisez 50% de vos frais API grâce au Context Caching

Charles Krzentowski

Publié le 29 Jan 2026

Illustration de l'article : Économisez 50% de vos frais API grâce au Context Caching

Le mois dernier, j'ai reçu ma facture Claude Code. J'ai failli m'étouffer avec mon café.

J'avais dépensé bien plus que prévu. Et le pire ? Une bonne partie de ces tokens étaient gaspillés. Je payais pour envoyer les mêmes informations encore et encore à chaque requête.

Depuis, j'ai optimisé. Ma facture a baissé de 55% sans réduire ma productivité. Voici comment faire pareil.

Comprendre Ce Qui Coûte

Avant d'optimiser, il faut comprendre comment fonctionne la facturation de Claude Code.

Les tokens, c'est quoi ?

Un token, c'est un morceau de texte. En gros, 1 token correspond à environ 4 caractères en anglais (un peu moins en français car on utilise des accents et des mots plus longs).

Quand tu utilises Claude Code, tu paies pour deux types de tokens :

Input tokens : ce que tu envoies (ta question + le contexte)
Output tokens : ce que Claude répond

Les output tokens coûtent généralement 3 à 5 fois plus cher que les input tokens.

Le piège du contexte

Voici où beaucoup de gens se font avoir. Le "contexte", c'est tout ce que Claude doit "relire" à chaque échange :

L'historique de ta conversation
Le contenu des fichiers que tu as mentionnés
Les instructions système

Plus la conversation est longue, plus le contexte grossit, plus ça coûte.

Imagine que tu poses 10 questions dans la même conversation. À la 10ème question, Claude relit toute la conversation (questions 1 à 9 + leurs réponses) avant de répondre. Tu paies pour relire tout ça à chaque fois.

Technique 1 : Utilise /compact Régulièrement

Claude Code a une commande magique : /compact. Elle résume la conversation pour réduire le contexte tout en gardant les informations importantes.

Prompt à donner à Claude

/compact

Quand l'utiliser

Après avoir fini une tâche : Tu as implémenté une feature ? /compact avant de passer à la suivante
Quand la conversation devient longue : Plus de 10-15 échanges ? /compact
Quand tu changes de sujet : Tu passes du frontend au backend ? /compact

Ce que ça fait concrètement

Avant /compact :

Historique complet : 50 000 tokens
Coût par requête suivante : élevé

Après /compact :

Résumé condensé : 5 000 tokens
Coût par requête suivante : 10x moins

Claude garde l'essentiel (ce qu'il a appris sur ton projet, les décisions prises) mais oublie les détails verbeux.

Technique 2 : Nouvelles Conversations = Nouveaux Sujets

Une erreur que je vois souvent : garder une seule conversation pendant des heures, voire des jours.

Mauvaise habitude :

9h : Je travaille sur l'authentification
11h : Je passe aux formulaires
14h : Je fais du CSS
16h : Je configure le déploiement

Tout ça dans la même conversation ? Le contexte devient énorme.

Bonne habitude :

Authentification → Nouvelle conversation
Formulaires → Nouvelle conversation
CSS → Nouvelle conversation
Déploiement → Nouvelle conversation

Chaque nouvelle conversation repart de zéro en termes de contexte. C'est comme avoir un nouveau cahier pour chaque sujet au lieu d'un seul cahier géant.

Technique 3 : Choisis Le Bon Modèle

Tous les modèles Claude ne coûtent pas pareil. Anthropic propose plusieurs options.

Modèle	Coût relatif	Idéal pour
Claude 3 Haiku	$	Questions simples, corrections mineures, formatage
Claude 3.5 Sonnet	$$	La plupart des tâches de développement
Claude 3 Opus / Claude 4	$$$$$	Architecture complexe, raisonnement avancé

Comment changer de modèle dans Claude Code

Prompt à donner à Claude

/model haiku

Prompt à donner à Claude

/model sonnet

Ma stratégie de choix

Haiku : Corrections de typos, petits ajustements CSS, questions rapides
Sonnet : 90% de mon travail quotidien, implémentation de features, debug
Opus : Décisions d'architecture importantes, refactoring majeur, problèmes vraiment complexes

Ne sors pas l'artillerie lourde pour tuer une mouche.

Technique 4 : Sois Précis Dès Le Départ

Une demande vague génère des aller-retours coûteux.

L'exemple qui coûte cher

Premier message :

"Fais-moi une page de contact"

Claude répond : "Quel style ? Quels champs ? Où envoyer les données ?"

Deuxième message :

"Style moderne, champs nom/email/message, envoie vers une API"

Claude répond : "Quelle stack ? React ? HTML pur ? Quelle API ?"

Et ainsi de suite. Chaque aller-retour ajoute au contexte et coûte des tokens.

L'exemple qui économise

Premier message :

"Crée une page de contact avec :
- Formulaire avec champs : nom (obligatoire), email (obligatoire, validé), message (obligatoire, min 10 caractères)
- Validation côté client avant envoi
- Envoi vers POST /api/contact
- Message de confirmation après envoi réussi
- Gestion des erreurs si l'API échoue
- Style cohérent avec le reste du site (Tailwind)
- Accessible (labels, aria, focus states)"

Claude a tout ce qu'il faut pour travailler du premier coup. Un seul aller-retour au lieu de 5.

Le template que j'utilise

Prompt à donner à Claude

Tâche : [description courte] Contexte : [ce que tu as besoin de savoir sur mon projet] Spécifications : - [spec 1] - [spec 2] - [spec 3] Stack technique : [technologies utilisées] Contraintes : [ce qu'il faut éviter ou respecter]

Plus tu es précis, moins tu paies.

Technique 5 : Le Fichier CLAUDE.md

Crée un fichier CLAUDE.md à la racine de ton projet. Claude le lit automatiquement au démarrage de chaque conversation.

# Mon Projet

Stack Technique
- Next.js 14 avec App Router
- TypeScript strict
- Tailwind CSS
- Supabase pour la base de données
- Vercel pour le déploiement

Conventions de Code
- Composants dans /components, organisés par feature
- Types dans /types
- Hooks personnalisés dans /hooks
- Pas de any en TypeScript
- Nommage en camelCase pour les variables, PascalCase pour les composants

Structure des Dossiers
/app - Routes Next.js
/components - Composants réutilisables
/lib - Utilitaires et configurations
/types - Types TypeScript

Commandes Utiles
- npm run dev : Serveur de développement
- npm run build : Build de production
- npm run test : Lance les tests
- npm run lint : Vérifie le code

Pourquoi ça économise des tokens

Sans CLAUDE.md :

"J'utilise Next.js 14 avec App Router, TypeScript, Tailwind, et Supabase. Mes composants sont dans /components, mes types dans /types..."

Tu répètes ces infos à chaque conversation.

Avec CLAUDE.md :

Claude le lit automatiquement. Tu n'as plus à répéter ton contexte projet.

Technique 6 : Pointe Vers Les Fichiers Spécifiques

La méthode qui coûte cher

"Regarde mon code et trouve le bug"

Claude va explorer plein de fichiers pour comprendre le problème. Chaque fichier lu = des tokens consommés.

La méthode économe

"J'ai un bug dans src/lib/auth.ts ligne 45. L'erreur est [erreur]. Corrige."

Claude lit un seul fichier, va directement au problème, et corrige.

Astuce bonus : reproduis d'abord l'erreur

Avant de demander de l'aide à Claude :

Reproduis l'erreur
Identifie le fichier concerné
Note la ligne approximative
Copie le message d'erreur exact

Puis donne ces infos à Claude. Il trouvera le problème 10x plus vite (et 10x moins cher).

Technique 7 : Le Context Caching (Automatique)

Claude Code utilise le "prompt caching" automatiquement. Quand tu poses plusieurs questions sur le même contexte, les parties déjà envoyées coûtent moins cher à réutiliser.

Comment en profiter

Travaille par sessions focalisées plutôt que par petites touches éparses.

Inefficace :

9h : Une question sur le projet A
9h30 : Une question sur le projet B
10h : Retour au projet A
10h30 : Projet C

Le cache n'a pas le temps de s'établir. Tu paies plein tarif à chaque fois.

Efficace :

9h-11h : Focus sur le projet A (10 questions)
11h-12h : Focus sur le projet B (5 questions)
14h-16h : Focus sur le projet C (8 questions)

Le contexte du projet A est caché pendant tes 10 questions. Tu paies moins pour les questions 2 à 10.

Mon Budget Réel : Avant/Après

Voici mes chiffres réels après avoir appliqué ces techniques.

Avant l'optimisation

Usage moyen : ~$45/mois
Conversations longues sans /compact
Mélange de sujets dans une seule conversation
Toujours Sonnet, même pour des trucs simples
Demandes vagues avec beaucoup d'aller-retours

Après l'optimisation

Usage moyen : ~$20/mois
/compact après chaque tâche terminée
Nouvelles conversations pour nouveaux sujets
Haiku pour les petites corrections
Demandes précises dès le départ
CLAUDE.md dans chaque projet

Économie : 55% sans aucune perte de productivité.

L'Erreur Qui M'a Coûté 15$

Un jour, j'ai demandé à Claude d'analyser "tout mon projet" pour trouver un bug.

Le projet faisait ~1500 fichiers (dont node_modules, que j'avais oublié d'exclure dans mon .claudeignore).

Claude a lu des centaines de fichiers. Une seule requête. 15$ de tokens.

Le bug ? Il était dans un fichier spécifique que j'aurais pu identifier en 5 minutes en regardant le stack trace de l'erreur.

La leçon :

Toujours avoir un .claudeignore qui exclut node_modules, .git, etc.
Reproduire l'erreur et identifier le fichier AVANT de demander de l'aide
Pointer vers les fichiers spécifiques plutôt que "tout le projet"

Récapitulatif : Les 7 Techniques

#	Technique	Impact
1	`/compact` régulièrement	Réduit le contexte de 90%
2	Nouvelles conversations pour nouveaux sujets	Évite l'accumulation
3	Bon modèle pour la bonne tâche	Haiku coûte 10x moins qu'Opus
4	Demandes précises dès le départ	Moins d'aller-retours
5	Fichier CLAUDE.md	Contexte projet sans répétition
6	Pointer vers les fichiers spécifiques	Moins de fichiers lus
7	Sessions focalisées	Profiter du caching

Pour Aller Plus Loin

Tu peux utiliser Claude Code intensivement sans te ruiner. Les techniques sont simples, elles demandent juste un peu de discipline.

Le plus important : /compact après chaque tâche et nouvelles conversations pour nouveaux sujets. Ces deux habitudes seules peuvent réduire ta facture de 30-40%.

Ta facture te remerciera.

Pour ceux qui veulent aller plus loin : on a créé le Workshop "Bâtir avec l'IA".

Articles connexes pour optimiser ton usage :

Combien ça coûte vraiment : mon budget Claude Code dévoilé : transparence totale sur les coûts
Le fichier .claudeignore : ne donnez pas vos mots de passe : protège tes fichiers sensibles (et évite de payer pour lire node_modules)
ChatGPT vs Claude Code : pourquoi j'ai arrêté de copier-coller : compare les options

— Charles

Économisez 50% de vos frais API grâce au Context Caching

Comprendre Ce Qui Coûte

Les tokens, c'est quoi ?

Le piège du contexte

Technique 1 : Utilise /compact Régulièrement

Quand l'utiliser

Ce que ça fait concrètement

Technique 2 : Nouvelles Conversations = Nouveaux Sujets

Technique 3 : Choisis Le Bon Modèle

Comment changer de modèle dans Claude Code

Ma stratégie de choix

Technique 4 : Sois Précis Dès Le Départ

L'exemple qui coûte cher

L'exemple qui économise

Le template que j'utilise

Technique 5 : Le Fichier CLAUDE.md

Stack Technique

Conventions de Code

Structure des Dossiers

Commandes Utiles

Pourquoi ça économise des tokens

Technique 6 : Pointe Vers Les Fichiers Spécifiques

La méthode qui coûte cher

La méthode économe

Astuce bonus : reproduis d'abord l'erreur

Technique 7 : Le Context Caching (Automatique)

Comment en profiter

Mon Budget Réel : Avant/Après

Avant l'optimisation

Après l'optimisation

L'Erreur Qui M'a Coûté 15$

Récapitulatif : Les 7 Techniques

Pour Aller Plus Loin

Charles Krzentowski

Articles similaires

La commande /fix est magique (mais dangereuse)

Le prompt parfait pour le Refactoring

L'écran noir vous fait peur ? Installez Claude Code en 3 minutes chrono