Technique5 min de lecture

Économisez 50% de vos frais API grâce au Context Caching

Illustration de l'article : Économisez 50% de vos frais API grâce au Context Caching

Le mois dernier, j'ai reçu ma facture Claude Code. J'ai failli m'étouffer avec mon café.

J'avais dépensé bien plus que prévu. Et le pire ? Une bonne partie de ces tokens étaient gaspillés. Je payais pour envoyer les mêmes informations encore et encore à chaque requête.

Depuis, j'ai optimisé. Ma facture a baissé de 55% sans réduire ma productivité. Voici comment faire pareil.

Comprendre Ce Qui Coûte

Avant d'optimiser, il faut comprendre comment fonctionne la facturation de Claude Code.

Les tokens, c'est quoi ?

Un token, c'est un morceau de texte. En gros, 1 token correspond à environ 4 caractères en anglais (un peu moins en français car on utilise des accents et des mots plus longs).

Quand tu utilises Claude Code, tu paies pour deux types de tokens :

  • Input tokens : ce que tu envoies (ta question + le contexte)
  • Output tokens : ce que Claude répond

Les output tokens coûtent généralement 3 à 5 fois plus cher que les input tokens.

Le piège du contexte

Voici où beaucoup de gens se font avoir. Le "contexte", c'est tout ce que Claude doit "relire" à chaque échange :

  • L'historique de ta conversation
  • Le contenu des fichiers que tu as mentionnés
  • Les instructions système

Plus la conversation est longue, plus le contexte grossit, plus ça coûte.

Imagine que tu poses 10 questions dans la même conversation. À la 10ème question, Claude relit toute la conversation (questions 1 à 9 + leurs réponses) avant de répondre. Tu paies pour relire tout ça à chaque fois.

Technique 1 : Utilise /compact Régulièrement

Claude Code a une commande magique : /compact. Elle résume la conversation pour réduire le contexte tout en gardant les informations importantes.

Prompt à donner à Claude

/compact

Quand l'utiliser

  • Après avoir fini une tâche : Tu as implémenté une feature ? /compact avant de passer à la suivante
  • Quand la conversation devient longue : Plus de 10-15 échanges ? /compact
  • Quand tu changes de sujet : Tu passes du frontend au backend ? /compact

Ce que ça fait concrètement

Avant /compact :

  • Historique complet : 50 000 tokens
  • Coût par requête suivante : élevé

Après /compact :

  • Résumé condensé : 5 000 tokens
  • Coût par requête suivante : 10x moins

Claude garde l'essentiel (ce qu'il a appris sur ton projet, les décisions prises) mais oublie les détails verbeux.

Technique 2 : Nouvelles Conversations = Nouveaux Sujets

Une erreur que je vois souvent : garder une seule conversation pendant des heures, voire des jours.

Mauvaise habitude :

  • 9h : Je travaille sur l'authentification
  • 11h : Je passe aux formulaires
  • 14h : Je fais du CSS
  • 16h : Je configure le déploiement

Tout ça dans la même conversation ? Le contexte devient énorme.

Bonne habitude :

  • Authentification → Nouvelle conversation
  • Formulaires → Nouvelle conversation
  • CSS → Nouvelle conversation
  • Déploiement → Nouvelle conversation

Chaque nouvelle conversation repart de zéro en termes de contexte. C'est comme avoir un nouveau cahier pour chaque sujet au lieu d'un seul cahier géant.

Technique 3 : Choisis Le Bon Modèle

Tous les modèles Claude ne coûtent pas pareil. Anthropic propose plusieurs options.

ModèleCoût relatifIdéal pour
Claude 3 Haiku$Questions simples, corrections mineures, formatage
Claude 3.5 Sonnet$$La plupart des tâches de développement
Claude 3 Opus / Claude 4$$$$$Architecture complexe, raisonnement avancé

Comment changer de modèle dans Claude Code

Prompt à donner à Claude

/model haiku

ou

Prompt à donner à Claude

/model sonnet

Ma stratégie de choix

  • Haiku : Corrections de typos, petits ajustements CSS, questions rapides
  • Sonnet : 90% de mon travail quotidien, implémentation de features, debug
  • Opus : Décisions d'architecture importantes, refactoring majeur, problèmes vraiment complexes

Ne sors pas l'artillerie lourde pour tuer une mouche.

Technique 4 : Sois Précis Dès Le Départ

Une demande vague génère des aller-retours coûteux.

L'exemple qui coûte cher

Premier message :

"Fais-moi une page de contact"

Claude répond : "Quel style ? Quels champs ? Où envoyer les données ?"

Deuxième message :

"Style moderne, champs nom/email/message, envoie vers une API"

Claude répond : "Quelle stack ? React ? HTML pur ? Quelle API ?"

Et ainsi de suite. Chaque aller-retour ajoute au contexte et coûte des tokens.

L'exemple qui économise

Premier message :

"Crée une page de contact avec :

- Formulaire avec champs : nom (obligatoire), email (obligatoire, validé), message (obligatoire, min 10 caractères)

- Validation côté client avant envoi

- Envoi vers POST /api/contact

- Message de confirmation après envoi réussi

- Gestion des erreurs si l'API échoue

- Style cohérent avec le reste du site (Tailwind)

- Accessible (labels, aria, focus states)"

Claude a tout ce qu'il faut pour travailler du premier coup. Un seul aller-retour au lieu de 5.

Le template que j'utilise

Prompt à donner à Claude

Tâche : [description courte] Contexte : [ce que tu as besoin de savoir sur mon projet] Spécifications : - [spec 1] - [spec 2] - [spec 3] Stack technique : [technologies utilisées] Contraintes : [ce qu'il faut éviter ou respecter]

Plus tu es précis, moins tu paies.

Technique 5 : Le Fichier CLAUDE.md

Crée un fichier CLAUDE.md à la racine de ton projet. Claude le lit automatiquement au démarrage de chaque conversation.

# Mon Projet

Stack Technique

- Next.js 14 avec App Router - TypeScript strict - Tailwind CSS - Supabase pour la base de données - Vercel pour le déploiement

Conventions de Code

- Composants dans /components, organisés par feature - Types dans /types - Hooks personnalisés dans /hooks - Pas de any en TypeScript - Nommage en camelCase pour les variables, PascalCase pour les composants

Structure des Dossiers

/app - Routes Next.js /components - Composants réutilisables /lib - Utilitaires et configurations /types - Types TypeScript

Commandes Utiles

- npm run dev : Serveur de développement - npm run build : Build de production - npm run test : Lance les tests - npm run lint : Vérifie le code

Pourquoi ça économise des tokens

Sans CLAUDE.md :

"J'utilise Next.js 14 avec App Router, TypeScript, Tailwind, et Supabase. Mes composants sont dans /components, mes types dans /types..."

Tu répètes ces infos à chaque conversation.

Avec CLAUDE.md :

Claude le lit automatiquement. Tu n'as plus à répéter ton contexte projet.

Technique 6 : Pointe Vers Les Fichiers Spécifiques

La méthode qui coûte cher

"Regarde mon code et trouve le bug"

Claude va explorer plein de fichiers pour comprendre le problème. Chaque fichier lu = des tokens consommés.

La méthode économe

"J'ai un bug dans src/lib/auth.ts ligne 45. L'erreur est [erreur]. Corrige."

Claude lit un seul fichier, va directement au problème, et corrige.

Astuce bonus : reproduis d'abord l'erreur

Avant de demander de l'aide à Claude :

  1. Reproduis l'erreur
  2. Identifie le fichier concerné
  3. Note la ligne approximative
  4. Copie le message d'erreur exact

Puis donne ces infos à Claude. Il trouvera le problème 10x plus vite (et 10x moins cher).

Technique 7 : Le Context Caching (Automatique)

Claude Code utilise le "prompt caching" automatiquement. Quand tu poses plusieurs questions sur le même contexte, les parties déjà envoyées coûtent moins cher à réutiliser.

Comment en profiter

Travaille par sessions focalisées plutôt que par petites touches éparses.

Inefficace :

  • 9h : Une question sur le projet A
  • 9h30 : Une question sur le projet B
  • 10h : Retour au projet A
  • 10h30 : Projet C

Le cache n'a pas le temps de s'établir. Tu paies plein tarif à chaque fois.

Efficace :

  • 9h-11h : Focus sur le projet A (10 questions)
  • 11h-12h : Focus sur le projet B (5 questions)
  • 14h-16h : Focus sur le projet C (8 questions)

Le contexte du projet A est caché pendant tes 10 questions. Tu paies moins pour les questions 2 à 10.

Mon Budget Réel : Avant/Après

Voici mes chiffres réels après avoir appliqué ces techniques.

Avant l'optimisation

  • Usage moyen : ~$45/mois
  • Conversations longues sans /compact
  • Mélange de sujets dans une seule conversation
  • Toujours Sonnet, même pour des trucs simples
  • Demandes vagues avec beaucoup d'aller-retours

Après l'optimisation

  • Usage moyen : ~$20/mois
  • /compact après chaque tâche terminée
  • Nouvelles conversations pour nouveaux sujets
  • Haiku pour les petites corrections
  • Demandes précises dès le départ
  • CLAUDE.md dans chaque projet

Économie : 55% sans aucune perte de productivité.

L'Erreur Qui M'a Coûté 15$

Un jour, j'ai demandé à Claude d'analyser "tout mon projet" pour trouver un bug.

Le projet faisait ~1500 fichiers (dont node_modules, que j'avais oublié d'exclure dans mon .claudeignore).

Claude a lu des centaines de fichiers. Une seule requête. 15$ de tokens.

Le bug ? Il était dans un fichier spécifique que j'aurais pu identifier en 5 minutes en regardant le stack trace de l'erreur.

La leçon :

  1. Toujours avoir un .claudeignore qui exclut node_modules, .git, etc.
  2. Reproduire l'erreur et identifier le fichier AVANT de demander de l'aide
  3. Pointer vers les fichiers spécifiques plutôt que "tout le projet"

Récapitulatif : Les 7 Techniques

#TechniqueImpact
1/compact régulièrementRéduit le contexte de 90%
2Nouvelles conversations pour nouveaux sujetsÉvite l'accumulation
3Bon modèle pour la bonne tâcheHaiku coûte 10x moins qu'Opus
4Demandes précises dès le départMoins d'aller-retours
5Fichier CLAUDE.mdContexte projet sans répétition
6Pointer vers les fichiers spécifiquesMoins de fichiers lus
7Sessions focaliséesProfiter du caching

Pour Aller Plus Loin

Tu peux utiliser Claude Code intensivement sans te ruiner. Les techniques sont simples, elles demandent juste un peu de discipline.

Le plus important : /compact après chaque tâche et nouvelles conversations pour nouveaux sujets. Ces deux habitudes seules peuvent réduire ta facture de 30-40%.

Ta facture te remerciera.

Pour ceux qui veulent aller plus loin : on a créé le Workshop "Bâtir avec l'IA".

Articles connexes pour optimiser ton usage :

— Charles

Photo de Charles Krzentowski

Écrit par

Charles Krzentowski

Passionné par l'IA et le développement, j'explore les nouvelles façons de coder avec les assistants intelligents.

Voir tous ses articles →