Lesson 07 · 9 dk okuma

Performance: prompt caching, fast mode, ultraplan

Latency ve token optimizasyonu — pratik üç kazanım.

Üç farklı kaldıraç, üç farklı problem.

Prompt caching

Anthropic API’sinde 5 dakikalık cache TTL. Aynı prefix’i tekrar gönderen istek çok daha ucuz + çok daha hızlı cevaplar.

Claude Code otomatik cache breakpoints koyar:

  • Sistem promptu + tool defs (her zaman cache)
  • CLAUDE.md + rules (her zaman cache)
  • Konuşma geçmişinin sabit kısmı

Optimize et:

  • CLAUDE.md’yi sık değiştirme — cache invalidate olur
  • Aynı session’ı uzun tut (5 dk içinde tekrar gir)
  • Sub-agent içinde tekrarlanan bilgiyi sistem prompt’una koy

Etki: %50-80 token tasarrufu, 2-5x daha hızlı yanıt.

Fast mode

/fast veya claude --fast. Claude Opus 4.6 ile çalışır ama streaming optimizasyonları + daha hızlı first-token. Aynı kapasite, daha hızlı geri dönüş.

Ne zaman kullan:

  • İnteraktif iterasyon (kısa sorular ardarda)
  • Yazım/edit cycle
  • Demo/sunum

Ne zaman kapatma:

  • Derin akıl yürütme (think hard ile çelişebilir)
  • Agentic uzun loop (paralelleşme önemli, hız değil)

Ultraplan

/ultraplan (yeni feature). Plan mode + extended thinking + multi-pass tasarım. Claude:

  1. İlk taslak plan üretir
  2. Planın zayıf yerlerini kendi eleştirir
  3. Düzeltir
  4. Final plan’ı verir

Maliyet: çok token. Faydası: gerçekten karmaşık feature için %30-40 daha az iterasyon.

Karar tablosu

DurumKaldıraç
Çok mesajlı oturumPrompt caching (otomatik)
Hızlı interaktifFast mode
Karmaşık tasarımUltraplan
Tekrarlayan mekanikHaiku model
1-shot büyük analizOpus + ultrathink

Sıradaki

Mini-proje: kendi self-evolving workflow loop’unu kur — Ralph Wiggum pattern’inin pratiği.