Architecture Studies

Production systems,
measured.

Benchmark studies and architectural analyses from live AI infrastructure. Factorial designs, failure taxonomies, and performance data from thousands of production jobs.

Benchmark Studies

Factorial Designs

Benchmark 293 Runs 19 Models

OpenClaude Benchmark: The Harness Is the Moat

Factorial benchmark across 19 models and 19 production tasks. Tests whether harness architecture or model selection drives quality. Model selection produces 37x more variance than harness choice.

Read Article PDF Archive

Coming Soon Router Study

Model Routing at Scale

Comparative analysis of routing strategies: static, confidence-based, and learned. Cost-quality tradeoffs across 10,000+ routing decisions.

In Progress

Architecture Analyses

System Design

Study Orchestration 6,400+ Jobs

Multi-Model Orchestration at Personal Scale

Architecture documentation for a hub-and-spoke orchestration system processing 6,400+ autonomous jobs. Covers model routing, fallback chains, three-tier memory, and failure taxonomy from production operations.

Read

Study 6,442 Jobs

Production AI Lessons: 6,442 Jobs

Operational patterns and failure classes from running Claude Code in production. What breaks, how to fix it, and the infrastructure decisions that actually matter.