03 / ENGINEERING CASE STUDYClaude Code Framework · Perzistentní Agent · Maintenance AutopilotPUBLIC PREVIEW

cortex-x

Disciplína, ne model. Jak za 7 týdnů solo vznikl framework, který chytá vlastní chyby — a co to říká o tom, jak AI research a implementace doopravdy fungují.

POSTAVIL DAVID RAJNOHA · DUBEN–KVĚTEN 2026

Scroll

Project Index

Role

Solo Builder & ArchitectNávrh · implementace · provoz

Industry

Vývojářské nástroje / Agentní AIInfrastruktura pro AI-asistovanou práci

Rok

2026Stav · Public Preview ↗

Stack

Node.js ≥22 · CJSApache-2.0 · v0.4-pre

testů zelených

nočních cron workflowů

týdnů · founding sprint

runtime npm/pip závislostí

Aktualizováno · červen 2026

Teze

Disciplína, ne model. Úzké hrdlo AI-asistovaného inženýrství není schopnost modelu — je to operátorova konzistentní provozní disciplína.

Sedm týdnů jsem stavěl cortex-x sám, od devíti souborů (2026-04-17) k současnému stavu. Z té práce mi vyšlo jediné: model není limit. Limit je, jestli operátor drží stejný postup i ve tři ráno, i v šedesátém commitu, i když to „skoro funguje“. cortex-x proto není předmět tohoto case study — je to důkaz přenositelné metody. A protože trénovací data modelu jsou zmrazená, model nezná ani vlastní aktuální verzi: každé tvrzení o současném stavu — verze frameworků, ceny, API, a11y standardy — se musí ověřit, ne odhadnout. I výzkum podléhá disciplíně.

01Trénovací data jsou zmrazená, takže každé tvrzení závislé na aktuálním stavu se ověřuje webovým výzkumem dřív, než ho napíšu jako fakt.
02Kód se nereviduje sám; netriviální diff prochází adversariální review pipeline dřív, než se mergne.
03Disciplína v hlavě noc nepřežije — musí se externalizovat do mechanismu, který nezapomíná.
04Dokumentace hnije nejrychleji právě v AI projektech, protože stav se mění rychleji, než ho stíhá popis.
05Kontext umírá s každou session — co má přežít, se musí explicitně perzistovat na disk.
06Plochý seznam standardů selže pod tlakem; pod tlakem rozhoduje tiered precedence, ne dobrá vůle.
07Skutečná validace metody není jeden hezký projekt, ale že stejné vzory přenesou přes domény.
08Opakovatelnost poráží virtuozitu — postup, který zvládne kdokoli podruhé, je cennější než jednorázový brilantní tah.

Zbytek tohoto case study je důkazní řetězec — ke každému z osmi přesvědčení existuje konkrétní soubor, commit a sprint, který existuje právě proto, že to přesvědčení existuje.

Kolize

Kontext: Pět souběžných produkčních agentů
Surface area: 5 CLAUDE.md · 5 paměťových vrstev · 5 postur
Cena ztráty kontextu: ~10 hod / měsíc re-orientace

V dubnu 2026 už operátor produkčně dodával AI agenty — RELO, back-office agenta pro českou realitku (27 nástrojů, 1 700+ testů, tří-vrstvá paměť s autoDream konsolidací), plus multi-tenant chatbot platformu sloužící produkčním klientům. Oba projekty běžely v produkci, oba prošly audity, oba vznikly solo.

Druhý měsíc začal být napříč projekty viditelný vzor. Operátor už nepsal produktový kód. Práce se posunula: safe-tool wrappery, tří-vrstvé paměťové scaffoldy, cost guardy, multi-agent review pipeline, mapování OWASP Agentic Top 10, session-start hooks, fronty doporučení. Scaffolding byl produkt. Každý nový projekt potřeboval stejný scaffolding přestavěný po paměti.

„Scaffolding byl produkt. cortex-x je to, co spadlo ze tří měsíců shippingu s disciplínou ještě dřív, než ta disciplína měla jméno.“

Výzva

Přestat přestavovat scaffolding — externalizovat disciplínu.

Pět souběžných projektů. Pět souborů CLAUDE.md. Pět odlišných paměťových vrstev. Pět nezávisle se vyvíjejících bezpečnostních postur. Jeden operátor. Jedna hlava.

Senior inženýr, který se po dvoutýdenní pauze vrací k projektu, ztrácí 30–60 minut na sezení — nepíše, jen se znova orientuje. Pět projektů × měsíční drop-in kadence = ~10 hodin čisté re-orientace měsíčně, plus tichá daň za rozhodnutí dělaná podruhé, protože reasoning z minulého kvartálu už není přístupný.

Řešení

Vrstva institucionální moudrosti nad operátorovou instalací Claude Code — cortex-x.

CLAUDE.md drží aktuální stav, který se mění týdně — tech stack, status sprintu, env.

cortex-x drží standardy, lessons, decisions a agentní runtime, který se mezi projekty nemění vůbec. Žádný překryv. Rozdělení vynucuje hook contract — ne disciplína v hlavě.

Filozofie → architektura

Filozofie → architektura: osm párů

Každý z osmi níže uvedených postojů má v repozitáři konkrétní artefakt, který existuje právě proto, že ten postoj existuje. Souvislá filozofie produkuje souvislou architekturu — nejde o náhodné nástroje, ale o víru zhmotněnou do kódu, který lze otevřít a přečíst.

Research-before-assert → R1 povinný dispatch

Princip

Trénovací data jsou zmrazená; o aktuálním stavu světa — verzích frameworků, modelů, cenách, a11y standardech — nevím nic spolehlivého. Proto se kterákoli odpověď nebo implementace závislá na externím stavu musí ověřit dříve, než ji vyslovím jako fakt. AI je nástroj, ne věštírna.

Architektura

R1 zakotvuje verify-first jako povinný krok: standard popisuje protokol, cortex-goal.md ho vkládá do fáze 3 (Research) plánu a sprint skill ho vynucuje uvnitř pipeline. Nálezy se citují URL a cachují, takže výzkum je opakovaně použitelný napříč sessions, ne jednorázový.

Souborystandards/web-research.md shared/research-protocol.md prompts/cortex-goal.md shared/skills/cortex-sprint/SKILL.md

Review-before-merge → R2 šestiagentní pipeline + Pass-2 skeptik

Princip

Diff, který se sám napsal, sám sebe neumí soudit. Netriviální změna projde šesti nezávislými revizory před tím, než ji operátor smí mergnout — a druhé kolo, Pass-2 skeptik, má za úkol nálezy prvního kola vyvrátit.

Architektura

r2-review.js je dynamický workflow řídící šest paralelních agentů; pre-commit-review-gate.cjs blokuje commit, dokud verdikt nedorazí. Konsensuální HIGH nálezy se aplikují v rámci commitu, ne odloženě do backlogu.

Empirický důkaz

Arc 1: 23 HIGH bugů zachyceno, nula vyvrácena Pass-2 skeptikem, všechny opraveny v commitu před pushnutím — na main neuteklo nic. Ve Sprintu 2.46 konvergovalo šest nezávislých revizorů na jeden bug s konfidencí 99/98/96/96/95/92.

Souboryshared/workflows/r2-review.js shared/hooks/pre-commit-review-gate.cjs cortex/sprint-2-46-r2-summary.md

Externalizovat disciplínu → Podepsaný verdikt v2

Princip

Disciplína spoléhající na lidskou paměť selže přesně tehdy, kdy je únava největší. Pravidlo, které jde obejít zapomenutím, není pravidlo — patří mimo hlavu, do kryptografického artefaktu.

Architektura

Podepsaný verdikt v2 nese HMAC-SHA256 nebo Ed25519 podpis nad payloadem obsahujícím commit_sha (cross-check proti HEAD), staged_tree (obsah indexu), workflow_run_id (jednorázová nonce v journalu) a secret_tier (env > persistovaný náhodný > host-derived). Přehraný verdikt je odmítnut, zastaralý verdikt je odmítnut a host-derived secret je odmítnut pod STRICT_SECRET=1. Podepsaný verdikt doplňuje [skip-review] jako druhou odblokovací cestu vedle session markeru — session marker zůstává nejvyšší prioritou allow-path.

Souborybin/steward/_lib/r2-verdict.cjs bin/steward/_lib/r2-verdict-journal.cjs shared/hooks/pre-commit-review-gate.cjs

Dokumentace v AI projektech hnije nejrychleji → Doc-currency lint

Princip

Když agent píše kód rychleji než člověk čte, dokumentace se rozchází s realitou během jediného sprintu. Zastaralá dokumentace je horší než žádná — předstírá pravdu, kterou už nemá.

Architektura

cortex-doc-currency.cjs lintuje dokumentaci proti měřenému stavu repozitáře a označuje stale čísla a tvrzení; cortex-doc-regen.cjs regeneruje odvozené úseky ze zdroje pravdy. Standard documentation.md definuje, co je odvozené — a tedy regenerovatelné — a co ručně psané.

Souborybin/cortex-doc-currency.cjs bin/cortex-doc-regen.cjs standards/documentation.md

Kontext umírá s každou session → Rozdělení vrstvy moudrosti (SSOT)

Princip

Každá nová session začíná s prázdnou pamětí. To, co se mění v týdnech (current state), nesmí žít na stejném místě jako to, co je stabilní roky (institutional wisdom) — jinak se duplikuje a rozchází.

Architektura

cortex-load.md je mentální cheat-sheet, který novou session uvede do kontextu; memory-decay.cjs řídí stárnutí paměti tak, aby zastaralé položky nepřebíjely čerstvé; lessons.cjs spravuje vrstvu poučení. Jeden zdroj pravdy pro každou informaci — nikdy neduplikovat.

Souboryprompts/cortex-load.md bin/steward/_lib/memory-decay.cjs bin/steward/_lib/lessons.cjs

Plochý seznam standardů selhává pod tlakem → Tier pravidla 0/1/1.5/2/3

Princip

Když je standardů 35 a všechny mají stejnou váhu, pod časovým tlakem se neaplikuje žádný. Pravidla potřebují explicitní pořadí priorit, aby šlo rozhodnout, co ustoupí, když si dva rozpočty odporují.

Architektura

Tier 0 (Ship-Ready) → 1 (SSOT/modularita) → 1.5 (coding behavior) → 2 (security/testing/correctness) → 3 (proces) dává standardům lexikografické pořadí. RULE-1.md kodifikuje vrstvu SSOT; action-kinds.cjs mapuje 21 action_kinds na pravidla; code-review.md aplikuje to samé pořadí při revizi.

Souborystandards/RULE-1.md bin/steward/_lib/action-kinds.cjs prompts/code-review.md

Skutečná validace = vzory se přenášejí napříč doménami → Centralizované ~/.claude/shared/

Princip

Vzor, který funguje jen v jednom projektu, může být náhoda. Teprve když stejný standard zlepší RELO i multi-tenant chatbot platformu, je to prokazatelně přenosná metoda, ne lokální trik.

Architektura

Vše sdílené žije v ~/.claude/shared/, takže standardy, hooky a skilly se načítají do každého projektu identicky — README.md je index 35 standardů a auto-orchestrate.cjs nudguje paralelní agenty bez ohledu na to, ve kterém projektu běží. Centralizace je mechanismus přenositelnosti.

Souborystandards/README.md shared/hooks/auto-orchestrate.cjs

Opakovatelnost poráží virtuozitu → Skill /cortex-sprint

Princip

Jeden brilantní sprint nic nedokazuje; metoda, kterou lze spustit znovu a znovu se stejnou kvalitou, dokazuje vše. Bottleneck není schopnost modelu, ale souvislá operační disciplína operátora.

Architektura

/cortex-sprint zabaluje celý cyklus (plán → R1 → implementace → R2 → verdikt → capture) do jednoho opakovatelného skillu; sprint-pipeline.md definuje fáze a brány. Plán sprintu jako sprint-2-44-plan.md je doložitelná instance toho samého procesu, ne unikátní výkon.

Souboryshared/skills/cortex-sprint/SKILL.md standards/sprint-pipeline.md cortex/sprint-2-44-plan.md

Co cortex-x reálně dělá

Čtyřtierová trajektorie, dva už shipnuté.

FIG. 01 — TRAJEKTORIE

Dva AI povrchy, jeden runtime

Claude Code ve dne · Steward v noci · ~$0,0008 / běh

Rule 1 · Invarianty

SSOT · Modular · Scalable

Tři architektonické invarianty nediskutovatelné napříč každým scaffoldovaným projektem. Strukturální spodní hranice — poruš jednu z těchto a zbytek se přestává nabalovat.

Rule 2 · PR-blokující

Security · Testing · Observability · Correctness

Čtyři kritické standardy blokují PR v každém scaffoldovaném repu. Selhání tady svítí jako červená CI lane, ne tichý drift. Spodní hranice správnosti.

Rule 3 · Proces

Třicet a více dalších standardů (varování, ne blokátory)

Code style, dokumentační hygiena, dependency hygiena, naming. Přichází jako varování, aby operátor mohl sekvenovat práci; nejsou blokátory, protože selhávají postupně, ne náhle.

Třicet pět standardů napříč pěti rule tiery, seřazených podle jediného mentálního modelu: nejdřív struktura, potom správnost, nakonec polishing.

Tier 2 — compound learners — je v podstatě uzavřený (~80 %): denní a týdenní Dreaming consolidation crony běží na repu cortex-x od 2026-05-09, vedle AlphaEvolve A/B harness a FTS5-backed lesson retrieval. Tier 1 je odeslaný a drží, runner 2.3b a Stryker mutation testing ještě zbývají. Tier 3 a Tier 4 jsou deklarované závazky, ne dodávky.

trajektorie.txt

// Čtyř-tier trajektorie · dva tiery už shipnutéTier 0 · Foundation ─────────── shipnuto  Scaffolduje nové projekty · 11 stack profilů  · 35 standardů · 9 review agentů · 8 hooků  · install za ~3 minutyTier 1 · Verifikace + multi-agent ── shipnuto  7-criterion spec verifier · Phoenix OTLP  · autoresearch · senior-tester review  · 6-agent paralelní review pipeline  · multi-window cost safetyTier 2 · Compound learners ──────── ~80% done  AlphaEvolve A/B harness v0  · self-extending capabilities  · FTS5 lessons  · denní + týdenní Dreaming consolidationTier 3 · Produktizace ────────── plánováno  Capability marketplace · WaaS šablona  · voice → recommendation pipelineTier 4 · Perzistentní entita ──── 2027+  Self-hosted home server · soul abstrakce  · Obsidian SSOT · multi-source life ingest

bin/steward/_lib/spec-verifier.cjs

// Sedm kindů kritérií — sprint 1.9.0 + 2.18 + 2.3.1// Verifier sedí mezi applyAction a runNpmTest.{  kind: "shell",          // exit code + stdout match  kind: "file_predicate", // existence · mtime · content hash  kind: "regex",          // pattern match v pojmenovaných souborech  kind: "ears_text",      // EARS-shape clause v přirozeném jazyce  kind: "llm_judge",      // boolean verdikt v Sonnet kvalitě  kind: "read_set",       // důkaz, že LLM přečetl deklarované soubory  kind: "mutation_score", // Stryker survival threshold (2.3.1)}// Verifier selhává defaultně do „fail closed“ — jakékoli// kritérium, které neprojde, aborti akci, spustí atomický// rollback, zapíše selhání do journalu, neprodukuje PR.

Hard-won decisions

Designové rozhodnutí, které stojí za obhajobu — a den, kdy zelené testy nestačily.

„Jedna třída incidentu = jedna obranná vrstva + jeden regresní test. Pravidlo, které zavírá mezeru mezi zelenými testy a reálnou bezpečností.“

DECISION · 01

Spec-driven verifikace — sedm kindů kritérií

V dubnu měl runtime jeden hardcoded check před tím, než Stewardův edit dopadl na disk: ochrana proti destruktivnímu přepisu. V polovině května se to zobecnilo do spec-verifieru — runneru sedícího mezi applyAction a runNpmTest, který každou akci gatuje proti per-kind akceptačním kritériím.

Každý z 21 action_kindů ve Stewardově registry —

autoresearch · evolve_daily · senior_tester_review · secret_history_sweep · workflow_hardener · wiki_consolidate · release_notes_drafter

a čtrnáct dalších — deklaruje vlastní seznam kritérií. Verifikace běží jako vrstva nezávislá na modelu — ověřuje výstup proti spustitelným kritériím místo toho, aby spoléhala na to, že model měl pravdu. Mainstream agent runtime věří LLM self-reportu; cortex-x píše důkaz v kódu.

DECISION · 02

Cost jako first-class verifier output

Multi-window cost safety — denní, týdenní, měsíční USD capy plus velocity cap 50K tokenů za 5 minut plus cross-session loop detector (pět hitů na stejné criterion id během sedmi dní triggeruje automatický STEWARD_HALT) — je rozdíl mezi experimentálním autopilotem a autopilotem, který operátor zapomíná hlídat.

Gap analýza byla reálná: stálý burn $5/den po 30 dní projde denní cap nepovšimnut, ale prorazí $80 měsíční strop. Multi-window plus velocity chytí vzor, ne snapshot.

DECISION · 03

Podepsaný verdikt v2 — kryptografický, ne zapamatovaný

Review gate přestal věřit paměti. Verdikt se teď podepisuje — HMAC-SHA256, nebo Ed25519 — přes commit_sha, staged_tree, nonce z workflow_run_id a secret_tier. Replayovaný, zastaralý nebo z hostu odvozený podpis (při STRICT_SECRET=1) je odmítnut.

Nenahrazuje [skip-review] — doplňuje ho jako druhou cestu k odblokování; session marker zůstává nejvýše prioritní allow path. Disciplína se přesunula z lidské paměti do kryptografického artefaktu: gate už nevěří tomu, kdo říká, že to prošlo, jen tomu, co se dá ověřit.

INCIDENT · 01

Rebrand Hermes

Runtime se původně jmenoval Hermes — placeholder vybraný začátkem května. O dva týdny později NousResearch publikoval svou open-source LLM rodinu pod stejným jménem a posbíral 139 000 GitHub hvězd za čtrnáct dní.

Sprint 4.7 (2026-05-08) byl tvrdý pivot: každá reference přejmenovaná na Steward, deset shim modulů smazaných ve stejném dropu místo nesených jako backward-compat dluh, 115 selhávajících testů opraveno tentýž den. Commit 8064b34. Lesson: když veřejně viditelné jméno koliduje s projektem ve stejném problémovém prostoru, oprav to před public tagem, ne potom. Prohledej namespace před commitem brandu.

INCIDENT · 02

Sprint 1.6.18 — když zelené testy nestačily

O den dřív Steward v0.5b runtime prošel kompletní test suite a byl jeden git push od public preview. Operátorská disciplína proti tomu nicméně pustila 6-agent paralelní review pipeline — acceptance-auditor · blind-hunter · correctness-auditor · security-auditor · ssot-enforcer · edge-case-hunter, každý s diferencovaným context scope.

Osm ship-blockerů přišlo zpět tentýž den: utažený path-traversal potřeboval NUL-byte a flag-injection guard plus realpath containment; editPlan shape potřeboval explicit shape gate; chyběl data === null guard; default model alignment se odkláněl od SSOT; CLI help text byl zastaralý; MIGRATIONS.md nebyl dopsaný. Všech osm opraveno tentýž den. Testy dokazují chování, ne architekturu.

Arc 1 — sebeoprava

Když sprint chytí vlastní chyby dřív, než dojdou na main

Tok verdict-gatu: R2 dispatch → 6 agentů → Pass-2 skeptik → signed verdict → pre-commit gate.

Mezi 30. květnem a 3. červnem 2026 odjely v řadě čtyři sprinty: 2.46 (signed verdict gate), 2.46.1 (Ed25519 v2 + nonce journal), 2.46.2 (integrace do doctoru + tolerance kvalifikované prózy) a 2.3.1 ( mutation_score jako sedmý druh kritéria). Souhrnná bilance Arc 1 je jednoduchá: +145 testů(3 290 → 3 435), 23 HIGH bugů zachycených a opravených ještě před push, a nula z nich na main. Žádný Pass-2 skeptik žádný z nich nevyvrátil.

Sprint 2.46 byl ten meta-rekurzivní moment. Workflow, jehož úkolem bylo dodat signed-verdict gate, vyrobilo strukturální defekty přímo ve svých vlastních dodávkách — fiktivní tabulku chování gatu v standards/sprint-pipeline.md, přeslíbené navázání na commitSha a path drift napříč šesti reviewery. Všech šest nezávislých reviewerů označilo stejný bug (confidence 99/98/96/96/95/92). R2 je zachytilo, rodičovský agent je opravil in-commit, podepsaný verdikt se přegeneroval a commit dosedl. Nic z toho se nedostalo dál.

Tohle je strukturální rozdíl mezi „máme review“ a „review je nosné“. Když pipeline najde vadu v artefaktu, který měl samotný gate teprve postavit, disciplína už není v mé hlavě — je externalizovaná do kódu. pre-commit-review-gate.cjs nečeká, až si vzpomenu; session marker zůstává nejvyšší prioritou allow path, ale když si vědomě nezvolím skip, gate drží sám.

Tohle byl okamžik, kdy projekt přestal být sadou nástrojů a stal se mechanismem — systém se opravil na úrovni, kterou jsem sám nezachytil.

Founding sprint + Arc 1

9 souborů → framework za 7 týdnů. Solo.

Founding sprint začal 17. 4. 2026 z devíti souborů a doběhl k prvnímu public preview. Pak přišlo Arc 1 — hardening do 3. 6. 2026. Tentýž engine od 9. 5. 2026 otevírá reálné draft PR přímo na tomto repu: 17 aktivních cron workflowů, draft-PR only, atomický rollback při test failure.

TÝDEN 01 · FOUNDATION

Phase 1 init · 11 standardů · 9 profilů

17. – 23. 4.Phase 19 profilů

Cross-platform install (Bash + PowerShell 5.1 + 7). Tři základní hooky: session-start, block-destructive, pre-compact. Projects library, cortex-thinker agent, insights, journal, coding-behavior tier, ship-ready gate. Podlaha scaffoldingu.

TÝDEN 02 · RULE 2 + DETEKTORY

Correctness pilíř · agentní bezpečnost · runtime SLOs

24. – 30. 4.Rule 27 MUSTů

Sekce Agentic Security (lethal trifecta, 7 MUSTů) plus runtime SLOs a circuit breakers. Deterministic profile + stage klasifikátory pod 100 ms v detectors/. agentskills.io spec, browser-agent profil, Tirith scanner integrace.

TÝDEN 03 · STEWARD ENGINE

Steward v0 → v0.5b OpenRouter engine

1. – 7. 5.Steward v0.5b0 runtime deps

Zero-deps zachované přes native fetch. 8 distinktních error kódů. Pluggable engine seam (mock / openrouter / claude-cli). První reálný LLM call validován end-to-end. Atomický rollback při test failure. Journal cost capture. gh pr create --draft Phase 11 integrace.

TÝDEN 04 · VERIFIKACE + DOGFOOD

Spec-driven verifikace · v0.3.0 public preview

8. – 14. 5.v0.3.0public preview

Sprint 1.9 spec-driven verifikace (5 criterion kinds zpočátku, +1 v Sprintu 2.18). Multi-window cost safety + cross-session loop detector. Sprint 2.0 Phoenix OTLP observabilita. Sprint 2.1 autoresearch. Sprint 2.3 Stryker mutation baseline. 14. 5. autonomní burst: 11 sprintů + 4 R2 rounds shipnuto. Jdou živě první noční cron workflowy.

ARC 1 · 2026-05-30 → 06-03 · SELF-CORRECTING

Signed verdict gate · mutation_score · R2 chytá vlastní bugy

+145 testů23 HIGH caughtv0.4-pre

Čtyři sprinty v řetězci — 2.46 (signed verdict gate), 2.46.1 (Ed25519 v2 + nonce journal), 2.46.2 (doctor integration + tolerance kvalifikované prózy), 2.3.1 (mutation_score jako 7. criterion kind). Meta-rekurzivní moment: workflow, který měl dodat signed-verdict gate, sám vyprodukoval strukturální vady ve svých vlastních deliverables. Všech šest nezávislých reviewerů označilo tentýž bug (confidence 99/98/96/96/95/92). R2 to chytlo, parent agent opravil in-commit, podpis se přegeneroval, commit doletěl. Na main se nedostalo nic.

Progrese testů: 207 (17. 4.) → 600 (7. 5.) → 3 290 (start Arc 1) → 3 435 (3. 6.). Pětidráhová CI matrix — Ubuntu bash, macOS bash, Windows Git Bash, Windows PowerShell 7, Windows PowerShell 5.1 — zelená celou dobu. 17 aktivních workflowů včetně steward-harvest · steward-evolve-daily · steward-evolve-weekly · steward-flaky-test-repair · steward-secret-history-sweep · steward-doc-drift · steward-pr-review-responder · steward-senior-tester-review · steward-workflow-hardener a dalších.

Stack

PRIMARY RUNTIME · 01

Node.js ≥22
CJS · native fetch

Native fetch umožnil OpenRouter engine bez node-fetch nebo axios. Každá zvažovaná závislost dostala první otázku: dá se to napsat jako 200–400 řádků Node built-inů?

ENGINE · 02

Steward

Nula npm závislostí. Pluggable LLM seam: openrouter / claude-cli / mock. 21 action_kindů v registry.

DEFAULT MODEL · 03

DeepSeek V4 Flash

Přes OpenRouter za ~$0,0008/běh. $0 marginal na Anthropic Max subu přes engine claude-cli.

OBSERVABILITY · 04

Phoenix OTLP

Zero-deps protobuf encoder — ~370 řádků ručně psaného CJS místo @opentelemetry/exporter-otlp-http.

DISTRIBUTION · 05

git clone + install.sh / .ps1

Syncuje do ~/.claude/shared/. 600řádkový installer auditovaný řádek po řádku.

LICENSE · 06

Apache 2.0

SPDX Apache-2.0 · relicensováno 2026-05-12. Stryker · c8 · fast-check běží jen jako dev deps — nebundlují se s runtimem.

Nula runtime npm nebo pip deps. Steward musí být auditovatelný, vendorovatelný do klientské infrastruktury a spustitelný na hardenovaném CI bez supply-chain povrchu. Spec-verifier dnes nese sedm kindů kritérií včetně mutation_score a podepsaný r2-verdict hlídá vstup commitů do pipeline.

Čísla

Čísla (snapshot 2026-06-03).

Ručně ověřeno proti živému repu 3. 6. 2026 — a doc-currency lint garantuje, že tahle čísla nezvětrají potichu.

3 435

testů · 0 padajících · 2 pre-existing skips

419

commitů, founding sprint → uzávěrka Arc 1

standardů (36 včetně README indexu) napříč 5-tier hierarchií

Stewardových action_kindů v registry

kindů kritérií spec-verifieru (shell · file_predicate · regex · ears_text · llm_judge · read_set · mutation_score)

review agentů (6 R2 auditorů + Pass-2 skeptik + cortex-thinker · planner · synthesizer)

promptů navázaných na slash příkazy

user-discoverable slash skillů

nočních cron workflowů živě od 2026-05-09

projektových profilů (Next.js SaaS · ai-agent · chatbot · cli-tool · tauri-desktop · kiosek · qa-engineer · astro-static · waas-template · browser-agent · minimal)

CI lanes zelené (ubuntu-bash · macos-bash · win-gitbash · win-pwsh7 · win-ps5.1)

runtime npm nebo pip závislostí

Výsledky a poznatky

Výsledky

R/01Maintenance autopilot, který reálně jede bez dozoru. Od 9. května 2026 otevírá 17 cronových workflowů noční draft PR bez manuálního zásahu. Každý PR nese v patičce journal trailer: kolik to stálo v USD, časování fází, rollback účtenky. Reálná validace, ne screenshot.
R/02Sedm nezávislých vrstev vymáhání bezpečnosti, každá umí zastavit commit samostatně. block-destructive hook zachytí destruktivní shell příkaz; policy denylist odmítne zakázané operace; multi-window USD stropy uťnou utrácení ve více oknech; loop detektor pozná zacyklení; circuit breaker přeruší kaskádu selhání; atomic rollback vrátí strom do čistého stavu; podepsaný R2 verdikt je poslední branka před tím, než commit projde. Kompromitace jedné neobejde ostatní — sedm na sobě nezávislých zámků, strukturální vlastnost, ne konfigurace, kterou jde vypnout omylem.
R/03XDG separace. Osobní data — záznamy projektové knihovny, journal traces, research cache, insights — žijí pod $CORTEX_DATA_HOME (default ~/.cortex/). Framework kód zůstává pod ~/.claude/shared/. cortex-uninstall --purge vyžaduje druhý konfirmační krok. Framework se dá kompletně smazat bez ztráty měsíců nahromaděné práce.
R/04Veřejný Apache-2.0 release se stranger-reproducible installem. Jednořádkový install na pěti platformách. 600řádkový installer auditovaný řádek po řádku. cortex-doctor validuje install end-to-end s drift detection a auto-fix prompty. Framework opouští operátorův laptop za podmínek, které dokáže ověřit cizí člověk.

Poznatky

L/01
Postav produkt dřív než framework.
RELO bylo dřív — AI back-office agent v produkci. Framework je destilovaná disciplína, která vyrobila RELO, ne podmínka pro to RELO vyrobit. Pořadí má význam: extrakce vzoru z funkčního výstupu, pak formalizace. Opačné pořadí produkuje frameworky, které nikdo nepoužívá.
L/02
Testy dokazují chování; multi-agent review dokazuje architekturu.
Arc 1 to ukázal meta-rekurzivně. Sprint 2.46 měl doručit signed-verdict gate; jenže ten samý workflow, který měl gate vyrobit, doručil strukturální vady ve svých vlastních deliverables — fiktivní tabulku chování gate v standards/sprint-pipeline.md, přeslíbenou vazbu na commitSha, path drift napříč šesti recenzenty. Všech šest nezávislých recenzentů označilo stejný bug s konfidencí 99/98/96/96/95/92. R2 to zachytil, rodičovský agent opravil v commitu, podepsaný verdikt se přegeneroval, commit spadl dolů. Nic z toho se nedostalo na main. To je rozdíl mezi review procesem a review jako nosným prvkem.
L/03
Bezpečnostní mechanika je strukturální gate, ne dokumentace.
Sedm nezávislých vrstev neexistuje proto, že by vypadaly dobře v README. Existují proto, že spoléhat na operátorovu disciplínu pod únavou a časovým tlakem selhává — ne občas, ale spolehlivě, ve špatný moment. Architektonický gate je dražší napsat jednou, ale levnější provozovat dlouhodobě než lidská bdělost. Disciplínu, kterou si musím pamatovat, jednou ve tři ráno zapomenu. Gate zadrátovaný v kódu nezapomene nikdy.
L/04
Disciplína externalizovaná v kódu poráží disciplínu drženou v paměti.
Podepsaný verdikt, hooks, acceptance_criteria u každého action_kindu — to všechno přežije generace modelů. Když přijde Claude 5, nemusím nový model učit, co znamená hotovo; definice hotového je zapsaná ve 35 standardech a v kódu, ne v hlavě modelu ani v mé. Pravidlo, které žije jen v paměti, zmizí s kontextovým oknem. Pravidlo zapsané v souboru zůstává.
L/05
Opakovatelnost porazí virtuozitu.
Sprint 2.45 dodal /cortex-sprint Skill, který kóduje kanonický 8-krokový pipeline. 3. června 2026 jsem si zakázal freestyle sprint dispatch — všechny sprinty MUSÍ projít tím Skillem. Důsledek je identická struktura plánu, R2 summary i verdiktu napříč sprinty; ne proto, že bych byl pokaždé stejně dobrý, ale protože pipeline tu virtuozitu nahrazuje. A protože ~/.claude/shared/ je globálně dostupné, disciplína přechází mezi projekty. Potvrzují to tři doložené události: RLS-first multi-tenant pattern z RELO přenesený do lasertgame-funos (1. 5. 2026); retrofit portfolia, kde review pipeline autonomně chytila 3 HIGH nálezy bez explicitního vyvolání (21. 4. 2026); a news-bot, kde se agentická disciplína uplatnila v projektu úplně bez cortex sprintu (3. 6. 2026).

Upřímné limity

Co cortex-x zatím netvrdí.

Buďme upřímní k mezím. Postavil jsem to sám — jeden člověk, sedm týdnů od devíti souborů (2026-04-17) do dnešního stavu. To je síla i slabina: koherence jedné hlavy, ale i bus-faktor jedna. Framework je svázaný s Claude Code; není to neutrální nástroj, který běží kdekoli. Validace třetí stranou probíhá, není hotová — částečně ji uzavírají tři doložené cross-project transfery (lasertgame-funos, retrofit portfolia, news-bot), ale to jsou pořád moje projekty, ne cizí ruce.

Deferred backlog: multi-agent git-worktree spawner, napojení na Anthropic Memory Tool a graduace Pass-2 skeptika z opt-in na default-on. Tier 1 2.3b runner + Stryker je rozpracovaný, ne dotažený. Co už není odložené: mutation_score spadl 3. června 2026 ve Sprintu 2.3.1 jako sedmý druh kritéria spec-verifieru, takže ho přestávám slibovat a začínám ho používat.

Framework je v public preview, protože engine je reálný, ne protože všechno na roadmapě je hotové.

Kam to směřuje

Perzistentní agent na operátorem vlastněné infrastruktuře.

Místo „AI asistenta v cloudu“ stavím osobní personalizovanou továrnu pro éru AI — druhý mozek tvaru markdownu, který přežije generace modelů (Claude 4.7 → 4.8 → 5 → …). Institucionální moudrost jako kód, který se úročí napříč roky: každá lekce, každé rozhodnutí, každý standard zapsaný jednou a dostupný každé příští session, v každém projektu.

Tier 2 je v podstatě uzavřený zhruba z 80 %. Tier 3 — produktizace — je další na řadě. Tier 4 je perzistentní entita: vlastní home server, na kterém ta továrna běží nezávisle na hardwaru pode mnou. Není to vázané na jeden stroj ani na jednoho poskytovatele.

cortex-x není na prodej. Je open source pod Apache 2.0. Práce za ním je práce, kterou chci dělat dál.

Open source na GitHubu

Závěr

Jak vypadá práce na tomhle

Pokud tohle čtete jako hiring manager nebo klient, takhle vypadá moje práce — a tenhle repozitář je její důkaz, ne tvrzení.

95% confidence baseline. Než napíšu první řádek, ptám se na upřesňující otázky, dokud si nejsem zhruba na 95 % jistý rozsahem i akceptačními kritérii. Jedno kolo otázek ušetří tři až čtyři kola oprav.
Autonomní noční běhy s checkpoint disciplínou. Když chytrá zóna modelu začne degradovat, udělám checkpoint a vyčistím kontext — nepokračuju naslepo. Kvalita nad počtem: radši méně commitů, které drží, než hromada těch, co se musí vracet.
Cross-project transfer — měřený, ne deklarovaný. Tři doložené přenosy: RLS-first multi-tenant pattern z RELO do lasertgame-funos; review pipeline, která na portfoliu autonomně chytila 3 HIGH nálezy bez explicitního invoke; a agentic-workflow disciplína v news-bot úplně bez cortex sprintu.
Externalizovaná disciplína. Co dnes dělám ručně, zítra zakóduju do hooku, skillu nebo verdiktu. Disciplína, která žije jen v hlavě, je technický dluh — patří do kódu.

17. dubna jsem začínal z devíti souborů. K 3. červnu drží repozitář 35 standardů, 21 action_kinds a 17 nočních workflow — a za celý Arc 1 neprošel do main jediný R2 HIGH nález, 23 jich pipeline chytila ještě před pushem. Když pipeline odhalí defekty ve svých vlastních výstupech a zachytí je dřív, než se pushnou, je to důkaz, že disciplína je zakódovaná do kódu — ne jen v mojí hlavě. Takhle vypadá práce se mnou.