- • OpenAI-compatible (chat/completions)
- • SSE streaming tokens + tool-calls
- • auto conv_id (persistence L2)
- • clients : OpenCode, Cursor, aider, ClawCode
- • P2 heuristique : regex+mots-clés (~1ms)
- • P3 KNN : MiniLM 384d pgvector (~50ms)
- • P4 LLM idle : plus petit worker classifie (~1-3s)
- • P5 feedback : re-prompt <30s auto-exclusion
- • Résultat : small 52% | large 12% (était 80%+)
- • Toute donnée persistante en PostgreSQL
- • prompt_embedding vector(384) par job
- • routing_feedback auto-correctif
- • Migrations versionnées 001→025+
- • Auto-review (1s, dès phase 1)
- • Cross-pool forward (M7a)
- • Pipeline multi-rôles (scale N pools)
- • SSE expose la review aux clients
- • L2 conversations Fernet chiffrées
- • Opt-in utilisateur (toggle)
- • Export + delete RGPD
- • Pool admin ne lit pas le contenu
- • small : Vertex, Cyclops (2B) + Gladiator, Thor, Jarvis (4B)
- • medium : Scout (9B)
- • code : Coder (30B-A3B)
- • large : RED, Tank (35B-A3B)