EN FR

Couche 2 — Pool

Backend · API universelle OpenAI · routage intelligent · mémoire zero-knowledge

Users / Agents Browser · OpenCode · ClawCode Cursor · aider · iamine CLI Cloudflare + nginx TLS Flexible SSL (→ Full strict TODO) :443 HTTPS · :443 WSS FastAPI — API universelle OpenAI-compatible /v1/chat/completions · /v1/models · /v1/federation/* · /v1/opencode-md SSE streaming · tool-calls · auto conv_id · admin_token Auth & Tokens email/Google login vérif email (M16) iam_token par user admin_token séparé Routage intelligent déficit scoring + fit_bonus classification par intention toujours répondre (no 503) cascade 2→3→4 · max conf gagne LLM Checker core/checker.py bench périodique skip tool-calls config DB pool_config Sub-agents auto-review (1s) cross-pool (M7a) pipeline multi-rôles SSE expose review PIPELINE ROUTAGE INTELLIGENT — Phase 1→5 Doctrine : « tout le pool travaille — pas de worker dédié » · la confidence max gagne · fallback non-bloquant à chaque étape P2 Heuristique classif. lexicale marqueurs code mots-clés reasoning ~1ms · local 12/12 tests passent P3 KNN pgvector MiniLM-L6-v2 384d vote top-10 voisins index ivfflat cosine ~50ms · skip si n<5 cold start sûr P4 LLM idle classif. plus petit worker idle classify_task via WS 10 tokens · timeout 3s ~1-3s · si conf<0.7 blacklist 5min si timeout P5 Boucle retour re-prompt <30s = flag exclusion du vote KNN table routing_feedback auto-correctif /v1/admin/routing_stats Distribution small 52% medium 18% code 18% large 12% avant : large 80%+ exclut les flaggés du KNN Mémoire zero-knowledge (4-tier, M13) L1 messages TTL observ. JSON brut chaud L2 conversations Fernet chiffré compaction opt-in L3 embeddings pgvector faits persos RAG filtré L4 hybrid MCP server agent memory federation sync PostgreSQL + pgvector cerveau du pool · DB-first pour toute donnée persistante • users · accounts · tokens · sessions • messages · conversations · memory (L1/L2/L3/L4) • federation_state · peers · gossip_log · revenue_ledger • jobs.prompt_embedding vector(384) · routing_feedback • migrations 001 → 025+ · pool_config (admin) WebSocket pool wss://cellule.ai/ws workers join/leave heartbeat · dispatch · classify_task 9 workers · 4 tiers · 3 pools Admin dashboard admin.html + admin_pool.html cleanup DB · blacklist · comptes PG /v1/admin/routing_stats (Phase 5) auth admin_token Frontend cellule.ai trial chat (modèle 2B pinné) dashboard user · tokens · tools canvas molécule interactif wording communautaire (pas « gratuit ») WORKERS (atomes) — small 2B/4B · medium 9B · code 30B-A3B · large 35B-A3B · hétérogènes ← cliquer pour voir la couche 1 atome → Fédération (couche 3) gossip anti-entropy · merkle · quorum RAID sortant vers autres pools bondés → Économie (couche 4) revenue_ledger · settlement · slashing · $IAMINE alimenté par chaque inférence KNN + embeddings dispatch job par tier

API universelle

  • • OpenAI-compatible (chat/completions)
  • • SSE streaming tokens + tool-calls
  • • auto conv_id (persistence L2)
  • • clients : OpenCode, Cursor, aider, ClawCode

Routage intelligent P2→P5

  • • P2 heuristique : regex+mots-clés (~1ms)
  • • P3 KNN : MiniLM 384d pgvector (~50ms)
  • • P4 LLM idle : plus petit worker classifie (~1-3s)
  • • P5 feedback : re-prompt <30s auto-exclusion
  • • Résultat : small 52% | large 12% (était 80%+)

DB-first · pgvector

  • • Toute donnée persistante en PostgreSQL
  • • prompt_embedding vector(384) par job
  • • routing_feedback auto-correctif
  • • Migrations versionnées 001→025+

Sub-agents LIVE

  • • Auto-review (1s, dès phase 1)
  • • Cross-pool forward (M7a)
  • • Pipeline multi-rôles (scale N pools)
  • • SSE expose la review aux clients

Mémoire zero-knowledge

  • • L2 conversations Fernet chiffrées
  • • Opt-in utilisateur (toggle)
  • • Export + delete RGPD
  • • Pool admin ne lit pas le contenu

9 workers · 4 tiers

  • • small : Vertex, Cyclops (2B) + Gladiator, Thor, Jarvis (4B)
  • • medium : Scout (9B)
  • • code : Coder (30B-A3B)
  • • large : RED, Tank (35B-A3B)