Suite IA souveraine — stack maîtrisée

DeepSeek, Qwen, Llama, Mixtral… Choisissez le modèle adapté à chaque use case, changez quand vous voulez. Inférence sur GPU SecNumCloud en France, application desktop gouvernée par vos politiques, zéro dépendance à une API US.

Pensé pour : CTO · VP Engineering · CEO

live

Souver Desktop v0.9.2

Qwen3.6 (128k context) · Souver Max

/plan avant /run
/mcp GitLab · Vault
control-plane · OK38k ctx · plan mode
main · qwen3.6-a3b · outscale-snc-fr1135 tokens/s · 38k ctx

Conçu pour les secteurs régulés français — là où les données ne peuvent pas partir aux US

  • CAC 40
  • Banques
  • Assurances
  • Mutuelles
  • Santé · HDS
  • Défense
  • Admin centrale

Les 3 piliers

Pourquoi Souver plutôt qu'un autre agent ?

Trois angles complémentaires. Selon qui porte le projet chez vous, un pilier prime — les deux autres ferment la porte aux objections.

Pilier 1 — Fondation

Vos données ne quittent pas la France.

Aucune ligne de code, aucun prompt, aucun secret n'est envoyé chez OpenAI, Anthropic, Google ou Microsoft. Modèles open-weights servis en propre sur GPU SecNumCloud (3DS Outscale, France) — vos données échappent aux lois extraterritoriales américaines (Cloud Act, FISA 702) par construction, pas par promesse contractuelle.

Pilier 2 — Harness

Le harness pèse autant que les weights.

Un bon modèle ne suffit pas pour mener une vraie tâche de développement jusqu'au bout. Il faut le bon contexte, les bons outils, des garde-fous, une mémoire de travail et une boucle capable de se corriger. C'est là que Souver fait la différence.

Pilier 3 — Stratégie

Les meilleurs modèles pour le code, sans lock-in.

Kimi, Qwen, DeepSeek, MiniMax, Codestral ou Mistral selon performance, contexte, politique client et coût. Vous n'êtes pas enfermé dans un fournisseur unique ni dans un modèle qui prend du retard.

Capabilities

La suite IA que vos développeurs peuvent adopter — et que vos RSSI peuvent gouverner.

Souver met l'app desktop Mac/Windows au centre, garde le CLI comme moteur avancé, puis ajoute MCP, agents, Skills et Security Agent sans qu'aucun byte ne sorte chez un fournisseur américain.

Desktop V1

Application Mac & Windows

Une interface locale pour coder, planifier, valider les permissions et suivre les agents sans imposer le terminal comme point d'entrée unique.

CLI engine

Moteur CLI conservé

Le CLI reste disponible pour les power users, les scripts et la CI. Il devient le moteur intégré de la suite, pas le seul produit vendu.

MCP

MCP Hub souverain

Marketplace de serveurs MCP audités, hébergés en France, branchés sur les SaaS FR de vos équipes (Pennylane, Lucca, GitLab self-hosted, Sentry…).

Agents

Long-running & scheduled

Agents autonomes batch, scheduled jobs, jobs headless en background. Quotas par équipe, budget par agent, audit trail complet.

V1+

Security Agent en module avancé

Revue sécurité, policy packs et evidence pack RSSI arrivent après le socle desktop/CLI/console, pour renforcer la V1 sans la surcharger.

Mobile

Remote control mobile

Reprenez depuis le mobile une session Cowork en cours sur votre poste : validation des permissions sensibles, suivi des sub-agents, prompts rapides.

Comparaison

À qualité égale, vos données restent en France.

Sur les benchmarks code, la course se joue au coude-à-coude : Opus 4.7 garde l'avance sur SWE-bench Pro, GPT-5.5 mène Terminal-Bench, Mistral reste la référence française à suivre, et les meilleurs open-weights restent assez proches pour choisir la souveraineté sans envoyer un seul byte chez OpenAI, Anthropic ou Google.

ModèleTerminal-Bench 2.0SWE-bench ProSWE-bench VerifiedSouveraineté

GPT-5.5

Closed · OpenAI (US)

82,7 %58,6 %Non publiéNon souverain

Claude Opus 4.7

Closed · Anthropic (US)

69,4 %64,3 %87,6 %Non souverain

Souver — DeepSeek V4 Pro

Open-weights · servi par Souver

67,9 %55,4 %80,6 %Souverain

Souver — Kimi K2.6

Open-weights · MIT · servi par Souver

66,7 %58,6 %80,2 %Souverain

Devstral 2

Open-weight · Mistral AI (FR)

32,6 %Non publié72,2 %Souverain

Le triangle impossible — résolu

Mistral est français mais en retard sur le code. Claude est SOTA sur le code mais hébergé aux US. Souver est le seul à combiner les deux.

Mistral

  • Français, souverain
  • En retard sur les benchmarks code
  • ~ Certifications partielles

Anthropic / OpenAI

  • SOTA sur le code
  • Hébergé aux US, Cloud Act
  • Pas de SecNumCloud, HDS, OIV

Souver

  • Modèles SOTA (Kimi K2.6, 80,2 % SWE-bench)
  • Hébergement 100 % France, SecNumCloud
  • Stack complet de certifs souveraines

Token inflation

Les prix que vous payez aujourd'hui ne sont pas les prix réels.

Anthropic et OpenAI sont structurellement en perte — leur coût réel par token est estimé 2 à 5× le prix affiché. Tôt ou tard, les investisseurs exigeront la rentabilité — et quand les tarifs doubleront ou tripleront, vos agents, vos budgets et vos intégrations seront captifs : migrer coûte cher, prend des mois, et le fournisseur le sait. Avec Souver, vous achetez de la capacité à coût fixe : votre facture ne dépend d'aucun board américain.

Sécurité & conformité

Aucune donnée chez OpenAI, Anthropic, Google ou Microsoft.

Hébergement 100% France sur 3DS Outscale (SecNumCloud 3.2 sur le périmètre IaaS GPU). Modèles open-weights servis en propre : aucun appel API sortant, aucun transfert hors-UE, aucune dépendance à un fournisseur soumis au Cloud Act ou au FISA 702. Data residency contractuelle, DPA sous droit français, clean-room policy documentée.

Demander notre dossier DSI/RSSI

SecNumCloud 3.2

En place

Hérité via 3DS Outscale

RGPD

En place

Registre + DPA + DPO

DORA

En place

Clauses + plan de sortie

NIS2

En place

Couvert

ISO 27001

En cours

Audit en cours

HDS

En cours

Sur demande · santé

ISO 42001 (AI Act)

Planifié

Planifié 2027

SOC 2 Type II

Planifié

Planifié 2027

Pricing

Composez votre stack, payez à la machine dédiée.

Une machine réservée à votre organisation, des modèles servis en propre sur SecNumCloud en France. Capacité fixe, coût fixe, aucun voisin, aucune facturation au token.

Comment souhaitez-vous déployer Souver ?

Le choix par défaut pour les grands comptes régulés : une machine entière réservée à votre organisation, sans voisin.

Aucun rate limit, aucune facturation au token.

Prix fixe par machine, consommation illimitée. Vos développeurs sollicitent l'agent sans compter, votre facture ne bouge pas.

GPU Medium

M

Dès 12 000 €/ mois · ~480 € / dev

GPU
1× A100 80 GB ou H100 · SecNumCloud
Modèles servis
Mistral Small 3.1 24B · Codestral 22B · Qwen3.6-35B-A3B*
Capacité
~25 devs simultanés · 64-128k ctx · 180-320 tok/s
Le plus adopté

GPU Large

L

Dès 24 000 €/ mois · ~400 € / dev

GPU
2× H100 · SecNumCloud
Modèles servis
Qwen3.6-35B-A3B · Devstral Small 2 24B* · Mistral Small 3.1 multi-instance
Capacité
~60 devs simultanés · 128-256k ctx · 300-500 tok/s · Agent Swarm

Cluster sur mesure

Sur mesure

Sur devissizing + marge validés en discovery call

GPU
Cluster H100/H200 dédié · sizing par modèle · SecNumCloud
Modèles servis
Kimi K2.6* · MiniMax M2.5* · GLM-5.1* · DeepSeek V4 Flash/Pro* · Qwen3-Coder 480B-A35B*
Capacité
100+ devs · 1M ctx selon modèle · SLA 99,95 % · isolation par BU
Demander un devis

* Modèle servi avec quantization validée (FP8, INT4/FP4 ou AWQ selon checkpoint) et fenêtre de contexte dimensionnée pour tenir la VRAM cible sans surpromesse.

Conformité étendue accessible en mode dédié

Le dédié physique débloque l'ensemble du stack de certifications souveraines. Dossier de preuve livré sous 30 jours après contractualisation.

SecNumCloud 3.2HDSISO 27001ISO 42001SOC 2 Type IINIS2DORARGPDAI ActDoctrine Cloud DINUMITAR-aware

Prix indicatifs HT, GPU dédiée non mutualisée. Engagement annuel.Combo recommandé M + L : ~12 000 + 24 000 = 36 000 €/mois, ~85 devs, ~420 €/dev. Un modèle rapide pour le volume, un modèle long-contexte pour les tâches agentiques lourdes.

FAQ

Les questions qu'on nous pose en procurement.

Aucune donnée ne quitte la France ?
Aucune. Souver n'est ni revendeur ni passerelle d'API US : les modèles sont open-weights, téléchargés et servis directement sur nos GPUs SecNumCloud avec vLLM / SGLang. Medium/Large servent les modèles qui tiennent sur 1× A100/H100 ou 2× H100 ; les frontier models type Kimi, MiniMax, GLM et DeepSeek V4 passent en cluster sur mesure. Vos données ne franchissent jamais nos frontières.
Comment sécurisez-vous l'exécution de l'agent ?
  • Isolation — sandbox FS/réseau/processus : l'agent ne peut ni lire hors périmètre autorisé, ni ouvrir de connexion sortante non approuvée.
  • Permissions — chaque écriture ou exécution déclenche un prompt explicite. 4 modes configurables par l'admin, de lecture seule jusqu'à full-auto opt-in.
  • Secrets — scanner embarqué avant tout appel outil, aucun secret ne transite en clair.
  • Traçabilité — journal append-only chiffré AES-256-GCM de chaque action (message, tool call, permission, diff fichier), exportable SIEM en CEF/LEEF.
  • Gouvernance tenant — politique signée par l'admin : modèles autorisés, mode souverain forcé, plafond de coût quotidien.
  • Desktop — renderer Electron isolé (contextIsolation, sandbox), accès fichiers et agent exclusivement via IPC main-process typé.
  • Le modèle propose ; le harness contrôle, limite, et laisse une trace auditée à chaque étape.
Souver est-il soumis au Cloud Act US ou au FISA 702 ?
Non. Notre société est immatriculée en France avec un actionnariat 100 % français, sans contrôle indirect par aucune entité non-UE. L'opérateur cloud Outscale appartient au groupe Dassault Systèmes (français). Stripe Ireland Ltd (billing) est en EU avec SCC. Documentation juridique formelle fournie avec chaque contrat. Cette posture est fondamentalement différente de Anthropic / OpenAI / GitHub Copilot (Microsoft) / Google, tous soumis au Cloud Act US quel que soit leur datacenter européen.
Quels modèles sont utilisés en production ?

GPU Medium

  • Mistral Small 3.1 24B
  • Codestral 22B
  • Qwen3.6-35B-A3B*

GPU Large

  • Qwen3.6-35B-A3B
  • Devstral Small 2 24B FP8
  • Mistral Small 3.1 multi-instance

Cluster sur mesure

  • Kimi K2.6
  • MiniMax M2.5
  • GLM-5.1
  • DeepSeek V4
  • Qwen3-Coder 480B

Tout modèle open-weights peut être servi à la demande. Avant chaque mise en production, notre système d'audit vérifie la provenance, la licence et l'absence de dérives comportementales — biais, backdoors, sorties toxiques — via un red teaming automatisé. Un modèle qui échoue à l'audit n'est pas déployé.

* Servi avec quantization validée (FP8 / AWQ) et fenêtre de contexte dimensionnée pour la VRAM cible.

Qu'appelez-vous le harness d'agent ?
Agent = modèle + harness. Les weights donnent le potentiel ; le harness détermine ce que l'agent produit réellement dans un repo : contexte, mémoire, appels fichiers/terminal, permissions, garde-fous, reprise après erreur, auto-vérification et qualité du diff final. Sur une tâche longue, il peut compter autant que le modèle, parfois plus.
Pourquoi Souver est-il expert du harness ?
Parce que c'est notre cœur de métier, pas une couche marketing. Terminal Bench le montre : LangChain a gagné 13,7 points en améliorant son harness sans changer les weights. Souver travaille précisément cette couche : agent loop, sandbox, gateway d'outils, politiques tenant, permissions, tests d'attaque et métriques d'évaluation.
Les modèles chinois posent-ils un problème de souveraineté ?
Nous les traitons comme des composants non fiables par défaut. Les poids sont open-weights et servis par Souver sur GPU SecNumCloud : aucune donnée n'est envoyée à Moonshot, Alibaba ou DeepSeek. Avant déploiement : vérification provenance/licence, tests de sécurité et red teaming. À l'exécution, le harness agit comme barrière de contrôle : le modèle n'a pas d'accès direct aux fichiers, au réseau ou aux secrets ; tout passe par sandbox, whitelist réseau, secrets scanner, permissions et audit trail. Pour défense/gouv, le mode souverain-strict force des modèles EU-only.
Le pricing à la carte, comment ça marche ?
Vous achetez des GPUs dédiées : M à 12 000 €, L à 24 000 €/mois. Le cluster sur mesure est uniquement sur devis, parce que le prix dépend du modèle servi, du contexte, de la concurrence et du SLA. Vous pouvez empiler plusieurs GPUs M/L, et le Smart Router envoie chaque requête sur le bon modèle.
Que se passe-t-il si on sur-dimensionne sa GPU ?
La console admin remonte l'occupation par GPU, par équipe et par dev. Si une GPU tourne sous 30 % trois semaines de suite, on vous propose le downgrade automatique vers la taille en dessous, en un clic, sans pénalité. Mieux : vous évitez de payer une L pour un usage de M.
Vous entraînez sur nos prompts ?
Non. Clean-room policy documentée : aucune donnée client n'est utilisée pour entraîner ou affiner un modèle Souver. Suppression à la demande. Sur les GPU dédiées, aucun cross-tenant : la machine est réservée à votre organisation. Sur l'abonnement partagé (Souver Max), la capacité GPU est mutualisée avec isolation MIG — les données ne sont pas mélangées, mais le pool, lui, l'est. DPA signé en annexe de chaque contrat.
Que se passe-t-il si Souver fait faillite ou interrompt le service ?
Plan de réversibilité documenté : (1) Export tenant complet en < 24 h (JSON + parquet + OCI), incluant configuration, journal d'audit, snapshots. (2) Tous les modèles utilisés (Kimi, Qwen, Codestral, Mistral) sont open-weights disponibles publiquement sur Hugging Face — redéployables ailleurs. (3) Les sessions, politiques et configurations du client desktop / CLI engine sont exportables. (4) Le DPA impose restitution des données + destruction certifiée en fin de contrat.
Vous êtes compatible DORA pour une banque / assurance ?
Oui. Contrats adaptés aux clauses DORA (périmètre TIC, plan de sortie, registre sous-traitants, notification incident, plan de continuité). Le journal append-only chiffré avec hash-chain WORM satisfait l'audit trail exigible. Pentest annuel PASSI, support TLPT côté client. Voir notre fiche d'identité TIC fournie en procurement.
Peut-on déployer un modèle maison ?
Oui — en add-on cluster sur mesure via Souver Custom Models : vous donnez un ID Hugging Face (public ou repo privé), notre control plane provisionne le GPU adapté et expose un endpoint privé. Scan licence / provenance inclus.

Dossier sécurité complet, mapping DSI/RSSI, posture modèles open-weights et contrôles harness disponibles en discovery call.

Obtenir l'audit sécurité complet
Discovery call · 30 min · gratuit

Parlons stack technique et choix de modèles.

En 30 minutes, on cadre vos contraintes RSSI, le niveau d'isolation attendu, les modèles à servir et le harness d'évaluation à préparer pour la suite. Pas de pitch commercial standardisé : on repart avec les bons critères de décision.

Discuter de votre stack

Ou écrivez directement à contact@souver.ai.