Republique
Francaise
Cette vue decrit les briques utiles a la plateforme et leurs relations. Elle ne liste pas les ports ni les noms Docker bruts : le sujet important est de comprendre quelle brique expose une interface, laquelle porte la logique applicative, lesquelles stockent les donnees, et lesquelles executent les modeles IA.
Le portail n'execute pas de metier. Il oriente vers les applications.
Portail Nginx statique. Il presente les applications, les fiches descriptives et les liens d'acces. Il ne stocke pas de donnees metier.
Fournisseur d'identite commun. Il gere les sessions SSO, les utilisateurs et les jetons OIDC pour les applications rattachees au realm commun.
Ces UIs deleguent l'authentification au Keycloak commun, directement ou via leur backend.
Application de redaction, reecriture, synthese et transcription.
Studio audio : projets, personas, voix, generation de contenus media.
Atelier de prompt engineering : cours, exercices, optimisation de prompts.
Interface de classification documentaire.
Interface metier pour le droit de la consommation et les fiches DGCCRF.
Interfaces du domaine Synthesia : usage multi-services et administration.
ADAJIA est visible depuis le portail, mais ne partage pas le cycle d'autorisation commun.
Interface ADAJIA pour la recherche juridique DAJ. Elle consomme son propre backend et ses propres donnees.
Backend ADAJIA. Il porte la recherche hybride, les enrichissements Legifrance et l'acces au graphe DAJ.
Elles sont legeres : elles orchestrent l'experience utilisateur et appellent l'API centrale.
Interface multi-services pour l'analyse documentaire, le chat, l'audio et les fonctions IA transverses.
Interface d'administration : suivi, documents, utilisateurs, files de traitement et monitoring applicatif.
Interface utilisateur historique raccordee au domaine Synthesia.
C'est la colonne vertebrale du domaine Synthesia.
API FastAPI centrale. Elle recoit les demandes des UIs, applique l'authentification, gere les documents, declenche OCR/TTS/transcription/recherche et appelle les services IA.
Workers de fond. Ils executent les traitements longs sans bloquer l'API : ingestion de documents, analyse, extraction, appels modeles et generation de resultats.
Ces conteneurs rendent les traitements robustes et persistants.
File de messages et cache. Redis sert de broker Celery : l'API depose une tache, les workers la prennent, puis publient l'etat et les resultats.
Base graphe. Elle stocke des relations entre documents, entites, sujets et concepts pour permettre des parcours et recherches non strictement tabulaires.
Stockage persistant des documents, sorties, templates, images generees, caches applicatifs et donnees du graphe.
Service ML mutualise : Whisper pour transcription, GLiNER pour extraction d'entites, detection PII, embeddings legers et modeles NLP.
Service speech-to-text specialise. Il expose un modele Qwen ASR via une API compatible OpenAI pour la transcription audio.
Service d'embeddings multimodaux. Il transforme textes, images ou videos en vecteurs utilisables par les moteurs de recherche IA.
Generation d'images via une pile ComfyUI headless. Voxia et les outils media peuvent s'y appuyer.
OCR specialise GPU pour extraire du texte depuis des documents images complexes.
OCR/VLM alternatif pour certains cas de lecture visuelle de documents.
Service OCR complementaire, utile selon la qualite et le format des documents entrants.
Extraction documentaire structuree : conversion de PDF/documents en contenus exploitables par les workflows IA.
Service Docling complementaire, conserve pour certains pipelines d'extraction.
Extraction de texte et metadata depuis de nombreux formats bureautiques.
LLM externe souverain utilise pour la generation, la reformulation et certaines reponses assistees.
Sources juridiques externes utilisees par les applications juridiques pour completer les bases locales.
Classification documentaire avec stockage et modeles propres.
Interface de depot, entrainement, prediction et consultation des classifications.
Backend de classification. Il gere les corpus, les modeles entraines, les predictions et les appels LLM necessaires.
Volume applicatif : datasets, modeles, resultats d'entrainement et donnees de classification.
Application DGCCRF avec moteur RAG juridique specialise.
Interface de production de Q/R, recherche dans les fiches et consultation des contenus valides.
Backend RAG : RAPTOR, ColBERT, BM25, reranker, spaCy et integration Legifrance.
Index vectoriel stocke dans le volume de l'API ConsoIA. Il n'existe pas aujourd'hui comme conteneur separe.
Base locale des articles Legifrance pour repondre rapidement sans dependre uniquement d'une API externe.
Index lexical et arbre hierarchique de resumes pour completer la recherche vectorielle.
Applications autonomes mais rattachees au SSO commun.
Application autonome pour redaction et transcription, avec appels LLM et composants audio internes.
Application media/audio. Elle peut consommer les services Synthesia pour images, voix et traitements associes.
Application d'apprentissage et d'optimisation de prompts. Elle s'appuie sur le SSO et les LLM.
Ils forment une stack autonome, publiee dans le portail mais separee dans l'exploitation.
Interface ADAJIA, moteur de recherche juridique pour la DAJ.
Backend juridique : recherche hybride, ColBERT, BM25, GLiNER, Legifrance et endpoints graphe.
Base graphe dediee a ADAJIA. Elle ne doit pas etre mutualisee avec le graphe Synthesia.
Les donnees DAJ restent dans leur perimetre.
Index vectoriel DAJ gere par l'API ADAJIA via stockage disque local. Pas de conteneur Qdrant dedie aujourd'hui.
Index lexicaux par cible de recherche : questions, reponses et resumes.
Base juridique locale utilisee pour l'enrichissement et la recherche d'articles.
ADAJIA doit rester decouple du reste.
Pas d'heritage automatique des roles ni des sessions du SSO commun.
Une reindexation, panne ou evolution ADAJIA ne doit pas impacter les autres applications.
Graphe, Qdrant local, BM25 et Legifrance DAJ restent dans le domaine DAJ.
qdrant exploitable separement.
qdrant-consoia, qdrant-daj), avec volumes persistants, sauvegardes,
supervision et variables d'URL explicites. Cela rendrait l'exploitation plus standard pour NDSI.
RAG local sur la documentation Bercy Hub et Synthesia, reponse generee avec Albert.