EducationPrototype

Academic Knowledge RAG — knowledge orchestration pour établissements supérieurs

Assistant RAG sécurisé centralisant réglements, syllabus et procédures pour accélérer la recherche documentaire et réduire les erreurs de conformité.

Résumé exécutif

Prototype de RAG documentaire conçu pour les établissements d'enseignement supérieur. L'objectif : centraliser les référentiels académiques, réglementations et procédures dans un assistant sécurisé, capable de répondre avec citation de source et niveau de confiance. Conçu pour un déploiement pilote sur un campus de 5 000 étudiants.

Problème business

Les équipes pédagogiques passent en moyenne 40 minutes par requête à retrouver une réglementation ou un syllabus dans des systèmes dispersés. Le risque de non-conformité lors des audits d'accréditation est réel et coûteux. Aucun système existant ne centralise les sources avec traçabilité des réponses.

Solution

Système RAG sécurisé avec pipeline d'ingestion automatisé, contrôle d'accès par rôles (RBAC), citation systématique des sources avec score de confiance, et interface conversationnelle adaptée aux profils académiques. Chaque réponse est traçable et auditable.

KPIs visés

< 8 sec

Temps de réponse P95

70%

Réduction temps recherche

95%

Précision citation sources

0

Incident de non-conformité cible

Architecture technique

Pipeline modulaire en 5 couches : ingestion documentaire (AWS Lambda + LangChain), stockage vectoriel (Supabase pgvector + HNSW), retrieval hybride (vecteur + BM25 + Cohere Rerank v3), génération (Claude Sonnet 4.6 via LiteLLM), observabilité (Langfuse). Auth OIDC via Supabase, audit trail persisté en base.

Architecture générale

draw.ioArchitecture RAG — Vue générale
SOURCES DE DONNÉESDocumentsPDF, Word, HTMLConfluence, NotionBases de donnéesSQL, NoSQLData warehouseAPIs externesREST, GraphQLWebhooks temps réelObject StorageS3, GCS, Azure BlobOn-premise FSStreamsKafka, KinesisTemps réelPIPELINE D'INGESTIONParsingOCR, extractionmétadonnéesChunkingFixe / sémantiqueOverlap, hiérarchiqueEmbeddingtext-embedding-3Cohere, BGE, customIndex + métadonnéesNamespace, tenant_idRefresh quotidien/horaireVECTOR STOREpgvectorSupabase / PostgresQdrantSelf-host / cloudPineconeManaged, enterpriseWeaviateHybrid search natifRETRIEVAL + RERANKINGQuery processingReformulation HyDEMulti-query expansionHybrid searchVecteur + BM25RRF fusionRerankingCohere Rerank v3Cross-encoderTop-KFiltrage scoreMMR / diversityGÉNÉRATION LLMPrompt builderSystem + contextGuard + instructionsLLMClaude / GPT-5.4Mistral / localCitation layerSources, scoresConfiance, audit trailCache sémantiqueRedis / UpstashCoût -68%AuthOIDCRBACAPI + INTERFACEAPI GatewayRate limit, routingBackendNext.js / FastAPIUI clientChat, streamingOBSERVABILITÉLangfuseTraces, evals, coûtArize PhoenixDrift, RAG qualityLÉGENDE — OPTIONS PAR COUCHESources : cloud (S3/GCS/Azure) ou on-premiseIngestion : open source (LangChain, LlamaIndex) ou managed (AWS Bedrock, VertexAI)Vector store : pgvector (Postgres) / Qdrant (perf) / Pinecone (managed) / Weaviate (hybrid)LLM : Claude Sonnet 4.6 (recommandé) / GPT-5.4 / Mistral Small 4 (open source)API : Next.js, FastAPI, LiteLLM gatewayMonitoring : Langfuse (open source) / LangSmith / Arize PhoenixAuth : OIDC (Supabase Auth, Auth0, Keycloak)Cache : Redis / Upstash — économie LLM jusqu'à 68%

Stack recommandée

draw.ioArchitecture RAG — Stack concrète recommandée
SOURCESAWS S3PDF, Word, HTMLbucket chiffréSupabase StorageFichiers utilisateursassetsAPIs / CRMSalesforce, NotionRESTKafka / MSKFlux temps réelINGESTION — AWS Lambda + LangChainAWS LambdaParsing + OCRTrigger S3 eventsLangChain splitterSemantic chunking512 tok, overlap 64text-embedding-3-smallOpenAI API1536 dims, batchSQS queueAsync, retryDLQ intégréVECTOR STORE — Supabase pgvector (+ pgvectorscale)Table documentsid · content · embedding(1536) · metadata jsonb · tenant_id · created_atIndex HNSWcosine similarity · ef_construction=128RLS actifRow-level sec.RETRIEVAL + RERANKING — LangChain / LangGraphQuery routerHyDE expansionIntent classificationHybrid searchpgvector + tsvectorRRF (k=60)Cohere Rerank v3Cross-encodertop_k=5, score 0.7+Context windowCompressionLLMLinguaGÉNÉRATION — LiteLLM Gateway + ClaudeLiteLLM gatewayRouting, fallbackBudget par modelClaude Sonnet 4.6Principal — raisonnementtemp=0.1, 1M ctxCitation builderSources + scoresAudit trail SupabaseUpstash RedisCache sémantiqueTTL 24hAPI + INTERFACE — Next.js + Supabase AuthNext.js APIRoute handlers, streamSupabase AuthOIDC, RBAC, JWTUI chatSSE streaming, VercelOBSERVABILITÉLangfuseTraces, latencycoûtLangSmithTraces LangGraphSTACK CHOISIE — JUSTIFICATIONSStockageAWS S3 + Supabase Storage — chiffrement AES-256, versioning, IAM fine-grainedIngestionAWS Lambda (serverless, pay-per-use) + SQS (retry, DLQ) + LangChain splittersEmbeddingOpenAI text-embedding-3-small — 1536 dims, meilleur rapport qualité/coût 2026Vector DBSupabase pgvector + pgvectorscale — HNSW, 471 QPS@50M vectors, 0 infra supplémentaireRerankingCohere Rerank v3 — cross-encoder, amélioration recall +9% vs vector seulLLMClaude Sonnet 4.6 via LiteLLM — fallback GPT-5.4 mini, budget par modèle, 1M ctxMonitoringLangfuse self-hosted (MIT) + LangSmith pour traces LangGraph — 0 vendor lock-in

Avantages concurrentiels

Aucun produit SaaS du marché ne propose la combinaison citation avec score de confiance, audit trail et contrôle RBAC granulaire adapté aux contraintes académiques françaises et suisses. Le système est conçu pour l'accréditation, pas seulement pour la productivité.

Risques et mitigations

Le principal risque est la qualité des documents sources : des PDF mal structurés dégradent la précision de retrieval. Mitigation : pipeline de validation qualité à l'ingestion. Second risque : adoption utilisateur. Mitigation : interface conversationnelle simple et formation courte. Troisième risque : coût LLM à l'échelle. Mitigation : cache sémantique et modèle économique de fallback.

Impact

  • Prototype / évaluation en cours.
  • Mesure d'impact détaillée disponible sur demande.

Prototype / évaluation en cours.

Cadrage projet

Périmètre pilote : 1 établissement, 3 départements, 5 000 documents sources. Durée du POC : 6 semaines. Environnement : cloud AWS eu-west-1 + Supabase Europe. Gouvernance : RGPD, données hébergées en UE, aucune donnée personnelle ingérée.

Hosting et résilience

Déploiement Vercel (frontend) + AWS Lambda (ingestion) + Supabase (base + auth). Disponibilité cible : 99.5% SLA. Reprise : RTO < 1h, RPO < 24h. Cache sémantique Redis (TTL 24h) pour absorber les pics de charge.

Rôle

Architecture design, data ingestion design, RAG engineering, security review

Prochaines étapes

Industrialisation du pipeline documentaire, extension du coverage des règles de conformité et intégration SSO campus.

Stack technique

Claude Sonnet 4.6pgvectorSupabaseLangChainCohere RerankAWS LambdaAWS S3LiteLLMLangfuseNext.jsOIDCRedis

Timeline

1

S1–S2

Ingestion

Ingestion et indexation du corpus documentaire

2

S3–S4

Retrieval

Retrieval, reranking et évaluation qualité

3

S5

Interface

Interface, auth OIDC et audit trail

4

S6

Pilote

Pilote utilisateurs et mesure des KPIs