EducationPrototype

Academic Knowledge RAG — knowledge orchestration pour établissements supérieurs

Assistant RAG sécurisé centralisant réglements, syllabus et procédures pour accélérer la recherche documentaire et réduire les erreurs de conformité.

Résumé exécutif

Prototype de RAG documentaire conçu pour les établissements d'enseignement supérieur. L'objectif : centraliser les référentiels académiques, réglementations et procédures dans un assistant sécurisé, capable de répondre avec citation de source et niveau de confiance. Conçu pour un déploiement pilote sur un campus de 5 000 étudiants.

Problème business

Les équipes pédagogiques passent en moyenne 40 minutes par requête à retrouver une réglementation ou un syllabus dans des systèmes dispersés. Le risque de non-conformité lors des audits d'accréditation est réel et coûteux. Aucun système existant ne centralise les sources avec traçabilité des réponses.

Solution

Système RAG sécurisé avec pipeline d'ingestion automatisé, contrôle d'accès par rôles (RBAC), citation systématique des sources avec score de confiance, et interface conversationnelle adaptée aux profils académiques. Chaque réponse est traçable et auditable.

KPIs visés

< 8 sec

Temps de réponse P95

70%

Réduction temps recherche

95%

Précision citation sources

Incident de non-conformité cible

Architecture technique

Pipeline modulaire en 5 couches : ingestion documentaire (AWS Lambda + LangChain), stockage vectoriel (Supabase pgvector + HNSW), retrieval hybride (vecteur + BM25 + Cohere Rerank v3), génération (Claude Sonnet 4.6 via LiteLLM), observabilité (Langfuse). Auth OIDC via Supabase, audit trail persisté en base.

Architecture générale

draw.ioArchitecture RAG — Vue générale

Stack recommandée

draw.ioArchitecture RAG — Stack concrète recommandée

Avantages concurrentiels

Aucun produit SaaS du marché ne propose la combinaison citation avec score de confiance, audit trail et contrôle RBAC granulaire adapté aux contraintes académiques françaises et suisses. Le système est conçu pour l'accréditation, pas seulement pour la productivité.

Risques et mitigations

Le principal risque est la qualité des documents sources : des PDF mal structurés dégradent la précision de retrieval. Mitigation : pipeline de validation qualité à l'ingestion. Second risque : adoption utilisateur. Mitigation : interface conversationnelle simple et formation courte. Troisième risque : coût LLM à l'échelle. Mitigation : cache sémantique et modèle économique de fallback.

Impact

Prototype / évaluation en cours.
Mesure d'impact détaillée disponible sur demande.

Prototype / évaluation en cours.

Cadrage projet

Périmètre pilote : 1 établissement, 3 départements, 5 000 documents sources. Durée du POC : 6 semaines. Environnement : cloud AWS eu-west-1 + Supabase Europe. Gouvernance : RGPD, données hébergées en UE, aucune donnée personnelle ingérée.

Hosting et résilience

Déploiement Vercel (frontend) + AWS Lambda (ingestion) + Supabase (base + auth). Disponibilité cible : 99.5% SLA. Reprise : RTO < 1h, RPO < 24h. Cache sémantique Redis (TTL 24h) pour absorber les pics de charge.

Rôle

Architecture design, data ingestion design, RAG engineering, security review

Prochaines étapes

Industrialisation du pipeline documentaire, extension du coverage des règles de conformité et intégration SSO campus.

Stack technique

Claude Sonnet 4.6pgvectorSupabaseLangChainCohere RerankAWS LambdaAWS S3LiteLLMLangfuseNext.jsOIDCRedis

Timeline

S1–S2

Ingestion

Ingestion et indexation du corpus documentaire

S3–S4

Retrieval

Retrieval, reranking et évaluation qualité

Interface

Interface, auth OIDC et audit trail

Pilote

Pilote utilisateurs et mesure des KPIs