ClinicalGPT
Pipeline LLM médical pour la génération de résumés cliniques structurés
#LLM#LoRA#Llama 3#HuggingFace#Medical NLP
Challenge
Concevoir un système capable de structurer automatiquement des notes médicales complexes pour assister les professionnels de santé dans la rédaction de résumés cliniques cohérents.
Rôle
AI Engineer — projet personnel sur données médicales
Période
2026
Métriques
Llama 3.1 8B · LoRA · Sortie JSON
Stack technique
PyTorchHuggingFace TransformersPEFT (LoRA)Llama 3.1 8BvLLMFastAPI
Description du projet
ClinicalGPT est un pipeline NLP spécialisé pour la génération de résumés cliniques structurés à partir de notes médicales non normalisées. Le but : produire des sorties exploitables par des systèmes en aval (DPI, dashboards de suivi patient) à partir d'un texte libre rédigé par un médecin.
Approche technique
- Fine-tuning supervisé de Llama 3.1 8B avec LoRA/QLoRA pour réduire l'empreinte mémoire GPU tout en conservant des performances proches d'un full fine-tuning
- Préprocessing des notes cliniques : nettoyage, anonymisation, segmentation sémantique et normalisation des entités médicales
- Génération structurée en JSON : symptômes, antécédents, diagnostic, traitements et plan clinique
- Quantization 4-bit avec PEFT pour permettre l'entraînement sur infrastructure GPU consumer
- Évaluation multi-métriques : ROUGE-L, BERTScore, et validation qualitative via LLM-as-a-judge
- Inférence optimisée avec vLLM pour réduire la latence en environnement temps réel
Apprentissages
- Sorties médicales structurées avec une bonne cohérence sur les champs critiques (diagnostic, traitements)
- ROUGE-L sensiblement amélioré par rapport au modèle de base non spécialisé
- Pipeline reproductible, adaptable à d'autres spécialités médicales avec un jeu de données dédié
- Documentation publique des choix d'architecture et des difficultés rencontrées (anonymisation, biais du dataset)