ClinicalGPT

Pipeline LLM médical pour la génération de résumés cliniques structurés

#LLM#LoRA#Llama 3#HuggingFace#Medical NLP
Challenge
Concevoir un système capable de structurer automatiquement des notes médicales complexes pour assister les professionnels de santé dans la rédaction de résumés cliniques cohérents.
Rôle
AI Engineer — projet personnel sur données médicales
Période
2026
Métriques
Llama 3.1 8B · LoRA · Sortie JSON
Stack technique
PyTorchHuggingFace TransformersPEFT (LoRA)Llama 3.1 8BvLLMFastAPI

Description du projet

ClinicalGPT est un pipeline NLP spécialisé pour la génération de résumés cliniques structurés à partir de notes médicales non normalisées. Le but : produire des sorties exploitables par des systèmes en aval (DPI, dashboards de suivi patient) à partir d'un texte libre rédigé par un médecin.

Approche technique

  • Fine-tuning supervisé de Llama 3.1 8B avec LoRA/QLoRA pour réduire l'empreinte mémoire GPU tout en conservant des performances proches d'un full fine-tuning
  • Préprocessing des notes cliniques : nettoyage, anonymisation, segmentation sémantique et normalisation des entités médicales
  • Génération structurée en JSON : symptômes, antécédents, diagnostic, traitements et plan clinique
  • Quantization 4-bit avec PEFT pour permettre l'entraînement sur infrastructure GPU consumer
  • Évaluation multi-métriques : ROUGE-L, BERTScore, et validation qualitative via LLM-as-a-judge
  • Inférence optimisée avec vLLM pour réduire la latence en environnement temps réel

Apprentissages

  • Sorties médicales structurées avec une bonne cohérence sur les champs critiques (diagnostic, traitements)
  • ROUGE-L sensiblement amélioré par rapport au modèle de base non spécialisé
  • Pipeline reproductible, adaptable à d'autres spécialités médicales avec un jeu de données dédié
  • Documentation publique des choix d'architecture et des difficultés rencontrées (anonymisation, biais du dataset)