ClinicalGPT

Pipeline LLM médical pour la génération de résumés cliniques structurés

#LLM#LoRA#Llama 3#HuggingFace#Medical NLP

Challenge

Concevoir un système capable de structurer automatiquement des notes médicales complexes pour assister les professionnels de santé dans la rédaction de résumés cliniques cohérents.

Rôle

AI Engineer — projet personnel sur données médicales

Période

2026

Métriques

Llama 3.1 8B · LoRA · Sortie JSON

Stack technique

PyTorchHuggingFace TransformersPEFT (LoRA)Llama 3.1 8BvLLMFastAPI

Description du projet

ClinicalGPT est un pipeline NLP spécialisé pour la génération de résumés cliniques structurés à partir de notes médicales non normalisées. Le but : produire des sorties exploitables par des systèmes en aval (DPI, dashboards de suivi patient) à partir d'un texte libre rédigé par un médecin.

Approche technique

Fine-tuning supervisé de Llama 3.1 8B avec LoRA/QLoRA pour réduire l'empreinte mémoire GPU tout en conservant des performances proches d'un full fine-tuning
Préprocessing des notes cliniques : nettoyage, anonymisation, segmentation sémantique et normalisation des entités médicales
Génération structurée en JSON : symptômes, antécédents, diagnostic, traitements et plan clinique
Quantization 4-bit avec PEFT pour permettre l'entraînement sur infrastructure GPU consumer
Évaluation multi-métriques : ROUGE-L, BERTScore, et validation qualitative via LLM-as-a-judge
Inférence optimisée avec vLLM pour réduire la latence en environnement temps réel

Apprentissages

Sorties médicales structurées avec une bonne cohérence sur les champs critiques (diagnostic, traitements)
ROUGE-L sensiblement amélioré par rapport au modèle de base non spécialisé
Pipeline reproductible, adaptable à d'autres spécialités médicales avec un jeu de données dédié
Documentation publique des choix d'architecture et des difficultés rencontrées (anonymisation, biais du dataset)

Tous les projets Discutons d'un CDI