FraudGraph

Détection de fraude transactionnelle par graph machine learning

#Graph ML#Fraud Detection#XGBoost#NetworkX#AWS#Serverless
Challenge
Détecter des transactions frauduleuses en exploitant non seulement les données tabulaires, mais aussi les relations entre utilisateurs, comptes, marchands et appareils.
Rôle
Projet personnel orienté risk analytics
Période
2025
Métriques
Graph features · XGBoost · API temps réel
Stack technique
PythonXGBoostNetworkXScikit-learnFastAPIStreamlitAWS S3AWS LambdaAPI GatewayDynamoDBCloudWatch

Description du projet

FraudGraph simule un système de détection de fraude transactionnelle proche des cas d'usage rencontrés en banque, fintech et assurance. L'idée : combiner machine learning supervisé et graph analytics pour identifier des comportements frauduleux complexes, souvent invisibles avec une approche purement tabulaire.

Approche technique

  • Construction d'un graphe transactionnel reliant utilisateurs, comptes, marchands, appareils et adresses IP
  • Extraction de graph features : degré, centralité, communautés, vélocité transactionnelle et connexions suspectes
  • Entraînement d'un modèle XGBoost optimisé pour données déséquilibrées avec pondération des classes et calibration des probabilités
  • Comparaison avec des baselines classiques : Logistic Regression, Random Forest et règles métier
  • API FastAPI pour simuler un scoring fraude en temps réel
  • Dashboard Streamlit pour visualiser les alertes, transactions à risque et sous-réseaux suspects

Apprentissages

  • Apport mesurable des graph features par rapport à une approche purement tabulaire (gain net sur le recall fraude)
  • Identification de patterns collectifs : comptes relais, marchands à risque, clusters d'appareils suspects
  • Calibration du seuil de décision selon le niveau de tolérance au risque métier
  • Pipeline pensé pour être industrialisable dans un contexte fintech ou banque

Déploiement cloud AWS

  • Stockage des jeux de données, modèles entraînés et artefacts ML sur Amazon S3
  • Exposition d'un endpoint de scoring fraude via API Gateway et AWS Lambda pour simuler une architecture serverless
  • Persistance des scores, alertes et métadonnées de transactions dans DynamoDB
  • Monitoring léger avec CloudWatch : logs d'inférence, latence API et suivi des erreurs
  • Gestion des permissions avec IAM en appliquant le principe du moindre privilège
  • Architecture pensée pour rester compatible avec un projet personnel et les limites du Free Tier AWS