Saviez-vous…
… que vous pouvez rapidement déterminer le nombre et le profil (sexe, âge, région) des personnes se voyant délivrer tel ou tel dispositif médical ou prestation de santé en France ? Ce tutoriel va vous expliquer comment répondre simplement à cette question en utilisant des données en accès libre (Open Data).
La CRO e-Health Services Sanoïa vous propose une série de tutos pour vous aider à apprivoiser les bases de données de santé en Open Data. En effet, énormément de données issues du système de santé français sont disponibles gratuitement. Elles sont à portée de clic pour peu que l’on dispose des bons réflexes, et des bons outils pour les exploiter ! Ce sont ces réflexes et ces outils - notamment les lignes de code Python nécessaires à l’utilisation de ces bases - que Sanoïa met gracieusement à votre disposition.
1. Quelle base open data choisir ?
1.1 Notre choix
Pour répondre à notre question, nous avons choisi la base Open LPP.
Résumé : Depuis 2014, Open LPP recense les remboursements et le nombre de bénéficiaires des dispositifs médicaux (produits) et prestations de santé contenus dans la Liste de Produits et Prestations (LPP). Les données sont extraites du Système National de Données de Santé (SNDS).
Origine : Open LPP est mise à disposition par l’Assurance Maladie.
Liens utiles :
Rafraîchissement des données : Une fois par an.
Description : La base Open LPP est en réalité composée de deux types de jeux de données : la "base complète" et des "bases complémentaires".
La base complète est appelée “Open LPP 20XX”. Cette base s’appuie sur les dépenses de produits et prestations (base de remboursement, montants et quantités remboursés). Les bénéficiaires sont regroupés selon des éléments descriptifs : sexe, tranche d’âge, région de résidence ; et selon la spécialité du prescripteur.
En revanche, la base complète - contrairement à ce que l’on pourrait penser eu égard à son nom - ne contient pas le nombre de consommant des produits et prestations. Pour exploiter cette information, il est nécessaire d'utiliser les "bases complémentaires".
Les bases complémentaires sont nommées “NB_20XX_XXXX”. Chacune de ces bases résulte du regroupement en fonction des différents niveaux de la classification hiérarchique des produits et prestations (Titre, Sous-titre 1 (ST1), Sous-titre 2 (ST2), Code LPP).
Chacune de ces bases complémentaires contient les indicateurs suivants : le nombre de consommants, le nombre de dispositifs et prestations, le montant remboursé, la base de remboursement et la quantité remboursée. Puis, chacune de ces 4 hiérarchies (code LPP, ST2, ST1 ou titre) est sub-divisée en 8 bases de données pour permettre aux utilisateurs de choisir la finesse des variables dont ils ont besoin (sexe, âge, région du bénéficiaire, spécialité du prescripteur). Au total, ce sont 4 x 8 = 32 bases complémentaires qui sont constituées chaque année.
Prestations VS Matériel
Les dispositifs médicaux en France peuvent être remboursés soit comme un matériel, soit sous forme de prestation, notamment pour ceux requérant des consommables.
Cas 1 : le dispositif médical est remboursé en tant que matériel. Prenons l’exemple du capteur de glycémie FreeStyle.
Le Freestyle Libre 2 est un modèle plus récent que Capteur Freestyle Libre.
Cas 2 : le dispositif médical est remboursé sous forme de prestations. Prenons l’exemple de la pompe à insuline Omnipod qui est composée d’un dispositif (Omnipod) avec des patchs (POD) à changer toutes les 48 à 72h ou après l’administration de 200 unités d’insuline.
1158476 : le forfait formation technique initiale a pour objectif d’assurer la maîtrise technique de l’utilisation de la pompe Omnipod en toute sécurité.
1115047 : le forfait journalier de fourniture des POD, dispositif d’infusion comprenant une pompe, un réservoir d’insuline, un cathéter et une canule plastique. Ce forfait est facturé par journée et comprend la fourniture et la livraison des POD. Le forfait journalier de fourniture est la facturation par journée de prise en charge intégrant les consommables (“POD”) utilisés par l’Omnipod.
1117201 : la mise à disposition du PDM et la prestation qui comprend : la fourniture de la notice d’utilisation, d’un livret patient, de l’organisation d’une astreinte 24h/24, de l'intervention pour la maintenance ou la réparation du PDM, etc.
Dictionnaire : Le descriptif des données est disponible ici : Descriptif de la base Open LPP.
Limites : Trois regroupements de prestations ne sont pas ou sont partiellement codés : les appareils générateurs d’aérosol (code LPP : 3518), les orthoprothèses (code LPP : 3521) et les orthèses petits appareillages (code LPP : 3545).
Les données exposées sont des données statistiques, agrégées et figées. En effet, si une même personne bénéficie de deux prestations pour un même dispositif médical, ce dernier sera comptabilisé 2 fois.
1.2 Jeu de données utilisé dans notre exemple
Nous avons choisi une base de données de finesse moyenne s’appuyant sur la classification LPP (famille NB_2021_lpp) enrichi des variables : sexe, âge, région du bénéficiaire (fichier NB_2021_lpp_age_sexe_reg.CSV.gz). Ce fichier va être ensuite filtré pour conserver les informations du code LPP recherché.
2. Exemple complet (avec code)
2.1 Utilisez notre Python
Notre code Python est implémenté sur Google Colaboratory (Code Python Open LPP). Il est en accès libre, cependant un compte Google est nécessaire pour pouvoir l’exécuter.
Alternativement vous pouvez copier/coller le code et l'exécuter dans votre environnement Python préféré.
2.2 Données nécessaires en entrée
Filtrer les données pour se concentrer sur un dispositif médical ou prestation d’intérêt, nécessite d’en connaître le ou les codes LPP.
Astuce : Les codes LPP sont des nombres à 8 chiffres. A l’exception des 3 regroupements de prestation présentés précédemment qui sont des nombres à 4 chiffres.
2.3 Cherchez le(s) code(s) LPP
Dans cet exemple nous choisissons de déterminer le profil (sexe, âge, région) des patients utilisant la pompe à insuline Omnipod en France.
Une recherche sur le site contenant la Nomenclature LPP de l’Assurance Maladie nous permet de retrouver le code LPP. Il n’existe pas de moteur de recherche à proprement parler, vous devez examiner par chapitre (ou consulter avant la liste : LPP (mise à jour le 02/12/22)).
Etape 1 : Rechercher par chapitre un dispositif médical ou une prestation de santé
Etape 2 : Choisir le ou les codes LPP que l’on souhaite analyser
En résumé :
Il y a trois codes LPP pour le dispositif médical Omnipod et les prestations associées. Dans notre exemple on s'intéresse au nombre de nouveaux utilisateurs sur l’année 2021. Ainsi, pour connaître le nombre de nouveaux utilisateurs, nous utilisons le code LPP forfait formation technique initiale.
Le code LPP forfait formation technique initiale de l’Omnipod est : 1158476.
Note : Vous pouvez également consulter les fiches correspondantes à chaque code LPP directement sur le site.
2.4 Algorithme
Notre code exemple réalise les actions suivantes :
Télécharger la base Open LPP : la base hébergée sur le site de l’assurance maladie étant protégée par un mécanisme anti-robot, le code utilise une copie stockée sur nos serveurs
Interroger l’utilisateur sur le(s) code(s) LPP à utiliser : vous pouvez copier/coller même avec des espaces et vous pouvez consulter plusieurs codes LPP à la fois en les séparant par des virgules
Parcourir le volumineux fichier Open LPP ligne à ligne
Monter dans un dataframe (c.à.d. un tableau de données filtrées, nommé “short_list” dans le code) les lignes correspondant au(x) code(s) LPP à utiliser
Forcer le type de certaines variables du dataframe (pour des contraintes de présentation du tableau)
Translater les valeurs de certaines variables avec un dictionnaire pour une meilleur lisibilité
Afficher les résultats sous forme de tableau
Exporter le dataframe dans un fichier Excel.
2.5 Résultat de notre code
L'exécution du code Python affiche :
ATTENTION : L'exécution du code prend un peu de temps… soyez patients. Et surveillez bien le bas de la fenêtre : c’est là que vous est demandé le code LPP après quelques secondes d'exécution.
Etape 1 :
Etape 2 : Les tableaux et graphiques sont ensuite affichés ainsi :
Sortie 1 :
Sortie 2 :
Sortie 3 :
Sortie 4 :
Étape 3 : Le fichier filtré se télécharge automatiquement.
Ce que l'on peut en dire :
Nous avons déterminé le nombre de consommants et analysé trois caractéristiques du profil des patients l’utilisant : le sexe, l’âge et la région des bénéficiaires :
En 2021, le nombre total de nouveaux utilisateurs de l’Omnipod était de 788 personnes (Sortie 1),
Les nouveaux utilisateurs de l’Omnipod sont majoritairement des femmes : parmi toutes les nouvelles personnes ayant utilisé l’Omnipod en 2021, 451 personnes, soit 57,2%, étaient des femmes (Sortie 2),
Les nouveaux utilisateurs de l’Omnipod sont majoritairement des patients âgés entre 20 et 59 ans : parmi toutes les nouvelles personnes ayant utilisé l’Omnipod en 2021, 431 personnes, soit 54,7%, avaient entre 20 et 59 ans (Sortie 3),
Les nouveaux utilisateurs de l’Omnipod vivent majoritairement dans une région inconnue : parmi toutes les nouvelles personnes ayant utilisé l’Omnipod en 2021, 358 personnes, soit 45,4%, habitent dans une région inconnue (Sortie 4).
3. Autres usages possibles
Ce jeu de données permet une multitude d’autres analyses. Ainsi nous pourrions analyser :
Combien de nouveaux utilisateurs vs utilisateurs existants ? (ie : seulement si le dispositif à des prestations différentes pour la formation initiale et le forfait journalier)
Quelles ont été les évolutions de l’utilisation du dispositif médical Y entre 2015 et 2021 ? (pour cela il faudra utiliser les bases des années précédentes)
Pour l’ensemble des dispositifs médicaux similaires (par exemple de même sous-titre 2), quels sont les profils des utilisateurs ?
Pour un même dispositif médical Y, quelle est la répartition des prestations associées ? (forfait formation initiale, forfait journalier, etc.)
Quelle est la spécialité des médecins prescrivant le dispositif médical ou prestation Y en France ? (pour cela il faudra utiliser le fichier plus détaillé NB_2021_lpp_age_sexe_reg_spe.CSV.gz).
4. Aller plus loin
Nous espérons vous avoir convaincu de l’utilité et du potentiel des données en Open Data. Cet exemple était volontairement simple à des fins pédagogiques mais des usages épidémiologiques plus poussés sont possibles !
👍 Retrouvez l’ensemble de nos fiches sur LinkedIn en suivant notre page Linkedin.
👉 Si vous avez des projets d’utilisation ou de génération de données, notre équipe se tient à votre disposition : contact@sanoia.com !
댓글