Saviez-vous…
… que vous pouvez rapidement déterminer le nombre et le profil (sexe, âge, région) des personnes ayant consommé un acte de biologie médicale en France ? Ce tutoriel va vous expliquer comment répondre simplement à cette question en utilisant des données en accès libre (Open Data).
La CRO e-Health Services Sanoïa vous propose une série de tutos pour vous aider à apprivoiser les bases de données de santé en Open Data (voir nos précédents tutos : (Open Medic, Open LPP). En effet, énormément de données issues du système de santé français sont disponibles gratuitement. Elles sont à portée de clic pour peu que l’on dispose des bons réflexes, et des bons outils pour les exploiter ! Ce sont ces réflexes et ces outils - notamment les lignes de code Python nécessaires à l’utilisation de ces bases - que Sanoïa met gracieusement à votre disposition.
1. Quelle base open data choisir ?
1.1 Notre choix
Pour répondre à nos questions sur la consommation d'actes de biologie médicale, nous avons choisi la base Open Bio.
Résumé : Depuis 2014, Open Bio recense la consommation d’actes de biologie médicale en France. Les données sont extraites du Système National de Données de Santé (SNDS).
Origine : Open Bio est mise à disposition par l’Assurance Maladie.
Liens utiles :
Rafraîchissement des données : Une fois par an.
Description : La base Open Bio est en réalité composée de deux types de jeux de données : la "base complète" et des "bases complémentaires".
La base complète est appelée “Open Bio 20XX”. Cette base s’appuie sur les dépenses de biologie médicale. Les données sont regroupés selon les caractéristiques suivantes des bénéficiaires : sexe, tranche d’âge, région de résidence et selon la spécialité du prescripteur. Chacun de ces groupes de consommant contient les indicateurs suivants : le nombre d’actes, le montant remboursé et la base de remboursement.
En revanche, la base complète - contrairement à ce que l’on pourrait penser eu égard à son nom- ne contient pas le nombre de consommants de chaque acte de biologie médical. Pour exploiter cette information, il est nécessaire d'utiliser les "bases complémentaires".
Les bases complémentaires sont nommées “NB_20XX_XXXX”. Toutes ces bases complémentaires contiennent les indicateurs suivants : le nombre de consommants, le nombre d’actes, le montant remboursé et la base de remboursement. Il existe plusieurs versions en fonction de la classification hiérarchique des actes en groupe physiopathologique (GRP) ou détaillé en nomenclature (ACTE). En effet, pour un type de physiopathologie, plusieurs actes de biologie médicale peuvent être réalisés :
Groupes physiopathologiques | Actes | Codes |
Protéines sériques | 1804 | |
| 1805 | |
| … | … |
Infection à VIH | 0388 | |
| 0389 | |
| … | … |
Chacune des 2 hiérarchies (GRP ou ACTE) est sub-divisée en 8 bases de données pour permettre aux utilisateurs de choisir la finesse des variables dont ils ont besoin (sexe, âge, région du bénéficiaire, spécialité du prescripteur). Au total, ce sont 2 x 8 = 16 bases complémentaires qui sont constituées chaque année.
Le descriptif des données est disponible ici : Descriptif de la base Open Bio.
Limites : Si vous utilisez la base pour plusieurs codes, considérez que les données exposées sont des données statistiques, agrégées et figées. En effet, si un même bénéficiaire a subi 2 actes de biologie médicale, il sera comptabilisé 2 fois, une fois pour chaque code.
1.2 Jeu de données utilisé dans notre exemple
Nous avons choisi une base de données de finesse moyenne s’appuyant sur la classification par actes de biologie médicale (famille “NB_2021_ACTE”) enrichi des variables : sexe, âge et région du bénéficiaire (fichier “NB_2021_ACTE_age_sexe_reg.CSV.gz”).
2. Exemple complet (avec code)
2.1 Utilisez notre Python
Notre code Python est implémenté sur Google Colaboratory (Code Python Open Bio). Il est en accès libre, cependant un compte Google est nécessaire pour pouvoir l’exécuter.
Alternativement vous pouvez copier/coller le code et l'exécuter dans votre environnement Python préféré.
2.2 Données nécessaires en entrée
Filtrer les données pour se concentrer sur un acte de biologie médicale d’intérêt, nécessite d’en connaître le ou les codes.
Astuce : Les codes des actes sont des nombres de 4 chiffres.
2.3 Cherchez le(s) code(s) acte
Dans cet exemple nous choisissons de déterminer le profil (sexe, âge, région) des patients ayant réalisé un dosage sanguin de protéine C-réactive (CRP, C-Reactive Protein en anglais).
Une recherche sur le site contenant la Nomenclature TNB (Table Nationale de codage de Biologie) de l’Assurance Maladie nous permet de retrouver le code acte.
Note : La CRP est une protéine produite par le foie présente en petites quantités dans le sang. Sa production augmente en réponse à une inflammation ou une infection dans le corps. Le dosage de la CRP permet de mesurer la quantité de cette protéine dans le sang, permettant d’évaluer l'état de santé général d'une personne et diagnostiquer certaines maladies.
Etape 1 : Rechercher par chapitre de l’acte dans la base
Etape 2 : Choisir le ou les codes actes que l’on souhaite analyser
En résumé : Le code acte du dosage de la CRP est : 1804.
Note : Vous pouvez également consulter les fiches correspondantes à chaque code acte directement sur le site.
2.4 Algorithme de notre code
Notre code exemple réalise les actions suivantes :
Télécharger la base Open Bio
la base hébergée sur le site de l’assurance maladie étant protégée par un mécanisme anti-robot, le code utilise une copie stockée sur nos serveurs
Interroger l’utilisateur sur le(s) code(s) à utiliser
vous pouvez copier/coller même avec des espaces et vous pouvez consulter plusieurs codes actes à la fois en les séparant par des virgules
Parcourir le volumineux fichier Open Bio ligne à ligne
Monter dans un dataframe (c.à.d. un tableau de données filtrées, nommé “short_list” dans le code) les lignes correspondant au(x) code(s) à utiliser
Forcer le type de certaines variables du dataframe (pour des contraintes de présentation du tableau)
Répertorier les valeurs de certaines variables avec un dictionnaire pour une meilleur lisibilité
Afficher les résultats sous forme de tableau
Exporter le dataframe dans un fichier Excel
2.5 Résultats de notre code
Pour notre exemple, nous avons utilisé la base présentée plus haut (1.2)".
L'exécution du code Python affiche :
"ATTENTION : L'exécution du code prend un peu de temps… soyez patient. Et surveillez bien le bas de la fenêtre : c’est là que vous est demandé le code de l’acte après quelques secondes d'exécution."
Etape 1 :
Etape 2 : Les tableaux et graphiques sont ensuite affichés ainsi :
Sortie 1 : Nombre total de personnes ayant fait au moins un dosage de CRP en 2021
Sortie 2 : Nombre total de personnes ayant fait au moins un dosage de CRP en 2021 par sexe
Sortie 3 : Nombre total de personnes ayant fait au moins un dosage de CRP en 2021 par tranche d’âge
Sortie 4 : Nombre total de personnes ayant fait au moins un dosage de CRP en 2021 par sexe par région
Étape 3 : Le fichier filtré se télécharge automatiquement.
Ce que l'on peut en dire :
Nous avons déterminé le nombre de consommants et analysé trois caractéristiques du profil des patients ayant subi un dosage de la CRP : le sexe, l’âge et la région des bénéficiaires :
En 2021, le nombre total de personnes ayant subi un dosage de la CRP était de 19 336 909 personnes pour un total de 35 670 836 dosages de CRP (Sortie 1),
Les personnes subissant un acte pour le dosage de la CRP sont majoritairement des femmes : parmi toutes les personnes ayant subi cet acte en 2021, 11 288 461 personnes, soit 58,4%, étaient des femmes (Sortie 2),
Les personnes subissant un dosage de la CRP sont majoritairement âgées de 60 ans et plus : parmi toutes les personnes ayant subi cet acte en 2021, 9 032 196 personnes, soit 46,7%, avaient 60 ans ou plus (Sortie 3),
Les personnes subissant un dosage de la CRP vivent majoritairement en Île-de-France : parmi toutes les personnes ayant subi cet acte en 2021, 2 994 525 personnes, soit 15,5%, habitent en Île-de-France (Sortie 4).
3. Autres usages possibles
Ce jeu de données permet de répondre à une multitude d’autres questions :
Quelles ont été les évolutions de la consommation d’acte de biologie médicale entre 2015 et 2021 ? (pour cela il faudra utiliser les bases des années précédentes)
Quelle est la spécialité des médecins prescrivant l’acte de biologie médical Z en France ? (pour cela il faudra utiliser le fichier plus détaillé NB_2021_ACTE_age_sexe_reg_spe.CSV.gz )
Pour l’ensemble des actes d’un groupe physiopathologique (GRP), quels sont les profils des consommants ? (pour cela il faudra utiliser le regroupement GRP par exemple : Open Bio GRP 2021)
4. Aller plus loin
Nous espérons vous avoir convaincu de l’utilité et du potentiel des données en Open Data. Cet exemple était volontairement simple à des fins pédagogiques mais des usages épidémiologiques plus poussés sont possibles !
👍 Retrouvez l’ensemble de nos fiches sur LinkedIn en suivant notre page Linkedin.
👉 Si vous avez des projets d’utilisation ou de génération de données, notre équipe se tient à votre disposition : contact@sanoia.com !
Comentarios