top of page

Open-data de santé : explorons Open DAMIR

La base de données sur l’ensemble des dépenses d’assurances maladie en France


Saviez-vous…

... que vous pouvez rapidement observer le profil (sexe, âge, région) des personnes ayant eu recours à une prestation de santé (vaccination, consultation médecin, télé-consultation, kinésithérapie, dentiste, prothèse dentaire, etc.) en particulier ? Et que ces données sont disponibles par mois ?

Ce tutoriel vous explique comment répondre simplement à cette question en utilisant des données en accès libre (Open Data). Il s’inscrit dans une série de tutoriels créés par la CRO e-Health Services Sanoïa afin de promouvoir les usages des données Open-Data.


1. Quelle base open data choisir ?


1.1 Notre choix


Pour répondre à notre question nous avons choisi la base Open DAMIR.


Résumé : Depuis 2009, Open DAMIR recense l'ensemble des remboursements de l’assurance maladie tous régimes confondus pour des prestations de santé. Les données sont extraites du Système National de Données de Santé (SNDS).


Origine : Open DAMIR est mise à disposition par l’Assurance Maladie.


Liens utiles :


Rafraîchissement des données : Une base de données est publiée annuellement pour chaque mois.


Description : Les bases de données sur les dépenses d’assurance maladie sont en réalité composées de trois types de jeux de données : la base de données complète Open DAMIR, les bases de données nationales et les bases de données par Caisse Primaire d’Assurance Maladie (CPAM).

La base complète Open DAMIR contient l’ensemble des remboursements mensuels de soins effectués par les différents régimes d’assurance maladie. Cette base est composée de 6 variables : période, prestation, organisme de prise en charge, bénéficiaire des soins, professionnel de santé exécutant, professionnel de santé prescripteur et de 7 indicateurs de montant total de la dépense, base de remboursement de l'assurance maladie, montant remboursé, dépassements d’honoraires et de volume (dénombrement, quantité, coefficient).

Le descriptif des données est disponible ici : Descriptif de la base de données Open DAMIR.


Limites : Les données exposées sont des données statistiques, agrégées et figées. En effet, si un même bénéficiaire a consommé deux fois la même prestation, mais -par exemple- exécutée par des professionnels différents il sera compté deux fois.


ATTENTION : le cas de la vaccination anti-grippe permet de voir que cette base Open DAMIR doit être appréciée en fonction des pratiques. Ainsi si vous êtes vacciné par votre médecin généraliste dans le cadre d’une consultation classique et que celui-ci ne code pas l’acte spécifique de vaccination cela sera absent de DAMIR. Nous aurions pu aussi dénombrer les flacons de vaccins délivrés en pharmacie, mais là sans confirmation que le vaccin a bien été administré.


1.2 Jeu de données utilisé dans notre exemple


Nous avons utilisé la base complète Open DAMIR datant de Octobre 2021. Ce fichier faisant néanmoins 5,74 Go, avant d’être utilisé, il a été préalablement nettoyé pour réduire sa taille à 19 Mo.


2. Exemple complet (avec code)


2.1 Utilisez notre Python

Un code Python (notebook Jupyter) vous est fourni dans cet article.


2.2 Données nécessaires en entrée

Il faut identifier le code associé à la prestation que vous voulez analyser :

A partir du descriptif de la base de données, pour la variable “Nature de Prestation” (PRS_NAT), recherchez la ou les valeurs correspondantes à la ou les prestations d’intérêt.


2.3 Cherchez le(s) codes d’intérêt

Dans cet exemple nous choisissons d’analyser le profil (sexe, âge, région) des patients qui réalisent des téléconsultations avec des médecins généralistes ou bien avec des spécialistes. Pour retrouver les codes qui nous intéressent, il faut consulter le descriptif des données (Descriptif de la base de données Open DAMIR) :

  • Vaccination grippe pharmacien : 3360


2.4 Algorithme de notre code

Notre code exemple réalise les actions suivantes :

  • Télécharger le notebook (bouton droit - Download) et l’ouvrir dans votre environnement

  • Parcourir le fichier Open DAMIR pré-traité ligne à ligne

  • Monter dans un dataframe (c.à.d. un tableau de données filtrées, nommé “short_list” dans le code) les lignes correspondant au(x) code(s) recherchés à utiliser

  • Forcer le type de certaines variables du dataframe (pour des contraintes de présentation du tableau)

  • Translater les valeurs de certaines variables avec un dictionnaire pour une meilleur lisibilité

  • Afficher les résultats sous forme de tableau et graphique

  • Exporter le dataframe dans un fichier Excel


2.5 Résultats de notre code

L'exécution du code Python affiche :

ATTENTION : L'exécution du code prend un peu de temps… soyez patient.


Etape 1 :



Etape 2 : Les tableaux et graphiques sont ensuite affichés ainsi :


Attention : dans les sorties, on n’affiche pas les prestations en toutes lettres, mais plutôt les codes de ces prestations !


Sortie 1 : Quantité d’actes par prestations



Sortie 2 : Répartition par sexe




Sortie 3 : Répartition par classe d’âge



Sortie 4 : Répartition par région (tableau et graphique)



Étape 3 : Le fichier filtré se télécharge automatiquement.


Ce que l'on peut en dire :

Nous avons déterminé le nombre de consommateurs de téléconsultations et analysé quatres caractéristiques du profil des patients et des médecins impliqués dans ces téléconsultations.

  • Sortie 1 : En octobre 2021, le nombre total de vaccinations anti-grippe pratiquées en Pharmacies était de 15 759,

  • Sortie 2 : Les patients vaccinés pour la grippe en Pharmacie sont majoritairement des hommes : parmi toutes les personnes ayant été vaccinées pour la grippe en Pharmacie en octobre 2021, 9 883, soit 62,7%, étaient des hommes,

  • Sortie 3 : Les patients vaccinés pour la grippe en Pharmacie sont majoritairement des patients âgés de 70 à 79 ans : parmi toutes les personnes ayant été vaccinées pour la grippe en Pharmacie en octobre 2021, 4 990 personnes, soit 31,7%, avaient entre 70 et 79 ans,

  • Sortie 4 : Les patients vaccinés pour la grippe en Pharmacie sont majoritairement des patients résident en Île-de-France : parmi toutes les personnes ayant été vaccinées pour la grippe en Pharmacie en octobre 2021, 2 976 personnes, soit 18,9 %, habitent en Île-de-France.


3. Autres usages possibles

Ce jeu de données permet de répondre à une multitude d’autres questions :

  • Quelles est l’évolution de la consommation d’une prestation de santé en 2021 ? (pour cela il faudra utiliser les bases des mois précédents)

  • Pour une même prestation, quel est le profil des consommateurs ?


4. Aller plus loin

Nous espérons vous avoir convaincu de l’utilité et du potentiel des données en Open Data. Cet exemple était volontairement simple à des fins pédagogiques mais des usages épidémiologiques plus poussés sont possibles !


👍 Retrouvez l’ensemble de nos fiches sur LinkedIn en suivant notre page Linkedin.


👉 Si vous avez des projets d’utilisation ou de génération de données, notre équipe se tient à votre disposition : contact@sanoia.com !


bottom of page