Partager sur :

Data Scientist F/H

CDD / Remplacement, Temps plein

Paris, Paris (75)

Entre 45000 € et 70000 € (bruts/an)

CENTRE DE LA FORMATION ET DU DÉVELOPPEMENT DES COMPÉTENCES
Offre n°3368816 — publiée le 20/11/2024

Les missions qui vous attendent

Dans le contexte d'une forte augmentation des demandes d'exploitation des données de la BNDMR, des accès permanents au Système National des Données de Santé (SNDS) et au Programme de médicalisation des systèmes d'information (PMSI national), et de la perspective d'appariement de cette base aux données de l'Assurance Maladie, La BNDMR cherche à renforcer son équipe data afin de :
- Harmoniser et d'industrialiser ses process de préparation et d'exploitation des données de la BNDMR à des fins d'analyses statistiques ;
- Renforcer ses capacités à répondre aux projets et demandes d'analyse émanant des différents partenaires ; et
- Développer une cellule d'expertise sur les données du SNDS et du PMSI pour les maladies rares.
Ainsi, nous recherchons un.e data scientist/ingénieur statisticien avec une compétence et une expérience avérée en en traitement de données pour assurer les missions suivantes :
- Participer à l'amélioration continue des scripts d'extraction, de préparation et de transformation des données de la BNDMR pour les analyses statistiques ;
- Produire des statistiques descriptives et restituer des résultats sous forme graphique ;
- Participer à l'élaboration des protocoles d'études et aux choix méthodologiques (design, objectifs, critère de jugement, population d'étude, plan d'analyse statistique...). ;
- Réaliser des analyses statistiques en lien avec des projets internes ou en partenariat avec des laboratoires publics/privés ;
- Réaliser des analyses statistiques sur des bases de données complexes auxquelles la BNDMR sera appariée (SNDS, EDS, PMSI)

Entre 45000 € et 70000 € (bruts/an)

Quel est le profil idéal ?

SAVOIR FAIRE REQUIS

- Maîtrise indispensable des outils d'analyse de données (R et/ou Python) ;
- Maîtrise indispensable des systèmes de gestion des bases de données relationnelles (SGBDR PostgreSQL) ;
- Expérience avérée du travail collaboratif et reproductible (Gitlab) ;
- Expérience avérée en techniques de data management (manipulation de plusieurs sources, chainage, typage automatique des variables, gestion des libellés, bibliothèque de formats, sous-populations, gestion des données manquantes ...) ;
- Expérience avérée en méthodes statistiques appliquées aux sciences de la vie (descriptives, univariées, multivariées, régression linéaire, régression logistique, modèles de survie, ...) ;
- Expérience avérée dans la manipulation des données afin de repérer des évènements dans des grands volumes de data, des séries temporelles et si possible, dans un environnement de données de santé ;
- Connaissance des méthodes statistiques multivariées : PCA, PLS/PLS multi bloc, analyse longitudinale, analyse canonique généralisée, méthode de sélection des variables (lasso, réseau élastique, importance de la variable en projection) ;
- Maîtrise des méthodes d'apprentissage automatique (Random Forest, Naive Bayes Classifier, SVM...) serait un plus ;
- La connaissance des bases de données du SNDS (SNIIRAM, PMSI, EGB ...) serait un plus ;
- Intérêt pour les études épidémiologiques ;

CONNAISSANCES ASSOCIEES

- Sensibilité aux pratiques régies par le RGPD et des orientations et doctrines CNIL sur la protection des données de santé ;
- Bon niveau d'anglais (oral et écrit)

Expérimenté (2 à 5 ans)

L'AP-HP est un centre hospitalier universitaire CHU, qui s'organise en 6 GHU et 38 hôpitaux, traitant 8 millions de patients annuellement dans divers domaines médicaux. En tant que premier employeur d'Île-de-France, elle compte près de 100 000 professionnels. Elle assure un service de santé public 24/24. Pour en savoir plus : http://www.aphp.fr

La Direction des Services Numériques (DSN) de l'AP-HP fournit des services numériques aux patients et aux professionnels, dont le dossier patient, des systèmes pour la biologie et l'imagerie, et une offre bureautique sur plus de 70 000 postes. Elle fournit également des services pour la réutilisation secondaire des données de santé, au service du pilotage, de la recherche et de l'innovation, au travers de son entrepôt de données de santé.

L'équipe BNDMR a en charge deux projets majeurs :

- BaMaRa : un site web permettant le recueil des données de santé au travers d'une IHM web. Des connecteurs sont en place pour intégrer au fil de l'eau les données provenant des systèmes d'informations d'hôpitaux autres que l'APHP. Il s'agit d'un développement en continu assuré par une équipe de 8 personnes.

- L'entrepôt de données de santé BNDMR : une infrastructure logicielle composée de plusieurs outils donnant accès aux données de soins provenant de BaMaRa, une fois les traits d'identités retirés. Cet environnement est utilisé par une équipe de data scientists en interne, avec de manière ponctuelle des intervenants externes.

POSTULER

Postuler

Pour postuler à cette offre, rendez-vous directement sur le site du recruteur.