3 questions à Denis Rustand sur son livre : Bayesian Survival, Longitudinal, and Joint Models with INLA
RetourPour la parution de son premier livre, Denis Rustand, chercheur en biostatistique
au sein de l’équipe BIOSTAT-BPH,
répond à nos questions autour de cet ouvrage consacré à une méthode innovante
dans le domaine de la statistique

photo par Gautier Dufau
Denis Rustand est chercheur en biostatistique au sein de l’équipe BIOSTAT du BPH, dont les recherches portent sur le développement de méthodes bayésiennes rapides et flexibles pour la modélisation conjointe de données longitudinales et de survie complexes.
Après 4 années de collaboration au sein du groupe BAYESCOMP à KAUST, Denis Rustand s’est entouré de ses collègues aux expertises complémentaires pour réaliser son livre :
- Håvard Rue, directeur de BAYESCOMP, créateur de la méthode INLA, dont les travaux de renommée mondiale ont révolutionné la statistique bayésienne computationnelle.
- Janet van Niekerk, professeure associée à l’Université de Pretoria, pour son expertise en analyse de survie complexe et sa contribution à des améliorations de l’algorithme INLA.
- Elias Teixeira Krainski, chercheur au sein de BAYESCOMP et expert en statistiques spatiales, qui a permis d’intégrer l’hétérogénéité géographique et spatiale dans les modèles.
Bayesian Survival, Longitudinal, and Joint Models with INLA est donc un ouvrage clé, qui présente des outils pouvant être directement utilisés pour exploiter les données des vastes cohortes et des essais cliniques étudiés au BPH. Permettant ainsi de mieux modéliser la dynamique des maladies, gérer des données manquantes et ouvrir la voie à la médecine personnalisée grâce à la prédiction dynamique des risques cliniques en temps réel pour un patient donné.
Qu’est-ce qui, dans votre parcours, vous a amené à écrire ce livre ?
L’idée d’écrire cet ouvrage s’inscrit dans la continuité directe de mon parcours de recherche. J’ai réalisé ma thèse en santé publique, biostatistique ici, à l’Université de Bordeaux, où j’ai travaillé sur le développement de modèles dits « conjoints » pour analyser simultanément l’évolution de biomarqueurs et des données de survie en oncologie. J’ai alors été rapidement confronté à un obstacle : avec les méthodes d’estimation traditionnelles, les temps de calcul deviennent très importants dès que l’on complexifie un peu les modèles pour les rendre plus réalistes.
Pour surmonter cela, j’ai rejoint en post-doc un groupe de recherche spécialisé en calcul bayésien à l’Université KAUST en Arabie Saoudite, sous la direction du professeur Håvard Rue, le créateur de la méthodologie INLA (Integrated Nested Laplace Approximations). J’ai pu y associer mon expertise en biostatistique théorique au calcul bayésien à haute performance, ce qui a mené à la création du package R INLAjoint.
L’écriture de ce livre s’est imposée naturellement : il fallait fournir à la communauté scientifique non seulement cet outil logiciel, mais aussi le socle théorique et le guide pratique nécessaires pour s’en emparer.
Est-ce que ce livre vient répondre à des besoins que vous auriez identifiés dans le domaine des statistiques et de la santé publique ?
Si oui, lesquels, et pourquoi avoir opté pour le format livre ?
Absolument. Aujourd’hui, la recherche biomédicale, notamment en épidémiologie et pour les essais cliniques, s’appuie sur des données de plus en plus riches et multidimensionnelles : on suit de multiples biomarqueurs à haute fréquence au cours du temps tout en observant la survenue de plusieurs événements cliniques (décès, rechutes, etc.).
Le frein majeur à l’analyse multivariée de ces données n’était pas un manque de théorie, mais un véritable goulot d’étranglement informatique. Les chercheurs étaient souvent contraints de faire un compromis frustrant : utiliser des modèles simplifiés et moins réalistes cliniquement, uniquement parce qu’ils étaient « calculables ». La méthodologie INLA lève cette barrière en offrant des approximations bayésiennes à la fois ultra-rapides et extrêmement précises.
Nous avons opté pour le format livre car un simple « manuel d’utilisation » d’un logiciel ne suffisait pas. Il fallait construire un pont entre la théorie statistique de pointe et les applications cliniques concrètes, en guidant le lecteur pas à pas sur la manière de construire ces modèles (longitudinaux, survie, modèles conjoints, et même spatiaux), tout en fournissant des codes R entièrement reproductibles.
Qu’espérez-vous transmettre à travers cet ouvrage, et qui en est la cible ?
L’ouvrage s’adresse à toute personne amenée à analyser des mesures répétées et des données de survie, telles que les étudiants de master et doctorat, les chercheurs et les statisticiens appliqués dans les domaines de la biostatistique, de l’épidémiologie et de la santé publique.
Ce que j’espère transmettre, c’est avant tout l’opportunité de formuler des hypothèses de recherche beaucoup plus ambitieuses. Jusqu’à présent, face à des méthodes d’estimation particulièrement lourdes, l’analyse multivariée imposait souvent de faire des compromis méthodologiques. En apportant un cadre d’estimation radicalement plus performant, cet ouvrage permet de s’affranchir de ces verrous.
J’espère ainsi donner à la communauté l’assurance de construire des modèles qui épousent vraiment la réalité biologique et clinique des patients. Et pour que cette transition vers des modèles de pointe soit la plus fluide possible, nous avons rendu chaque exemple du livre entièrement reproductible grâce à nos codes partagés en libre accès sur GitHub.
Enfin, dans cette même volonté de partage et avec l’accord de notre éditeur, nous proposons une version en ligne du livre, entièrement gratuite et accessible.
Version en ligne gratuite: rustand.fr/INLA_book.