Principal Autre Analyse des données du temps jusqu'à l'événement

Analyse des données du temps jusqu'à l'événement

Aperçu

Logiciel

La description

Sites Internet

Lectures

Cours

Aperçu

Cette page décrit brièvement une série de questions qui doivent être prises en compte lors de l'analyse des données de temps jusqu'à l'événement et fournit une liste de ressources annotée pour plus d'informations.

La description

En quoi les données time-to-event (TTE) sont-elles uniques ?

Les données de temps jusqu'à l'événement (TTE) sont uniques car le résultat d'intérêt n'est pas seulement si un événement s'est produit ou non, mais aussi quand cet événement s'est produit. Les méthodes traditionnelles de régression logistique et linéaire ne sont pas adaptées pour pouvoir inclure à la fois les aspects événementiels et temporels en tant que résultat dans le modèle. Les méthodes de régression traditionnelles ne sont pas non plus équipées pour gérer la censure, un type spécial de données manquantes qui se produit dans les analyses du temps jusqu'à l'événement lorsque les sujets ne connaissent pas l'événement d'intérêt pendant la période de suivi. En présence de censure, le temps réel jusqu'à l'événement est sous-estimé. Des techniques spéciales pour les données TTE, comme nous le verrons ci-dessous, ont été développées pour utiliser les informations partielles sur chaque sujet avec des données censurées et fournir des estimations de survie non biaisées. Ces techniques intègrent des données provenant de plusieurs points dans le temps pour tous les sujets et peuvent être utilisées pour calculer directement les taux, les rapports de temps et les rapports de risque.

Quelles sont les considérations méthodologiques importantes concernant les données de temps jusqu'à l'événement ?

Il y a 4 considérations méthodologiques principales dans l'analyse du temps jusqu'à l'événement ou des données de survie. Il est important d'avoir une définition claire de l'événement cible, de l'origine temporelle, de l'échelle de temps et de décrire comment les participants quitteront l'étude. Une fois ceux-ci bien définis, l'analyse devient plus simple. En règle générale, il existe un seul événement cible, mais il existe des extensions des analyses de survie qui permettent des événements multiples ou des événements répétés.

Quelle est l'origine du temps ?

L'origine du temps est le point auquel le temps de suivi commence. Les données TTE peuvent utiliser une variété d'origines temporelles qui sont largement déterminées par la conception de l'étude, chacune ayant des avantages et des inconvénients associés. Les exemples incluent le temps de référence ou l'âge de référence. Les origines temporelles peuvent également être déterminées par une caractéristique déterminante, telle que le début de l'exposition ou le diagnostic. Il s'agit souvent d'un choix naturel si le résultat est lié à cette caractéristique. D'autres exemples incluent la naissance et l'année civile. Pour les études de cohorte, l'échelle de temps est le plus souvent le temps passé à l'étude.

Existe-t-il une autre option pour l'échelle de temps autre que le temps d'étude?

L'âge est une autre échelle de temps couramment utilisée, où l'âge de référence est l'origine temporelle et les individus sortent à leur événement ou âge de censure. Les modèles avec l'âge comme échelle de temps peuvent être ajustés pour les effets de calendrier. Certains auteurs recommandent d'utiliser l'âge plutôt que la durée de l'étude comme échelle de temps, car cela peut fournir des estimations moins biaisées.

Qu'est-ce que la censure ?

L'un des défis spécifiques à l'analyse de survie est que seuls certains individus auront vécu l'événement à la fin de l'étude, et donc les temps de survie seront inconnus pour un sous-ensemble du groupe d'étude. Ce phénomène est appelé censure et peut survenir des manières suivantes : le participant à l'étude n'a pas encore connu le résultat pertinent, tel qu'une rechute ou un décès, à la fin de l'étude ; le participant à l'étude est perdu de vue pendant la période d'étude ; ou, le participant à l'étude vit un événement différent qui rend impossible un suivi ultérieur. De tels temps d'intervalle censurés sous-estiment le temps réel mais inconnu jusqu'à l'événement. Pour la plupart des approches analytiques, la censure est supposée être aléatoire ou non informative.

Il existe trois principaux types de censure : droite, gauche et intervalle. Si les événements se produisent au-delà de la fin de l'étude, les données sont censurées à droite. Les données censurées à gauche se produisent lorsque l'événement est observé, mais l'heure exacte de l'événement est inconnue. Les données censurées par intervalle se produisent lorsque l'événement est observé, mais les participants entrent et sortent de l'observation, de sorte que l'heure exacte de l'événement est inconnue. La plupart des méthodes d'analyse de survie sont conçues pour des observations censurées à droite, mais des méthodes pour les données par intervalles et censurées à gauche sont disponibles.

Quelle est la question d'intérêt ?

Le choix de l'outil analytique doit être guidé par la question de recherche d'intérêt. Avec les données TTE, la question de recherche peut prendre plusieurs formes, ce qui influence la fonction de survie la plus pertinente pour la question de recherche. Trois types différents de questions de recherche qui peuvent présenter un intérêt pour les données TTE comprennent :

  1. Quelle proportion d'individus restera indemne de l'événement après un certain temps ?

  2. Quelle proportion d'individus aura l'événement après un certain temps ?

  3. Quel est le risque de l'événement à un moment donné, parmi ceux qui ont survécu jusque-là ?

Chacune de ces questions correspond à un type de fonction différent utilisé dans l'analyse de survie :

  1. Fonction de survie, S(t) : la probabilité qu'un individu survive au-delà du temps t [Pr(T>t)]

  2. Fonction de densité de probabilité, F(t), ou fonction d'incidence cumulée, R(t) : la probabilité qu'un individu ait un temps de survie inférieur ou égal à t [Pr(T≤t)]

  3. Fonction de danger, h(t) : le potentiel instantané de vivre un événement à l'instant t, à condition d'avoir survécu à cet instant

  4. Fonction de risque cumulée, H(t) : l'intégrale de la fonction de risque du temps 0 au temps t, qui est égale à l'aire sous la courbe h(t) entre le temps 0 et le temps t

Si l'une de ces fonctions est connue, les autres fonctions peuvent être calculées à l'aide des formules suivantes :

S(t) = 1 – F(t) La fonction de survie et la fonction de densité de probabilité totalisent 1

h(t)=f(t)/S(t) L'aléa instantané est égal à la probabilité inconditionnelle de

vivre l'événement à l'instant t, mis à l'échelle par la fraction vivante à l'instant t

H(t) = -log[S(t)] La fonction de risque cumulé est égale au log négatif de la survie

une fonction

S(t) = e –H(t) La fonction de survie est égale au risque cumulé négatif exponentiel

une fonction

Ces conversions sont souvent utilisées dans les méthodes d'analyse de survie, comme nous le verrons ci-dessous. Généralement, une augmentation de h(t), le risque instantané, entraînera une augmentation de H(t), le risque cumulé, ce qui se traduit par une diminution de S(t), la fonction de survie.

Quelles hypothèses doivent être faites pour utiliser des techniques standard pour les données de temps jusqu'à l'événement ?

L'hypothèse principale dans l'analyse des données TTE est celle d'une censure non informative : les individus censurés ont la même probabilité de vivre un événement ultérieur que les individus qui restent dans l'étude. La censure informative est analogue aux données manquantes non ignorables, ce qui biaisera l'analyse. Il n'y a pas de moyen définitif de tester si la censure est non informative, bien que l'exploration de modèles de censure puisse indiquer si une hypothèse de censure non informative est raisonnable. Si une censure informative est suspectée, des analyses de sensibilité, telles que les meilleurs et les pires scénarios, peuvent être utilisées pour tenter de quantifier l'effet de la censure informative sur l'analyse.

Une autre hypothèse lors de l'analyse des données TTE est qu'il y a suffisamment de temps de suivi et de nombre d'événements pour une puissance statistique adéquate. Cela doit être pris en compte dans la phase de conception de l'étude, car la plupart des analyses de survie sont basées sur des études de cohorte.

D'autres hypothèses simplificatrices méritent d'être mentionnées, car elles sont souvent formulées dans les aperçus de l'analyse de survie. Bien que ces hypothèses simplifient les modèles de survie, elles ne sont pas nécessaires pour effectuer des analyses avec des données TTE. Des techniques avancées peuvent être utilisées si ces hypothèses ne sont pas respectées :

  • Pas d'effet de cohorte sur la survie : pour une cohorte avec une longue période de recrutement, supposer que les individus qui s'inscrivent tôt ont les mêmes probabilités de survie que ceux qui s'inscrivent tardivement

  • Censure à droite uniquement dans les données

  • Les événements sont indépendants les uns des autres

Quels types d'approches peuvent être utilisées pour l'analyse de survie?

Il existe trois approches principales pour analyser les données TTE : les approches non paramétriques, semi-paramétriques et paramétriques. Le choix de l'approche à utiliser doit être guidé par la question de recherche d'intérêt. Souvent, plusieurs approches peuvent être utilisées de manière appropriée dans la même analyse.

Quelles sont les approches non paramétriques de l'analyse de survie et quand sont-elles appropriées ?

Les approches non paramétriques ne reposent pas sur des hypothèses concernant la forme ou la forme des paramètres dans la population sous-jacente. Dans l'analyse de survie, des approches non paramétriques sont utilisées pour décrire les données en estimant la fonction de survie, S(t), ainsi que la médiane et les quartiles du temps de survie. Ces statistiques descriptives ne peuvent pas être calculées directement à partir des données en raison de la censure, qui sous-estime le temps de survie réel chez les sujets censurés, ce qui conduit à des estimations faussées de la moyenne, de la médiane et d'autres descriptions. Les approches non paramétriques sont souvent utilisées comme première étape d'une analyse pour générer des statistiques descriptives impartiales, et sont souvent utilisées conjointement avec des approches semi-paramétriques ou paramétriques.

Estimateur de Kaplan-Meier

L'approche non paramétrique la plus courante dans la littérature est l'estimateur de Kaplan-Meier (ou limite de produit). L'estimateur de Kaplan-Meier fonctionne en décomposant l'estimation de S(t) en une série d'étapes/intervalles basés sur les temps d'événements observés. Les observations contribuent à l'estimation de S(t) jusqu'à ce que l'événement se produise ou jusqu'à ce qu'elles soient censurées. Pour chaque intervalle, la probabilité de survie jusqu'à la fin de l'intervalle est calculée, étant donné que les sujets sont à risque au début de l'intervalle (ceci est communément noté pj =( nj – dj)/nj). Le S(t) estimé pour chaque valeur de t est égal au produit de la survie de chaque intervalle jusqu'au temps t inclus. Les principales hypothèses de cette méthode, en plus de la censure non informative, sont que la censure se produit après les échecs et qu'il n'y a pas d'effet de cohorte sur la survie, de sorte que les sujets ont la même probabilité de survie quel que soit le moment où ils ont été étudiés.

Le S(t) estimé à partir de la méthode de Kaplan-Meier peut être tracé comme une fonction pas à pas avec le temps sur l'axe des X. Ce graphique est un bon moyen de visualiser l'expérience de survie de la cohorte et peut également être utilisé pour estimer la médiane (lorsque S(t)≤0,5) ou les quartiles du temps de survie. Ces statistiques descriptives peuvent également être calculées directement à l'aide de l'estimateur de Kaplan-Meier. Les intervalles de confiance (IC) à 95 % pour S(t) reposent sur des transformations de S(t) pour garantir que l'IC à 95 % est compris entre 0 et 1. La méthode la plus courante dans la littérature est l'estimateur de Greenwood.

Estimateur de table de mortalité

L'estimateur de la table de survie de la fonction de survie est l'un des premiers exemples de méthodes statistiques appliquées, utilisé depuis plus de 100 ans pour décrire la mortalité dans de grandes populations. L'estimateur de table de mortalité est similaire à la méthode de Kaplan-Meier, sauf que les intervalles sont basés sur le temps calendaire au lieu d'événements observés. Étant donné que les méthodes de table de survie sont basées sur ces intervalles calendaires et non sur des événements/heures de censure individuels, ces méthodes utilisent la taille moyenne de l'ensemble de risques par intervalle pour estimer S(t) et doivent supposer que la censure s'est produite uniformément sur l'intervalle de temps calendaire. Pour cette raison, l'estimateur de table de mortalité n'est pas aussi précis que l'estimateur de Kaplan-Meier, mais les résultats seront similaires dans de très grands échantillons.

Estimateur Nelson-Aalen

Une autre alternative à Kaplan-Meier est l'estimateur Nelson-Aalen, qui est basé sur l'utilisation d'une approche de processus de comptage pour estimer la fonction de risque cumulé, H(t). L'estimation de H(t) peut alors être utilisée pour estimer S(t). Les estimations de S(t) dérivées à l'aide de cette méthode seront toujours supérieures à l'estimation de K-M, mais la différence sera faible entre les deux méthodes dans les grands échantillons.

Des approches non paramétriques peuvent-elles être utilisées pour des analyses univariées ou multivariées ?

Des approches non paramétriques comme l'estimateur de Kaplan-Meier peuvent être utilisées pour effectuer des analyses univariées pour les facteurs catégoriques d'intérêt. Les facteurs doivent être catégoriques (soit de nature, soit une variable continue divisée en catégories) car la fonction de survie, S(t), est estimée pour chaque niveau de la variable catégorique, puis comparée entre ces groupes. Le S(t) estimé pour chaque groupe peut être tracé et comparé visuellement.

Des tests basés sur le classement peuvent également être utilisés pour tester statistiquement la différence entre les courbes de survie. Ces tests comparent le nombre d'événements observés et attendus à chaque instant entre les groupes, sous l'hypothèse nulle que les fonctions de survie sont égales entre les groupes. Il existe plusieurs versions de ces tests basés sur le classement, qui diffèrent par le poids accordé à chaque instant dans le calcul de la statistique de test. Deux des tests basés sur les rangs les plus courants observés dans la littérature sont le test du log-rank, qui attribue un poids égal à chaque point temporel, et le test de Wilcoxon, qui pondère chaque point temporel par le nombre de sujets à risque. Sur la base de ce poids, le test de Wilcoxon est plus sensible aux différences entre les courbes au début du suivi, lorsque plus de sujets sont à risque. D'autres tests, comme le test Peto-Prentice, utilisent des poids entre ceux du log rank et les tests de Wilcoxon. Les tests basés sur le classement sont soumis à l'hypothèse supplémentaire que la censure est indépendante du groupe, et tous sont limités par un faible pouvoir de détection des différences entre les groupes lorsque les courbes de survie se croisent. Bien que ces tests fournissent une valeur p de la différence entre les courbes, ils ne peuvent pas être utilisés pour estimer les tailles d'effet (la valeur p du test du log rank, cependant, est équivalente à la valeur p pour un facteur catégorique d'intérêt dans un Cox univariable maquette).

Les modèles non paramétriques sont limités en ce qu'ils ne fournissent pas d'estimations d'effet et ne peuvent généralement pas être utilisés pour évaluer l'effet de plusieurs facteurs d'intérêt (modèles multivariables). Pour cette raison, les approches non paramétriques sont souvent utilisées conjointement avec des modèles semi-paramétriques ou entièrement paramétriques en épidémiologie, où des modèles multivariables sont généralement utilisés pour contrôler les facteurs de confusion.

Les courbes de Kaplan-Meier peuvent-elles être ajustées ?

C'est un mythe courant que les courbes de Kaplan-Meier ne peuvent pas être ajustées, et cela est souvent cité comme une raison d'utiliser un modèle paramétrique qui peut générer des courbes de survie ajustées en fonction des covariables. Une méthode a été développée, cependant, pour créer des courbes de survie ajustées en utilisant la pondération de probabilité inverse (IPW). Dans le cas d'une seule covariable, les IPW peuvent être estimés de manière non paramétrique et équivalent à une standardisation directe des courbes de survie à la population étudiée. Dans le cas de covariables multiples, des modèles semi-paramétriques ou entièrement paramétriques doivent être utilisés pour estimer les poids, qui sont ensuite utilisés pour créer des courbes de survie ajustées à covariables multiples. Les avantages de cette méthode sont qu'elle n'est pas soumise à l'hypothèse des risques proportionnels, qu'elle peut être utilisée pour des covariables variant dans le temps et qu'elle peut également être utilisée pour des covariables continues.

Pourquoi avons-nous besoin d'approches paramétriques pour analyser les données de temps d'événement ?

Une approche non paramétrique de l'analyse des données TTE est utilisée pour décrire simplement les données de survie par rapport au facteur à l'étude. Les modèles utilisant cette approche sont également appelés modèles univariés. Plus communément, les enquêteurs s'intéressent à la relation entre plusieurs covariables et le temps jusqu'à l'événement. L'utilisation de modèles semi-paramétriques et entièrement paramétriques permet d'analyser le temps jusqu'à l'événement par rapport à de nombreux facteurs simultanément et fournit des estimations de la force de l'effet pour chaque facteur constitutif.

Qu'est-ce qu'une approche semi-paramétrique et pourquoi est-elle si couramment utilisée ?

Le modèle proportionnel de Cox est l'approche multivariée la plus couramment utilisée pour analyser les données de survie dans la recherche médicale. Il s'agit essentiellement d'un modèle de régression temps-événement, qui décrit la relation entre l'incidence de l'événement, telle qu'elle est exprimée par la fonction de risque, et un ensemble de covariables. Le modèle de Cox s'écrit comme suit :

fonction de risque, h(t) = h0(t)exp{β1X1 + β2X2 + … + βpXp}

Elle est considérée comme une approche semi-paramétrique car le modèle contient une composante non paramétrique et une composante paramétrique. La composante non paramétrique est le risque de base, h0(t). Il s'agit de la valeur du hasard lorsque toutes les covariables sont égales à 0, ce qui souligne l'importance de centrer les covariables dans le modèle pour l'interprétabilité. Ne confondez pas le risque de base avec le risque au temps 0. La fonction de risque de base est estimée de manière non paramétrique, et contrairement à la plupart des autres modèles statistiques, les temps de survie ne sont pas supposés suivre une distribution statistique particulière et la forme de la ligne de base le danger est arbitraire. La fonction de risque de base n'a pas besoin d'être estimée pour faire des inférences sur le risque relatif ou le rapport de risque. Cette caractéristique rend le modèle de Cox plus robuste que les approches paramétriques car il n'est pas vulnérable aux erreurs de spécification du risque de base.

La composante paramétrique est constituée du vecteur covariable. Le vecteur de covariable multiplie le risque de base du même montant quel que soit le temps, de sorte que l'effet de toute covariable est le même à tout moment pendant le suivi, et c'est la base de l'hypothèse des risques proportionnels.

Quelle est l'hypothèse des risques proportionnels?

L'hypothèse des risques proportionnels est vitale pour l'utilisation et l'interprétation d'un modèle de Cox.

Sous cette hypothèse, il existe une relation constante entre le résultat ou la variable dépendante et le vecteur de covariable. Les implications de cette hypothèse sont que les fonctions de risque pour deux individus sont proportionnelles à tout moment et que le rapport de risque ne varie pas avec le temps. En d'autres termes, si un individu a un risque de décès à un moment initial qui est deux fois plus élevé que celui d'un autre individu, alors à tous les moments ultérieurs, le risque de décès reste deux fois plus élevé. Cette hypothèse implique que les courbes de risque pour les groupes doivent être proportionnelles et ne doivent pas se croiser. Parce que cette hypothèse est si importante, elle doit absolument être testée.

Comment testez-vous l'hypothèse des risques proportionnels?

Il existe une variété de techniques, à la fois graphiques et basées sur des tests, pour évaluer la validité de l'hypothèse des risques proportionnels. Une technique consiste simplement à tracer des courbes de survie Kaplan-Meier si vous comparez deux groupes sans covariables. Si les courbes se croisent, l'hypothèse des risques proportionnels peut être violée. Une mise en garde importante à propos de cette approche doit être gardée à l'esprit pour les petites études. Il peut y avoir une grande quantité d'erreurs associées à l'estimation des courbes de survie pour les études avec une petite taille d'échantillon, donc les courbes peuvent se croiser même lorsque l'hypothèse des risques proportionnels est satisfaite. Le graphique log-log complémentaire est un test plus robuste qui trace le logarithme du logarithme négatif de la fonction de survie estimée par rapport au logarithme du temps de survie. Si les risques sont proportionnels entre les groupes, ce graphique produira des courbes parallèles. Une autre méthode courante pour tester l'hypothèse des risques proportionnels consiste à inclure un terme d'interaction temporelle pour déterminer si le RH change au fil du temps, car le temps est souvent le coupable de la non-proportionnalité des risques. La preuve que le terme d'interaction groupe*temps n'est pas nul est une preuve contre les risques proportionnels.

Et si l'hypothèse des risques proportionnels ne tient pas ?

Si vous trouvez que l'hypothèse PH ne tient pas, vous n'avez pas nécessairement besoin d'abandonner l'utilisation du modèle de Cox. Il existe des options pour améliorer la non-proportionnalité dans le modèle. Par exemple, vous pouvez inclure d'autres covariables dans le modèle, soit de nouvelles covariables, des termes non linéaires pour des covariables existantes ou des interactions entre covariables. Ou vous pouvez stratifier l'analyse sur une ou plusieurs variables. Cela permet d'estimer un modèle dans lequel le risque de base peut être différent au sein de chaque strate, mais les effets des covariables sont égaux entre les strates. D'autres options incluent la division du temps en catégories et l'utilisation de variables indicatrices pour permettre aux rapports de risque de varier dans le temps, et la modification de la variable de temps d'analyse (par exemple, du temps écoulé à l'âge ou vice versa).

Comment examinez-vous l'ajustement d'un modèle semi-paramétrique ?

Outre la vérification des violations de l'hypothèse de proportionnalité, d'autres aspects de l'ajustement du modèle doivent être examinés. Des statistiques similaires à celles utilisées dans la régression linéaire et logistique peuvent être appliquées pour effectuer ces tâches pour les modèles de Cox avec quelques différences, mais les idées essentielles sont les mêmes dans les trois contextes. Il est important de vérifier la linéarité du vecteur covariable, ce qui peut être fait en examinant les résidus, comme nous le faisons dans la régression linéaire. Cependant, les résidus dans les données TTE ne sont pas aussi simples qu'ils le sont dans la régression linéaire, en partie parce que la valeur du résultat est inconnue pour certaines des données, et les résidus sont souvent faussés. Plusieurs types différents de résidus ont été développés afin d'évaluer l'ajustement du modèle de Cox pour les données TTE. Les exemples incluent Martingale et Schoenfeld, entre autres. Vous pouvez également examiner les résidus pour identifier les observations très influentes et mal ajustées. Il existe également des tests d'adéquation spécifiques aux modèles de Cox, tels que le test de Gronnesby et Borgan et l'indice pronostique de Hosmer et Lemeshow. Vous pouvez également utiliser l'AIC pour comparer différents modèles, bien que l'utilisation de R2 soit problématique.

Pourquoi utiliser une approche paramétrique ?

L'un des principaux avantages des modèles semi-paramétriques est qu'il n'est pas nécessaire de spécifier le risque de base pour estimer les rapports de risque qui décrivent les différences de risque relatif entre les groupes. Il se peut cependant que l'estimation du risque de base lui-même présente un intérêt. Dans ce cas, une approche paramétrique est nécessaire. Dans les approches paramétriques, la fonction de risque et l'effet des covariables sont spécifiés. La fonction de risque est estimée sur la base d'une distribution supposée dans la population sous-jacente.

sous-prêts et non sous-prêts

Les avantages de l'utilisation d'une approche paramétrique pour l'analyse de survie sont les suivants :

  • Les approches paramétriques sont plus informatives que les approches non et semi-paramétriques. En plus de calculer des estimations d'effets relatifs, ils peuvent également être utilisés pour prédire le temps de survie, les taux de risque et les temps de survie moyens et médians. Ils peuvent également être utilisés pour faire des prévisions de risque absolu au fil du temps et pour tracer des courbes de survie corrigées des covariables.

  • Lorsque la forme paramétrique est correctement spécifiée, les modèles paramétriques ont plus de puissance que les modèles semi-paramétriques. Ils sont également plus efficaces, conduisant à des erreurs types plus petites et à des estimations plus précises.

  • Les approches paramétriques reposent sur le maximum de vraisemblance pour estimer les paramètres.

  • Les résidus des modèles paramétriques prennent la forme familière de la différence entre l'observé et l'attendu.

Le principal inconvénient de l'utilisation d'une approche paramétrique est qu'elle repose sur l'hypothèse que la distribution de la population sous-jacente a été correctement spécifiée. Les modèles paramétriques ne sont pas robustes aux erreurs de spécification, c'est pourquoi les modèles semi-paramétriques sont plus courants dans la littérature et sont moins risqués à utiliser lorsqu'il existe une incertitude quant à la distribution de la population sous-jacente.

Comment choisir la forme paramétrique ?

Le choix de la forme paramétrique appropriée est la partie la plus difficile de l'analyse de survie paramétrique. La spécification de la forme paramétrique doit être motivée par l'hypothèse de l'étude, ainsi que par les connaissances préalables et la plausibilité biologique de la forme du danger de base. Par exemple, si l'on sait que le risque de décès augmente considérablement juste après la chirurgie, puis diminue et s'aplanit, il serait inapproprié de spécifier la distribution exponentielle, qui suppose un risque constant dans le temps. Les données peuvent être utilisées pour évaluer si la forme spécifiée semble correspondre aux données, mais ces méthodes basées sur les données doivent compléter, et non remplacer, les sélections basées sur des hypothèses.

Quelle est la différence entre un modèle à risques proportionnels et un modèle à temps de défaillance accéléré ?

Bien que le modèle à risques proportionnels de Cox soit semi-paramétrique, les modèles à risques proportionnels peuvent également être paramétriques. Les modèles paramétriques à risques proportionnels peuvent s'écrire sous la forme :

h(t,X) = h0(t)exp(Xi β) = h0(t)λ

où le risque de base, h0(t), ne dépend que du temps, t, mais pas de X, et est une fonction de covariables spécifique à l'unité, qui ne dépend pas de t, qui augmente ou diminue la fonction de risque de base. ne peut pas être négatif. Dans ce modèle, le taux de risque est une fonction multiplicative du risque de base et les rapports de risque peuvent être interprétés de la même manière que dans le modèle à risques proportionnels semi-paramétrique.

Les modèles de temps de défaillance accéléré (AFT) sont une classe de modèles de survie paramétriques qui peuvent être linéarisés en prenant le log naturel du modèle de temps de survie. L'exemple le plus simple d'un modèle AFT est le modèle exponentiel, qui s'écrit :

ln (T) = 0 + β1X1 +… + βpXp + ε *

La principale différence entre les modèles AFT et les modèles PH est que les modèles AFT supposent que les effets des covariables sont multiplicatifs sur l'échelle de temps, tandis que les modèles de Cox utilisent l'échelle de risque comme indiqué ci-dessus. Les estimations des paramètres des modèles AFT sont interprétées comme des effets sur l'échelle de temps, qui peuvent accélérer ou ralentir le temps de survie. Exp(β)>1 d'un modèle AFT signifie que le facteur accélère le temps de survie, ou conduit à une survie plus longue. Exp(β)<1 decelerates survival time (shorter survival). AFT models assume that estimated time ratios are constant across the time scale. A time ratio of 2, for example, can be interpreted as the median time to death in group 1 is double the median time to death in group 2 (indicated longer survival for group 1).

Certaines distributions d'erreurs peuvent être écrites et interprétées à la fois comme des modèles PH et AFT (c. (c'est-à-dire mise en place d'une cannelure).

Quelles formes les modèles paramétriques peuvent-ils prendre ?

La fonction de risque peut prendre n'importe quelle forme tant que h(t)>0 pour toutes les valeurs de t. Alors que la principale considération pour la forme paramétrique devrait être la connaissance préalable de la forme du risque de base, chaque distribution a ses propres avantages et inconvénients. Certaines des formes les plus courantes seront brièvement expliquées, avec plus d'informations disponibles dans la liste des ressources.

Distribution exponentielle

La distribution exponentielle suppose que h(t) ne dépend que des coefficients et des covariables du modèle et qu'il est constant dans le temps. Le principal avantage de ce modèle est qu'il s'agit à la fois d'un modèle à risques proportionnels et d'un modèle à temps de défaillance accéléré, de sorte que les estimations des effets peuvent être interprétées comme des rapports de risques ou des rapports temporels. Le principal inconvénient de ce modèle est qu'il est souvent peu plausible de supposer un risque constant dans le temps.

Distribution de Weibull

La distribution de Weibull est similaire à la distribution exponentielle. Alors que la distribution exponentielle suppose un risque constant, la distribution de Weibull suppose un risque monotone qui peut augmenter ou diminuer, mais pas les deux. Il a deux paramètres. Le paramètre de forme (σ ) contrôle si le risque augmente (σ1 ) (dans la distribution exponentielle, ce paramètre est défini sur 1). Le paramètre d'échelle, (1/σ)exp(-β0/σ), détermine l'échelle de cette augmentation/diminution. Étant donné que la distribution de Weibull se simplifie en distribution exponentielle lorsque σ=1, l'hypothèse nulle selon laquelle σ=1 peut être testée à l'aide d'un test de Wald. Le principal avantage de ce modèle est qu'il est à la fois un modèle PH et AFT, de sorte que les rapports de risque et les rapports de temps peuvent être estimés. Encore une fois, le principal inconvénient est que l'hypothèse de monotonie du risque de référence peut être invraisemblable dans certains cas.

Distribution Gompertz

La distribution de Gompertz est un modèle PH qui est égal à la distribution log-Weibull, donc le log de la fonction de risque est linéaire en t. Cette distribution a un taux d'échec qui augmente de façon exponentielle et est souvent appropriée pour les données actuarielles, car le risque de mortalité augmente également de façon exponentielle au fil du temps.

Logistique Distribution

La distribution log-logistique est un modèle AFT avec un terme d'erreur qui suit la distribution logistique standard. Il peut s'adapter à des risques non monotones et s'adapte généralement mieux lorsque le risque sous-jacent atteint un pic puis diminue, ce qui peut être plausible pour certaines maladies comme la tuberculose. La distribution log-logistique n'est pas un modèle PH, mais c'est un modèle à cotes proportionnelles. Cela signifie qu'il est soumis à l'hypothèse des cotes proportionnelles, mais l'avantage est que les coefficients de pente peuvent être interprétés comme des rapports de temps et aussi comme des rapports de cotes. Un rapport de cotes de 2 à partir d'un modèle log-logistique paramétrique, par exemple, serait interprété comme la probabilité de survie au-delà du temps t chez les sujets avec x=1 est le double de la cote chez les sujets avec x=0.

Distribution Gamma Généralisée (GG)

La distribution gamma généralisée (GG) est en fait une famille de distributions qui contient presque toutes les distributions les plus couramment utilisées, y compris les distributions exponentielle, Weibull, log-normale et gamma. Cela permet des comparaisons entre les différentes distributions. La famille GG comprend également les quatre types de fonctions de risque les plus courants, ce qui rend la distribution GG particulièrement utile puisque la forme de la fonction de risque peut aider à optimiser la sélection du modèle.

Approche Splines

Étant donné que la seule limitation générale de la spécification de la fonction de risque de base est queh(t)>0 pour toutes les valeurs de t, les splines peuvent être utilisées pour une flexibilité maximale dans la modélisation de la forme du risque de base. Les splines cubiques restreintes sont une méthode récemment recommandée dans la littérature pour l'analyse de survie paramétrique, car cette méthode permet une flexibilité dans la forme, mais limite la fonction à être linéaire aux extrémités où les données sont rares. Les splines peuvent être utilisées pour améliorer l'estimation et sont également avantageuses pour l'extrapolation, car elles maximisent l'ajustement aux données observées. Si elles sont correctement spécifiées, les estimations d'effet des modèles ajustés à l'aide de splines ne doivent pas être biaisées. Comme dans d'autres analyses de régression, les défis liés à l'ajustement des splines peuvent inclure le choix du nombre et de l'emplacement des nœuds et des problèmes de surajustement.

Comment examinez-vous l'ajustement du modèle paramétrique ?

Le composant le plus important de l'évaluation de l'ajustement du modèle paramétrique est de vérifier si les données prennent en charge la forme paramétrique spécifiée. Cela peut être évalué visuellement en traçant un graphique du risque cumulé basé sur un modèle par rapport à la fonction de risque cumulé estimée de Kaplan-Meier. Si la forme spécifiée est correcte, le graphique doit passer par l'origine avec une pente de 1. Le test d'adéquation de Grønnesby-Borgan peut également être utilisé pour déterminer si le nombre d'événements observé est significativement différent du nombre d'événements attendu. dans des groupes différenciés par les scores de risque. Ce test est très sensible au nombre de groupes choisis, et a tendance à rejeter l'hypothèse nulle d'ajustement adéquat trop généreusement si de nombreux groupes sont choisis, en particulier dans les petits ensembles de données. Le test manque de puissance pour détecter les violations du modèle, cependant, si trop peu de groupes sont choisis. Pour cette raison, il semble mal avisé de se fier uniquement à un test d'adéquation pour déterminer si la forme paramétrique spécifiée est raisonnable.

L'AIC peut également être utilisé pour comparer des modèles exécutés avec différentes formes paramétriques, l'AIC le plus bas indiquant le meilleur ajustement. Cependant, l'AIC ne peut pas être utilisé pour comparer les modèles paramétriques et semi-paramétriques, car les modèles paramétriques sont basés sur les heures des événements observés et les modèles semi-paramétriques sont basés sur l'ordre des heures des événements. Encore une fois, ces outils doivent être utilisés pour examiner si la forme spécifiée correspond aux données, mais la plausibilité du danger sous-jacent spécifié reste l'aspect le plus important du choix d'une forme paramétrique.

Une fois que la forme paramétrique spécifiée a été déterminée pour bien s'adapter aux données, des méthodes similaires à celles décrites précédemment pour les modèles de risque semi-proportionnel peuvent être utilisées pour choisir entre différents modèles, tels que les graphiques résiduels et les tests d'adéquation.

Et si les prédicteurs changeaient avec le temps ?

Dans les déclarations de modèle écrites ci-dessus, nous avons supposé que les expositions sont constantes au cours du suivi. Les expositions avec des valeurs qui changent au fil du temps, ou des covariables variant dans le temps, peuvent être incluses dans les modèles de survie en changeant l'unité d'analyse de l'individu à la période de temps où l'exposition est constante. Cela divise le temps-personne des individus en intervalles que chaque personne contribue à l'ensemble de risques d'exposition et de non-exposition pour cette covariable. L'hypothèse principale de l'inclusion d'une covariable variant dans le temps de cette manière est que l'effet de la covariable variant dans le temps ne dépend pas du temps.

Pour un modèle de risque proportionnel de Cox, l'inclusion d'une covariable variant dans le temps prendrait la forme suivante : h(t) = h0(t)e^β1x1(t). Des covariables variant dans le temps peuvent également être incluses dans les modèles paramétriques, bien que ce soit un peu plus compliqué et difficile à interpréter. Les modèles paramétriques peuvent également modéliser des covariables variant dans le temps à l'aide de splines pour une plus grande flexibilité.

En général, des covariables variant dans le temps doivent être utilisées lorsqu'il est supposé que le risque dépend davantage des valeurs ultérieures de la covariable que de la valeur de la covariable au départ. Les défis qui surviennent avec les covariables variant dans le temps sont des données manquantes sur la covariable à différents moments et un biais potentiel dans l'estimation du risque si la covariable variant dans le temps est en fait un médiateur.

Qu'est-ce que l'analyse des risques concurrents ?

Les méthodes traditionnelles d'analyse de survie supposent qu'un seul type d'événement d'intérêt se produit. Cependant, des méthodes plus avancées existent pour permettre l'investigation de plusieurs types d'événements dans la même étude, tels que les décès de causes multiples. L'analyse des risques concurrents est utilisée pour ces études dans lesquelles la durée de survie se termine par le premier de plusieurs événements. Des méthodes spéciales sont nécessaires car l'analyse du temps jusqu'à chaque événement séparément peut être biaisée. Spécifiquement dans ce contexte, la méthode KM a tendance à surestimer la proportion de sujets vivant des événements. L'analyse des risques concurrents utilise la méthode de l'incidence cumulative, dans laquelle la probabilité globale de l'événement à tout moment est la somme des probabilités spécifiques à l'événement. Les modèles sont généralement mis en œuvre en saisissant chaque participant à l'étude plusieurs fois – une par type d'événement. Pour chaque participant à l'étude, le temps jusqu'à n'importe quel événement est censuré sur l'heure à laquelle le patient a vécu le premier événement. Pour plus d'informations, veuillez consulter la page advancedepidemiology.org sur risques concurrents .

Que sont les modèles de fragilité et pourquoi sont-ils utiles pour les données corrélées ?

Des données de survie corrélées peuvent survenir en raison d'événements récurrents vécus par un individu ou lorsque les observations sont regroupées en groupes. Soit par manque de connaissances, soit pour des raisons de faisabilité, certaines covariables liées à l'événement d'intérêt peuvent ne pas être mesurées. Les modèles de fragilité tiennent compte de l'hétérogénéité causée par les covariables non mesurées en ajoutant des effets aléatoires, qui agissent de manière multiplicative sur la fonction de risque. Les modèles de fragilité sont essentiellement des extensions du modèle de Cox avec l'ajout d'effets aléatoires. Bien qu'il existe divers schémas de classification et nomenclatures utilisées pour décrire ces modèles, quatre types courants de modèles de fragilité comprennent la fragilité partagée, imbriquée, conjointe et additive.

Existe-t-il d'autres approches pour analyser les données d'événements récurrents ?

Les données d'événements récurrents sont corrélées puisque plusieurs événements peuvent se produire au sein du même sujet. Alors que les modèles de fragilité sont une méthode pour tenir compte de cette corrélation dans les analyses d'événements récurrents, une approche plus simple qui peut également tenir compte de cette corrélation est l'utilisation d'erreurs standard robustes (ES). Avec l'ajout de SE robustes, l'analyse d'événements récurrents peut être effectuée comme une simple extension de modèles semi-paramétriques ou paramétriques.

Bien que simples à mettre en œuvre, il existe plusieurs façons de modéliser les données d'événements récurrents à l'aide de SE robustes. Ces approches diffèrent dans la façon dont elles définissent l'ensemble de risques pour chaque récurrence. De cette façon, ils répondent à des questions d'étude légèrement différentes, de sorte que le choix de l'approche de modélisation à utiliser doit être basé sur l'hypothèse d'étude et la validité des hypothèses de modélisation.

L'approche du processus de comptage, ou Andersen-Gill, de la modélisation des événements récurrents suppose que chaque récurrence est un événement indépendant et ne prend pas en compte l'ordre ou le type d'événement. Dans ce modèle, le temps de suivi pour chaque sujet commence au début de l'étude et est divisé en segments définis par des événements (récurrences). Les sujets contribuent au risque défini pour un événement tant qu'ils sont sous observation à ce moment-là (non censurés). Ces modèles sont simples à ajuster en tant que modèle de Cox avec l'ajout d'un estimateur SE robuste, et les rapports de risque sont interprétés comme l'effet de la covariable sur le taux de récurrence au cours de la période de suivi. Ce modèle serait toutefois inapproprié si l'hypothèse d'indépendance n'est pas raisonnable.

Les approches conditionnelles supposent qu'un sujet n'est pas à risque pour un événement ultérieur jusqu'à ce qu'un événement antérieur se produise, et prennent donc en compte l'ordre des événements. Ils sont ajustés à l'aide d'un modèle stratifié, avec le numéro d'événement (ou le nombre de récurrence, dans ce cas) comme variable de strate et incluant des SE robustes. Il existe deux approches conditionnelles différentes qui utilisent des échelles de temps différentes et ont donc des ensembles de risques différents. L'approche de probabilité conditionnelle utilise le temps écoulé depuis le début de l'étude pour définir les intervalles de temps, et est appropriée lorsque l'intérêt se situe dans le cours complet du processus d'événement récurrent. L'approche du temps d'intervalle réinitialise essentiellement l'horloge pour chaque récurrence en utilisant le temps écoulé depuis l'événement précédent pour définir les intervalles de temps, et est plus appropriée lorsque les estimations d'effets spécifiques à l'événement (ou à la récurrence) sont intéressantes.

Enfin, les approches marginales (également connues sous le nom d'approche WLW - Wei, Lin et Weissfeld -) considèrent chaque événement comme un processus distinct, de sorte que les sujets sont à risque pour tous les événements dès le début du suivi, qu'ils aient ou non vécu un événement antérieur. Ce modèle est approprié lorsque l'on pense que les événements résultent de différents processus sous-jacents, de sorte qu'un sujet pourrait vivre un 3ème événement, par exemple, sans connaître le 1er. Bien que cette hypothèse semble invraisemblable avec certains types de données, comme les récidives de cancer, elle pourrait être utilisée pour modéliser les récidives de blessures sur une période de temps, lorsque les sujets pourraient subir différents types de blessures au cours de la période sans ordre naturel. Les modèles marginaux peuvent également être ajustés à l'aide de modèles stratifiés avec des SE robustes.

Lectures

Ce projet visait à décrire les décisions méthodologiques et analytiques auxquelles on peut être confronté lorsqu'on travaille avec des données time-to-event, mais il n'est en aucun cas exhaustif. Des ressources sont fournies ci-dessous pour approfondir ces sujets.

Manuels et chapitres

Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE (2012). Méthodes de régression en biostatistique, 2e New York, NY : Springer.

  • Texte d'introduction aux modèles linéaires, logistiques, de survie et à mesures répétées, idéal pour ceux qui veulent un point de départ de base.

  • Le chapitre sur l'analyse de survie fournit une bonne vue d'ensemble mais pas de profondeur. Les exemples sont basés sur STATA.

Hosmer DW, Lemeshow S, May S. (2008) Applied Survival Analysis: Regression Modeling of Time-to-Event Data, 2e éd. Hoboken, New Jersey : John Wiley & Sons, Inc.

  • Présentation approfondie des modèles de Cox non paramétriques, semi-paramétriques et paramétriques, idéale pour ceux qui connaissent d'autres domaines de la statistique. Les techniques avancées ne sont pas couvertes en profondeur, mais des références à d'autres manuels spécialisés sont fournies.

Kleinbaum DG, Klein M (2012). Analyse de survie : un texte d'auto-apprentissage, 3e éd. New York, NY : Springer Science + Business Media, LLC

  • Excellent texte d'introduction

Klein JP, Moeschberger ML (2005). Analyse de survie : Techniques pour les données censurées et tronquées, 2e éd. New York, NY : Springer Science + Business Media, LLC

  • conçu pour les étudiants diplômés, ce livre fournit de nombreux exemples pratiques

Therneau TM, Grambsch PM (2000). Modélisation des données de survie : extension du modèle de Cox. New York, NY : Springer Science + Business Media, LLC

  • Bonne introduction à l'approche du processus de comptage et à l'analyse des données de survie corrélées. L'auteur a également écrit le package de survie en R

Allison PD (2010). Analyse de survie utilisant SAS: A Practice Guide, 2e éd. Cary, Caroline du Nord : Institut SAS

  • Un excellent texte appliqué pour les utilisateurs SAS

Bagdonavicius V, Nikulin M (2002). Modèles de vie accélérés : modélisation et analyse statistique. Boca Raton, FL : Chapman & Hall/CRC Press.

  • Bonne ressource pour plus d'informations sur les modèles de temps de défaillance accélérés paramétriques et semi-paramétriques et comment ils se comparent aux modèles à risques proportionnels

Articles méthodologiques

Articles d'introduction/présentation

Hougaard P (1999). Fondamentaux des données de survie. Biométrie 55(1) : 13-22. PMID : 11318147 .

Clark TG, Bradburn MJ, Love SB, Altman DG (2003). Analyse de survie partie I : concepts de base et premières analyses. Br J Cancer 89(2) : 232-8. PMID : 12865907

Clark TG, Bradburn MJ, Love SB, Altman DG (2003). Analyse de survie, partie II : analyse de données multivariée – une introduction aux concepts et aux méthodes. Br J Cancer 89(3) : 431-6. PMID : 1288808

Clark TG, Bradburn MJ, Love SB, Altman DG (2003). Analyse de survie, partie II : analyse de données multivariée : choix d'un modèle et évaluation de son adéquation et de son ajustement. Br J Cancer 89(4) : 605-11. PMID : 12951864

Clark TG, Bradburn MJ, Love SB, Altman DG (2003). Analyse de survie partie IV: concepts et méthodes supplémentaires en analyse de survie. Br J Cancer 89(5) : 781-6. PMID : 12942105

  • La série de quatre articles ci-dessus est une excellente introduction aux méthodes d'analyse de survie qui est extrêmement bien écrite et facile à comprendre - elle est fortement recommandée.

L'âge comme échelle de temps

Korn EL, Graubard BI, Midthune D (1997). Analyse time-to-evenement du suivi longitudinal d'une enquête : choix de l'échelle de temps. Am J Epidemiol 145(1):72-80. PMID : 8982025

  • Document préconisant l'utilisation de l'âge comme échelle de temps plutôt que le temps d'étude.

Ingram DD, Makuc DM, Feldman JJ (1997). Re : Analyse time-to-evenement du suivi longitudinal d'une enquête : choix de l'échelle de temps. Am J Epidemiol 146(6):528-9. PMID : 9290515 .

  • Commentez l'article de Korn décrivant les précautions à prendre lors de l'utilisation de l'âge comme échelle de temps.

Thiébaut AC, Bénichou J (2004). Choix de l'échelle de temps dans l'analyse du modèle de Cox des données de cohorte épidémiologique : une étude de simulation. Stat Med 30;23(24):3803-20. PMID : 15580597

  • Étude de simulation montrant l'ampleur du biais pour différents degrés d'association entre l'âge et la covariable d'intérêt lors de l'utilisation du temps sur l'étude comme échelle de temps.

Canchola AJ, Stewart SL, Bernstein L, et al. Régression de Cox utilisant différentes échelles de temps. Disponible à: http://www.lexjansen.com/wuss/2003/DataAnalysis/i-cox_time_scales.pdf .

  • Un bel article comparant 5 modèles de régression de Cox avec des variations sur le temps d'étude ou l'âge comme échelle de temps avec le code SAS.

Censure

Huang CY, Ning J, Qin J (2015). Inférence de vraisemblance semi-paramétrique pour les données tronquées à gauche et censurées à droite. Biostatistique [epub] PMID : 25796430 .

  • Cet article présente une belle introduction à l'analyse des données censurées et propose une nouvelle procédure d'estimation de la distribution du temps de survie avec des données tronquées à gauche et à droite. Il est très dense et a une focalisation statistique avancée.

Cain KC, Harlow SD, Little RJ, Nan B, Yosef M, Taffe JR, Elliott MR (2011). Biais dû à la troncature gauche et à la censure gauche dans les études longitudinales des processus de développement et de la maladie. Am J Epidemiol 173(9):1078-84. PMID : 21422059 .

  • Une excellente ressource qui explique le biais inhérent aux données censurées à gauche d'un point de vue épidémiologique.

Sun J, Sun L, Zhu C (2007). Test du modèle de cotes proportionnelles pour les données censurées par intervalle. Données à vie Anal 13:37-50. PMID 17160547 .

  • Un autre article statistiquement dense sur un aspect nuancé de l'analyse des données TTE, mais fournit une bonne explication des données censurées par intervalle.

Robins JM (1995a) Une méthode analytique pour les essais randomisés avec censure informative : Partie I. Données à vie Anal 1 : 241–254. PMID 9385104 .

Robins JM (1995b) Une méthode analytique pour les essais randomisés avec censure informative : Partie II. Données à vie Anal 1 : 417–434. PMID 9385113 .

  • Deux articles qui discutent des méthodes de traitement de la censure informative.

Méthodes de survie non paramétriques

Borgan Ø (2005) estimateur de Kaplan-Meier. Encyclopédie de Biostatistique DOI : 10.1002 / 0470011815.b2a11042

  • Excellent aperçu de l'estimateur de Kaplan-Meier et de sa relation avec l'estimateur de Nelson-Aalen

Rodriguez G (2005). Estimation non paramétrique dans les modèles de survie. Disponible depuis: http://data.princeton.edu/pop509/NonParametricSurvival.pdf

  • Introduction aux méthodes non paramétriques et au modèle de risque proportionnel de Cox qui explique les relations entre les méthodes avec les formules mathématiques

Cole SR, Hernan MA (2004). Courbes de survie ajustées avec des poids de probabilité inverses. Programmes de méthodes informatiques Biomed 75 (1) : 35-9. PMID : 15158046

  • Décrit l'utilisation d'IPW pour créer des courbes de Kaplan-Meier ajustées. Comprend un exemple et une macro SAS.

Zhang M (2015). Des méthodes robustes pour améliorer l'efficacité et réduire les biais dans l'estimation des courbes de survie dans les essais cliniques randomisés. Données à vie Anal 21(1) : 119-37. PMID : 24522498

  • Méthode proposée pour les courbes de survie corrigées des covariables dans les ECR

Méthodes de survie semi-paramétriques

Cox DR (1972) Modèles de régression et tables de mortalité (avec discussion). J R Statist Soc B 34 : 187-220.

  • La référence classique.

Christensen E (1987) Analyse de survie multivariée utilisant le modèle de régression de Cox. Hépatologie 7 : 1346-1358. PMID 3679094 .

  • Décrit l'utilisation du modèle de Cox à l'aide d'un exemple motivant. Excellente revue des aspects clés de l'analyse du modèle de Cox, y compris comment ajuster un modèle de Cox et vérifier les hypothèses du modèle.

Grambsch PM, Therneau TM (1994) Tests de risques proportionnels et diagnostics basés sur des résidus pondérés. Biometrika 81 : 515-526.

  • Un document approfondi sur le test de l'hypothèse des risques proportionnels. Bon mélange de théorie et d'explication statistique avancée.

Ng'andu NH (1997) Une comparaison empirique de tests statistiques pour évaluer l'hypothèse des risques proportionnels du modèle de Cox. Stat Med 16 : 611-626. PMID 9131751 .

  • Un autre document approfondi sur le test de l'hypothèse des risques proportionnels, celui-ci comprend une discussion sur la vérification des résidus et des effets de la censure.

Méthodes de survie paramétriques

Rodriguez, G (2010). Modèles de survie paramétriques. Disponible depuis: http://data.princeton.edu/pop509/ParametricSurvival.pdf

  • brève introduction aux distributions les plus couramment utilisées dans l'analyse de survie paramétrique

Nardi A, Schemper M (2003). Comparaison des modèles Cox et paramétriques dans les études cliniques. Stat Med 22 (23) : 2597-610. PMID : 14652863

  • Fournit de bons exemples comparant des modèles semi-paramétriques avec des modèles utilisant des distributions paramétriques communes et se concentre sur l'évaluation de l'ajustement du modèle

Royston P, Parmar MK (2002). Modèles paramétriques flexibles à risques proportionnels et à probabilités proportionnelles pour les données de survie censurées, avec application à la modélisation pronostique et à l'estimation des effets du traitement. Stat Med 21(15) : 2175-97. PMID : 12210632

  • Bonne explication des bases des modèles de risques proportionnels et de cotes et des comparaisons avec des splines cubiques

Cox C, Chu H, Schneider MF, Muñoz A (2007). Analyse paramétrique de survie et taxonomie des fonctions de risque pour la distribution gamma généralisée. Statist Med 26:4352-4374. PMID 17342754 .

  • Fournit un excellent aperçu des méthodes de survie paramétriques, y compris une taxonomie des fonctions de risque et une discussion approfondie de la famille de distribution gamma généralisée.

Crowther MJ, Lambert PC (2014). Un cadre général pour l'analyse de survie paramétrique. Stat Med 33 (30) : 5280-97. PMID : 25220693

  • Décrit les hypothèses restrictives des distributions paramétriques couramment utilisées et explique la méthodologie des splines cubiques restreintes

Sparling YH, Younes N, Lachin JM, Bautista OM (2006). Modèles de survie paramétriques pour les données censurées par intervalle avec des covariables dépendantes du temps. Biométrie 7 (4) : 599-614. PMID : 16597670

  • Extension et exemple d'utilisation de modèles paramétriques avec des données censurées par intervalle

Covariables variant dans le temps

Fisher LD, Lin DY (1999). Covariables dépendantes du temps dans le modèle de régression des risques proportionnels de Cox. Annu Rev Public Health 20 : 145-57. PMID : 10352854

  • Explication complète et facile à comprendre des covariables variant dans le temps dans les modèles de Cox, avec une annexe mathématique

Petersen T (1986). Ajustement de modèles de survie paramétriques avec des covariables dépendantes du temps. Appl Statist 35(3) : 281-88.

  • Article dense, mais avec un exemple appliqué utile

Analyse des risques concurrents

Voir Risques concurrents

Tai B, Machin D, White I, Gebski V (2001) Analyse des risques concurrents des patients atteints d'ostéosarcome : une comparaison de quatre approches différentes. Stat Med 20 : 661-684. PMID 11241570 .

  • Bon article détaillé qui décrit quatre méthodes différentes d'analyse des données sur les risques concurrents et utilise les données d'un essai randomisé de patients atteints d'ostéosarcome pour comparer ces quatre approches.

Checkley W, Brower RG, Muñoz A (2010). Inférence pour des événements concurrents mutuellement exclusifs par le biais d'un mélange de distributions gamma généralisées. Épidémiologie 21(4) : 557-565. PMID 20502337 .

  • Article sur les risques concurrents utilisant la distribution gamma généralisée.

Analyse de données groupées et de modèles de fragilité

Yamaguchi T, Ohashi Y, Matsuyama Y (2002) Modèles de risques proportionnels avec effets aléatoires pour examiner les effets du centre dans les essais cliniques multicentriques sur le cancer. Méthodes statistiques Med Res 11 : 221-236. PMID 12094756 .

  • Un article avec une excellente explication théorique et mathématique de la prise en compte du clustering lors de l'analyse des données de survie des essais cliniques multicentriques.

O'Quigley J, Stare J (2002) Modèles à risques proportionnels avec fragilités et effets aléatoires. Stat Med 21 : 3219-3233. PMID 12375300 .

  • Une comparaison directe des modèles de fragilité et des modèles à effets aléatoires.

Balakrishnan N, Peng Y (2006). Modèle de fragilité gamma généralisé. Statist Med 25 : 2797–2816. PMID

  • Un article sur les modèles de fragilité utilisant la distribution gamma généralisée comme distribution de fragilité.

Rondeau V, Mazroui Y, Gonzalez JR (2012). frailtypack : un package R pour l'analyse de données de survie corrélées avec des modèles de fragilité à l'aide d'une estimation de vraisemblance pénalisée ou d'une estimation paramétrique. Journal of Statistical Software 47(4) : 1-28.

  • Vignette du package R avec de bonnes informations de base sur les modèles de fragilité.

Schaubel DE, Cai J (2005). Analyse des données d'événements récurrents groupés avec application aux taux d'hospitalisation chez les patients insuffisants rénaux. Biostatistics 6(3):404-19. PMID 15831581 .

  • Excellent article dans lequel les auteurs présentent deux méthodes pour analyser les données d'événements récurrents groupés, puis ils comparent les résultats des modèles proposés à ceux basés sur un modèle de fragilité.

Gharibvand L, Liu L (2009). Analyse des données de survie avec des événements groupés. SAS Global Forum 2009, document 237-2009.

  • Source succincte et facile à comprendre pour l'analyse des données de temps d'événement avec des événements groupés avec des procédures SAS.

Analyse des événements récurrents

Twisk JW, Smidt N, de Vente W (2005). Analyse appliquée des événements récurrents : un aperçu pratique. J Epidemiol Community Health 59(8) : 706-10. PMID : 16020650

  • Introduction très facile à comprendre à la modélisation d'événements récurrents et au concept d'ensembles de risques

Villegas R, Juliá O, Ocaña J (2013). Étude empirique des temps de survie corrélés pour les événements récurrents avec des marges de risques proportionnels et de l'effet de la corrélation et de la censure. BMC Med Res Methodol 13:95. PMID : 23883000

  • Utilise des simulations pour tester la robustesse de différents modèles pour les données d'événements récurrents

Kelly PJ, Lim LL (2000). Analyse de survie pour les données d'événements récurrents : une application aux maladies infectieuses infantiles. Stat Med 19 (1) : 13-33. PMID : 10623190

  • Exemples appliqués des quatre principales approches de modélisation des données d'événements récurrents

Wei LJ, Lin DY, Weissfeld L (1989). Analyse de régression des données de temps de défaillance incomplètes multivariées en modélisant des distributions marginales. Journal de l'American Statistical Association84 (108) : 1065-1073

L'article original décrivant les modèles marginaux pour l'analyse des événements récurrents

Cours

Institut d'été sur l'épidémiologie et la santé des populations à l'Université Columbia (EPIC)

Statistical Horizons, prestataire privé de séminaires statistiques spécialisés dispensés par des experts du domaine

Programme d'été du Consortium interuniversitaire pour la recherche politique et sociale (ICPSR) sur les méthodes quantitatives de recherche sociale, qui fait partie de l'Institute for Social Research de l'Université du Michigan

  • Séminaire de 3 jours sur l'analyse de survie, la modélisation de l'historique des événements et l'analyse de la durée offert du 22 au 24 juin 2015 à Berkeley, Californie, enseigné par Tenko Raykov de la Michigan State University. Aperçu complet des méthodes de survie dans toutes les disciplines (pas uniquement en santé publique) : http://www.icpsr.umich.edu/icpsrweb/sumprog/courses/0200

L'Institute for Statistics Research propose deux cours en ligne pour l'analyse de survie, offerts plusieurs fois par an. Ces cours sont basés sur le manuel d'analyse appliquée de Klein et Kleinbaum (voir ci-dessous) et peuvent être suivis à la carte ou dans le cadre d'un programme de certificat en statistique :

  • Introduction à l'analyse de survie, avec un focus sur les modèles de Cox semi-paramétriques, enseignée par David Kleinbaum ou Matt Strickland : http://www.statistics.com/survival/

  • Analyse de survie avancée, y compris modèles paramétriques, analyse de récurrence et modèles de fragilité, enseignée par Matt Strickland : http://www.statistics.com/survival2/

L'Institute for Digital Research and Education de l'UCLA propose ce qu'il appelle des séminaires via son site Web pour l'analyse de survie dans différents logiciels statistiques. Ces séminaires montrent comment mener une analyse de survie appliquée, en se concentrant davantage sur le code que sur la théorie.

Des Articles Intéressants

Choix De L'Éditeur

« Middle of Nowhere » du professeur Michele Palermo fait des vagues dans les festivals
« Middle of Nowhere » du professeur Michele Palermo fait des vagues dans les festivals
Il a remporté le prix de la meilleure émission de télévision, du meilleur réalisateur et de la meilleure actrice pour Elena Wohl au Festival international du film de New York 2021 et a également été sélectionné comme meilleur épisode de télévision/webisode au Hollywood Just 4 Shorts Festival en mai de cette année.
Toxicologie
Toxicologie
Le programme de maîtrise en sciences avec une piste en toxicologie fournit une expertise et une formation en matière d'exposition environnementale, de réglementation et d'atténuation. Postuler aujourd'hui.
Gayatri Chakravorty Spivak, Robert Gooding-Williams, Kendall Thomas, Ivan Calaff, Flores Forbes et Bernard E. Harcourt
Gayatri Chakravorty Spivak, Robert Gooding-Williams, Kendall Thomas, Ivan Calaff, Flores Forbes et Bernard E. Harcourt
Professors Étienne Balibar and Bernard E. Harcourt
Professors Étienne Balibar and Bernard E. Harcourt
Columbia Filmmakers en sélection officielle pour le Festival de Cannes 2020
Columbia Filmmakers en sélection officielle pour le Festival de Cannes 2020
Quatre films de cinéastes de Columbia figurent parmi les 56 films retenus en Sélection Officielle sur un total de 2 067 longs métrages soumis.
L'écriture
L'écriture
En savoir plus sur le programme d'écriture de la Columbia Journalism School. Découvrez le module d'écriture unique de l'école, les cours, les professeurs et les derniers travaux des étudiants.
Citron contre Kurtzman
Citron contre Kurtzman
Columbia Global Freedom of Expression cherche à faire progresser la compréhension des normes et institutions internationales et nationales qui protègent au mieux la libre circulation de l'information et de l'expression dans une communauté mondiale interconnectée avec des défis communs majeurs à relever. Pour accomplir sa mission, Global Freedom of Expression entreprend et commande des projets de recherche et de politique, organise des événements et des conférences, et participe et contribue aux débats mondiaux sur la protection de la liberté d'expression et d'information au 21e siècle.