Mercredi, Mars 02 2011 03: 15

Méthodes statistiques

Évaluer cet élément
(1 Vote)

Il y a beaucoup de débats sur le rôle des statistiques dans la recherche épidémiologique sur les relations causales. En épidémiologie, la statistique est avant tout un ensemble de méthodes d'évaluation de données basées sur des populations humaines (et aussi animales). En particulier, la statistique est une technique de quantification et de mesure de phénomènes incertains. Toutes les investigations scientifiques qui traitent d'aspects non déterministes et variables de la réalité pourraient bénéficier d'une méthodologie statistique. En épidémiologie, la variabilité est intrinsèque à l'unité d'observation – une personne n'est pas une entité déterministe. Alors que les conceptions expérimentales seraient améliorées pour mieux répondre aux hypothèses des statistiques en termes de variation aléatoire, pour des raisons éthiques et pratiques, cette approche n'est pas trop courante. Au lieu de cela, l'épidémiologie est engagée dans la recherche observationnelle qui lui est associée à la fois des sources aléatoires et d'autres sources de variabilité.

La théorie statistique s'intéresse à la manière de contrôler la variabilité non structurée des données afin de tirer des conclusions valables à partir d'observations empiriques. En l'absence d'explication du comportement variable du phénomène étudié, la statistique le suppose comme aléatoire— c'est-à-dire des écarts non systématiques par rapport à un état moyen de la nature (voir Greenland 1990 pour une critique de ces hypothèses).

La science s'appuie sur l'empirique preuve pour démontrer si ses modèles théoriques d'événements naturels ont une quelconque validité. En effet, les méthodes utilisées à partir de la théorie statistique déterminent dans quelle mesure les observations dans le monde réel sont conformes à la vision des scientifiques, sous forme de modèle mathématique, d'un phénomène. Les méthodes statistiques, basées sur les mathématiques, doivent donc être soigneusement sélectionnées ; il y a plein d'exemples sur "comment mentir avec les statistiques". Par conséquent, les épidémiologistes doivent être conscients de la pertinence des techniques qu'ils appliquent pour mesurer le risque de maladie. En particulier, une grande prudence est nécessaire lors de l'interprétation des résultats statistiquement significatifs et statistiquement non significatifs.

Le premier sens du mot statistiques concerne toute quantité récapitulative calculée sur un ensemble de valeurs. Les indices descriptifs ou statistiques tels que la moyenne arithmétique, la médiane ou le mode sont largement utilisés pour résumer les informations d'une série d'observations. Historiquement, ces descripteurs sommaires étaient utilisés à des fins administratives par les États, et par conséquent ils ont été nommés statistiques. En épidémiologie, les statistiques que l'on voit couramment dérivent des comparaisons inhérentes à la nature de l'épidémiologie, qui pose des questions telles que : « Une population est-elle plus à risque de maladie qu'une autre ? » En faisant de telles comparaisons, le risque relatif est une mesure populaire de la force de l'association entre une caractéristique individuelle et la probabilité de tomber malade, et il est le plus couramment appliqué dans la recherche étiologique ; Le risque attribuable est aussi une mesure de l'association entre les caractéristiques individuelles et la survenue de la maladie, mais il met l'accent sur le gain en nombre de cas épargnés par une intervention qui supprime le facteur en question - il est surtout appliqué en santé publique et en médecine préventive.

Le deuxième sens du mot statistiques concerne l'ensemble des techniques et la théorie sous-jacente de l'inférence statistique. Il s'agit d'une forme particulière de logique inductive qui spécifie les règles permettant d'obtenir une généralisation valide à partir d'un ensemble particulier d'observations empiriques. Cette généralisation serait valide à condition que certaines hypothèses soient satisfaites. C'est la deuxième façon dont une utilisation peu éduquée des statistiques peut nous tromper : en épidémiologie observationnelle, il est très difficile d'être sûr des hypothèses qu'impliquent les techniques statistiques. Par conséquent, une analyse de sensibilité et des estimateurs robustes devraient accompagner toute analyse de données correctement menée. Les conclusions finales doivent également être basées sur des connaissances globales et ne doivent pas reposer exclusivement sur les résultats de tests d'hypothèses statistiques.

Définitions

A unité statistique est l'élément sur lequel les observations empiriques sont faites. Il peut s'agir d'une personne, d'un spécimen biologique ou d'un morceau de matière première à analyser. Habituellement, les unités statistiques sont choisies indépendamment par le chercheur, mais parfois des conceptions plus complexes peuvent être mises en place. Par exemple, dans les études longitudinales, une série de déterminations est faite sur un ensemble de personnes au fil du temps ; les unités statistiques de cette étude sont l'ensemble des déterminations, qui ne sont pas indépendantes, mais structurées par leurs liens respectifs à chaque personne étudiée. Le manque d'indépendance ou de corrélation entre les unités statistiques mérite une attention particulière dans l'analyse statistique.

A variable est une caractéristique individuelle mesurée sur une unité statistique donnée. Il doit être mis en contraste avec un constant, une caractéristique individuelle fixe - par exemple, dans une étude sur des êtres humains, avoir une tête ou un thorax sont des constantes, tandis que le sexe d'un seul membre de l'étude est une variable.

Les variables sont évaluées à l'aide de différents échelles de mesure. La première distinction est entre les échelles qualitatives et quantitatives. Les variables qualitatives fournissent différentes modalités or catégories. Si chaque modalité ne peut pas être classée ou ordonnée par rapport aux autres - par exemple, la couleur des cheveux ou les modalités de genre - nous notons la variable comme nominal. Si les catégories peuvent être ordonnées, comme le degré de gravité d'une maladie, la variable est appelée ordinal. Lorsqu'une variable est constituée d'une valeur numérique, on dit que l'échelle est quantitative. UNE discret L'échelle indique que la variable ne peut prendre que certaines valeurs définies, par exemple, des valeurs entières pour le nombre de cas de maladie. UNE continu l'échelle est utilisée pour les mesures qui aboutissent à réal Nombres. On dit que les échelles continues sont intervalle échelles lorsque la valeur nulle a une signification purement conventionnelle. Autrement dit, une valeur de zéro ne signifie pas une quantité nulle - par exemple, une température de zéro degré Celsius ne signifie pas une énergie thermique nulle. Dans ce cas, seules les différences entre les valeurs ont un sens (c'est la raison du terme échelle « d'intervalle »). Une vraie valeur nulle dénote un rapport échelle. Pour une variable mesurée sur cette échelle, les rapports de valeurs ont également un sens : en effet, un rapport double signifie une quantité double. Par exemple, dire qu'un corps a une température deux fois supérieure à un deuxième corps signifie qu'il a deux fois l'énergie thermique du deuxième corps, à condition que la température est mesurée sur une échelle de rapport (par exemple, en degrés Kelvin). L'ensemble des valeurs autorisées pour une variable donnée est appelé le domaine de la variable.

Paradigmes statistiques

La statistique traite de la manière de généraliser à partir d'un ensemble d'observations particulières. Cet ensemble de mesures empiriques est appelé un échantillon. A partir d'un échantillon, nous calculons quelques statistiques descriptives afin de synthétiser les informations recueillies.

Les informations de base généralement requises pour caractériser un ensemble de mesures concernent sa tendance centrale et sa variabilité. Le choix entre plusieurs alternatives dépend de l'échelle utilisée pour mesurer un phénomène et des objectifs pour lesquels les statistiques sont calculées. Dans le tableau 1, différentes mesures de tendance centrale et de variabilité (ou dispersion) sont décrites et associées à l'échelle de mesure appropriée.

Tableau 1. Indices de tendance centrale et de dispersion par échelle de mesure

 

Échelle de mesure

 

Qualitative

 

Quantitatif

Indices

Définition

Capacité

Ordinal

Intervalle/rapport

Moyenne arithmétique

Somme des valeurs observées divisée par le nombre total d'observations

 

x

Moyenne

Valeur médiane de la distribution observée

 

x

x

Mode

Valeur la plus fréquente

x

x

x

Catégorie

Valeurs les plus basses et les plus hautes de la distribution

 

x

x

Variance

Somme de la différence au carré de chaque valeur par rapport à la moyenne divisée par le nombre total d'observations moins 1

 

 

x

 

Les statistiques descriptives calculées sont appelées estimations lorsque nous les utilisons comme substitut de la quantité analogue de la population à partir de laquelle l'échantillon a été sélectionné. Les contreparties de population des estimations sont des constantes appelées paramètres. Des estimations d'un même paramètre peuvent être obtenues à l'aide de différentes méthodes statistiques. Une estimation doit être à la fois valide et précise.

Le paradigme population-échantillon implique que la validité peut être assurée par la manière dont l'échantillon est sélectionné dans la population. L'échantillonnage aléatoire ou probabiliste est la stratégie habituelle : si chaque membre de la population a la même probabilité d'être inclus dans l'échantillon, alors, en moyenne, notre échantillon devrait être représentatif de la population et, de plus, tout écart par rapport à notre attente pourrait être expliqué par hasard. La probabilité d'un écart donné par rapport à notre attente peut également être calculée, à condition qu'un échantillonnage aléatoire ait été effectué. Le même type de raisonnement s'applique aux estimations calculées pour notre échantillon en ce qui concerne les paramètres de la population. Nous prenons, par exemple, la moyenne arithmétique de notre échantillon comme estimation de la valeur moyenne pour la population. Toute différence, si elle existe, entre la moyenne de l'échantillon et la moyenne de la population est attribuée à des fluctuations aléatoires dans le processus de sélection des membres inclus dans l'échantillon. Nous pouvons calculer la probabilité de toute valeur de cette différence, à condition que l'échantillon ait été sélectionné au hasard. Si l'écart entre l'estimation de l'échantillon et le paramètre de la population ne peut être expliqué par le hasard, l'estimation est dite biaisé. La conception de l'observation ou de l'expérience assure la validité des estimations et le paradigme statistique fondamental est celui de l'échantillonnage aléatoire.

En médecine, un deuxième paradigme est adopté lorsqu'une comparaison entre différents groupes est le but de l'étude. Un exemple typique est l'essai clinique contrôlé : un ensemble de patients présentant des caractéristiques similaires est sélectionné sur la base de critères prédéfinis. Aucun souci de représentativité n'est fait à ce stade. Chaque patient inscrit à l'essai est affecté par une procédure aléatoire au groupe de traitement - qui recevra le traitement standard plus le nouveau médicament à évaluer - ou au groupe témoin - recevant le traitement standard et un placebo. Dans ce plan, l'attribution aléatoire des patients à chaque groupe remplace la sélection aléatoire des membres de l'échantillon. L'estimation de la différence entre les deux groupes peut être appréciée statistiquement car, sous l'hypothèse d'aucune efficacité du nouveau médicament, on peut calculer la probabilité de toute différence non nulle.

En épidémiologie, il nous manque la possibilité de rassembler aléatoirement des groupes de personnes exposées et non exposées. Dans ce cas, on peut toujours utiliser des méthodes statistiques, comme si les groupes analysés avaient été tirés au sort ou répartis. L'exactitude de cette hypothèse repose principalement sur la conception de l'étude. Ce point est particulièrement important et souligne l'importance de la conception des études épidémiologiques par rapport aux techniques statistiques dans la recherche biomédicale.

Signal et bruit

Le terme Variable aléatoire fait référence à une variable pour laquelle une probabilité définie est associée à chaque valeur qu'elle peut prendre. Les modèles théoriques de distribution de la probabilité d'une variable aléatoire sont des modèles de population. Les homologues de l'échantillon sont représentés par la distribution de fréquence d'échantillonnage. C'est un moyen utile de rapporter un ensemble de données ; il se compose d'un plan cartésien avec la variable d'intérêt le long de l'axe horizontal et la fréquence ou fréquence relative le long de l'axe vertical. Un affichage graphique permet de voir aisément quelle(s) est (sont) la (les) valeur(s) la plus fréquente(s) et comment la distribution se concentre autour de certaines valeurs centrales comme la moyenne arithmétique.

Pour les variables aléatoires et leurs distributions de probabilité, nous utilisons les termes paramètres, valeur moyenne attendue (au lieu de la moyenne arithmétique) et variance. Ces modèles théoriques décrivent la variabilité d'un phénomène donné. En théorie de l'information, le signal est représenté par la tendance centrale (par exemple, la valeur moyenne), tandis que le bruit est mesuré par un indice de dispersion (comme la variance).

Pour illustrer l'inférence statistique, nous utiliserons le modèle binomial. Dans les sections qui suivent, les notions d'estimations ponctuelles et d'intervalles de confiance, de tests d'hypothèses et de probabilité de décisions erronées, et de puissance d'une étude seront introduites.

Tableau 2. Résultats possibles d'une expérience binomiale (oui = 1, non = 0) et leurs probabilités (n = 3)

Ouvrier

Probabilité

A

B

C

 

0

0

0

1

0

0

0

1

0

0

0

1

0

1

1

1

0

1

1

1

0

1

1

1

 

Un exemple : la distribution binomiale

En recherche biomédicale et en épidémiologie, le modèle le plus important de variation stochastique est la distribution binomiale. Elle repose sur le fait que la plupart des phénomènes se comportent comme une variable nominale avec seulement deux catégories : par exemple, la présence/absence de maladie : vivant/mort, ou guéri/malade. Dans de telles circonstances, nous nous intéressons à la probabilité de succès, c'est-à-dire à l'événement qui nous intéresse (par exemple, présence d'une maladie, vivant ou guéri) et aux facteurs ou variables qui peuvent la modifier. Considérons n = 3 travailleurs, et supposons que nous nous intéressons à la probabilité, p, d'avoir une déficience visuelle (oui/non). Le résultat de notre observation pourrait être les résultats possibles du tableau 2.

Tableau 3. Résultats possibles d'une expérience binomiale (oui = 1, non = 0) et leurs probabilités (n = 3)

Nombre de succès

Probabilité

0

1

2

3

 

La probabilité de chacune de ces combinaisons d'événements est facilement obtenue en considérant p, la probabilité (individuelle) de succès, constante pour chaque sujet et indépendante des autres résultats. Puisque nous nous intéressons au nombre total de succès et non à une séquence ordonnée spécifique, nous pouvons réorganiser le tableau comme suit (voir tableau 3) et, en général, exprimer la probabilité de x succès P (x) comme:

De x est le nombre de succès et la notation x! désigne la factorielle de x, c'est à dire, x! = x×(x–1)×(x–2)…×1.

Lorsque l'on considère l'événement « être/ne pas être malade », la probabilité individuelle, désigne l'état dans lequel le sujet est présumé ; en épidémiologie, cette probabilité est appelée « prévalence ». Pour estimer p, nous utilisons la proportion d'échantillon :

p = x/n

avec écart :

Dans une hypothétique série infinie d'échantillons répliqués de même taille n, on obtiendrait des proportions d'échantillon différentes p = x/n, avec des probabilités données par la formule binomiale. La « vraie » valeur de  est estimé par chaque proportion d'échantillon, et un intervalle de confiance pour p, c'est-à-dire l'ensemble des valeurs probables pour p, compte tenu des données observées et d'un niveau de confiance prédéfini (disons 95%), est estimé à partir de la distribution binomiale comme l'ensemble des valeurs de p qui donne une probabilité de x supérieure à une valeur prédéfinie (disons 2.5 %). Pour une expérience hypothétique dans laquelle nous avons observé x = 15 succès en n = 30 essais, la probabilité estimée de succès est :

p = x/n = 15/30 = 0.5 

Tableau 4. Distribution binomiale. Probabilités pour différentes valeurs de  pour x = 15 succès en n = 30 essais

Probabilité

0.200

0.0002

0.300

0.0116

0.334

0.025

0.400

0.078

0.500

0.144

0.600

0.078

0.666

0.025

0.700

0.0116

 

L'intervalle de confiance à 95 % pour p, obtenu à partir du tableau 4, est de 0.334 à 0.666. Chaque entrée du tableau indique la probabilité de x = 15 succès en n = 30 essais calculés avec la formule binomiale ; par exemple, pour = 0.30, on obtient de :

Pour n grand et p proche de 0.5 on peut utiliser une approximation basée sur la distribution gaussienne :

De za /2 désigne la valeur de la distribution gaussienne standard pour une probabilité

P (|z| ³ za /2) = a/2;

1 – a étant le niveau de confiance choisi. Pour l'exemple considéré, = 15/30 = 0.5 ; n = 30 et de la table gaussienne standard z0.025 = 1.96. L'intervalle de confiance à 95 % donne l'ensemble de valeurs 0.321 - 0.679, obtenu en remplaçant p = 0.5, n = 30, et z0.025 = 1.96 dans l'équation ci-dessus pour la distribution gaussienne. Notez que ces valeurs sont proches des valeurs exactes calculées auparavant.

Les tests statistiques d'hypothèses comprennent une procédure de décision sur la valeur d'un paramètre de population. Supposons, dans l'exemple précédent, que nous voulions répondre à la proposition selon laquelle il existe un risque élevé de déficience visuelle chez les travailleurs d'une usine donnée. L'hypothèse scientifique à tester par nos observations empiriques est alors « il existe un risque élevé de déficience visuelle chez les travailleurs d'une usine donnée ». Les statisticiens démontrent de telles hypothèses en falsifiant l'hypothèse complémentaire « il n'y a pas d'élévation du risque de déficience visuelle ». Ceci suit la démonstration mathématique par absurde et, au lieu de vérifier une affirmation, les preuves empiriques ne servent qu'à la falsifier. L'hypothèse statistique est appelée hypothèse nulle. La deuxième étape consiste à spécifier une valeur pour le paramètre de cette distribution de probabilité utilisée pour modéliser la variabilité des observations. Dans nos exemples, le phénomène étant binaire (c'est-à-dire présence/absence de déficience visuelle), nous choisissons la distribution binomiale de paramètre p, la probabilité de déficience visuelle. L'hypothèse nulle affirme que = 0.25, disons. Cette valeur est choisie parmi l'ensemble des connaissances sur le sujet et la connaissance a priori de la prévalence habituelle de la déficience visuelle dans les populations non exposées (c'est-à-dire les non-travailleurs). Supposons que nos données produisent une estimation = 0.50, sur les 30 travailleurs examinés.

Peut-on rejeter l'hypothèse nulle ?

Si oui, en faveur de quoi alternative hypothèse?

Nous spécifions une hypothèse alternative comme candidate si les preuves dictent que l'hypothèse nulle soit rejetée. Les hypothèses alternatives non directionnelles (bilatérales) indiquent que le paramètre de population est différent de la valeur indiquée dans l'hypothèse nulle ; les hypothèses alternatives directionnelles (unilatérales) indiquent que le paramètre de population est supérieur (ou inférieur) à la valeur nulle.

Tableau 5. Distribution binomiale. Probabilités de succès pour  = 0.25 dans n = 30 essais

X

Probabilité

Probabilité cumulative

0

0.0002

0.0002

1

0.0018

0.0020

2

0.0086

0.0106

3

0.0269

0.0374

4

0.0604

0.0979

5

0.1047

0.2026

6

0.1455

0.3481

7

0.1662

0.5143

8

0.1593

0.6736

9

0.1298

0.8034

10

0.0909

0.8943

11

0.0551

0.9493

12

0.0291

0.9784

13

0.0134

0.9918

14

0.0054

0.9973

15

0.0019

0.9992

16

0.0006

0.9998

17

0.0002

1.0000

.

.

.

30

0.0000

1.0000

 

Sous l'hypothèse nulle, nous pouvons calculer la distribution de probabilité des résultats de notre exemple. Le tableau 5 montre, pour = 0.25 et n = 30, les probabilités (voir équation (1)) et les probabilités cumulées :

A partir de ce tableau, on obtient la probabilité d'avoir x ³15 travailleurs ayant une déficience visuelle

P(x ³15) = 1 - P(X15) = 1 - 0.9992 = 0.0008

Cela signifie qu'il est hautement improbable que nous observions 15 travailleurs ou plus ayant une déficience visuelle s'ils connaissaient la prévalence de la maladie des populations non exposées. Par conséquent, nous pourrions rejeter l'hypothèse nulle et affirmer qu'il existe une prévalence plus élevée de déficience visuelle dans la population de travailleurs étudiée.

Quand n×p ³ 5 et n×(1-) ³ 5, on peut utiliser l'approximation gaussienne :

À partir du tableau de la distribution gaussienne standard, nous obtenons :

P(|z|>2.95) = 0.0008

en accord étroit avec les résultats exacts. De cette approximation, nous pouvons voir que la structure de base d'un test statistique d'hypothèse consiste en le rapport signal sur bruit. Dans notre cas, le signal est (p-), l'écart observé par rapport à l'hypothèse nulle, tandis que le bruit est l'écart type de P:

Plus le rapport est grand, plus la probabilité de la valeur nulle est faible.

En prenant des décisions sur des hypothèses statistiques, nous pouvons encourir deux types d'erreurs : une erreur de type I, le rejet de l'hypothèse nulle lorsqu'elle est vraie ; soit une erreur de type II, acceptation de l'hypothèse nulle alors qu'elle est fausse. Le niveau de probabilité, ou valeur p, est la probabilité d'une erreur de type I, désignée par la lettre grecque a. Ceci est calculé à partir de la distribution de probabilité des observations sous l'hypothèse nulle. Il est d'usage de prédéfinir un niveau d'erreur a (par exemple, 5%, 1%) et de rejeter l'hypothèse nulle lorsque le résultat de notre observation a une probabilité égale ou inférieure à ce niveau dit critique.

La probabilité d'une erreur de type II est désignée par la lettre grecque β. Pour le calculer, il faut préciser, dans l'hypothèse alternative, la valeur α du paramètre à tester (dans notre exemple, la valeur α de ). Les hypothèses alternatives génériques (différent de, supérieur à, inférieur à) ne sont pas utiles. En pratique, la valeur β pour un ensemble d'hypothèses alternatives est intéressante, ou son complément, qui est appelé la puissance statistique du test. Par exemple, en fixant la valeur de l'erreur α à 5 %, à partir du tableau 5, nous trouvons :

P(x ³12) <0.05

sous l'hypothèse nulle = 0.25. Si nous devions observer au moins x = 12 succès, on rejetterait l'hypothèse nulle. Les valeurs β correspondantes et la puissance pour x = 12 sont donnés par le tableau 6. 

Tableau 6. Erreur de type II et puissance pour x = 12, n = 30, α = 0.05

β

Puissance

0.30

0.9155

0.0845

0.35

0.7802

0.2198

0.40

0.5785

0.4215

0.45

0.3592

0.6408

0.50

0.1808

0.8192

0.55

0.0714

0.9286

 

Dans ce cas, nos données ne peuvent pas discriminer si est supérieure à la valeur nulle de 0.25 mais inférieure à 0.50, car la puissance de l'étude est trop faible (<80%) pour ces valeurs de <0.50, c'est-à-dire que la sensibilité de notre étude est de 8 % pour = 0.3, 22 % pour = 0.35,…, 64% pour = 0.45.

La seule façon d'obtenir un β inférieur, ou un niveau de puissance supérieur, serait d'augmenter la taille de l'étude. Par exemple, dans le tableau 7, nous rapportons β et la puissance pour n = 40 ; comme prévu, nous devrions pouvoir détecter un  valeur supérieure à 0.40. 

Tableau 7. Erreur de type II et puissance pour x = 12, n = 40, α = 0.05

β

Puissance

0.30

0.5772

0.4228

0.35

0.3143

0.6857

0.40

0.1285

0.8715

0.45

0.0386

0.8614

0.50

0.0083

0.9917

0.55

0.0012

0.9988

 

La conception de l'étude est basée sur un examen minutieux de l'ensemble des hypothèses alternatives qui méritent considération et garantissent la puissance de l'étude en fournissant une taille d'échantillon adéquate.

Dans la littérature épidémiologique, la pertinence de fournir des estimations de risque fiables a été soulignée. Par conséquent, il est plus important de rapporter des intervalles de confiance (95 % ou 90 %) qu'un p-valeur d'un test d'une hypothèse. Suivant le même type de raisonnement, il convient d'être attentif à l'interprétation des résultats d'études de petite taille : du fait de la faible puissance, même des effets intermédiaires pourraient ne pas être détectés et, d'autre part, des effets de grande ampleur pourraient ne pas être répliqués par la suite.

Méthodes avancées

Le degré de complexité des méthodes statistiques utilisées dans le contexte de la médecine du travail s'est accru au cours des dernières années. Des développements majeurs peuvent être trouvés dans le domaine de la modélisation statistique. La famille de modèles non gaussiens de Nelder et Wedderburn (modèles linéaires généralisés) a été l'une des contributions les plus frappantes à l'augmentation des connaissances dans des domaines tels que l'épidémiologie professionnelle, où les variables de réponse pertinentes sont binaires (par exemple, survie/décès) ou comptages (par exemple, nombre d'accidents du travail).

Ce fut le point de départ d'une application extensive des modèles de régression comme alternative aux types d'analyse plus traditionnels basés sur des tableaux de contingence (analyse simple et stratifiée). Poisson, Cox et la régression logistique sont désormais couramment utilisés pour l'analyse des études longitudinales et cas-témoins, respectivement. Ces modèles sont le pendant de la régression linéaire pour les variables de réponse catégorielles et ont la particularité élégante de fournir directement la mesure épidémiologique pertinente de l'association. Par exemple, les coefficients de la régression de Poisson sont le logarithme des rapports de taux, tandis que ceux de la régression logistique sont le log des rapports de cotes.

En prenant cela comme référence, les développements ultérieurs dans le domaine de la modélisation statistique ont pris deux directions principales : les modèles pour les mesures catégorielles répétées et les modèles qui étendent les modèles linéaires généralisés (modèles additifs généralisés). Dans les deux cas, les objectifs sont axés sur l'augmentation de la flexibilité des outils statistiques afin de faire face à des problèmes plus complexes découlant de la réalité. Des modèles de mesures répétées sont nécessaires dans de nombreuses études professionnelles où les unités d'analyse se situent au niveau sous-individuel. Par exemple:

  1. L'étude de l'effet des conditions de travail sur le syndrome du canal carpien doit considérer les deux mains d'une personne, qui ne sont pas indépendantes l'une de l'autre.
  2. L'analyse des tendances temporelles des polluants environnementaux et de leur effet sur les systèmes respiratoires des enfants peut être évaluée à l'aide de modèles extrêmement flexibles car la forme fonctionnelle exacte de la relation dose-réponse est difficile à obtenir.

 

Un développement parallèle et probablement plus rapide a été observé dans le contexte des statistiques bayésiennes. La barrière pratique de l'utilisation des méthodes bayésiennes s'est effondrée après l'introduction des méthodes à forte intensité de calcul. Les procédures de Monte Carlo telles que les schémas d'échantillonnage de Gibbs nous ont permis d'éviter le besoin d'intégration numérique pour calculer les distributions postérieures qui représentaient la caractéristique la plus difficile des méthodes bayésiennes. Le nombre d'applications des modèles bayésiens dans des problèmes réels et complexes a trouvé de plus en plus d'espace dans les revues appliquées. Par exemple, les analyses géographiques et les corrélations écologiques au niveau des petites zones et les modèles de prédiction du SIDA sont de plus en plus souvent abordés à l'aide d'approches bayésiennes. Ces développements sont les bienvenus parce qu'ils représentent non seulement une augmentation du nombre de solutions statistiques alternatives qui pourraient être employées dans l'analyse des données épidémiologiques, mais aussi parce que l'approche bayésienne peut être considérée comme une stratégie plus solide.

 

Retour

Lire 6116 fois Dernière modification le jeudi 13 octobre 2011 20:24

" AVIS DE NON-RESPONSABILITÉ : L'OIT n'assume aucune responsabilité pour le contenu présenté sur ce portail Web qui est présenté dans une langue autre que l'anglais, qui est la langue utilisée pour la production initiale et l'examen par les pairs du contenu original. Certaines statistiques n'ont pas été mises à jour depuis la production de la 4ème édition de l'Encyclopédie (1998)."

Table des matières

Références épidémiologiques et statistiques

Ahlbom, A. 1984. Critères d'association causale en épidémiologie. Dans Health, Disease, and Causal Explanations in Medicine, édité par L Nordenfelt et BIB Lindahl. Dordrecht : D Reidel.

Conférence américaine des hygiénistes industriels gouvernementaux (ACGIH). 1991. Evaluation de l'exposition pour l'épidémiologie et le contrôle des risques, édité par SM Rappaport et TJ Smith. Chelsea, Michigan : Lewis.

Armstrong, BK, E White et R Saracci. 1992. Principes de mesure de l'exposition en épidémiologie. Oxford : Université d'Oxford. Presse.

Ashford, NA, CI Spadafor, DB Hattis et CC Caldart. 1990. Surveillance du travailleur pour l'exposition et la maladie. Baltimore : Université Johns Hopkins. Presse.

Axelson, O. 1978. Aspects sur la confusion dans l'épidémiologie de la santé au travail. Scand J Work Environ Health 4:85-89.

—. 1994. Quelques développements récents en épidémiologie professionnelle. Scand J Work Environ Health 20 (Numéro spécial):9-18.

Ayrton-Paris, JA. 1822. Pharmacologie.

Babbie, E. 1992. La pratique de la recherche sociale. Belmont, Californie : Wadsworth.

Beauchamp, TL, RR Cook, WE Fayerweather, GK Raabe, WE Thar, SR Cowles et GH Spivey. 1991. Lignes directrices éthiques pour les épidémiologistes. J Clin Epidémiol 44 Suppl. I:151S-169S.

Bell, B. 1876. Épithéliome de paraffine du scrotum. Edimbourg Med J 22:135.

Blondin, O et C Viau. 1992. Adduits benzo(a)pyrène-protéines sanguines chez les marmottes sauvages utilisés comme sentinelles biologiques de la contamination environnementale par les hydrocarbures aromatiques polycycliques. Arch Environ Contam Toxicol 23:310-315.

Buck, C. 1975. La philosophie de Popper pour les épidémiologistes. Int J Epidemiol 4:159-168.

Boîtier, RAM et ME Hosker. 1954. Tumeur de la vessie en tant que maladie professionnelle dans l'industrie du caoutchouc en Angleterre et au Pays de Galles. Brit J Prevent Soc Med 8:39-50.

Checkoway, H, NE Pearce et DJ Crawford-Brown. 1989. Méthodes de recherche en épidémiologie professionnelle. New York : Université d'Oxford. Presse.

Clayson, DB. 1962. Carcinogenèse chimique. Londres : JA Churchill.

Clayton, D. 1992. Enseignement des méthodes statistiques en épidémiologie. En Épidémiologie. Ce que vous devriez savoir et ce que vous pourriez faire, édité par J Olsen et D Trichopoulos. Oxford : Université d'Oxford. Presse.

Clayton, D et M Hills. 1993. Modèles statistiques en épidémiologie. New York : Université d'Oxford. Presse.

Cornfield, J. 1954. Relations statistiques et preuve en médecine. Am Stat 8:19-21.

Conseil des organisations internationales des sciences médicales (CIOMS). 1991. Lignes directrices internationales pour l'examen éthique des études épidémiologiques. Genève : CIOMS.

Czaja, R et J Blair. 1996. Conception d'enquêtes. Thousand Oaks, Californie : Pine Forge Press.

Doll, R. 1952. Les causes de décès chez les travailleurs du gaz avec une référence particulière au cancer du poumon. Brit J Ind Med 9:180-185.

—. 1955. Mortalité par cancer du poumon chez les travailleurs de l'amiante. Brit J Ind Med 12:81-86.

Droz, PO et MM Wu. 1991. Stratégies de surveillance biologique. Dans Exposure Assessment for Epidemiology and Hazard Control, édité par SM Rappaport et TJ Smith. Chelsea, Michigan : Lewis.

Gamble, J et R Spirtas. 1976. Classification des emplois et utilisation des antécédents professionnels complets en épidémiologie professionnelle. J Med 18:399-404.

Gardner, MJ et DG Altman. 1989. Statistiques avec confiance. Intervalles de confiance et directives statistiques. Londres : Maison d'édition BMJ.

Garfinkel, L. 1984. Classiques en oncologie ; E. Cuyler Hammond, ScD. Ca-Cancer Journal pour les cliniciens. 38(1): 23-27

Gière, RN. 1979. Comprendre le raisonnement scientifique. New York : Holt Rinehart & Winston.

Glickman, LT. 1993. Études d'exposition naturelle chez les animaux de compagnie : Sentinelles pour les carcinogènes environnementaux. Vet Can Soc Newslttr 17:5-7.

Glickman, LT, LM Domanski, TG Maguire, RR Dubielzig et A Churg. 1983. Mésothéliome chez les chiens de compagnie associés à l'exposition de leurs propriétaires à l'amiante. Recherche environnementale 32:305-313.

Gloyne, SR. 1935. Deux cas de carcinome épidermoïde du poumon survenant dans l'asbestose. Tubercule 17:5-10.

—. 1951. Pneumoconiose: étude histologique du matériel d'autopsie dans 1,205 1 cas. Lancet 810:814-XNUMX.

Greenland, S. 1987. Méthodes quantitatives dans l'examen de la littérature épidémiologique. Epidemiol Rev 9: 1-30.

—. 1990. Randomisation, statistiques et inférence causale. Épidémiologie 1:421-429.

Harting, FH et W Hesse. 1879. Der Lungenkrebs, die bergkrankheit in den Schneeberger Gruben. Vierteljahrsschr Gerichtl Med Offentl Gesundheitswesen CAPS 30:296-307.

Hayes, RB, JW Raatgever, A de Bruyn et M Gerin. 1986. Cancer de la cavité nasale et des sinus paranasaux et exposition au formaldéhyde. Int J Cancer 37:487-492.

Hayes, HM, RE Tarone, HW Casey et DL Huxsoll. 1990. Excès de séminomes observés chez les chiens de travail de l'armée américaine au service du Vietnam. J Natl Cancer Inst 82:1042-1046.

Hernberg, S. 1992. Introduction à l'épidémiologie professionnelle. Chelsea, Michigan : Lewis.
Colline, AB. 1965. L'environnement et la maladie : association ou causalité ? Proc Royal Soc Med 58:295-300.

Hume, D. 1978. Un traité de la nature humaine. Oxford : Clarendon Press.

Hungerford, LL, HL Trammel et JM Clark. 1995. L'utilité potentielle des données sur l'empoisonnement des animaux pour identifier l'exposition humaine aux toxines environnementales. Vet Hum Toxicol 37:158-162.

Jeyaratnam, J. 1994. Transfert des industries dangereuses. Dans Occupational Cancer in Developing Countries, édité par NE Pearce, E Matos, H Vainio, P Boffetta et M Kogevinas. Lyon : CIRC.

Karhausen, LR. 1995. La pauvreté de l'épidémiologie popperienne. Int J Epidemiol 24:869-874.

Kogevinas, M, P Boffetta et N Pearce. 1994. Exposition professionnelle aux agents cancérigènes dans les pays en développement. Dans Occupational Cancer in Developing Countries, édité par NE Pearce, E Matos, H Vainio, P Boffetta et M Kogevinas. Lyon : CIRC.

LaDou, J. 1991. Migration mortelle. Tech Rev 7:47-53.

Laurell, AC, M Noriega, S Martinez et J Villegas. 1992. Recherche participative sur la santé des travailleurs. Soc Sci Med 34:603-613.

Lilienfeld, AM et DE Lilienfeld. 1979. Un siècle d'études cas-témoins : des avancées ? Chron Dis 32:5-13.

Loewenson, R et M Biocca. 1995. Approches participatives dans la recherche en santé au travail. Med Lavoro 86:263-271.

Lynch, KM et WA Smith. 1935. Asbestose pulmonaire. III Carcinome du poumon dans l'amiante-silicose. Suis J Cancer 24:56-64.

Maclure, M. 1985. Réfutation popperienne en épidémiologie. Am J Epidemiol 121:343-350.

—. 1988. Réfutation en épidémiologie : Pourquoi sinon ? Dans Causal Inference, édité par KJ Rothman. Chestnut Hill, Mass. : Ressources épidémiologiques.

Martin, SW, AH Meek et P Willeberg. 1987. Épidémiologie vétérinaire. Des Moines : Université d'État de l'Iowa. Presse.

Mc Michael, AJ. 1994. Commentaire invité - "Epidémiologie moléculaire": Nouvelle voie ou nouveau compagnon de route ? Am J Epidemiol 140:1-11.

Merletti, F et P Comba. 1992. Épidémiologie professionnelle. Dans Enseignement de l'épidémiologie. Ce que vous devriez savoir et ce que vous pourriez faire, édité par J Olsen et D Trichopoulos. Oxford : Université d'Oxford. Presse.

Miettin, OS. 1985. Épidémiologie théorique. Principes de la recherche sur les occurrences en médecine. New York : John Wiley & Fils.

Newell, KW, AD Ross et RM Renner. 1984. Herbicides à base d'acide phénoxy et picolinique et adénocarcinome de l'intestin grêle chez le mouton. Lancet 2:1301-1305.

Olsen, J, F Merletti, D Snashall et K Vuylsteek. 1991. Recherche des causes des maladies liées au travail. Introduction à l'épidémiologie sur le lieu de travail. Oxford : Publications médicales d'Oxford, Université d'Oxford. Presse.

Pearce, N. 1992. Problèmes méthodologiques des variables liées au temps dans les études de cohorte professionnelle. Rev Epidmiol Med Soc Santé Publ 40 Suppl : 43-54.

—. 1996. Épidémiologie traditionnelle, épidémiologie moderne et santé publique. Am J Public Health 86(5): 678-683.

Pearce, N, E Matos, H Vainio, P Boffetta et M Kogevinas. 1994. Cancer professionnel dans les pays en développement. Publications scientifiques du CIRC, no. 129. Lyon : CIRC.

Pearce, N, S De Sanjose, P Boffetta, M Kogevinas, R Saracci et D Savitz. 1995. Limitations des biomarqueurs d'exposition en épidémiologie du cancer. Épidémiologie 6:190-194.

Poole, C. 1987. Au-delà de l'intervalle de confiance. Am J Public Health 77:195-199.

Pott, P. 1775. Observations Chirurgiques. Londres : Hawes, Clarke & Collins.

Actes du colloque sur l'évaluation rétrospective des expositions professionnelles en épidémiologie, Lyon, 13-15 avril 1994. 1995. Lyon : CIRC .

Ramazzini, B. 1705. De Morbis Artificum Diatriva. Typis Antonii Capponi. Mutinae, MDCC. Londres : Andrew Bell et autres.

Rappaport, SM, H Kromhout et E Symanski. 1993. Variation de l'exposition entre travailleurs dans des groupes d'exposition homogènes. Am Ind Hyg Assoc J 54(11):654-662.

Reif, JS, KS Lower et GK Ogilvie. 1995. Exposition résidentielle aux champs magnétiques et risque de lymphome canin. Am J Epidemiol 141:3-17.

Reynolds, PM, JS Reif, HS Ramsdell et JD Tessari. 1994. Exposition canine aux pelouses traitées aux herbicides et excrétion urinaire d'acide 2,4-dichlorophénoxyacétique. Canc Epidem, Biomarque et Prévention 3:233-237.

Robins, JM, D Blevins, G Ritter et M Wulfsohn. 1992. G-estimation de l'effet du traitement prophylactique de la pneumonie à pneumocystis carinii sur la survie des patients atteints du sida. Épidémiologie 3:319-336.

Rothman, KJ. 1986. Épidémiologie moderne. Boston : Little, Brown & Co.

Saracci, R. 1995. Épidémiologie : Hier, aujourd'hui, demain. Dans Conférences et sujets d'actualité en épidémiologie. Florence : Programme éducatif européen en épidémiologie.

Schaffner, KF. 1993. Découverte et explication en biologie et médecine. Chicago : Université. de Chicago Press.

Schlesselman, JJ. 1987. « Preuve » de cause à effet dans les études épidémiologiques : Critères de jugement. Prevent Med 16:195-210.

Schulte, P. 1989. Interprétation et communication des résultats d'investigations médicales de terrain. J Occup Med 31:5889-5894.

Schulte, PA, WL Boal, JM Friedland, JT Walker, LB Connally, LF Mazzuckelli et LJ Fine. 1993. Problèmes méthodologiques dans la communication des risques aux travailleurs. Am J Ind Med 23:3-9.

Schwabe, CW. 1993. La révolution épidémiologique actuelle en médecine vétérinaire. Partie II. Prévenir Vet Med 18:3-16.

Seidman, H, IJ Selikoff et EC Hammond. 1979. Exposition à court terme à l'amiante et observation à long terme. Ann NY Acad Sei 330:61-89.

Selikoff, IJ, EC Hammond et J Churg. 1968. Exposition à l'amiante, tabagisme et néoplasie. JAMA 204:106-112.

—. 1964. Exposition à l'amiante et néoplasie. JAMA 188, 22-26.

Siemiatycki, J, L Richardson, M Gérin, M Goldberg, R Dewar, M Désy, S Campbell et S Wacholder. 1986. Associations entre plusieurs sièges de cancer et neuf poussières organiques : résultats d'une étude cas-témoin génératrice d'hypothèses à Montréal, 1979-1983. Am J Epidemiol 123:235-249.

Simonato, L. 1986. Risque de cancer professionnel dans les pays en développement et priorités de la recherche épidémiologique. Présenté au Symposium international sur la santé et l'environnement dans les pays en développement, Haicco.

Smith, TJ. 1987. Évaluation de l'exposition pour l'épidémiologie professionnelle. Am J Ind Med 12:249-268.

Soskolne, CL. 1985. Recherche épidémiologique, groupes d'intérêt et processus d'examen. J Publ Health Policy 6(2):173-184.

—. 1989. Épidémiologie : Questions de science, d'éthique, de morale et de droit. Am J Epidemiol 129(1):1-18.

—. 1993. Introduction à l'inconduite en sciences et devoirs scientifiques. J Expos Anal Environ Epidémiol 3 Suppl. 1:245-251.

Soskolne, CL, D Lilienfeld et B Black. 1994. L'épidémiologie dans les procédures judiciaires aux États-Unis. Dans L'identification et le contrôle des maladies environnementales et professionnelles. Advances in Modern Environmental Toxicology: Part 1, édité par MA Mellman et A Upton. Princeton : édition scientifique de Princeton.

Stellman, SD. 1987. Confondant. Prevent Med 16:165-182.

Suarez-Almazor, ME, CL Soskolne, K Fung et GS Jhangri. 1992. Évaluation empirique de l'effet de différentes mesures sommaires d'exposition au travail sur l'estimation du risque dans les études cas-témoins de cancer professionnel. Scand J Work Environ Health 18:233-241.

Thrusfield, MV. 1986. Épidémiologie vétérinaire. Londres : Butterworth Heinemann.

Trichopoulos, D. 1995. Accomplissements et perspectives de l'épidémiologie. Dans Conférences et sujets d'actualité en épidémiologie. Florence : Programme éducatif européen en épidémiologie.

Van Damme, K, L Cateleyn, E Heseltine, A Huici, M Sorsa, N van Larebeke et P Vineis. 1995. Susceptibilité individuelle et prévention des maladies professionnelles : enjeux scientifiques et éthiques. J Exp Med 37:91-99.

Vineis, P. 1991. Évaluation de la causalité en épidémiologie. Theor Med 12:171-181.

Vineis, P. 1992. Utilisations des marqueurs biochimiques et biologiques en épidémiologie professionnelle. Rev Epidmiol Med Soc Santé Publ 40 Suppl 1 : 63-69.

Vineis, P et T Martone. 1995. Interactions génétiques-environnementales et exposition de faible niveau aux cancérogènes. Épidémiologie 6:455-457.

Vineis, P et L Simonato. 1991. Proportion de cancers du poumon et de la vessie chez les hommes résultant de la profession : une approche systématique. Arch Environ Santé 46:6-15.

Vineis, P et CL Soskolne. 1993. Évaluation et gestion des risques de cancer : une perspective éthique. J Occup Med 35(9):902-908.

Vineis, P, H Bartsch, N Caporaso, AM Harrington, FF Kadlubar, MT Landi, C Malaveille, PG Shields, P Skipper, G Talaska et SR Tannenbaum. 1994. Polymorphisme métabolique de la N-acétyltransférase à base génétique et exposition environnementale de faible niveau aux agents cancérigènes. Nature 369:154-156.

Vineis, P, K Cantor, C Gonzales, E Lynge et V Vallyathan. 1995. Cancer professionnel dans les pays développés et en développement. Int J Cancer 62:655-660.

Von Volkmann, R. 1874. Uber Theer-und Russkrebs. Klinische Wochenschrift 11:218.

Walker, AM et M Blettner. 1985. Comparaison des mesures imparfaites de l'exposition. Am J Epidemiol 121:783-790.

Wang, JD. 1991. Des conjectures et réfutations à la documentation des maladies professionnelles à Taïwan. Am J Ind Med 20:557-565.

—. 1993. Utilisation de méthodes épidémiologiques dans l'étude des maladies causées par des produits chimiques toxiques. J Natl Publ Health Assoc 12:326-334.

Wang, JD, WM Li, FC Hu et KH Fu. 1987. Risque professionnel et développement de lésions cutanées précancéreuses chez les fabricants de paraquat. Brit J Ind Med 44:196-200.

Mauvaises herbes, DL. 1986. Sur la logique de l'inférence causale. Am J Epidemiol 123:965-979.

—. 1988. Critères causaux et réfutation popperienne. Dans Causal Inference, édité par KJ Rothman. Chestnut Hill, Mass. : Ressources épidémiologiques.

Bois, WB et SR Gloyne. 1930. Asbestose pulmonaire. Lancet 1:445-448.

Wyers, H. 1949. Asbestose. Postgrad Med J 25:631-638.