Il y a beaucoup de débats sur le rôle des statistiques dans la recherche épidémiologique sur les relations causales. En épidémiologie, la statistique est avant tout un ensemble de méthodes d'évaluation de données basées sur des populations humaines (et aussi animales). En particulier, la statistique est une technique de quantification et de mesure de phénomènes incertains. Toutes les investigations scientifiques qui traitent d'aspects non déterministes et variables de la réalité pourraient bénéficier d'une méthodologie statistique. En épidémiologie, la variabilité est intrinsèque à l'unité d'observation – une personne n'est pas une entité déterministe. Alors que les conceptions expérimentales seraient améliorées pour mieux répondre aux hypothèses des statistiques en termes de variation aléatoire, pour des raisons éthiques et pratiques, cette approche n'est pas trop courante. Au lieu de cela, l'épidémiologie est engagée dans la recherche observationnelle qui lui est associée à la fois des sources aléatoires et d'autres sources de variabilité.
La théorie statistique s'intéresse à la manière de contrôler la variabilité non structurée des données afin de tirer des conclusions valables à partir d'observations empiriques. En l'absence d'explication du comportement variable du phénomène étudié, la statistique le suppose comme aléatoire— c'est-à-dire des écarts non systématiques par rapport à un état moyen de la nature (voir Greenland 1990 pour une critique de ces hypothèses).
La science s'appuie sur l'empirique preuve pour démontrer si ses modèles théoriques d'événements naturels ont une quelconque validité. En effet, les méthodes utilisées à partir de la théorie statistique déterminent dans quelle mesure les observations dans le monde réel sont conformes à la vision des scientifiques, sous forme de modèle mathématique, d'un phénomène. Les méthodes statistiques, basées sur les mathématiques, doivent donc être soigneusement sélectionnées ; il y a plein d'exemples sur "comment mentir avec les statistiques". Par conséquent, les épidémiologistes doivent être conscients de la pertinence des techniques qu'ils appliquent pour mesurer le risque de maladie. En particulier, une grande prudence est nécessaire lors de l'interprétation des résultats statistiquement significatifs et statistiquement non significatifs.
Le premier sens du mot statistiques concerne toute quantité récapitulative calculée sur un ensemble de valeurs. Les indices descriptifs ou statistiques tels que la moyenne arithmétique, la médiane ou le mode sont largement utilisés pour résumer les informations d'une série d'observations. Historiquement, ces descripteurs sommaires étaient utilisés à des fins administratives par les États, et par conséquent ils ont été nommés statistiques. En épidémiologie, les statistiques que l'on voit couramment dérivent des comparaisons inhérentes à la nature de l'épidémiologie, qui pose des questions telles que : « Une population est-elle plus à risque de maladie qu'une autre ? » En faisant de telles comparaisons, le risque relatif est une mesure populaire de la force de l'association entre une caractéristique individuelle et la probabilité de tomber malade, et il est le plus couramment appliqué dans la recherche étiologique ; Le risque attribuable est aussi une mesure de l'association entre les caractéristiques individuelles et la survenue de la maladie, mais il met l'accent sur le gain en nombre de cas épargnés par une intervention qui supprime le facteur en question - il est surtout appliqué en santé publique et en médecine préventive.
Le deuxième sens du mot statistiques concerne l'ensemble des techniques et la théorie sous-jacente de l'inférence statistique. Il s'agit d'une forme particulière de logique inductive qui spécifie les règles permettant d'obtenir une généralisation valide à partir d'un ensemble particulier d'observations empiriques. Cette généralisation serait valide à condition que certaines hypothèses soient satisfaites. C'est la deuxième façon dont une utilisation peu éduquée des statistiques peut nous tromper : en épidémiologie observationnelle, il est très difficile d'être sûr des hypothèses qu'impliquent les techniques statistiques. Par conséquent, une analyse de sensibilité et des estimateurs robustes devraient accompagner toute analyse de données correctement menée. Les conclusions finales doivent également être basées sur des connaissances globales et ne doivent pas reposer exclusivement sur les résultats de tests d'hypothèses statistiques.
Définitions
A unité statistique est l'élément sur lequel les observations empiriques sont faites. Il peut s'agir d'une personne, d'un spécimen biologique ou d'un morceau de matière première à analyser. Habituellement, les unités statistiques sont choisies indépendamment par le chercheur, mais parfois des conceptions plus complexes peuvent être mises en place. Par exemple, dans les études longitudinales, une série de déterminations est faite sur un ensemble de personnes au fil du temps ; les unités statistiques de cette étude sont l'ensemble des déterminations, qui ne sont pas indépendantes, mais structurées par leurs liens respectifs à chaque personne étudiée. Le manque d'indépendance ou de corrélation entre les unités statistiques mérite une attention particulière dans l'analyse statistique.
A variable est une caractéristique individuelle mesurée sur une unité statistique donnée. Il doit être mis en contraste avec un constant, une caractéristique individuelle fixe - par exemple, dans une étude sur des êtres humains, avoir une tête ou un thorax sont des constantes, tandis que le sexe d'un seul membre de l'étude est une variable.
Les variables sont évaluées à l'aide de différents échelles de mesure. La première distinction est entre les échelles qualitatives et quantitatives. Les variables qualitatives fournissent différentes modalités or catégories. Si chaque modalité ne peut pas être classée ou ordonnée par rapport aux autres - par exemple, la couleur des cheveux ou les modalités de genre - nous notons la variable comme nominal. Si les catégories peuvent être ordonnées, comme le degré de gravité d'une maladie, la variable est appelée ordinal. Lorsqu'une variable est constituée d'une valeur numérique, on dit que l'échelle est quantitative. UNE discret L'échelle indique que la variable ne peut prendre que certaines valeurs définies, par exemple, des valeurs entières pour le nombre de cas de maladie. UNE continu l'échelle est utilisée pour les mesures qui aboutissent à réal Nombres. On dit que les échelles continues sont intervalle échelles lorsque la valeur nulle a une signification purement conventionnelle. Autrement dit, une valeur de zéro ne signifie pas une quantité nulle - par exemple, une température de zéro degré Celsius ne signifie pas une énergie thermique nulle. Dans ce cas, seules les différences entre les valeurs ont un sens (c'est la raison du terme échelle « d'intervalle »). Une vraie valeur nulle dénote un rapport échelle. Pour une variable mesurée sur cette échelle, les rapports de valeurs ont également un sens : en effet, un rapport double signifie une quantité double. Par exemple, dire qu'un corps a une température deux fois supérieure à un deuxième corps signifie qu'il a deux fois l'énergie thermique du deuxième corps, à condition que la température est mesurée sur une échelle de rapport (par exemple, en degrés Kelvin). L'ensemble des valeurs autorisées pour une variable donnée est appelé le domaine de la variable.
Paradigmes statistiques
La statistique traite de la manière de généraliser à partir d'un ensemble d'observations particulières. Cet ensemble de mesures empiriques est appelé un échantillon. A partir d'un échantillon, nous calculons quelques statistiques descriptives afin de synthétiser les informations recueillies.
Les informations de base généralement requises pour caractériser un ensemble de mesures concernent sa tendance centrale et sa variabilité. Le choix entre plusieurs alternatives dépend de l'échelle utilisée pour mesurer un phénomène et des objectifs pour lesquels les statistiques sont calculées. Dans le tableau 1, différentes mesures de tendance centrale et de variabilité (ou dispersion) sont décrites et associées à l'échelle de mesure appropriée.
Tableau 1. Indices de tendance centrale et de dispersion par échelle de mesure
Échelle de mesure |
||||
Qualitative |
Quantitatif |
|||
Indices |
Définition |
Capacité |
Ordinal |
Intervalle/rapport |
Moyenne arithmétique |
Somme des valeurs observées divisée par le nombre total d'observations |
|
|
x |
Moyenne |
Valeur médiane de la distribution observée |
|
x |
x |
Mode |
Valeur la plus fréquente |
x |
x |
x |
Catégorie |
Valeurs les plus basses et les plus hautes de la distribution |
|
x |
x |
Variance |
Somme de la différence au carré de chaque valeur par rapport à la moyenne divisée par le nombre total d'observations moins 1 |
|
|
x |
Les statistiques descriptives calculées sont appelées estimations lorsque nous les utilisons comme substitut de la quantité analogue de la population à partir de laquelle l'échantillon a été sélectionné. Les contreparties de population des estimations sont des constantes appelées paramètres. Des estimations d'un même paramètre peuvent être obtenues à l'aide de différentes méthodes statistiques. Une estimation doit être à la fois valide et précise.
Le paradigme population-échantillon implique que la validité peut être assurée par la manière dont l'échantillon est sélectionné dans la population. L'échantillonnage aléatoire ou probabiliste est la stratégie habituelle : si chaque membre de la population a la même probabilité d'être inclus dans l'échantillon, alors, en moyenne, notre échantillon devrait être représentatif de la population et, de plus, tout écart par rapport à notre attente pourrait être expliqué par hasard. La probabilité d'un écart donné par rapport à notre attente peut également être calculée, à condition qu'un échantillonnage aléatoire ait été effectué. Le même type de raisonnement s'applique aux estimations calculées pour notre échantillon en ce qui concerne les paramètres de la population. Nous prenons, par exemple, la moyenne arithmétique de notre échantillon comme estimation de la valeur moyenne pour la population. Toute différence, si elle existe, entre la moyenne de l'échantillon et la moyenne de la population est attribuée à des fluctuations aléatoires dans le processus de sélection des membres inclus dans l'échantillon. Nous pouvons calculer la probabilité de toute valeur de cette différence, à condition que l'échantillon ait été sélectionné au hasard. Si l'écart entre l'estimation de l'échantillon et le paramètre de la population ne peut être expliqué par le hasard, l'estimation est dite biaisé. La conception de l'observation ou de l'expérience assure la validité des estimations et le paradigme statistique fondamental est celui de l'échantillonnage aléatoire.
En médecine, un deuxième paradigme est adopté lorsqu'une comparaison entre différents groupes est le but de l'étude. Un exemple typique est l'essai clinique contrôlé : un ensemble de patients présentant des caractéristiques similaires est sélectionné sur la base de critères prédéfinis. Aucun souci de représentativité n'est fait à ce stade. Chaque patient inscrit à l'essai est affecté par une procédure aléatoire au groupe de traitement - qui recevra le traitement standard plus le nouveau médicament à évaluer - ou au groupe témoin - recevant le traitement standard et un placebo. Dans ce plan, l'attribution aléatoire des patients à chaque groupe remplace la sélection aléatoire des membres de l'échantillon. L'estimation de la différence entre les deux groupes peut être appréciée statistiquement car, sous l'hypothèse d'aucune efficacité du nouveau médicament, on peut calculer la probabilité de toute différence non nulle.
En épidémiologie, il nous manque la possibilité de rassembler aléatoirement des groupes de personnes exposées et non exposées. Dans ce cas, on peut toujours utiliser des méthodes statistiques, comme si les groupes analysés avaient été tirés au sort ou répartis. L'exactitude de cette hypothèse repose principalement sur la conception de l'étude. Ce point est particulièrement important et souligne l'importance de la conception des études épidémiologiques par rapport aux techniques statistiques dans la recherche biomédicale.
Signal et bruit
Le terme Variable aléatoire fait référence à une variable pour laquelle une probabilité définie est associée à chaque valeur qu'elle peut prendre. Les modèles théoriques de distribution de la probabilité d'une variable aléatoire sont des modèles de population. Les homologues de l'échantillon sont représentés par la distribution de fréquence d'échantillonnage. C'est un moyen utile de rapporter un ensemble de données ; il se compose d'un plan cartésien avec la variable d'intérêt le long de l'axe horizontal et la fréquence ou fréquence relative le long de l'axe vertical. Un affichage graphique permet de voir aisément quelle(s) est (sont) la (les) valeur(s) la plus fréquente(s) et comment la distribution se concentre autour de certaines valeurs centrales comme la moyenne arithmétique.
Pour les variables aléatoires et leurs distributions de probabilité, nous utilisons les termes paramètres, valeur moyenne attendue (au lieu de la moyenne arithmétique) et variance. Ces modèles théoriques décrivent la variabilité d'un phénomène donné. En théorie de l'information, le signal est représenté par la tendance centrale (par exemple, la valeur moyenne), tandis que le bruit est mesuré par un indice de dispersion (comme la variance).
Pour illustrer l'inférence statistique, nous utiliserons le modèle binomial. Dans les sections qui suivent, les notions d'estimations ponctuelles et d'intervalles de confiance, de tests d'hypothèses et de probabilité de décisions erronées, et de puissance d'une étude seront introduites.
Tableau 2. Résultats possibles d'une expérience binomiale (oui = 1, non = 0) et leurs probabilités (n = 3)
Ouvrier |
Probabilité |
||
A |
B |
C |
|
0 |
0 |
0 |
|
1 |
0 |
0 |
|
0 |
1 |
0 |
|
0 |
0 |
1 |
|
0 |
1 |
1 |
|
1 |
0 |
1 |
|
1 |
1 |
0 |
|
1 |
1 |
1 |
Un exemple : la distribution binomiale
En recherche biomédicale et en épidémiologie, le modèle le plus important de variation stochastique est la distribution binomiale. Elle repose sur le fait que la plupart des phénomènes se comportent comme une variable nominale avec seulement deux catégories : par exemple, la présence/absence de maladie : vivant/mort, ou guéri/malade. Dans de telles circonstances, nous nous intéressons à la probabilité de succès, c'est-à-dire à l'événement qui nous intéresse (par exemple, présence d'une maladie, vivant ou guéri) et aux facteurs ou variables qui peuvent la modifier. Considérons n = 3 travailleurs, et supposons que nous nous intéressons à la probabilité, p, d'avoir une déficience visuelle (oui/non). Le résultat de notre observation pourrait être les résultats possibles du tableau 2.
Tableau 3. Résultats possibles d'une expérience binomiale (oui = 1, non = 0) et leurs probabilités (n = 3)
Nombre de succès |
Probabilité |
0 |
|
1 |
|
2 |
|
3 |
La probabilité de chacune de ces combinaisons d'événements est facilement obtenue en considérant p, la probabilité (individuelle) de succès, constante pour chaque sujet et indépendante des autres résultats. Puisque nous nous intéressons au nombre total de succès et non à une séquence ordonnée spécifique, nous pouvons réorganiser le tableau comme suit (voir tableau 3) et, en général, exprimer la probabilité de x succès P (x) comme:
De x est le nombre de succès et la notation x! désigne la factorielle de x, c'est à dire, x! = x×(x–1)×(x–2)…×1.
Lorsque l'on considère l'événement « être/ne pas être malade », la probabilité individuelle, désigne l'état dans lequel le sujet est présumé ; en épidémiologie, cette probabilité est appelée « prévalence ». Pour estimer p, nous utilisons la proportion d'échantillon :
p = x/n
avec écart :
Dans une hypothétique série infinie d'échantillons répliqués de même taille n, on obtiendrait des proportions d'échantillon différentes p = x/n, avec des probabilités données par la formule binomiale. La « vraie » valeur de est estimé par chaque proportion d'échantillon, et un intervalle de confiance pour p, c'est-à-dire l'ensemble des valeurs probables pour p, compte tenu des données observées et d'un niveau de confiance prédéfini (disons 95%), est estimé à partir de la distribution binomiale comme l'ensemble des valeurs de p qui donne une probabilité de x supérieure à une valeur prédéfinie (disons 2.5 %). Pour une expérience hypothétique dans laquelle nous avons observé x = 15 succès en n = 30 essais, la probabilité estimée de succès est :
Tableau 4. Distribution binomiale. Probabilités pour différentes valeurs de pour x = 15 succès en n = 30 essais
Probabilité |
|
0.200 |
0.0002 |
0.300 |
0.0116 |
0.334 |
0.025 |
0.400 |
0.078 |
0.500 |
0.144 |
0.600 |
0.078 |
0.666 |
0.025 |
0.700 |
0.0116 |
L'intervalle de confiance à 95 % pour p, obtenu à partir du tableau 4, est de 0.334 à 0.666. Chaque entrée du tableau indique la probabilité de x = 15 succès en n = 30 essais calculés avec la formule binomiale ; par exemple, pour = 0.30, on obtient de :
Pour n grand et p proche de 0.5 on peut utiliser une approximation basée sur la distribution gaussienne :
De za /2 désigne la valeur de la distribution gaussienne standard pour une probabilité
P (|z| ³ za /2) = a/2;
1 – a étant le niveau de confiance choisi. Pour l'exemple considéré, = 15/30 = 0.5 ; n = 30 et de la table gaussienne standard z0.025 = 1.96. L'intervalle de confiance à 95 % donne l'ensemble de valeurs 0.321 - 0.679, obtenu en remplaçant p = 0.5, n = 30, et z0.025 = 1.96 dans l'équation ci-dessus pour la distribution gaussienne. Notez que ces valeurs sont proches des valeurs exactes calculées auparavant.
Les tests statistiques d'hypothèses comprennent une procédure de décision sur la valeur d'un paramètre de population. Supposons, dans l'exemple précédent, que nous voulions répondre à la proposition selon laquelle il existe un risque élevé de déficience visuelle chez les travailleurs d'une usine donnée. L'hypothèse scientifique à tester par nos observations empiriques est alors « il existe un risque élevé de déficience visuelle chez les travailleurs d'une usine donnée ». Les statisticiens démontrent de telles hypothèses en falsifiant l'hypothèse complémentaire « il n'y a pas d'élévation du risque de déficience visuelle ». Ceci suit la démonstration mathématique par absurde et, au lieu de vérifier une affirmation, les preuves empiriques ne servent qu'à la falsifier. L'hypothèse statistique est appelée hypothèse nulle. La deuxième étape consiste à spécifier une valeur pour le paramètre de cette distribution de probabilité utilisée pour modéliser la variabilité des observations. Dans nos exemples, le phénomène étant binaire (c'est-à-dire présence/absence de déficience visuelle), nous choisissons la distribution binomiale de paramètre p, la probabilité de déficience visuelle. L'hypothèse nulle affirme que = 0.25, disons. Cette valeur est choisie parmi l'ensemble des connaissances sur le sujet et la connaissance a priori de la prévalence habituelle de la déficience visuelle dans les populations non exposées (c'est-à-dire les non-travailleurs). Supposons que nos données produisent une estimation = 0.50, sur les 30 travailleurs examinés.
Peut-on rejeter l'hypothèse nulle ?
Si oui, en faveur de quoi alternative hypothèse?
Nous spécifions une hypothèse alternative comme candidate si les preuves dictent que l'hypothèse nulle soit rejetée. Les hypothèses alternatives non directionnelles (bilatérales) indiquent que le paramètre de population est différent de la valeur indiquée dans l'hypothèse nulle ; les hypothèses alternatives directionnelles (unilatérales) indiquent que le paramètre de population est supérieur (ou inférieur) à la valeur nulle.
Tableau 5. Distribution binomiale. Probabilités de succès pour = 0.25 dans n = 30 essais
X |
Probabilité |
Probabilité cumulative |
0 |
0.0002 |
0.0002 |
1 |
0.0018 |
0.0020 |
2 |
0.0086 |
0.0106 |
3 |
0.0269 |
0.0374 |
4 |
0.0604 |
0.0979 |
5 |
0.1047 |
0.2026 |
6 |
0.1455 |
0.3481 |
7 |
0.1662 |
0.5143 |
8 |
0.1593 |
0.6736 |
9 |
0.1298 |
0.8034 |
10 |
0.0909 |
0.8943 |
11 |
0.0551 |
0.9493 |
12 |
0.0291 |
0.9784 |
13 |
0.0134 |
0.9918 |
14 |
0.0054 |
0.9973 |
15 |
0.0019 |
0.9992 |
16 |
0.0006 |
0.9998 |
17 |
0.0002 |
1.0000 |
. |
. |
. |
30 |
0.0000 |
1.0000 |
Sous l'hypothèse nulle, nous pouvons calculer la distribution de probabilité des résultats de notre exemple. Le tableau 5 montre, pour = 0.25 et n = 30, les probabilités (voir équation (1)) et les probabilités cumulées :
A partir de ce tableau, on obtient la probabilité d'avoir x ³15 travailleurs ayant une déficience visuelle
P(x ³15) = 1 - P(X15) = 1 - 0.9992 = 0.0008
Cela signifie qu'il est hautement improbable que nous observions 15 travailleurs ou plus ayant une déficience visuelle s'ils connaissaient la prévalence de la maladie des populations non exposées. Par conséquent, nous pourrions rejeter l'hypothèse nulle et affirmer qu'il existe une prévalence plus élevée de déficience visuelle dans la population de travailleurs étudiée.
Quand n×p ³ 5 et n×(1-) ³ 5, on peut utiliser l'approximation gaussienne :
À partir du tableau de la distribution gaussienne standard, nous obtenons :
P(|z|>2.95) = 0.0008
en accord étroit avec les résultats exacts. De cette approximation, nous pouvons voir que la structure de base d'un test statistique d'hypothèse consiste en le rapport signal sur bruit. Dans notre cas, le signal est (p-), l'écart observé par rapport à l'hypothèse nulle, tandis que le bruit est l'écart type de P:
Plus le rapport est grand, plus la probabilité de la valeur nulle est faible.
En prenant des décisions sur des hypothèses statistiques, nous pouvons encourir deux types d'erreurs : une erreur de type I, le rejet de l'hypothèse nulle lorsqu'elle est vraie ; soit une erreur de type II, acceptation de l'hypothèse nulle alors qu'elle est fausse. Le niveau de probabilité, ou valeur p, est la probabilité d'une erreur de type I, désignée par la lettre grecque a. Ceci est calculé à partir de la distribution de probabilité des observations sous l'hypothèse nulle. Il est d'usage de prédéfinir un niveau d'erreur a (par exemple, 5%, 1%) et de rejeter l'hypothèse nulle lorsque le résultat de notre observation a une probabilité égale ou inférieure à ce niveau dit critique.
La probabilité d'une erreur de type II est désignée par la lettre grecque β. Pour le calculer, il faut préciser, dans l'hypothèse alternative, la valeur α du paramètre à tester (dans notre exemple, la valeur α de ). Les hypothèses alternatives génériques (différent de, supérieur à, inférieur à) ne sont pas utiles. En pratique, la valeur β pour un ensemble d'hypothèses alternatives est intéressante, ou son complément, qui est appelé la puissance statistique du test. Par exemple, en fixant la valeur de l'erreur α à 5 %, à partir du tableau 5, nous trouvons :
P(x ³12) <0.05
sous l'hypothèse nulle = 0.25. Si nous devions observer au moins x = 12 succès, on rejetterait l'hypothèse nulle. Les valeurs β correspondantes et la puissance pour x = 12 sont donnés par le tableau 6.
Tableau 6. Erreur de type II et puissance pour x = 12, n = 30, α = 0.05
β |
Stimulant |
|
0.30 |
0.9155 |
0.0845 |
0.35 |
0.7802 |
0.2198 |
0.40 |
0.5785 |
0.4215 |
0.45 |
0.3592 |
0.6408 |
0.50 |
0.1808 |
0.8192 |
0.55 |
0.0714 |
0.9286 |
Dans ce cas, nos données ne peuvent pas discriminer si est supérieure à la valeur nulle de 0.25 mais inférieure à 0.50, car la puissance de l'étude est trop faible (<80%) pour ces valeurs de <0.50, c'est-à-dire que la sensibilité de notre étude est de 8 % pour = 0.3, 22 % pour = 0.35,…, 64% pour = 0.45.
La seule façon d'obtenir un β inférieur, ou un niveau de puissance supérieur, serait d'augmenter la taille de l'étude. Par exemple, dans le tableau 7, nous rapportons β et la puissance pour n = 40 ; comme prévu, nous devrions pouvoir détecter un valeur supérieure à 0.40.
Tableau 7. Erreur de type II et puissance pour x = 12, n = 40, α = 0.05
β |
Stimulant |
|
0.30 |
0.5772 |
0.4228 |
0.35 |
0.3143 |
0.6857 |
0.40 |
0.1285 |
0.8715 |
0.45 |
0.0386 |
0.8614 |
0.50 |
0.0083 |
0.9917 |
0.55 |
0.0012 |
0.9988 |
La conception de l'étude est basée sur un examen minutieux de l'ensemble des hypothèses alternatives qui méritent considération et garantissent la puissance de l'étude en fournissant une taille d'échantillon adéquate.
Dans la littérature épidémiologique, la pertinence de fournir des estimations de risque fiables a été soulignée. Par conséquent, il est plus important de rapporter des intervalles de confiance (95 % ou 90 %) qu'un p-valeur d'un test d'une hypothèse. Suivant le même type de raisonnement, il convient d'être attentif à l'interprétation des résultats d'études de petite taille : du fait de la faible puissance, même des effets intermédiaires pourraient ne pas être détectés et, d'autre part, des effets de grande ampleur pourraient ne pas être répliqués par la suite.
Méthodes avancées
Le degré de complexité des méthodes statistiques utilisées dans le contexte de la médecine du travail s'est accru au cours des dernières années. Des développements majeurs peuvent être trouvés dans le domaine de la modélisation statistique. La famille de modèles non gaussiens de Nelder et Wedderburn (modèles linéaires généralisés) a été l'une des contributions les plus frappantes à l'augmentation des connaissances dans des domaines tels que l'épidémiologie professionnelle, où les variables de réponse pertinentes sont binaires (par exemple, survie/décès) ou comptages (par exemple, nombre d'accidents du travail).
Ce fut le point de départ d'une application extensive des modèles de régression comme alternative aux types d'analyse plus traditionnels basés sur des tableaux de contingence (analyse simple et stratifiée). Poisson, Cox et la régression logistique sont désormais couramment utilisés pour l'analyse des études longitudinales et cas-témoins, respectivement. Ces modèles sont le pendant de la régression linéaire pour les variables de réponse catégorielles et ont la particularité élégante de fournir directement la mesure épidémiologique pertinente de l'association. Par exemple, les coefficients de la régression de Poisson sont le logarithme des rapports de taux, tandis que ceux de la régression logistique sont le log des rapports de cotes.
En prenant cela comme référence, les développements ultérieurs dans le domaine de la modélisation statistique ont pris deux directions principales : les modèles pour les mesures catégorielles répétées et les modèles qui étendent les modèles linéaires généralisés (modèles additifs généralisés). Dans les deux cas, les objectifs sont axés sur l'augmentation de la flexibilité des outils statistiques afin de faire face à des problèmes plus complexes découlant de la réalité. Des modèles de mesures répétées sont nécessaires dans de nombreuses études professionnelles où les unités d'analyse se situent au niveau sous-individuel. Par exemple:
- L'étude de l'effet des conditions de travail sur le syndrome du canal carpien doit considérer les deux mains d'une personne, qui ne sont pas indépendantes l'une de l'autre.
- L'analyse des tendances temporelles des polluants environnementaux et de leur effet sur les systèmes respiratoires des enfants peut être évaluée à l'aide de modèles extrêmement flexibles car la forme fonctionnelle exacte de la relation dose-réponse est difficile à obtenir.
Un développement parallèle et probablement plus rapide a été observé dans le contexte des statistiques bayésiennes. La barrière pratique de l'utilisation des méthodes bayésiennes s'est effondrée après l'introduction des méthodes à forte intensité de calcul. Les procédures de Monte Carlo telles que les schémas d'échantillonnage de Gibbs nous ont permis d'éviter le besoin d'intégration numérique pour calculer les distributions postérieures qui représentaient la caractéristique la plus difficile des méthodes bayésiennes. Le nombre d'applications des modèles bayésiens dans des problèmes réels et complexes a trouvé de plus en plus d'espace dans les revues appliquées. Par exemple, les analyses géographiques et les corrélations écologiques au niveau des petites zones et les modèles de prédiction du SIDA sont de plus en plus souvent abordés à l'aide d'approches bayésiennes. Ces développements sont les bienvenus parce qu'ils représentent non seulement une augmentation du nombre de solutions statistiques alternatives qui pourraient être employées dans l'analyse des données épidémiologiques, mais aussi parce que l'approche bayésienne peut être considérée comme une stratégie plus solide.