Si discute molto sul ruolo della statistica nella ricerca epidemiologica sulle relazioni causali. In epidemiologia, la statistica è principalmente una raccolta di metodi per valutare i dati basati sulle popolazioni umane (e anche animali). In particolare, la statistica è una tecnica per la quantificazione e la misurazione di fenomeni incerti. Tutte le indagini scientifiche che si occupano di aspetti non deterministici e variabili della realtà potrebbero beneficiare della metodologia statistica. In epidemiologia, la variabilità è intrinseca all'unità di osservazione: una persona non è un'entità deterministica. Mentre i disegni sperimentali sarebbero migliorati in termini di migliore corrispondenza con le ipotesi della statistica in termini di variazione casuale, per ragioni etiche e pratiche questo approccio non è molto comune. Invece, l'epidemiologia è impegnata nella ricerca osservazionale che ha associato ad essa sia fonti casuali che altre fonti di variabilità.
La teoria statistica si occupa di come controllare la variabilità non strutturata nei dati al fine di trarre valide inferenze da osservazioni empiriche. In mancanza di qualsiasi spiegazione per il comportamento variabile del fenomeno studiato, la statistica lo assume come casuale- cioè, deviazioni non sistematiche da uno stato di natura medio (vedi Groenlandia 1990 per una critica a questi presupposti).
La scienza si basa sull'esperienza prova per dimostrare se i suoi modelli teorici di eventi naturali hanno una qualche validità. In effetti, i metodi utilizzati dalla teoria statistica determinano il grado in cui le osservazioni nel mondo reale sono conformi alla visione degli scienziati, in forma di modello matematico, di un fenomeno. I metodi statistici, basati sulla matematica, devono quindi essere accuratamente selezionati; ci sono molti esempi su "come mentire con le statistiche". Pertanto, gli epidemiologi dovrebbero essere consapevoli dell'adeguatezza delle tecniche che applicano per misurare il rischio di malattia. In particolare, è necessaria grande attenzione nell'interpretazione sia dei risultati statisticamente significativi che di quelli statisticamente non significativi.
Il primo significato della parola statistica si riferisce a qualsiasi quantità di riepilogo calcolata su un insieme di valori. Indici descrittivi o statistici come la media aritmetica, la mediana o la moda, sono ampiamente utilizzati per sintetizzare le informazioni in una serie di osservazioni. Storicamente, questi descrittori sommari sono stati utilizzati per scopi amministrativi dagli stati, e quindi sono stati nominati statistica. In epidemiologia, le statistiche che si vedono comunemente derivano dai confronti inerenti alla natura dell'epidemiologia, che pone domande come: "Una popolazione è a maggior rischio di malattia rispetto a un'altra?" Nel fare tali confronti, il rischio relativo è una misura popolare della forza dell'associazione tra una caratteristica individuale e la probabilità di ammalarsi, ed è più comunemente applicato nella ricerca eziologica; il rischio attribuibile è anche una misura dell'associazione tra caratteristiche individuali e insorgenza della malattia, ma sottolinea il guadagno in termini di numero di casi risparmiati da un intervento che rimuove il fattore in questione: è applicato principalmente nella sanità pubblica e nella medicina preventiva.
Il secondo significato della parola statistica si riferisce alla raccolta di tecniche e alla sottostante teoria dell'inferenza statistica. Questa è una particolare forma di logica induttiva che specifica le regole per ottenere una valida generalizzazione da un particolare insieme di osservazioni empiriche. Questa generalizzazione sarebbe valida a condizione che siano soddisfatte alcune ipotesi. Questo è il secondo modo in cui un uso non istruito della statistica può ingannarci: nell'epidemiologia osservazionale, è molto difficile essere sicuri delle assunzioni implicite nelle tecniche statistiche. Pertanto, analisi di sensibilità e stimatori robusti dovrebbero accompagnare qualsiasi analisi dei dati condotta correttamente. Anche le conclusioni finali dovrebbero basarsi sulla conoscenza generale e non dovrebbero basarsi esclusivamente sui risultati della verifica di ipotesi statistiche.
Definizioni
A unità statistica è l'elemento su cui vengono fatte le osservazioni empiriche. Potrebbe essere una persona, un campione biologico o un pezzo di materia prima da analizzare. Di solito le unità statistiche sono scelte indipendentemente dal ricercatore, ma a volte possono essere impostati disegni più complessi. Ad esempio, negli studi longitudinali, viene effettuata una serie di determinazioni su un insieme di persone nel tempo; le unità statistiche in questo studio sono l'insieme delle determinazioni, che non sono indipendenti, ma strutturate dalle rispettive connessioni a ciascuna persona studiata. La mancanza di indipendenza o correlazione tra le unità statistiche merita un'attenzione speciale nell'analisi statistica.
A variabile è una caratteristica individuale misurata su una data unità statistica. Dovrebbe essere contrastato con a costante, una caratteristica individuale fissa: ad esempio, in uno studio sugli esseri umani, avere una testa o un torace sono costanti, mentre il sesso di un singolo membro dello studio è una variabile.
Le variabili vengono valutate utilizzando differenti scale di misura. La prima distinzione è tra scale qualitative e quantitative. Le variabili qualitative forniscono diversi modalità or categoria. Se ciascuna modalità non può essere classificata o ordinata in relazione ad altre, ad esempio il colore dei capelli o le modalità di genere, denotiamo la variabile come nominale. Se le categorie possono essere ordinate, come il grado di gravità di una malattia, viene chiamata la variabile ordinale. Quando una variabile è costituita da un valore numerico, diciamo che la scala è quantitativa. UN distinto scala indica che la variabile può assumere solo alcuni valori definiti, ad esempio valori interi per il numero di casi di malattia. UN continuo scala viene utilizzata per quelle misure che risultano in di rose numeri. Si dice che le scale continue siano intervallo scala quando il valore nullo ha un significato puramente convenzionale. Cioè, un valore pari a zero non significa quantità zero, ad esempio una temperatura di zero gradi Celsius non significa zero energia termica. In questo caso hanno senso solo le differenze tra i valori (questo è il motivo del termine scala “intervalli”). Un valore nullo reale denota a rapporto scala. Per una variabile misurata su quella scala, anche i rapporti di valori hanno senso: infatti, un rapporto doppio significa il doppio della quantità. Ad esempio, dire che un corpo ha una temperatura due volte maggiore di un secondo corpo significa che ha due volte l'energia termica del secondo corpo, purché la temperatura è misurata su una scala di rapporti (ad esempio, in gradi Kelvin). L'insieme di valori consentiti per una data variabile è chiamato dominio della variabile.
Paradigmi statistici
La statistica si occupa del modo di generalizzare da un insieme di osservazioni particolari. Questo insieme di misurazioni empiriche è chiamato a campione. Da un campione, calcoliamo alcune statistiche descrittive per sintetizzare le informazioni raccolte.
Le informazioni di base generalmente richieste per caratterizzare un insieme di misure sono relative alla sua tendenza centrale e alla sua variabilità. La scelta tra diverse alternative dipende dalla scala utilizzata per misurare un fenomeno e dagli scopi per i quali vengono calcolate le statistiche. Nella tabella 1 sono descritte diverse misure di tendenza centrale e di variabilità (o dispersione) associate alla scala di misurazione appropriata.
Tabella 1. Indici di tendenza centrale e dispersione per scala di misura
Scala di misura |
||||
Qualitative |
quantitativo |
|||
Indici |
Definizione |
Nominale |
ordinale |
Intervallo/rapporto |
Significato aritmetico |
Somma dei valori osservati divisa per il numero totale di osservazioni |
|
|
x |
Mediano |
Valore medio della distribuzione osservata |
|
x |
x |
Moda |
Valore più frequente |
x |
x |
x |
Escursione |
Valori minimo e massimo della distribuzione |
|
x |
x |
Varianza |
Somma della differenza al quadrato di ciascun valore rispetto alla media divisa per il numero totale di osservazioni meno 1 |
|
|
x |
Vengono chiamate le statistiche descrittive calcolate stime quando li usiamo come sostituto dell'analoga quantità della popolazione da cui il campione è stato selezionato. Le controparti della popolazione delle stime sono chiamate costanti parametri. Le stime dello stesso parametro possono essere ottenute utilizzando diversi metodi statistici. Una stima dovrebbe essere valida e precisa.
Il paradigma popolazione-campione implica che la validità può essere assicurata dal modo in cui il campione viene selezionato dalla popolazione. Il campionamento casuale o probabilistico è la strategia abituale: se ogni membro della popolazione ha la stessa probabilità di essere incluso nel campione, allora, in media, il nostro campione dovrebbe essere rappresentativo della popolazione e, inoltre, qualsiasi deviazione dalle nostre aspettative potrebbe essere spiegato per caso. Anche la probabilità di una data deviazione dalla nostra aspettativa può essere calcolata, a condizione che sia stato eseguito un campionamento casuale. Lo stesso ragionamento vale per le stime calcolate per il nostro campione relativamente ai parametri della popolazione. Prendiamo, ad esempio, la media aritmetica del nostro campione come stima del valore medio per la popolazione. Qualsiasi differenza, se esiste, tra la media del campione e la media della popolazione è attribuita a fluttuazioni casuali nel processo di selezione dei membri inclusi nel campione. Possiamo calcolare la probabilità di qualsiasi valore di questa differenza, a condizione che il campione sia stato selezionato in modo casuale. Se lo scostamento tra la stima campionaria e il parametro della popolazione non può essere spiegato per caso, si dice che la stima lo sia parziale. Il disegno dell'osservazione o dell'esperimento fornisce validità alle stime e il paradigma statistico fondamentale è quello del campionamento casuale.
In medicina, un secondo paradigma viene adottato quando il confronto tra diversi gruppi è l'obiettivo dello studio. Un tipico esempio è lo studio clinico controllato: un insieme di pazienti con caratteristiche simili viene selezionato sulla base di criteri predefiniti. In questa fase non viene fatta alcuna preoccupazione per la rappresentatività. Ogni paziente arruolato nello studio viene assegnato con una procedura casuale al gruppo di trattamento, che riceverà la terapia standard più il nuovo farmaco da valutare, o al gruppo di controllo, che riceverà la terapia standard e un placebo. In questo disegno, l'assegnazione casuale dei pazienti a ciascun gruppo sostituisce la selezione casuale dei membri del campione. La stima della differenza tra i due gruppi può essere valutata statisticamente perché, nell'ipotesi di non efficacia del nuovo farmaco, si può calcolare la probabilità di un'eventuale differenza diversa da zero.
In epidemiologia, ci manca la possibilità di assemblare gruppi di persone esposte e non esposte in modo casuale. In questo caso possiamo ancora utilizzare metodi statistici, come se i gruppi analizzati fossero stati selezionati o assegnati casualmente. La correttezza di questa ipotesi si basa principalmente sul disegno dello studio. Questo punto è particolarmente importante e sottolinea l'importanza del disegno dello studio epidemiologico rispetto alle tecniche statistiche nella ricerca biomedica.
Segnale e rumore
Il termine variabile casuale si riferisce a una variabile per la quale una probabilità definita è associata a ciascun valore che può assumere. I modelli teorici per la distribuzione della probabilità di una variabile casuale sono modelli di popolazione. Le controparti campionarie sono rappresentate dalla distribuzione della frequenza campionaria. Questo è un modo utile per segnalare una serie di dati; è costituito da un piano cartesiano con la variabile di interesse lungo l'asse orizzontale e la frequenza o frequenza relativa lungo l'asse verticale. Un display grafico ci consente di vedere facilmente qual è (sono) il valore o i valori più frequenti e come la distribuzione è concentrata attorno a determinati valori centrali come la media aritmetica.
Per le variabili casuali e le loro distribuzioni di probabilità, usiamo i termini parametri, valore medio atteso (invece della media aritmetica) e varianza. Questi modelli teorici descrivono la variabilità in un dato fenomeno. Nella teoria dell'informazione, il segnale è rappresentato dalla tendenza centrale (ad esempio, il valore medio), mentre il rumore è misurato da un indice di dispersione (come la varianza).
Per illustrare l'inferenza statistica, useremo il modello binomiale. Nelle sezioni che seguono verranno introdotti i concetti di stime puntuali e intervalli di confidenza, test di ipotesi e probabilità di decisioni errate e potenza di uno studio.
Tabella 2. Possibili risultati di un esperimento binomiale (sì = 1, no = 0) e loro probabilità (n = 3)
Lavoratore |
Probabilità |
||
A |
B |
C |
|
0 |
0 |
0 |
|
1 |
0 |
0 |
|
0 |
1 |
0 |
|
0 |
0 |
1 |
|
0 |
1 |
1 |
|
1 |
0 |
1 |
|
1 |
1 |
0 |
|
1 |
1 |
1 |
Un esempio: la distribuzione binomiale
Nella ricerca biomedica e nell'epidemiologia, il modello più importante di variazione stocastica è la distribuzione binomiale. Si basa sul fatto che la maggior parte dei fenomeni si comporta come una variabile nominale con solo due categorie: ad esempio, la presenza/assenza di malattia: vivo/morto o guarito/malato. In tali circostanze, siamo interessati alla probabilità di successo, cioè all'evento di interesse (ad esempio, presenza di malattia, vivo o guarigione) e ai fattori o variabili che possono alterarlo. Lasciaci considerare n = 3 lavoratori, e supponiamo di essere interessati alla probabilità, p, di avere una disabilità visiva (sì/no). Il risultato della nostra osservazione potrebbe essere i possibili esiti nella tabella 2.
Tabella 3. Possibili risultati di un esperimento binomiale (sì = 1, no = 0) e loro probabilità (n = 3)
Numero di successi |
Probabilità |
0 |
|
1 |
|
2 |
|
3 |
La probabilità di una qualsiasi di queste combinazioni di eventi si ottiene facilmente considerando p, la probabilità (individuale) di successo, costante per ogni soggetto e indipendente da altri risultati. Poiché siamo interessati al numero totale di successi e non a una specifica sequenza ordinata, possiamo riordinare la tabella come segue (vedi tabella 3) e, in generale, esprimere la probabilità di x successi P (x) come:
where x è il numero di successi e la notazione x! denota il fattoriale di x, Cioè, x! = x×(x–1)×(x–2)…×1.
Quando consideriamo l'evento “essere/non essere malato”, la probabilità individuale, si riferisce allo stato in cui si presume il soggetto; in epidemiologia, questa probabilità è chiamata “prevalenza”. Per stimare p, usiamo la proporzione campionaria:
p = x/n
con varianza:
In un'ipotetica serie infinita di campioni replicati della stessa dimensione n, otterremmo proporzioni campionarie diverse p = x/n, con probabilità data dalla formula binomiale. Il “vero” valore di è stimato da ciascuna proporzione campionaria e un intervallo di confidenza per p, ovvero l'insieme dei valori probabili per p, dati i dati osservati e un livello di confidenza predefinito (diciamo 95%), è stimato dalla distribuzione binomiale come l'insieme di valori per p che dà una probabilità di x maggiore di un valore pre-specificato (diciamo 2.5%). Per un ipotetico esperimento in cui abbiamo osservato x = 15 successi in n = 30 prove, la probabilità stimata di successo è:
Tabella 4. Distribuzione binomiale. Probabilità per diversi valori di per x = 15 successi in n = 30 prove
Probabilità |
|
0.200 |
0.0002 |
0.300 |
0.0116 |
0.334 |
0.025 |
0.400 |
0.078 |
0.500 |
0.144 |
0.600 |
0.078 |
0.666 |
0.025 |
0.700 |
0.0116 |
L'intervallo di confidenza al 95% per p, ottenuto dalla tabella 4, è 0.334 – 0.666. Ogni voce della tabella mostra la probabilità di x = 15 successi in n = 30 prove calcolate con la formula binomiale; ad esempio, per = 0.30, si ottiene da:
Nel n grande e p vicino a 0.5 possiamo usare un'approssimazione basata sulla distribuzione gaussiana:
where za /2 denota il valore della distribuzione gaussiana standard per una probabilità
P (|z| ³ za /2) = a/2;
1 – a è il livello di confidenza scelto. Per l'esempio considerato, = 15/30 = 0.5; n = 30 e dalla tabella gaussiana standard z0.025 = 1.96. L'intervallo di confidenza al 95% risulta nell'insieme di valori 0.321 – 0.679, ottenuto sostituendo p = 0.5, n = 30 e z0.025 = 1.96 nell'equazione precedente per la distribuzione gaussiana. Si noti che questi valori sono vicini ai valori esatti calcolati in precedenza.
I test statistici di ipotesi comprendono una procedura decisionale sul valore di un parametro della popolazione. Supponiamo, nell'esempio precedente, di voler affrontare la proposizione secondo cui esiste un elevato rischio di disabilità visiva tra i lavoratori di un dato impianto. L'ipotesi scientifica da verificare con le nostre osservazioni empiriche è quindi “c'è un elevato rischio di disabilità visiva tra i lavoratori di un dato impianto”. Gli statistici dimostrano tali ipotesi falsificando l'ipotesi complementare “non c'è aumento del rischio di disabilità visiva”. Questo segue la dimostrazione matematica per assurdo e, invece di verificare un'affermazione, l'evidenza empirica viene utilizzata solo per falsificarla. L'ipotesi statistica si chiama ipotesi nulla. Il secondo passo consiste nello specificare un valore per il parametro di quella distribuzione di probabilità usata per modellare la variabilità nelle osservazioni. Nei nostri esempi, poiché il fenomeno è binario (cioè presenza/assenza di disabilità visiva), scegliamo la distribuzione binomiale con parametro p, la probabilità di disabilità visiva. L'ipotesi nulla lo afferma = 0.25, diciamo. Questo valore è scelto dalla raccolta di conoscenze sull'argomento e dalla conoscenza a priori della consueta prevalenza della disabilità visiva nelle popolazioni non esposte (cioè non lavoratrici). Supponiamo che i nostri dati producano una stima = 0.50, dai 30 lavoratori esaminati.
Possiamo rifiutare l'ipotesi nulla?
Se sì, a favore di cosa alternativa ipotesi?
Specifichiamo un'ipotesi alternativa come candidata nel caso in cui l'evidenza imponga di rifiutare l'ipotesi nulla. Le ipotesi alternative non direzionali (bilaterali) affermano che il parametro della popolazione è diverso dal valore indicato nell'ipotesi nulla; ipotesi alternative direzionali (unilaterali) affermano che il parametro della popolazione è maggiore (o minore) del valore nullo.
Tabella 5. Distribuzione binomiale. Probabilità di successo per = 0.25 in n = 30 prove
X |
Probabilità |
Probabilità cumulativa |
0 |
0.0002 |
0.0002 |
1 |
0.0018 |
0.0020 |
2 |
0.0086 |
0.0106 |
3 |
0.0269 |
0.0374 |
4 |
0.0604 |
0.0979 |
5 |
0.1047 |
0.2026 |
6 |
0.1455 |
0.3481 |
7 |
0.1662 |
0.5143 |
8 |
0.1593 |
0.6736 |
9 |
0.1298 |
0.8034 |
10 |
0.0909 |
0.8943 |
11 |
0.0551 |
0.9493 |
12 |
0.0291 |
0.9784 |
13 |
0.0134 |
0.9918 |
14 |
0.0054 |
0.9973 |
15 |
0.0019 |
0.9992 |
16 |
0.0006 |
0.9998 |
17 |
0.0002 |
1.0000 |
. |
. |
. |
30 |
0.0000 |
1.0000 |
Sotto l'ipotesi nulla, possiamo calcolare la distribuzione di probabilità dei risultati del nostro esempio. La tabella 5 mostra, per = 0.25 e n = 30, le probabilità (vedi equazione (1)) e le probabilità cumulative:
Da questa tabella otteniamo la probabilità di avere x ³15 lavoratori con disabilità visiva
P(x ³15) = 1 - P(X15) = 1 - 0.9992 0.0008 =
Ciò significa che è altamente improbabile che osserveremmo 15 o più lavoratori con disabilità visiva se sperimentassero la prevalenza della malattia delle popolazioni non esposte. Pertanto, potremmo respingere l'ipotesi nulla e affermare che esiste una maggiore prevalenza di disabilità visiva nella popolazione di lavoratori studiata.
Quando n× p ³ 5 e n×(1-) ³ 5, possiamo usare l'approssimazione gaussiana:
Dalla tabella della distribuzione gaussiana standard otteniamo:
P(|z|>2.95) = 0.0008
in stretto accordo con i risultati esatti. Da questa approssimazione possiamo vedere che la struttura di base di un test statistico di ipotesi consiste nel rapporto tra segnale e rumore. Nel nostro caso, il segnale è (p-), la deviazione osservata dall'ipotesi nulla, mentre il rumore è la deviazione standard di P:
Maggiore è il rapporto, minore è la probabilità del valore nullo.
Nel prendere decisioni su ipotesi statistiche, possiamo incorrere in due tipi di errori: un errore di tipo I, rifiuto dell'ipotesi nulla quando è vera; o un errore di tipo II, accettazione dell'ipotesi nulla quando è falsa. Il livello di probabilità, o valore p, è la probabilità di un errore di tipo I, indicata dalla lettera greca a. Questo è calcolato dalla distribuzione di probabilità delle osservazioni sotto l'ipotesi nulla. È consuetudine predefinire un livello di errore (es. 5%, 1%) e rifiutare l'ipotesi nulla quando il risultato della nostra osservazione ha una probabilità uguale o inferiore a questo cosiddetto livello critico.
La probabilità di un errore di tipo II è indicata dalla lettera greca β. Per calcolarlo occorre specificare, nell'ipotesi alternativa, il valore α per il parametro da testare (nel nostro esempio, valore α per ). Le ipotesi alternative generiche (diverse da, maggiori di, minori di) non sono utili. In pratica, interessa il valore β per un insieme di ipotesi alternative, o il suo complemento, che è chiamato potenza statistica del test. Ad esempio, fissando il valore dell'errore α al 5%, dalla tabella 5, troviamo:
P(x ³12) <0.05
sotto l'ipotesi nulla = 0.25. Se almeno dovessimo osservare x = 12 successi, rifiuteremmo l'ipotesi nulla. I corrispondenti valori β e la potenza per x = 12 sono dati dalla tabella 6.
Tabella 6. Errore di tipo II e potenza per x = 12, n = 30, α = 0.05
β |
Potenza |
|
0.30 |
0.9155 |
0.0845 |
0.35 |
0.7802 |
0.2198 |
0.40 |
0.5785 |
0.4215 |
0.45 |
0.3592 |
0.6408 |
0.50 |
0.1808 |
0.8192 |
0.55 |
0.0714 |
0.9286 |
In questo caso i nostri dati non possono discriminare se è maggiore del valore nullo di 0.25 ma minore di 0.50, perché la potenza dello studio è troppo bassa (<80%) per quei valori di <0.50, ovvero la sensibilità del nostro studio è dell'8% per = 0.3, 22% per = 0.35,…, 64% per = 0.45.
L'unico modo per ottenere un β inferiore, o un livello di potenza superiore, sarebbe quello di aumentare le dimensioni dello studio. Ad esempio, nella tabella 7 riportiamo β e potenza per n = 40; come previsto, dovremmo essere in grado di rilevare a valore maggiore di 0.40.
Tabella 7. Errore di tipo II e potenza per x = 12, n = 40, α = 0.05
β |
Potenza |
|
0.30 |
0.5772 |
0.4228 |
0.35 |
0.3143 |
0.6857 |
0.40 |
0.1285 |
0.8715 |
0.45 |
0.0386 |
0.8614 |
0.50 |
0.0083 |
0.9917 |
0.55 |
0.0012 |
0.9988 |
Il disegno dello studio si basa su un attento esame dell'insieme di ipotesi alternative che meritano considerazione e garantiscono potere allo studio fornendo un'adeguata dimensione del campione.
Nella letteratura epidemiologica è stata sottolineata l'importanza di fornire stime di rischio affidabili. Pertanto, è più importante riportare gli intervalli di confidenza (95% o 90%) piuttosto che a p-valore di un test di un'ipotesi. Seguendo lo stesso tipo di ragionamento, occorre prestare attenzione all'interpretazione dei risultati di studi di piccole dimensioni: a causa della bassa potenza, anche effetti intermedi potrebbero non essere rilevati e, d'altra parte, effetti di grande entità potrebbero non essere replicati successivamente.
Metodi avanzati
Il grado di complessità dei metodi statistici utilizzati nell'ambito della medicina del lavoro è andato crescendo negli ultimi anni. Importanti sviluppi si riscontrano nell'area della modellazione statistica. La famiglia di modelli non gaussiani di Nelder e Wedderburn (modelli lineari generalizzati) è stato uno dei contributi più sorprendenti all'aumento delle conoscenze in aree come l'epidemiologia occupazionale, dove le variabili di risposta rilevanti sono binarie (ad esempio, sopravvivenza/morte) o conteggi (ad esempio, il numero di incidenti sul lavoro).
Questo è stato il punto di partenza per un'ampia applicazione dei modelli di regressione in alternativa alle più tradizionali tipologie di analisi basate su tabelle di contingenza (analisi semplice e stratificata). Poisson, Cox e la regressione logistica sono ora abitualmente utilizzate rispettivamente per l'analisi di studi longitudinali e caso-controllo. Questi modelli sono la controparte della regressione lineare per le variabili di risposta categoriale e hanno l'elegante caratteristica di fornire direttamente la misura epidemiologica rilevante dell'associazione. Ad esempio, i coefficienti della regressione di Poisson sono il logaritmo dei rapporti di tasso, mentre quelli della regressione logistica sono il logaritmo degli odds ratio.
Prendendo questo come punto di riferimento, gli ulteriori sviluppi nell'area della modellazione statistica hanno preso due direzioni principali: modelli per misure categoriche ripetute e modelli che estendono i Modelli Lineari Generalizzati (Modelli Additivi Generalizzati). In entrambi i casi, gli obiettivi sono focalizzati sull'aumento della flessibilità degli strumenti statistici per far fronte a problemi più complessi derivanti dalla realtà. I modelli a misure ripetute sono necessari in molti studi occupazionali in cui le unità di analisi sono a livello sub-individuale. Per esempio:
- Lo studio dell'effetto delle condizioni di lavoro sulla sindrome del tunnel carpale deve considerare entrambe le mani di una persona, che non sono indipendenti l'una dall'altra.
- L'analisi dell'andamento temporale degli inquinanti ambientali e del loro effetto sull'apparato respiratorio dei bambini può essere valutata utilizzando modelli estremamente flessibili poiché è difficile ottenere l'esatta forma funzionale della relazione dose-risposta.
Uno sviluppo parallelo e probabilmente più rapido è stato osservato nel contesto della statistica bayesiana. La barriera pratica dell'uso dei metodi bayesiani è crollata dopo l'introduzione di metodi ad alta intensità di computer. Le procedure Monte Carlo come gli schemi di campionamento di Gibbs ci hanno permesso di evitare la necessità di integrazione numerica per calcolare le distribuzioni a posteriori che rappresentavano la caratteristica più impegnativa dei metodi bayesiani. Il numero di applicazioni dei modelli bayesiani a problemi reali e complessi ha trovato sempre più spazio nelle riviste applicate. Ad esempio, le analisi geografiche e le correlazioni ecologiche a livello di piccola area ei modelli di previsione dell'AIDS sono sempre più spesso affrontati utilizzando approcci bayesiani. Questi sviluppi sono accolti favorevolmente perché rappresentano non solo un aumento del numero di soluzioni statistiche alternative che potrebbero essere impiegate nell'analisi dei dati epidemiologici, ma anche perché l'approccio bayesiano può essere considerato una strategia più solida.