ritorna all'inizio

1 – Cosa sono gli indici statistici di posizione e gli indici di dispersione?

            Se vogliamo in un certo senso “riassumere” una quantità di dati numerici , ad esempio i voti della studentessa Anna (27, 30, 30, 26, 28), abbiamo innanzitutto a disposizione la media aritmetica, che spesso si indica con la lettera greca m :

            Un altro indice statistico utile è la mediana, che risulta essere un numero  per il quale il 50% dei dati è maggiore o uguale a , ed il 50% ne è minore o uguale. Operativamente, per trovare la mediana si riordinano i dati per grandezza crescente o decrescente (30, 30, 28, 27, 26) e si “cancellano” il primo con l’ultimo, il secondo con il penultimo, eccetera (30, 30, 28, 27, 26); il numero rimanente è la mediana, . Nel caso in cui rimanessero due valori, e distinti tra loro, è consuetudine considerare per mediana la loro media aritmetica: se Anna avesse i voti 27, 30, 30, 26, la mediana sarebbe 28,5.

            Nel caso in cui dobbiamo “riassumere” dati non numerici, possiamo ricorrere alla moda: si tratta del dato che si presenta con la più alta frequenza tra tutti. Se ad esempio i gruppi sanguigni di alcuni soggetti sono A, 0, B, 0, B, AB, B, A, B, possiamo dire che B è il gruppo modale.

            Ora, se da un lato gli indici statistici di posizione (o di centralità) hanno il vantaggio di riassumere sinteticamente una lista di dati, dall’altra fatalmente fanno perdere informazione: non sappiamo cioè se i dati sono pressoché concentrati attorno all’indice di posizione, oppure molto dispersi. Ad esempio, consideriamo i voti di Bruno: 30, 30, 30, 21, 30. La media aritmetica è la medesima di quella di Anna, , ma Bruno appare essere “più bravo” di Anna.

            I quartili sono degli indici di dispersione della medesima natura della mediana; il primo quartile viene definito come un numero q1 per il quale il 25% dei dati è minore o uguale a q1, ed il restante 75% ne è maggiore o uguale. Il terzo quartile, q3, è definito analogamente invertendo tra loro le due percentuali del 75% e del 25%. Il secondo quartile è in effetti la mediana. Nell’esempio di Anna,  e ; per Bruno invece risulta  e . A questo punto, possiamo dare un riassunto più esauriente della situazione degli studenti:

studente

minimo

q1

mediana

q3

massimo

Anna

26

27

28

30

30

Bruno

21

30

30

30

30

Se invece di suddividere i dati in quattro parti, li dividessimo in 100 parti (a patto di averne a sufficienza), avremmo a che fare con i percentili, che sono utilizzati spesso nella pratica medica. Ad esempio, dire che il peso di un neonato ricade nel 35-esimo percentile significa che, in linea di massima, il 35% dei neonati ha un peso inferiore ad esso, ed il rimanente 65% ha un peso superiore. Quartili e percentili appartengono a quella famiglia di indici di dispersione che va sotto il nome di quantili.

            Un’altra misura di dispersione molto utilizzata è la varianza: dalla quantità di dati numerici  si sottrae la media m , ottenendo i cosiddetti scarti dalla media: . Siccome alcuni scarti sono positivi ed altri negativi, si eleva ciascuno di questi al quadrato: . Infine, si calcola di essi la media aritmetica, e tale risultato è la varianza :

Per mantenere le eventuali unità di misura, e fare raffronti corretti, si preferisce usare la radice quadrata della varianza, che si indica con s e si chiama deviazione standard (oppure scarto quadratico medio):

Se calcolassimo la deviazione standard del voti di Anna

spunto di riflessione

Non si deve usare la deviazione standard a sproposito

Il fatto che quasi sempre si incontri la deviazione standard come indice di dispersione “per antonomasia” non significa che questo abbia un fondamento giustificato. Se un responsabile del servizio 118 ad esempio afferma che: “le nostre ambulanze intervengono sulla scena in un tempo medio di 520 secondi (dev. st. 190 secondi)”, tutti i lettori vengono portati a ritenere che buona parte degli interventi sono compresi nell’intervallo da 520-190=330 secondi a 520+190=710 secondi. Ma di sicuro non sarà così nella realtà: infatti nella serie dei dati relativi agli interventi non vi è di certo simmetria attorno al tempo medio di 520 secondi; in altri termini, può capitare di certo che in alcuni casi un ambulanza impieghi 520+520=1040 secondi per raggiungere una scena in periferia della città, ma è assurdo che accada altrettanto frequentemente di impiegarne 520-520=0 secondi per intervenire.

In conclusione, si dovrebbe fare attenzione ad utilizzare la deviazione standard come indice di dispersione, se non si è certi del fatto che i dati sono caraterizzati da una naturale simmetria, come quella ad esempio dei fenomeni trattati nel paragrafo 4.2.

e Bruno, otterremmo rispettivamente 1,6 e 3,6. Questo ci farebbe intuire che i voti di Anna sono più concentrati, mentre quelli di Bruno più volatili.

Esercizio 13.

Si utilizzino le funzioni MEDIA, QUARTILE, VAR.POP e DEV.ST.POP per determinare gli indici di posizione e di dispersione delle età del seguente quintetto base di una squadra di pallacanestro: 19, 24, 24, 26, 22. Come cambiano gli indici, in particolare la media e la mediana, se al posto del playmaker di 19 anni entra in campo un giocatore di 34 anni? Esiste un quintetto in cui l’età minima coincide con il primo quartile e l’età massima è molto più grande del terzo quartile?