Maybaygiare.org

Blog Network

Fuorviante Statistiche Esempi – Scoprire Il Potenziale Per Abuso di Statistiche e di Dati Nell’era Digitale

Uomo alla ricerca di statistiche fuorvianti esempi con la lente di ingrandimento

Ci sono tre tipi di bugie: bugie, accidenti bugie e le statistiche.”- Benjamin Disraeli

Le analisi statistiche sono state storicamente un sostenitore dell’alta tecnologia e delle industrie commerciali avanzate, e oggi sono più importanti che mai. Con l’aumento della tecnologia avanzata e delle operazioni globalizzate, le analisi statistiche garantiscono alle aziende una visione per risolvere le incertezze estreme del mercato. Gli studi favoriscono un processo decisionale informato, giudizi solidi e azioni condotte sul peso delle prove, non sulle ipotesi.

Poiché le aziende sono spesso costrette a seguire una road map di mercato difficile da interpretare, i metodi statistici possono aiutare con la pianificazione necessaria per navigare in un paesaggio pieno di buche, insidie e concorrenza ostile. Gli studi statistici possono anche aiutare nella commercializzazione di beni o servizi, e nella comprensione di ogni target mercati driver di valore unico. Nell’era digitale, queste funzionalità sono solo ulteriormente migliorate e sfruttate attraverso l’implementazione di tecnologie avanzate e software di business intelligence. Se tutto questo è vero, qual è il problema con le statistiche?

In realtà, non c’è nessun problema di per sé – ma ci può essere. Le statistiche sono infami per la loro capacità e il potenziale di esistere come dati fuorvianti e cattivi.

Contenuti bonus esclusivi: scarica la nostra lista di controllo gratuita per l’integrità dei dati Ottieni la nostra lista di controllo gratuita per garantire l’integrità della raccolta e dell’analisi dei dati!

Che cos’è una statistica fuorviante?

Le statistiche fuorvianti sono semplicemente l’uso improprio – intenzionale o meno – di un dato numerico. I risultati forniscono un’informazione fuorviante al destinatario, che poi crede qualcosa di sbagliato se lui o lei non si accorge dell’errore o non ha l’immagine completa dei dati.

Data l’importanza dei dati nel mondo digitale in rapida evoluzione di oggi, è importante avere familiarità con le basi delle statistiche fuorvianti e della supervisione. Come esercizio di due diligence, esamineremo alcune delle forme più comuni di abuso delle statistiche e vari allarmanti (e purtroppo comuni) esempi di statistiche fuorvianti dalla vita pubblica.

Le statistiche sono affidabili?

Il 73,6% delle statistiche sono false. Veramente? No, certo che è un numero inventato (anche se un tale studio sarebbe interessante da sapere – ma ancora una volta, potrebbe avere tutti i difetti che cerca allo stesso tempo di sottolineare). L’affidabilità statistica è fondamentale per garantire la precisione e la validità dell’analisi. Per assicurarsi che l’affidabilità sia elevata, ci sono varie tecniche da eseguire – prima di esse sono i test di controllo, che dovrebbero avere risultati simili quando si riproduce un esperimento in condizioni simili. Queste misure di controllo sono essenziali e dovrebbero far parte di qualsiasi esperimento o indagine – sfortunatamente, non è sempre così.

Mentre i numeri non mentono, possono in realtà essere usati per ingannare con mezze verità. Questo è noto come ” uso improprio delle statistiche.”Spesso si presume che l’uso improprio delle statistiche sia limitato a quegli individui o aziende che cercano di trarre profitto dalla distorsione della verità, sia essa economia, istruzione o mass media.

Tuttavia, la narrazione delle mezze verità attraverso lo studio non è limitata solo ai dilettanti matematici. Daniele Fanelli dell’Università di Edimburgo ha rilevato che il 33,7% degli scienziati intervistati ha ammesso pratiche di ricerca discutibili, tra cui la modifica dei risultati per migliorare i risultati, l’interpretazione dei dati soggettivi, la trattenuta di dettagli analitici e l’abbandono di osservazioni a causa di sentimenti intestinali…. Scienziati!

Mentre i numeri non devono sempre essere fabbricati o fuorvianti, è chiaro che anche le società più affidabili guardiani numerici non sono immuni alla disattenzione e pregiudizi che possono sorgere con i processi di interpretazione statistica. Ci sono diversi modi in cui le statistiche possono essere fuorvianti che descriveremo in seguito. Il più comune è ovviamente la correlazione rispetto alla causalità, che lascia sempre fuori un altro (o due o tre) fattori che sono la causa effettiva del problema. Bere il tè aumenta il diabete del 50% e la calvizie aumenta il rischio di malattie cardiovascolari fino al 70%! Abbiamo dimenticato di menzionare la quantità di zucchero messo nel tè, o il fatto che la calvizie e la vecchiaia sono correlate – proprio come i rischi di malattie cardiovascolari e la vecchiaia?

Quindi, le statistiche possono essere manipolate? Certo che possono. I numeri mentono? Puoi essere tu il giudice.

Come le statistiche possono essere fuorvianti

lavagna visualizzazione dei tipi più comuni di uso improprio delle statistiche

Ricordate, l’uso improprio delle statistiche può essere accidentale o intenzionale. Mentre un intento malevolo di sfocare le linee con statistiche fuorvianti sicuramente ingrandirà pregiudizi, intento non è necessario per creare incomprensioni. L’uso improprio delle statistiche è un problema molto più ampio che ora permea attraverso molteplici settori e campi di studio. Qui ci sono alcuni potenziali contrattempi che comunemente portano ad un uso improprio:

  • Polling difettoso

Il modo in cui le domande sono formulate può avere un enorme impatto sul modo in cui un pubblico risponde loro. I modelli di formulazione specifici hanno un effetto persuasivo e inducono gli intervistati a rispondere in modo prevedibile. Ad esempio, in un sondaggio che cerca opinioni fiscali, diamo un’occhiata alle due potenziali domande:

– Credi che dovresti essere tassato in modo che gli altri cittadini non debbano lavorare?- Pensi che il governo dovrebbe aiutare quelle persone che non riescono a trovare lavoro?

È probabile che queste due domande provochino risposte molto diverse, anche se trattano lo stesso argomento dell’assistenza governativa. Questi sono esempi di ” domande caricate.”

Un modo più accurato di formulazione la domanda sarebbe: “Sostenete i programmi di assistenza del governo per la disoccupazione?”o, (ancora più neutrale)” Qual è il tuo punto di vista sull’assistenza alla disoccupazione?”

Gli ultimi due esempi delle domande originali eliminano qualsiasi inferenza o suggerimento dal poller e, quindi, sono significativamente più imparziali. Un altro metodo ingiusto di polling è quello di porre una domanda, ma precederla con una dichiarazione condizionale o una dichiarazione di fatto. Rimanendo con il nostro esempio, che sarebbe simile a questo: “Dato l’aumento dei costi per la classe media, si fa a sostenere i programmi di assistenza del governo?”

Una buona regola empirica è quella di prendere sempre il polling con un pizzico di sale e provare a rivedere le domande che sono state effettivamente presentate. Essi forniscono grande intuizione, spesso più che le risposte.

  • Correlazioni errate

Il problema con le correlazioni è questo: se misuri abbastanza variabili, alla fine sembrerà che alcune di esse siano correlate. Poiché uno su venti sarà inevitabilmente considerato significativo senza alcuna correlazione diretta, gli studi possono essere manipolati (con dati sufficienti) per dimostrare una correlazione che non esiste o che non è abbastanza significativa da dimostrare la causalità.

Per illustrare ulteriormente questo punto, supponiamo che uno studio abbia trovato una correlazione tra un aumento degli incidenti automobilistici nello stato di New York nel mese di giugno (A) e un aumento degli attacchi di orsi nello stato di New York nel mese di giugno (B).

questo significa Che ci sarà probabilmente sei possibili spiegazioni:

incidenti d’Auto (Una) causa attacco di un orso (B)- all’attacco di un Orso (B) causa di incidenti stradali (A)- incidenti stradali (A) e all’attacco di un orso (B) in parte a causa vicenda – incidenti stradali (A) e all’attacco di un orso (B) sono causati da un terzo fattore (C)- all’attacco di un Orso (B) sono causati da un terzo fattore (C), che si correla a incidenti d’auto (Una)- La correlazione è solo una possibilità

Qualsiasi persona di buon senso avrebbe facilmente identificare il fatto che gli incidenti stradali non sono causa di attacco di un orso. Ognuno è probabilmente il risultato di un terzo fattore, che è: un aumento della popolazione, a causa di alta stagione turistica nel mese di giugno. Sarebbe assurdo dire che si provocano a vicenda… e questo è esattamente il motivo per cui è il nostro esempio. È facile vedere una correlazione.

Ma, per quanto riguarda la causalità? E se le variabili misurate fossero diverse? E se fosse qualcosa di più credibile, come l’Alzheimer e la vecchiaia? Chiaramente c’è una correlazione tra i due, ma c’è una causalità? Molti avrebbero falsamente assumere, sì, esclusivamente sulla base della forza della correlazione. Procedete con cautela, perché consapevolmente o ignorantemente, la caccia alla correlazione continuerà ad esistere all’interno degli studi statistici.

  • Data fishing

Questo esempio di dati fuorvianti è anche definito “dragaggio dei dati” (e relativo a correlazioni errate). È una tecnica di data mining in cui vengono analizzati volumi estremamente grandi di dati allo scopo di scoprire le relazioni tra i punti dati. Cercare una relazione tra i dati non è un abuso di dati di per sé, tuttavia, farlo senza un’ipotesi lo è.

Il dragaggio dei dati è una tecnica self-serving spesso impiegata allo scopo non etico di eludere le tradizionali tecniche di data mining, al fine di cercare ulteriori conclusioni sui dati che non esistono. Questo non vuol dire che non ci sia un uso corretto del data mining, in quanto può di fatto portare a valori anomali a sorpresa e analisi interessanti. Tuttavia, il più delle volte, il dragaggio dei dati viene utilizzato per assumere l’esistenza di relazioni di dati senza ulteriori studi.

Spesso, i risultati di pesca dei dati in studi che sono altamente pubblicizzati a causa dei loro risultati importanti o stravaganti. Questi studi sono presto contraddetti da altri risultati importanti o stravaganti. Queste false correlazioni spesso lasciano il pubblico molto confuso e cercano risposte sul significato della causalità e della correlazione.

Allo stesso modo, un’altra pratica comune con i dati è l’omissione, il che significa che dopo aver esaminato un ampio set di dati di risposte, scegli solo quelli che supportano le tue opinioni e risultati e tralascia quelli che lo contraddicono. Come accennato all’inizio di questo articolo, è stato dimostrato che un terzo degli scienziati ha ammesso di avere pratiche di ricerca discutibili, tra cui trattenere i dettagli analitici e modificare i risultati…! Ma poi di nuovo, siamo di fronte a uno studio che potrebbe cadere in questi 33% di pratiche discutibili, sondaggi errati, pregiudizi selettivi… Diventa difficile credere a qualsiasi analisi!

Contenuti bonus esclusivi: scarica la nostra lista di controllo gratuita per l’integrità dei dati Ottieni la nostra lista di controllo gratuita per garantire l’integrità della raccolta e dell’analisi dei dati!

  • Visualizzazione ingannevole dei dati

I grafici e i grafici penetranti includono un raggruppamento di elementi molto semplice, ma essenziale. Qualunque siano i tipi di visualizzazione dei dati che si sceglie di utilizzare, è necessario trasmettere:

– La scala – Il valore di partenza (zero)- Il metodo di calcolo (ad esempio, il set di dati e il periodo di tempo)

Assenti questi elementi, visual rappresentazioni dei dati devono essere visualizzati con un grano di sale, tenendo conto che il comune di visualizzazione dei dati di errori si può fare. I punti di dati intermedi dovrebbero anche essere identificati e contestualizzati se potrebbero aggiungere valore alle informazioni presentate. Con la crescente dipendenza dall’automazione intelligente delle soluzioni per i confronti dei punti di dati variabili, le best practice (ad esempio, progettazione e scalabilità) dovrebbero essere implementate prima di confrontare i dati provenienti da diverse fonti, set di dati, orari e posizioni.

  • Pregiudizio mirato e selettivo

L’ultimo dei nostri esempi più comuni per l’uso improprio di statistiche e dati fuorvianti è, forse, il più grave. Il pregiudizio intenzionale è il tentativo deliberato di influenzare i risultati dei dati senza nemmeno fingere la responsabilità professionale. È più probabile che il bias assuma la forma di omissioni o aggiustamenti dei dati.

Il bias selettivo è leggermente più discreto per chi non legge le piccole righe. Di solito cade sul campione di persone intervistate. Ad esempio, la natura del gruppo di persone intervistate: chiedere a una classe di studenti universitari l’età legale per bere, o un gruppo di pensionati sul sistema di assistenza agli anziani. Si finirà con un errore statistico chiamato “bias selettivo”.

  • Utilizzando variazione percentuale in combinazione con una piccola dimensione del campione

Un altro modo di creare statistiche fuorvianti, anche legato alla scelta del campione discusso sopra, è la dimensione di detto campione. Quando un esperimento o un sondaggio viene condotto su una dimensione del campione del tutto non significativa, non solo i risultati saranno inutilizzabili, ma il modo di presentarli – vale a dire come percentuali – sarà totalmente fuorviante.

Fare una domanda a una dimensione del campione di 20 persone, dove 19 rispondono “sì” (=95% dicono di sì) contro la stessa domanda a 1.000 persone e 950 rispondono “sì” (=95% pure): la validità della percentuale non è chiaramente la stessa. Fornire esclusivamente la percentuale di variazione senza i numeri totali o la dimensione del campione sarà totalmente fuorviante. il fumetto di xkdc lo illustra molto bene, per mostrare come l’affermazione “in più rapida crescita” sia un discorso di marketing totalmente relativo:

xkcd comic prende in giro l

Allo stesso modo, la dimensione del campione necessaria è influenzata dal tipo di domanda che chiedi, dalla significatività statistica di cui hai bisogno (studio clinico vs studio aziendale) e dalla tecnica statistica. Se si esegue un’analisi quantitativa, le dimensioni del campione inferiori a 200 persone non sono generalmente valide.

Esempi di statistiche fuorvianti nella vita reale

Ora che abbiamo esaminato molti dei metodi più comuni di uso improprio dei dati, diamo un’occhiata a vari esempi dell’era digitale di statistiche fuorvianti su tre spettri distinti, ma correlati: media e politica, pubblicità e scienza. Mentre alcuni argomenti elencati qui sono suscettibili di suscitare emozioni a seconda del proprio punto di vista, la loro inclusione è solo a scopo di dimostrazione dei dati.

  • Esempi di ingannare le statistiche in media e politica

fuorvianti esempio di statistiche in politica: propaganda grafico senza asse y creato da un anti-aborto gruppo di fuorviare il giudizio

Fuorviante statistiche in media sono abbastanza comuni. Il settembre. 29, 2015, i repubblicani del Congresso degli Stati Uniti hanno interrogato Cecile Richards, il presidente di Planned Parenthood, in merito all’appropriazione indebita di million 500 milioni in finanziamenti federali annuali. Il grafico/grafico sopra è stato presentato come un punto di enfasi.

Il rappresentante Jason Chaffetz dello Utah ha spiegato: “In rosa, questa è la riduzione degli esami del seno, e il rosso è l’aumento degli aborti. Questo è quello che sta succedendo nella vostra organizzazione.”

Sulla base della struttura del grafico, sembra infatti mostrare che il numero di aborti dal 2006 ha registrato una crescita sostanziale, mentre il numero di screening per il cancro è diminuito sostanzialmente. L’intento è quello di trasmettere uno spostamento di attenzione da screening cancro all’aborto. I punti del grafico sembrano indicare che 327.000 aborti sono maggiori in valore intrinseco di 935.573 screening del cancro. Tuttavia, un esame più attento rivelerà che il grafico non ha un asse y definito. Ciò significa che non esiste una giustificazione definibile per il posizionamento delle linee di misura visibili.

Politifact, un sito web di advocacy di fact checking, ha esaminato i numeri di Rep. Chaffetz tramite un confronto con le relazioni annuali di Planned Parenthood. Utilizzando una scala chiaramente definita, ecco come appaiono le informazioni:

corretta visualizzazione dei dati che mostra la planned parenthood così com'è con una scala chiaramente definita e un asse y esistente

E come questo con un’altra scala valida:

dimostrando planned parenthood con anoder valide scala

una Volta inserito all’interno di una ben definita scala, diventa evidente che, mentre il numero di proiezioni cancro è infatti diminuito, è ancora lontano supera la quantità di aborto procedure eseguite ogni anno. Come tale, questo è un grande esempio di statistiche fuorvianti, e alcuni potrebbero sostenere pregiudizi considerando che il grafico non è nato dal deputato, ma dagli americani Uniti per la vita, un gruppo anti-aborto. Questo è solo uno dei tanti esempi di statistiche fuorvianti nei media e nella politica.

  • Fuorviante statistiche in pubblicità

colgate dentifricio tubi

Nel 2007, Colgate è stato ordinato dalla Advertising Standards Authority (ASA), del regno UNITO di abbandonare la loro richiesta: “Più dell’ 80% dei Dentisti consiglia di Colgate.”Lo slogan in questione era posizionato su un cartellone pubblicitario nel Regno Unito ed era considerato in violazione delle regole pubblicitarie del Regno Unito.

L’affermazione, che si basava su indagini di dentisti e igienisti effettuate dal produttore, è risultata falsa in quanto consentiva ai partecipanti di selezionare una o più marche di dentifricio. L’ASA ha dichiarato che l’affermazione “… sarebbe compresa dai lettori nel senso che l ‘ 80% dei dentisti raccomanda Colgate oltre ad altre marche, e il restante 20% raccomanderebbe marche diverse.”

L’ASA ha continuato: “Poiché abbiamo capito che il marchio di un altro concorrente era raccomandato quasi quanto il marchio Colgate dai dentisti intervistati, abbiamo concluso che l’affermazione implicava in modo fuorviante l’ 80% dei dentisti raccomanda il dentifricio Colgate in preferenza a tutti gli altri marchi.”L’ASA ha anche affermato che gli script utilizzati per il sondaggio informavano i partecipanti che la ricerca veniva eseguita da una società di ricerca indipendente, il che era intrinsecamente falso.

Sulla base delle tecniche di abuso che abbiamo coperto, è sicuro di dire che questa tecnica slight off-mano da Colgate è chiaro esempio di statistiche fuorvianti nella pubblicità, e cadrebbe sotto polling difettoso e bias a titolo definitivo.

Contenuti bonus esclusivi: scarica la nostra lista di controllo gratuita per l’integrità dei dati Ottieni la nostra lista di controllo gratuita per garantire l’integrità della raccolta e dell’analisi dei dati!
  • Statistiche fuorvianti nella scienza

Proprio come l’aborto, il riscaldamento globale è un altro argomento politicamente carica che rischia di suscitare emozioni. Capita anche di essere un argomento che è vigorosamente approvato da entrambi gli avversari e sostenitori attraverso studi. Diamo un’occhiata ad alcune delle prove a favore e contro.

È generalmente concordato che la temperatura media globale nel 1998 era di 58,3 gradi Fahrenheit. Questo è secondo il Goddard Institute for Space Studies della NASA. Nel 2012, la temperatura media globale è stata misurata a 58,2 gradi. Pertanto, gli oppositori del riscaldamento globale sostengono che, poiché vi è stata una diminuzione di 0,1 gradi della temperatura media globale in un periodo di 14 anni, il riscaldamento globale è smentito.

Il grafico sottostante è quello più spesso indicato per confutare il riscaldamento globale. Dimostra il cambiamento della temperatura dell’aria (Celsius) dal 1998 al 2012.

esempio di statistiche fuorvianti: tagliare i risultati del riscaldamento globale dell'aria su un arco temporale non rilevante (solo dal 1998 al 2012)

Vale la pena ricordare che il 1998 è stato uno degli anni più caldi mai registrati a causa di una corrente di vento El Niño anormalmente forte. Vale anche la pena notare che, poiché vi è un ampio grado di variabilità all’interno del sistema climatico, le temperature sono tipicamente misurate con almeno un ciclo di 30 anni. Il grafico sottostante esprime la variazione di 30 anni delle temperature medie globali.

grafico riscaldamento globale da 1980-2012

E ora guardare il trend dal 1900 al 2012:grafico globale di temperatura dell'aria di cambiamento da 1900-2012

Mentre i dati a lungo termine può apparire per riflettere un altopiano, chiaramente, dipinge un quadro di progressivo riscaldamento. Pertanto, utilizzare il primo grafico, e solo il primo grafico, per confutare il riscaldamento globale è un perfetto esempio di statistiche fuorvianti.

Come Leggere le Statistiche a Distanza

Una prima cosa buona sarebbe ovviamente quella di trovarsi di fronte ad un onesto sondaggio/esperimento / ricerca – scegli quello che hai sotto gli occhi –, che abbia applicato le corrette tecniche di raccolta e interpretazione dei dati. Ma non puoi sapere finché non ti fai un paio di domande e analizza i risultati che hai tra le mani.

Come imprenditore ed ex consulente Mark Suster consiglia in un articolo, si dovrebbe chiedere chi ha fatto la ricerca primaria di detta analisi. Gruppo di studio universitario indipendente, gruppo di ricerca affiliato al laboratorio, società di consulenza? Da lì nasce naturalmente la domanda: chi li ha pagati? Poiché nessuno lavora gratuitamente, è sempre interessante sapere chi sponsorizza la ricerca. Allo stesso modo, quali sono i motivi alla base della ricerca? Cosa hanno cercato di capire lo scienziato o gli statistici? Infine, quanto era grande il set di campioni e chi ne faceva parte? Quanto è stato inclusivo?

Queste sono domande importanti a cui riflettere e rispondere prima di diffondere ovunque risultati distorti o distorti – anche se succede tutto il tempo, a causa dell’amplificazione. Un tipico esempio di amplificazione accade spesso con giornali e giornalisti, che prendono un pezzo di dati e hanno bisogno di trasformarlo in titoli – quindi spesso fuori dal suo contesto originale. Nessuno compra una rivista dove si afferma che il prossimo anno, la stessa cosa sta per accadere nel mercato XYZ come quest’anno – anche se è vero. Editori, clienti e persone vogliono qualcosa di nuovo, non qualcosa che conoscono; ecco perché spesso finiamo con un fenomeno di amplificazione che viene echeggiato e più di quanto dovrebbe.

Uso improprio delle statistiche – Un sommario

Alla domanda ” le statistiche possono essere manipolate?”, possiamo affrontare 6 metodi spesso usati-apposta o no-che inclinano l’analisi e i risultati. Qui ci sono tipi comuni di abuso di statistiche:

  • Difettoso polling
  • Imperfetto correlazioni
  • Dati di pesca
  • Fuorviante visualizzazione dei dati
  • Mirato e selettivo bias
  • utilizzare la percentuale di cambiamento in combinazione con un campione di piccole dimensioni

Ora che si sa di loro, sarà più facile individuarli e discussione tutte le statistiche che sono dato a voi ogni giorno. Allo stesso modo, per assicurarti di mantenere una certa distanza dagli studi e dalle indagini che leggi, ricorda le domande da porsi – chi ha fatto ricerche e perché, chi ha pagato per questo, qual è stato il campione.

Contenuti bonus esclusivi: scarica la nostra lista di controllo gratuita per l’integrità dei dati Ottieni la nostra lista di controllo gratuita per garantire l’integrità della raccolta e dell’analisi dei dati!

Trasparenza e soluzioni aziendali basate sui dati

Sebbene sia abbastanza chiaro che i dati statistici possono essere utilizzati in modo improprio, possono anche guidare eticamente il valore di mercato nel mondo digitale. Big data ha la capacità di fornire alle aziende dell’era digitale una tabella di marcia per l’efficienza e la trasparenza e, infine, la redditività. Soluzioni tecnologiche avanzate come il software di reporting online possono migliorare i modelli di dati statistici e fornire alle aziende dell’era digitale un passo avanti sulla loro concorrenza.

Che si tratti di market intelligence, customer experience o business reporting, il futuro dei dati è ora. Prenditi cura di applicare i dati in modo responsabile, etico e visivo e guarda crescere la tua identità aziendale trasparente.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.