„Existují tři druhy lží – lži, zatracené lži a statistiky.“– Benjamin Disraeli
Statistické analýzy byly v minulosti stálicí high-tech a pokročilé obchodní odvětví, a dnes jsou více než kdy jindy důležité. Se vzestupem pokročilých technologií a globalizovaných operací poskytují statistické analýzy podnikům vhled do řešení extrémních nejistot na trhu. Studie podporují informované rozhodování, řádné úsudky a akce prováděné na základě důkazů, nikoli předpokladů.
Jako podniky jsou často nuceny dodržovat obtížné interpretovat trh, road map, statistických metod může pomoci s plánováním, že je nutné se orientovat krajiny plné výmolů, nástrahy a nepřátelské konkurence. Statistické studie mohou také pomoci při uvádění zboží nebo služeb na trh a při porozumění každému cílovému trhu jedinečné ovladače hodnoty. V digitálním věku jsou tyto schopnosti dále vylepšovány a využívány implementací pokročilých technologií a softwaru business intelligence. Pokud je to všechno pravda, jaký je problém se statistikami?
ve skutečnosti není problém sám o sobě – ale může být. Statistiky jsou nechvalně známé svou schopností a potenciálem existovat jako zavádějící a špatná data.
co je zavádějící Statistika?
zavádějící statistiky jsou jednoduše zneužitím – účelovým nebo ne-číselných dat. Výsledky poskytují přijímači zavádějící informace, Kdo pak věří, že je něco špatně, pokud si chybu nevšimne nebo nemá úplný datový obrázek.
Vzhledem k důležitosti dat v dnešním rychle se měnícím digitálním světě, je důležité, aby se seznámili se základy zavádějící statistiky a dohledu. Jako cvičení v due diligence přezkoumáme některé z nejčastějších forem zneužívání statistik a různé alarmující (a bohužel běžné) zavádějící statistické příklady z veřejného života.
jsou statistiky spolehlivé?
73,6% statistik je nepravdivých. Vážně? Ne, samozřejmě je to vymyšlené číslo (i když by taková studie byla zajímavá – ale opět by mohla mít všechny nedostatky, na které se snaží současně poukázat). Statistická spolehlivost je zásadní pro zajištění přesnosti a platnosti analýzy. Aby byla spolehlivost vysoká, je třeba provést různé techniky-první z nich jsou kontrolní testy, které by měly mít podobné výsledky při reprodukci experimentu za podobných podmínek. Tato kontrolní opatření jsou nezbytná a měla by být součástí jakéhokoli experimentu nebo průzkumu-bohužel tomu tak není vždy.
zatímco čísla nelžou, lze je ve skutečnosti použít k omylům polopravdami. Toto je známé jako “ zneužití statistik.“Často se předpokládá, že zneužití statistik je omezeno na ty jednotlivce nebo společnosti, které se snaží získat zisk z zkreslení pravdy, ať už jde o ekonomiku, vzdělávání nebo masmédia.
vyprávění polopravd prostřednictvím studia se však neomezuje pouze na matematické amatéry. 2009 investigativní průzkum Dr. Daniele Fanelli z University of Edinburgh zjistili, že 33,7% vědců dotázaných přiznala, pochybných výzkumných postupů, včetně úpravy výsledky zlepšit výsledky, subjektivní interpretace dat, srážkové analytické údaje a vrácení pozorování, protože pocity…. Vědci!
Zatímco čísla ne vždy musí být vyrobeny nebo zavádějící, je jasné, že i společnosti nejdůvěryhodnější numerické vrátní nejsou imunní vůči nepozornosti a zkreslení, které může nastat při statistické interpretaci procesů. Existují různé způsoby, jak statistiky mohou být zavádějící, že budeme podrobně později. Nejběžnější je samozřejmě korelace versus příčinná souvislost, která vždy vynechává další (nebo dva nebo tři) faktory, které jsou skutečnou příčinou problému. Pití čaje zvyšuje cukrovku o 50% a plešatost zvyšuje riziko kardiovaskulárních onemocnění až o 70%! Zapomněli jsme se zmínit, množství cukru, dát do čaje, nebo skutečnosti, že plešatost a stáří souvisí – stejně jako kardiovaskulární onemocnění, rizika a stáří?
lze tedy manipulovat se statistikami? Určitě mohou. Lžou čísla? Ty můžeš být soudce.
Jak Statistiky Mohou Být Zavádějící,
Pamatujte si, že zneužívání statistiky mohou být náhodné nebo účelné. Zatímco zlomyslný záměr rozmazat čáry zavádějícími statistikami jistě zvětší zaujatost, záměr není nutný k vytváření nedorozumění. Zneužívání statistik je mnohem širším problémem, který nyní proniká do více průmyslových odvětví a studijních oborů. Zde je několik potenciálních nehod, které obvykle vedou ke zneužití:
- Vadný volební
způsobem, jakým jsou otázky formulovány může mít obrovský dopad na způsob, jakým publikum na ně odpoví. Specifické formulace mají přesvědčivý účinek a přimět respondenty, aby odpověděli předvídatelným způsobem. Například v anketě o daňové názory se podívejme na dvě možné otázky:
– domníváte se, že byste měli být zdaněni, aby ostatní občané nemuseli pracovat?- Myslíte si, že vláda by měla pomoci těm lidem, kteří nemohou najít práci?
tyto dvě otázky pravděpodobně vyvolávají daleko odlišné odpovědi, přestože se zabývají stejným tématem vládní pomoci. Toto jsou příklady “ načtených otázek.“
přesnější způsob formulace otázka by byla: „podporujete vládní programy pomoci v nezaměstnanosti?“nebo (ještě neutrálněji)“ jaký je váš názor na podporu v nezaměstnanosti?“
poslední dva příklady z původní otázky eliminovat nějaký závěr, nebo návrh z poller, a proto jsou podstatně více nestranné. Další nespravedlivou metodou dotazování je položit otázku, ale předcházet jí podmíněným prohlášením nebo faktickým prohlášením. Zůstat u našeho příkladu, to by vypadalo takto: „vzhledem k rostoucím nákladům střední třídy podporujete vládní programy pomoci?“
dobrým pravidlem je vždy brát hlasování s rezervou a pokusit se přezkoumat otázky, které byly skutečně předloženy. Poskytují skvělý vhled, často více než odpovědi.
- Chybné korelace
problém s korelací je tato: pokud budete měřit proměnné, nakonec to bude zdát, že některé z nich korelují. Jako jeden z dvaceti bude nevyhnutelně být považovány za významné, bez jakékoliv přímé srovnávací výzkumy lze manipulovat (dostatek dat) prokázat korelaci, která neexistuje, nebo že není dostatečně významný, aby prokázání příčinné souvislosti.
Pro ilustraci tohoto bodu dále, předpokládejme, že studie zjistila souvislost mezi nárůstem dopravních nehod ve státě New York v měsíci červnu (A), a zvýšení medvěd útoky v New Yorku v měsíci červnu (B).
to znamená, Že je pravděpodobné, že bude šest možných vysvětlení:
– dopravní nehody (A), protože medvěd útoky (B)- Medvěd útoky (B) příčinou dopravních nehod (A)- dopravní nehody (a) a medvěd útoky (B) částečně, protože se navzájem – dopravní nehody (a) a medvěd útoky (B) jsou způsobeny třetí faktor (C)- Medvěd útoky (B) jsou způsobeny třetí faktor (C), což koreluje se dopravních nehod (A)- korelace je jediná šance,
každý rozumný člověk by snadno identifikovat skutečnost, že dopravní nehody nezpůsobují útoky medvěda. Každý z nich je pravděpodobně výsledkem třetího faktoru, to je: zvýšená populace, kvůli vysoké turistické sezóně v měsíci červnu. Bylo by absurdní říkat, že se navzájem způsobují… a právě proto je to náš příklad. Je snadné vidět korelaci.
ale co příčinná souvislost? Co kdyby se měřené proměnné lišily? Co když to bylo něco uvěřitelnějšího, jako Alzheimerova choroba a stáří? Je zřejmé, že mezi nimi existuje korelace, ale existuje příčinná souvislost? Mnozí by falešně předpokládali, ano, pouze na základě síly korelace. Opatrně našlapujte, ať už vědomě nebo nevědomě, korelační lov bude i nadále existovat v rámci statistických studií.
- rybaření
Tento zavádějící údaje, příklad je také odkazoval se na jako „data bagrování“ (a vztahující se k chybné korelace). Jedná se o techniku dolování dat, kde jsou analyzovány extrémně velké objemy dat za účelem zjištění vztahů mezi datovými body. Hledání vztahu mezi daty není zneužití dat samo o sobě, nicméně, dělat to bez hypotézy je.
Data bagrování je self-porce technika se často používá pro neetické obcházení tradiční techniky dolování dat, s cílem hledat další data, závěry, které neexistují. To je nechci říci, že neexistuje žádné správné použití dolování dat, jak to může ve skutečnosti vést k překvapení odlehlých hodnot a zajímavých analýz. Nicméně, častěji než ne, bagrování dat se používá k předpokladu existence datových vztahů bez dalšího studia.
Často časy, data rybářských výsledky studií, které jsou velmi medializované vzhledem k jejich důležité nebo bizarní zjištění. Tyto studie jsou velmi brzy v rozporu s dalšími důležitými nebo neobvyklými nálezy. Tyto falešné korelace často nechávají širokou veřejnost velmi zmatenou a hledají odpovědi týkající se významu příčinné souvislosti a korelace.
Navíc, další společné praxi s daty je opomenutí, což znamená, že po pohledu na velká data z odpovědi, můžete pouze vybrat ty, které podporují vaše názory a závěry, a vynechat ty, které v rozporu. Jak bylo uvedeno na začátku tohoto článku, ukázalo se, že třetina vědců připustila, že mají pochybné výzkumné postupy, včetně zadržování analytických podrobností a úpravy výsledků…! Ale na druhou stranu čelíme studii, která by sama mohla spadat do těchto 33% pochybných praktik, chybných průzkumů veřejného mínění, selektivní zaujatosti… Je těžké uvěřit jakékoli analýze!
- Zavádějící vizualizace dat
Bystrý grafy a tabulky obsahují velmi základní, ale zásadní, seskupování prvků. Cokoliv typy dat vizualizace se rozhodnete použít, musí sdělit:
– váhy používané – počáteční hodnoty (nula nebo jinak)- metoda výpočtu (např. datové a časové období),
Chybí tyto prvky, vizuální reprezentace dat by měly být vnímány s rezervou, s ohledem na společnou vizualizaci dat chyby, které lze udělat. Rovněž by měly být identifikovány přechodné datové body a měly by být uvedeny souvislosti, pokud by to přidalo hodnotu předloženým informacím. S rostoucí závislostí na inteligentní automatizaci řešení pro porovnávání proměnných datových bodů by měly být před porovnáním dat z různých zdrojů, datových sad, časů a míst implementovány osvědčené postupy (tj.
- Účelné a selektivní zkreslení
poslední z našich nejčastějších případů zneužití statistik a zavádějící údaje, je snad nejvážnější. Účelná zaujatost je záměrný pokus ovlivnit zjištění dat, aniž by předstíral profesionální odpovědnost. Zkreslení má s největší pravděpodobností podobu opomenutí nebo úprav dat.
selektivní zkreslení je o něco diskrétnější, pro koho nečte malé řádky. Obvykle spadá na vzorek dotazovaných lidí. Například, povaha skupiny dotazovaných lidí: žádám o třídu student o právní pití věku, nebo skupina lidí v důchodu, o péči o seniory systému. Skončíte se statistickou chybou nazvanou „selektivní zkreslení“.
- Pomocí procentní změna v kombinaci s malou velikostí vzorku
Další způsob, jak vytvořit zavádějící statistiky, rovněž souvisí s výběrem vzorku je uvedeno výše, je velikost říkal vzorku. Když experiment, nebo průzkum je veden na ne zcela významné, velikost vzorku, bude nejen výsledky nepoužitelný, ale způsob jejich prezentace – tj. jako procenta – bude zcela zavádějící.
zeptal na velikost vzorku 20 lidí, kde 19 odpověď „ano“ (=95% tvrdí, že ano), proti se ptát na stejnou otázku na 1000 lidí a 950 odpověď „ano“ (=95%): platnost procento je zjevně není to samé. Poskytnutí pouze procenta změny bez celkového počtu nebo velikosti vzorku bude zcela zavádějící. komiks xkdc to ilustruje velmi dobře, ukázat, jak je“ nejrychleji rostoucí “ tvrzení zcela relativní marketingovou řečí:
Podobně, potřebné velikosti vzorku je ovlivněna takovou otázku si položit, statistická významnost potřebujete (klinické studie vs podnikání, studia), a statistické techniky. Pokud provádíte kvantitativní analýzu, velikost vzorku pod 200 osob je obvykle neplatná.
Zavádějící Statistiky Příklady V Reálném Životě
Nyní, že prověřili jsme některé z nejvíce commons metody zneužitím dat, pojďme se podívat na různé digitálním věku příklady zavádějící statistiky přes tři rozdílné, ale související, spektra: média a politika, reklama a vědy. Zatímco některá zde uvedená témata pravděpodobně vyvolávají emoce v závislosti na úhlu pohledu, jejich zahrnutí je pouze pro účely demonstrace dat.
- Příklady zavádějící statistiky v médiích a politice
Zavádějící statistiky v médiích, jsou poměrně časté. Září. 29, 2015, republikáni z amerického Kongresu zpochybnili Cecile Richardsovou, prezidentku plánovaného rodičovství, ohledně zneužití 500 milionů dolarů v ročním federálním financování. Výše uvedený graf / graf byl prezentován jako bod důrazu.
Zástupce Jason Chaffetz Utah vysvětlil: „V růžové, to je snížení v prsu zkoušky, a červená je nárůst potratů. To se děje ve vaší organizaci.“
Založené na struktuře grafu, se ve skutečnosti ukazují na to, že počet potratů od roku 2006 zaznamenala značný růst, zatímco počet rakoviny projekce podstatně snížil. Záměrem je zprostředkovat posun zaměření od screeningu rakoviny k potratům. Na grafu body se zdají naznačovat, že 327,000 potraty jsou větší vnitřní hodnotou, než 935,573 rakoviny projekce. Bližší zkoumání však odhalí, že graf nemá definovanou osu y. To znamená, že neexistuje definovatelné odůvodnění pro umístění viditelných měřicích čar.
Politifact, web pro ověřování faktů, přezkoumal čísla Rep. Chaffetze porovnáním s vlastními výročními zprávami plánovaného rodičovství. Pomocí jasně definovaného rozsahu, tady je to, co informace, které vypadá takto:
A jako je to s další platné stupnice:
Jednou umístěny v jasně definovaném rozsahu, je zřejmé, že zatímco počet rakoviny projekce se ve skutečnosti snížil, je stále daleko převyšuje množství potratů postupy provádí každoročně. Jako takový, to je skvělá zavádějící statistiky příklad, a někteří mohli tvrdit, zaujatost vzhledem k tomu, že graf vznikl nikoli z Kongresman, ale od Američanů Spojených pro Život, anti-potratové skupiny. To je jen jeden z mnoha příkladů zavádějících statistik v médiích a politice.
- Zavádějící statistiky v reklamě
V roce 2007, Colgate bylo nařízeno Reklama Standards Authority (ASA) ve velké BRITÁNII opustit své tvrzení: „Více než 80% zubní Lékaři doporučují Colgate.“Dotyčný slogan byl umístěn na reklamním billboardu ve Velké Británii a byl považován za porušující pravidla reklamy ve Velké Británii.
Je nárok, který byl na základě průzkumů zubních lékařů a hygieniků, které výrobce provedl, bylo zjištěno, že za klamavý, jelikož umožňuje účastníkům vybrat jednu nebo více zubní pastu značky. ASA uvedla, že tvrzení „… by čtenáři chápali tak, že 80 procent zubních lékařů doporučuje Colgate nad ostatními značkami a zbývajících 20 procent by doporučilo různé značky.“
ASA pokračoval, „Protože jsme pochopili, že jiná konkurenční značka byla doporučena téměř stejně jako Colgate značka zubních lékařů dotazovaných, jsme dospěli k závěru, že tvrzení mylně předpokládané 80 procent zubaři doporučujeme zubní pastu Colgate, na úkor všech ostatních značek.“ASA také tvrdila, že skripty použité pro průzkum informovaly účastníky, že výzkum provádí nezávislá výzkumná společnost, která byla ze své podstaty nepravdivá.
na základě technik zneužití, které jsme pokryli, lze s jistotou říci, že tato technika sleight off-hand od Colgate je jasným příkladem zavádějících statistik v reklamě a spadá pod chybné hlasování a přímé zaujatosti.
- Zavádějící statistiky v oblasti vědy
stejně jako potrat, globální oteplování je další politicky nabité téma, které je pravděpodobné, že vzbudit emoce. Shodou okolností se také jedná o téma, které prostřednictvím studií intenzivně podporují jak odpůrci, tak zastánci. Podívejme se na některé důkazy pro a proti.
obecně se shoduje, že globální průměrná teplota v roce 1998 byla 58,3 stupně Fahrenheita. Vyplývá to z Goddardova institutu pro kosmická studia NASA. V roce 2012 byla globální průměrná teplota naměřena na 58,2 stupně. Odpůrci globálního oteplování proto tvrdí, že vzhledem k tomu, že během 14 let došlo ke snížení průměrné globální teploty o 0,1 stupně, je globální oteplování vyvráceno.
níže uvedený graf je ten, na který se nejčastěji odkazuje, aby vyvrátil globální oteplování. Ukazuje změnu teploty vzduchu (Celsia) od roku 1998 do roku 2012.
stojí za zmínku, že v roce 1998 byl jedním z nejteplejších let v záznamech vzhledem k mimořádně silné El Niño větru proud. Je také třeba poznamenat, že vzhledem k tomu, že v klimatickém systému existuje velká míra variability, jsou teploty obvykle měřeny nejméně 30letým cyklem. Níže uvedený graf vyjadřuje 30letou změnu globálních průměrných teplot.
nyní se podívat na trend od roku 1900 do roku 2012:
Zatímco dlouhodobé údaje se mohou objevit odrážet plošině, to jasně maluje obraz postupné oteplování. Proto je použití prvního grafu a pouze prvního grafu k vyvrácení globálního oteplování dokonalým zavádějícím statistickým příkladem.
Jak Číst Statistiky Se Vzdáleností
první věc, kterou by bylo samozřejmě, aby stát v přední poctivý průzkum/experiment/výzkum – vybrat ten, který máte pod očima –, že použil správné techniky sběru a interpretace dat. Ale nemůžete to vědět, dokud si nepoložíte pár otázek a neanalyzujete výsledky, které máte mezi rukama.
jak v článku radí podnikatel a bývalý konzultant Mark Suster, měli byste se divit, kdo provedl primární výzkum uvedené analýzy. Nezávislá univerzitní studijní skupina, výzkumný tým přidružený k laboratoři, poradenská společnost? Odtud přirozeně pramení otázka: kdo je zaplatil? Protože nikdo nepracuje zdarma, je vždy zajímavé vědět, kdo sponzoruje výzkum. Podobně, jaké jsou motivy výzkumu? Co se vědec nebo statistici pokusili zjistit? Nakonec, jak velký byl vzorek a kdo byl jeho součástí? Jak to bylo inkluzivní?
toto jsou důležité otázky k zamyšlení a odpovědět dříve, než se šíří všude zkreslené nebo neobjektivní výsledky – i když se to stane, protože zesílení. Typickým příkladem zesílení se často stávají Noviny a novináři, kteří berou jeden kus dat a potřebují je proměnit v titulky-tedy často mimo původní kontext. Nikdo nekupuje časopis, kde se uvádí, že příští rok se na trhu XYZ stane totéž jako letos-i když je to pravda. Redaktoři, klienti, a lidé chtějí něco nového, ne něco, co vědí; proto často skončíme s fenoménem zesílení, který se ozývá a více, než by měl.
zneužití statistiky-shrnutí
k otázce “ lze statistiku manipulovat?“, můžeme řešit 6 často používaných metod-záměrně nebo ne – které zkreslují analýzu a výsledky. Zde jsou běžné typy zneužití statistik:
- Vadný volební
- Chybné korelace
- rybaření
- Zavádějící vizualizace dat
- Účelné a selektivní zkreslení
- Pomocí procentní změna v kombinaci s malou velikostí vzorku
Nyní, když víte, to bude snazší najít a vyslechnout všechny statistiky, které jsou uvedeny na vás každý den. Stejně tak, abyste si zajistili určitou vzdálenost od studií a průzkumů, které čtete, nezapomeňte na otázky, které byste si měli položit – kdo zkoumal a proč, kdo za to zaplatil, jaký byl vzorek.
Transparentnost a Data-Driven Business Solutions
Zatímco je zcela jasné, že statistické údaje má potenciál být zneužity, to může také eticky řídit tržní hodnota v digitálním světě. Big data má schopnost poskytovat podnikům digitálního věku plán efektivity a transparentnosti, a nakonec, ziskovost. Pokročilá technologická řešení, jako je online reporting software, mohou vylepšit statistické datové modely, a poskytnout podnikům digitálního věku krok za krokem jejich konkurenci.
ať už jde o inteligenci trhu, zkušenosti zákazníků nebo obchodní výkaznictví, budoucnost dat je nyní. Dbejte na to, abyste data aplikovali zodpovědně, eticky a vizuálně, a sledujte, jak vaše transparentní firemní identita roste.