“Há três tipos de mentiras – mentiras, malditas mentiras e estatísticas.”- Benjamin Disraeli
as análises estatísticas têm sido historicamente um stalwart das indústrias de alta tecnologia e de negócios avançados, e hoje eles são mais importantes do que nunca. Com a ascensão da tecnologia avançada e operações globalizadas, análises estatísticas permitem às empresas uma visão para resolver as incertezas extremas do mercado. Os estudos incentivam a tomada de decisões com conhecimento de causa, julgamentos sólidos e ações realizadas sobre o peso da evidência, e não suposições.
como as empresas são muitas vezes forçadas a seguir um roteiro de mercado difícil de interpretar, métodos estatísticos podem ajudar com o planejamento que é necessário para navegar uma paisagem cheia de buracos, armadilhas e concorrência hostil. Estudos estatísticos também podem ajudar na comercialização de bens ou serviços, e na compreensão de cada mercado-alvo fatores de valor únicos. Na era digital, essas capacidades só são mais aperfeiçoadas e aproveitadas através da implementação de tecnologia avançada e software de inteligência de negócios. Se tudo isto é verdade, qual é o problema das estatísticas?
na verdade, não há problema per se-mas pode haver. As Estatísticas são infames pela sua capacidade e potencial de existirem como dados enganosos e maus.
Estatísticas enganosas são simplesmente a má utilização – intencional ou não – de um dado numérico. Os resultados fornecem uma informação enganosa para o receptor, que então acredita em algo errado se ele ou ela não notar o erro ou o não tem a imagem completa de dados.
dada a importância dos dados no mundo digital em rápida evolução de hoje, é importante estar familiarizado com os conceitos básicos de estatísticas enganosas e supervisão. Como um exercício de diligência, vamos rever algumas das formas mais comuns de abuso de estatísticas, e vários alarmantes (e, infelizmente, comuns) estatísticas enganosas da vida pública.as Estatísticas são fiáveis?
73,6% das Estatísticas são falsas. Sério? Não, é claro que é um número inventado (mesmo que tal estudo seria interessante de saber – mas novamente, poderia ter todas as falhas que tenta ao mesmo tempo apontar). A fiabilidade estatística é crucial para garantir a precisão e a validade da análise. Para ter certeza de que a confiabilidade é alta, Existem várias técnicas para realizar-primeiro dos quais são os testes de controle, que devem ter resultados semelhantes ao reproduzir um experimento em condições semelhantes. Essas medidas de controle são essenciais e devem fazer parte de qualquer experiência ou pesquisa – infelizmente, isso nem sempre é o caso.
embora os números não mentam, eles podem de fato ser usados para enganar com meias verdades. Isto é conhecido como o ” mau uso das estatísticas.”É muitas vezes assumido que o uso indevido das estatísticas é limitado a indivíduos ou empresas que procuram obter lucro com a distorção da verdade, seja economia, educação ou mídia de massa.
no entanto, a narração de meias verdades através do estudo não se limita apenas aos amadores matemáticos. Um 2009 de investigação pesquisa por Dr. Daniele Fanelli da Universidade de Edimburgo descobriram que 33.7% dos cientistas pesquisados admitiu questionáveis práticas de pesquisa, incluindo a modificação de resultados para melhorar os resultados, dados subjetivos de interpretação, a retenção analítica detalhes e soltando observações devido a sentimentos de intestino…. Cientistas!
embora os números nem sempre tenham que ser fabricados ou enganosos, é claro que mesmo as sociedades mais confiáveis porteiros numéricos não são imunes à falta de cuidado e viés que podem surgir com processos de interpretação estatística. Existem diferentes formas de as estatísticas poderem induzir em erro que iremos detalhar mais tarde. O mais comum é, naturalmente, correlação versus causação, que sempre deixa de fora outro (ou dois ou três) fator que são a causa real do problema. Beber chá aumenta a diabetes em 50%, e calvície aumenta o risco de doença cardiovascular até 70%! Esquecemo – nos de mencionar a quantidade de açúcar colocado no chá, ou o fato de que calvície e velhice estão relacionados-assim como riscos de doenças cardiovasculares e velhice?
assim, as estatísticas podem ser manipuladas? Claro que podem. Os números mentem? Podes ser o juiz.
Como a Estatística Pode Ser Enganosa
Lembre-se, o uso indevido das estatísticas pode ser acidental ou proposital. Enquanto uma intenção maliciosa de confundir as linhas com estatísticas enganosas certamente irá aumentar o viés, a intenção não é necessária para criar mal-entendidos. O mau uso das estatísticas é um problema muito mais amplo que agora permeia através de múltiplas indústrias e campos de estudo. Aqui estão alguns percalços potenciais que geralmente levam ao mau uso:
- sondagens incorrectas
a forma como as perguntas são formuladas pode ter um enorme impacto na forma como o público as responde. Os padrões de redacção específicos têm um efeito persuasivo e induzem os inquiridos a responder de forma previsível. Por exemplo, em uma pesquisa buscando opiniões fiscais, vamos olhar para as duas perguntas potenciais:
– você acredita que você deve ser tributado para que outros cidadãos não tenham que trabalhar?- Acha que o governo deve ajudar as pessoas que não conseguem encontrar trabalho?
estas duas perguntas são susceptíveis de provocar respostas muito diferentes, apesar de lidarem com o mesmo tema de assistência governamental. Estes são exemplos de ” perguntas carregadas.”
a more accurate way of wording the question would be, ” Do you support government’s assistance programs for unemployment?”ou, (ainda mais Neutral)” Qual é o seu ponto de vista sobre a assistência ao desemprego?”
os dois últimos exemplos das perguntas originais eliminam qualquer inferência ou sugestão do poller, e, portanto, são significativamente mais imparciais. Outro método injusto de votação é fazer uma pergunta, mas precedê-la com uma declaração condicional ou uma declaração de fato. Mantendo-se com nosso exemplo, que seria assim: “dado o aumento dos custos para a classe média, você apoia programas de assistência do governo?”
uma boa regra é sempre fazer sondagens com um grão de sal, e tentar rever as questões que foram realmente apresentadas. Eles fornecem uma grande visão, muitas vezes mais do que as respostas.
- Falho correlações
O problema com correlações é este: se você medir o suficiente variáveis, eventualmente, vai parecer que alguns deles se correlacionam. Como um em cada vinte será inevitavelmente considerado significativo sem qualquer correlação direta, os estudos podem ser manipulados (com dados suficientes) para provar uma correlação que não existe ou que não é significativa o suficiente para provar a causa.
Para ilustrar este ponto, vamos supor que um estudo encontrou uma correlação entre o aumento em acidentes de carro no estado de Nova Iorque, no mês de junho (Um), e um aumento nos ataques de urso no estado de Nova Iorque, no mês de junho (B).
isso significa Que provavelmente haverá seis possíveis explicações:
– acidentes de Carro (Um) causar ataques de urso (B)- ataques de Urso (B) causar acidentes de carro (Um)- acidentes de Carro (Um) e ataques de urso (B) parcialmente causar uns aos outros – acidentes de Carro (Um) e ataques de urso (B) são causados por um terceiro factor (C)- ataques de Urso (B) são causados por um terceiro factor (C), que se correlaciona com acidentes de carro (Um)- A correlação é de única chance
Qualquer pessoa sensata poderia facilmente identificar o fato de que acidentes de carro não causa ataques de urso. Cada um é provavelmente um resultado de um terceiro fator, que é: um aumento da população, devido à alta temporada de turismo no mês de junho. Seria absurdo dizer que se causam uns aos outros… e é exatamente por isso que é o nosso exemplo. É fácil ver uma correlação.
mas, e quanto à causa? E se as variáveis medidas fossem diferentes? E se fosse algo mais credível, como Alzheimer e velhice? É evidente que existe uma correlação entre os dois, mas existe uma causa? Muitos presumiriam falsamente, sim, apenas com base na força da correlação. Tenha cuidado, pois conscientemente ou ignorantemente, a caça de correlação continuará a existir dentro dos estudos estatísticos.
este exemplo enganoso de dados é também referido como” dragagem de dados ” (e relacionado com correlações imperfeitas). É uma técnica de mineração de dados onde volumes extremamente grandes de dados são analisados com a finalidade de descobrir relações entre pontos de dados. Procurar uma relação entre dados não é um abuso de dados per se, no entanto, fazê-lo sem uma hipótese é.
dragagem de dados é uma técnica de auto-serviço muitas vezes utilizada para o propósito antiético de contornar as técnicas tradicionais de mineração de dados, a fim de buscar conclusões de dados adicionais que não existem. Isto não quer dizer que não haja um uso adequado da mineração de dados, pois pode, de fato, levar a surpreendentes anómalos e análises interessantes. No entanto, na maioria das vezes, a dragagem de dados é usada para assumir a existência de relações de dados sem mais estudos.
muitas vezes, os resultados da pesca de dados em estudos que são altamente publicitados devido aos seus resultados importantes ou bizarros. Estes estudos são muito em breve contraditos por outros achados importantes ou estranhos. Estas falsas correlações muitas vezes deixam o público em geral muito confuso, e à procura de respostas sobre o significado da causalidade e correlação.
da mesma forma, outra prática comum com dados é a omissão, o que significa que depois de olhar para um grande conjunto de dados de respostas, você só escolhe os que estão apoiando suas opiniões e descobertas e deixar de fora aqueles que o contradizem. Como mencionado no início deste artigo, ficou demonstrado que um terço dos cientistas admitiu que tinham práticas de investigação questionáveis, incluindo a retenção de detalhes analíticos e a alteração de resultados…! Mas, por outro lado, estamos diante de um estudo que, por sua vez, poderia cair nesses 33% de práticas questionáveis, votação defeituosa, viés seletivo… Torna-se difícil acreditar em qualquer análise!
gráficos e gráficos perspicazes incluem um agrupamento de elementos muito básico, mas essencial. Seja qual for o tipo de visualização de dados que você escolher para usar, ele deve transmitir:
– As escalas utilizadas – O valor inicial (zero ou de outra forma)- O método de cálculo (por exemplo, o conjunto de dados e período de tempo)
Ausente um desses elementos, o visual representações de dados devem ser vistos com um grão de sal, tendo em conta os dados comuns de visualização de erros que alguém pode fazer. Os pontos de dados intermédios devem também ser identificados e o contexto deve ser dado se agregar valor à informação apresentada. Com a crescente dependência da automação de soluções inteligentes para comparações de pontos de dados variáveis, as melhores práticas (ou seja, design e escala) devem ser implementadas antes de comparar dados de diferentes fontes, conjuntos de Dados, horas e locais.
o último dos nossos exemplos mais comuns de uso indevido de estatísticas e dados enganosos é, talvez, o mais grave. Viés proposital é a tentativa deliberada de influenciar os resultados dos dados sem sequer fingir responsabilidade profissional. É mais provável que o viés assuma a forma de omissões ou ajustes de dados.
o viés selectivo é ligeiramente mais discreto para quem não lê as pequenas linhas. Geralmente cai na amostra de pessoas pesquisadas. Por exemplo, a natureza do grupo de pessoas inquiridas: perguntar a uma turma de estudantes universitários sobre a idade legal de beber, ou a um grupo de pessoas reformadas sobre o sistema de cuidados de idosos. Você vai acabar com um erro estatístico chamado “viés seletivo”.
- Usando a variação percentual em combinação com um tamanho de amostra pequeno
Outra maneira de criar estatísticas enganosas, também relacionada com a escolha do exemplo discutido acima, é o tamanho da referida amostra. Quando uma experiência ou um inquérito for conduzido com um tamanho de amostra totalmente não significativo, não só os resultados serão inutilizáveis, como a forma de Os apresentar – nomeadamente como percentagens – será totalmente enganadora.
fazendo uma pergunta para um tamanho de amostra de 20 pessoas, onde 19 de resposta “sim” (=95% dizem que sim) versus a mesma pergunta para 1.000 pessoas e 950 resposta “sim” (=95% bem): a validade do percentual é claramente o mesmo. Fornecer apenas a percentagem de variação sem os números totais ou a dimensão da amostra será totalmente enganador. os quadrinhos do xkdc ilustram isso muito bem, para mostrar como a afirmação de “crescimento mais rápido” é um discurso de marketing totalmente relativo:
da Mesma forma, o necessário, o tamanho da amostra é influenciado pelo tipo de pergunta que você pergunte, a significância estatística você precisa (estudo clínico vs negócio de estudo), e a técnica estatística. Se você realizar uma análise quantitativa, tamanhos de amostras inferiores a 200 pessoas são geralmente inválidas.
Estatísticas enganosas exemplos na vida Real
agora que revisamos vários dos métodos mais comuns de uso indevido de dados, vamos olhar para vários exemplos da Idade digital de estatísticas enganosas em três distintos, mas relacionados, espectros: mídia e política, publicidade e ciência. Enquanto certos tópicos listados aqui são susceptíveis de agitar a emoção dependendo do ponto de vista de alguém, sua inclusão é apenas para fins de demonstração de dados.
- Exemplos de editores de estatísticas na mídia e política
Enganosa estatísticas na mídia são bastante comuns. Em Setembro. 29, 2015, Os Republicanos do Congresso dos EUA questionaram Cecile Richards, presidente da Planned Parenthood, sobre o desvio de US $500 milhões em financiamento federal anual. O gráfico/gráfico acima foi apresentado como um ponto de ênfase.Jason Chaffetz do Utah explicou: “em rosa, essa é a redução nos exames de mama, e o vermelho é o aumento nos abortos. É o que se passa na tua organização.”
com base na estrutura do gráfico, ele de fato parece mostrar que o número de abortos desde 2006 experimentou um crescimento substancial, enquanto o número de rastreamentos de câncer diminuiu substancialmente. A intenção é transmitir uma mudança de foco de testes de câncer para o aborto. Os pontos do gráfico parecem indicar que 327.000 abortos são maiores em valor inerente do que 935.573 rastreamentos de câncer. No entanto, um exame mais aprofundado revelará que o gráfico não tem nenhum eixo y definido. Isto significa que não existe uma justificação definível para a colocação das linhas de medição visíveis.
Politifact, a fact checking advocacy website, reviewed Rep. Chaffetz’s numbers via a comparison with Planned Parenthood’s own annual reports. Usando a definição clara de uma escala, é aqui que a informação parece:
E assim, com outra escala válidos:
uma Vez colocado dentro de uma estratégia claramente definida a escala, torna-se evidente que, embora o número de exames de câncer tem, de fato, diminuído, ainda é muito maior do que a quantidade de aborto procedimentos realizados anualmente. Como tal, este é um grande exemplo de estatísticas enganosas, e alguns poderiam argumentar viés considerando que o gráfico se originou não do congressista, mas do Americans United for Life, um grupo anti-aborto. Este é apenas um dos muitos exemplos de estatísticas enganosas nos meios de comunicação social e na política.
- Enganosa estatísticas em publicidade
Em 2007, a Colgate foi encomendado pela Advertising Standards Authority (ASA) do reino UNIDO para abandonar o seu pedido: “Mais de 80% dos Dentistas recomendam Colgate. O slogan em questão foi posicionado em um cartaz publicitário no Reino Unido, e foi considerado uma violação das regras de publicidade no Reino Unido.
a alegação, que foi baseada em pesquisas de dentistas e higienistas realizadas pelo fabricante, foi considerada deturpada, uma vez que permitiu aos participantes selecionar uma ou mais marcas de pasta de dentes. O ASA afirmou que a alegação ” … seria entendida pelos leitores como significando que 80 por cento dos dentistas recomendam Colgate para além de outras marcas, e os restantes 20 por cento recomendariam marcas diferentes.”
O ASA continuou, “Porque nós entendemos que a outra concorrente da marca foi recomendado, quase tanto como a Colgate, a marca pelos dentistas pesquisados, conclui-se que a alegação de promover implícitas de 80 por cento dos dentistas recomendam Colgate pasta de dentes, de preferência a todas as outras marcas.”O ASA também alegou que os scripts utilizados para a pesquisa informou os participantes que a pesquisa estava sendo realizada por uma empresa de pesquisa independente, que era inerentemente falsa.
com base nas técnicas de mau uso que cobrimos, é seguro dizer que esta técnica ilusória off-hand pela Colgate é um exemplo claro de estatísticas enganosas na publicidade, e cairia sob votação defeituosa e viés direto.
- Enganosa estatísticas em ciência
Muito como o aborto, o aquecimento global é outro político de tópico que é susceptível de despertar emoções. Acontece também ser um tópico que é vigorosamente endossado por adversários e proponentes através de estudos. Vamos ver algumas das provas a favor e contra.
é geralmente acordado que a temperatura média global em 1998 foi de 58,3 graus Fahrenheit. Isto é de acordo com o Goddard Institute for Space Studies da NASA. Em 2012, a temperatura média global foi medida em 58,2 graus. É, portanto, argumentado por adversários do aquecimento global que, como houve uma diminuição de 0,1 grau na temperatura média global ao longo de um período de 14 anos, o aquecimento global é refutado.
O gráfico abaixo é o mais frequentemente referenciado para refutar o aquecimento global. Ele demonstra a mudança na temperatura do ar (Celsius) de 1998 a 2012.
vale a pena mencionar que 1998 foi um dos anos mais quentes em registro devido a uma corrente de vento El Niño anormalmente forte. Também vale a pena notar que, como há um grande grau de variabilidade dentro do sistema climático, as temperaturas são tipicamente medidas com pelo menos um ciclo de 30 anos. A tabela abaixo expressa a mudança de 30 anos nas temperaturas médias globais.
E agora ter um olhar para a tendência, de 1900 a 2012:
Enquanto, a longo prazo, podem aparecer dados para refletir um platô, claramente, pinta um quadro de aquecimento progressivo. Portanto, usar o primeiro gráfico, e apenas o primeiro gráfico, para refutar o aquecimento global é um exemplo perfeito de estatísticas enganosas.
como ler estatísticas com distância
uma primeira coisa boa seria, naturalmente, estar na frente de uma pesquisa honesta/experimento/pesquisa – escolher a que você tem sob seus olhos–, que tem aplicado as técnicas corretas de coleta e interpretação de dados. Mas você não pode saber até que você faça a si mesmo algumas perguntas e analise os resultados que você tem entre as suas mãos.
Como empresário e ex-consultor Mark Suster aconselha em um artigo, você deve se perguntar quem fez a pesquisa primária da referida análise. Grupo de estudo universitário independente, equipa de pesquisa afiliada ao laboratório, empresa de consultoria? Daí decorre, naturalmente, a pergunta: Quem lhes pagou? Como ninguém trabalha de graça, é sempre interessante saber quem patrocina a pesquisa. Da mesma forma, Quais são os motivos por trás da pesquisa? O que é que o cientista ou estatísticos tentaram descobrir? Finalmente, qual era o tamanho da amostra e quem fazia parte dela? Até que ponto foi inclusivo?
estas são questões importantes a ponderar e responder antes de espalhar por toda a parte resultados distorcidos ou tendenciosos – mesmo que isso aconteça o tempo todo, por causa da amplificação. Um exemplo típico de amplificação acontece muitas vezes com jornais e jornalistas, que pegam um pedaço de dados e precisam transformá – lo em manchetes-portanto, muitas vezes fora de seu contexto original. Ninguém compra uma revista onde se afirma que no próximo ano, vai acontecer o mesmo no mercado XYZ que este ano – embora seja verdade. Editores, clientes e pessoas querem algo novo, não algo que eles sabem; é por isso que muitas vezes acabamos com um fenômeno de amplificação que se ecoa e mais do que deveria.
mau uso das estatísticas – um resumo
para a questão “as estatísticas podem ser manipuladas?”, podemos abordar 6 métodos frequentemente utilizados – de propósito ou não-que distorcem a análise e os resultados. Aqui estão os tipos comuns de uso indevido de estatísticas:
- Defeito de sondagem
- Falho correlações
- Dados de pesca
- Enganosa de visualização de dados
- Proposital e seletiva viés
- Usando a variação percentual em combinação com um tamanho de amostra pequeno
Agora que você conhece-los, será mais fácil identificá-los e questionar todas as estatísticas que são dadas a você todos os dias. Da mesma forma, para garantir que você mantenha uma certa distância dos estudos e pesquisas que lê, lembre – se das perguntas a se perguntar-quem pesquisou e por que, quem pagou por ele, qual foi a amostra.
Transparency and Data-Driven Business Solutions
embora seja bastante claro que os dados estatísticos têm o potencial de ser mal utilizados, também podem conduzir eticamente o valor de mercado no mundo digital. Os grandes dados têm a capacidade de fornecer às empresas da era digital um roteiro para a eficiência e transparência e, eventualmente, rentabilidade. Soluções de tecnologia avançada como o software de relatórios on-line podem melhorar os modelos de dados estatísticos, e fornecer às empresas da era digital um passo em frente na sua concorrência.
seja para informações de mercado, experiência do cliente ou relatórios de negócios, o futuro dos dados é agora. Tenha o cuidado de aplicar os dados de forma responsável, ética e visualmente, e veja sua identidade corporativa transparente crescer.