A frase “não houve diferença estatística significativa” soa quase como uma sentença de morte para muitos alunos de graduação, pós-graduação e até mesmo para alguns pesquisadores.
Como assim “não houve diferença estatística significativa”? Eu fiz tudo certinho: calculei o tamanho da amostra de forma correta, tive cuidado na implantação do experimento, tive cuidado na coleta de dados, escolhi os teste estatísticos adequados e agora todo o meu trabalho não servirá para nada? Os resultados que encontrei não têm valor?
Calma, não é bem assim! Se você tiver paciência (e fôlego) para ler este texto até o fim, perceberá o quanto é equivocada essa ditadura do “p-significativo” que rege a pesquisa científica atualmente.
1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?
Antes de embarcarmos na discussão sobre “diferença estatística significativa”, é preciso relembrar primeiro por que precisamos utilizar a análise estatística em uma pesquisa científica.
Milhares de trabalhos científicos são publicados anualmente em centenas de periódicos, e a esmagadora maioria, tanto em estudos destinados à ciência básica, quanto naqueles de pesquisa aplicada, utiliza a estatística para referendar suas conclusões.
Em qualquer pesquisa científica, o procedimento geral é o de formular hipóteses e verificá-las, diretamente, ou por meio de suas consequências (Vianna, 2001). E o que nos obriga a utilizar a análise estatística para testar hipóteses formuladas é a presença, em todas as observações ou dados, de efeitos de fatores não controlados, que podem causar variação em nossos dados tanto quanto o efeito dos tratamentos que são objeto de estudo (Pinto e Schwaab, 2011).
Em um mundinho científico perfeito, o cientista conseguiria controlar todos os fatores que não estão sendo estudados e a única variação de dados na pesquisa seria referente ao efeito ou ao fenômeno estudado.
Mas, na prática, um cientista da área médica não consegue controlar totalmente os fatores genéticos, os hábitos alimentares, a rotina de trabalho e a rotina de exercícios de todos os indivíduos do teste. Da mesma forma, um cientista da área de Agronomia não consegue controlar fatores como clima, solo, ataque de pragas, incidência de doenças, competição com plantas daninhas.
Portanto, quem recorre à estatística como ferramenta de tomada de decisão se depara, antes mesmo de calcular qualquer medida ou teste estatístico, ou ainda no processo de ensino aprendizagem da disciplina de investigação, com o conceito de erro (Martins e Domingues, 2014).
Desta forma, os testes de hipóteses ou testes de significância nos permitem decidir se rejeitamos ou não uma determinada hipótese estatística, com o menor risco possível de se cometer um erro (Moore e Fligner, 2014).
2. O valor de p e a diferença estatística significativa
Quando encontramos diferença estatística significativa entre grupos ou entre tratamentos, inferimos que essas diferenças não devem ser atribuídas ao acaso (ou ao erro, ou aos fatores não controlados), mas sim aos efeitos maiores de alguns dos grupos ou dos tratamentos (Rumsey, 2009).
Assim, ao realizar um experimento, o cientista formula uma hipótese nula (H0), também chamada de hipótese da nulidade, em que não existe diferença entre os efeitos estudados, que será posta à prova. Os dados observados e a análise estatística serão utilizados para tomar a decisão de rejeitar (assumindo que seja falsa) ou não rejeitar (assumindo que seja verdadeira) essa hipótese nula (Schwaab, 2007).
Admitindo-se inicialmente que a hipótese da nulidade seja verdadeira, se verificarmos que os resultados obtidos em uma amostra diferem acentuadamente dos resultados esperados para essa hipótese podemos concluir, com base na teoria das probabilidades, que as diferenças são significativas e, portanto, rejeitamos a hipótese de nulidade em favor de uma outra, denominada hipótese alternativa (H1) ou (Ha) (Vieira, 2011).
Este processo é semelhante à presunção de inocência do direito penal. Até prova em contrário, o réu é inocente; face às provas, o juiz ou jurados decidem: culpado ou não culpado. Em analogia com os testes de hipóteses, a hipótese nula é verdadeira até que uma evidência suficientemente forte indique que essa afirmação é incorreta, com uma baixa probabilidade de erro.
Essa probabilidade de erro é o valor de p. Para Sir Ronald Aylmer Fisher, quanto menor fosse o valor de p, maior seria a probabilidade de que a hipótese nula, aquela em que não existe diferença entre os grupos ou entre os tratamento, fosse falsa.
A ironia é que quando Fisher apresentou o valor de p na década de 1920, ele não quis dizer que o valor de p seria um teste definitivo. O valor de p era visto por Fischer apenas como uma maneira informal para julgar se determinada evidência era digna de um segundo olhar. Ou seja, o valor de p não foi concebido para ser utilizado da maneira como é utilizado hoje!
Quando se conclui que uma diferença não é estatisticamente significativa, isso não indica propriamente que as médias sejam iguais, ou que não exista um efeito substantivo. Indica apenas que não houve evidência suficientemente forte para provar que a hipótese nula era falsa (Rumsey, 2009).
3. Diferença significativa ou diferença estatística significativa
Entre as consequências desta busca insana pelo p < 0,05 está a tendência em desviar a atenção do tamanho real de um efeito. Algumas diferenças podem ser significativas segundo a estatística, mas irrelevantes na prática. E vice-versa.
Em 2013, por exemplo, um estudo com mais de 19 mil pessoas concluiu que os casais dos Estados Unidos que tiveram seu primeiro encontro online eram menos propensos ao divórcio (p < 0,002) e mais propensos a ter uma alta satisfação conjugal (p < 0,001) do que aqueles que tiveram seu primeiro encontro pessoalmente.
Isso poderia soar impressionante, se os efeitos observados não fossem minúsculos: os encontros online mudaram a taxa de divórcio de 7,67 para 5,96%, enquanto a satisfação conjugal se moveu de 5,48 para 5,64, em uma escala de zero a sete.
Em alguns artigos científicos (principalmente de língua inglesa), por economia de espaço ou por outro motivo qualquer, os autores omitem o termo “estatística” e escrevem apenas que “não houve diferença entre os grupos” ou “não houve diferença significativa entre os grupos”. Em estudos com medicamentos, por exemplo, é possível que diferentes tratamentos não possuam diferença estatística significativa entre si, mas a morte de um paciente em um dos tratamentos seria altamente significativa do ponto de vista clínico, por motivos óbvios (Moore e Fligner, 2014).
4. A ditadura da diferença estatística significativa
Considerando que os valores de significância tenham erroneamente se revestido de tamanha autoridade científica, temos presenciado um viés que privilegia apenas a publicação de artigos que encontrem diferença estatística significativa, como se os estudos que não encontrassem tais diferenças não tivessem aplicabilidade ou pudessem despertar interesse!
Se com nossa pesquisa não conseguimos descobrir qual é a explicação para um determinado fenômeno, ao menos descobrimos qual explicação NÃO é. Isso é importante, pois resultados negativos também são resultados, tão válidos quanto os positivos, e sua publicação evita a duplicação de esforços, ou seja, cientistas da mesma área não irão tentar os mesmos experimentos (Vianna, 2001).
Além disso, a publicação deste tipo de artigo abre espaço para a discussão sobre os motivos pelos quais os experimentos não tiveram os resultados esperados. O resultado é o mesmo: economia de tempo e de recursos.
Uma prova de que essa percepção é importante é o surgimento de revistas como o Journal of Negative Results in Biomedicine, o Journal of Negative Results – Ecology and Evolutionary Biology, o Journal of Pharmaceutical Negative Results, o Journal of Interesting Negative Results, entre outros, que publicam apenas pesquisas de refutação de hipóteses.
Outro periódico, o Journal of Errology, publicou durante anos apenas os resultados de pesquisas que NÃO deram certo, como protocolos que não funcionaram como deveriam ou então erros que invalidaram a pesquisa. Esse periódico possuía um sistema de revisão aberto, feito por meio de discussões online.
Entretanto, em alguns casos, não encontrar diferença estatística significativa é tão relevante quanto encontrá-la. Este pesquisador, por exemplo, estudou adubos verdes (leguminosas) e adubos industrializados (ureia) em lavouras de milho e observou que quando o milho era cultivado após a ervilhaca-peluda (uma leguminosa utilizada como adubo verde) não havia diferença estatística significativa entre as doses de ureia utilizadas no cultivo de milho.
Olha só que bacana: todo o nitrogênio de que a planta de milho necessita foi suprido pelo adubo verde (ervilhaca-peluda), de modo que qualquer dose de ureia aplicada não afetava a produtividade das plantas de milho. Uma baita economia para o agricultor, se levarmos em conta o custo dos fertilizantes industrializados.
Portanto, ao se deparar com o “não houve diferença estatística significativa”, ao invés de ficar #chateado e ir “xingar muito no Twitter”, procure entender:
1. Que o valor de p e a tal diferença estatística significativa não são essa Coca-Cola toda.
O valor de p não é um teste definitivo. Leve em consideração a magnitude do efeito, os intervalos de confiança, o tamanho da amostra, e o poder do teste estatístico utilizado.
2. Quais foram os motivos/causas que levaram a não encontrar diferença estatística significativa.
Foi um problema com o número de amostras? Foi um problema com o método de coleta de dados? Houve influência de fatores não controlados conhecidos? A análise estatística é a adequada? Ou, caso não encontre um dos problemas anteriores, como posso explicar esse resultado? O que ocasionou esse resultado?
3. Se esse resultado possui aplicação prática.
Partindo do pressuposto que o efeito esperado realmente não aconteceu, o que isso significa? Quais são as implicações práticas deste resultado?
4. Se esse resultado indica em qual direção seguir.
Já que esse efeito/fenômeno não pode ser observado dessa forma, de qual forma seria possível? Como fazer para conseguir resolver esse problema?
Afinal, se você faz Ciência e não está cometendo erros, então provavelmente você não está fazendo isso certo!
Agora eh deixar o seu currículo na Subway
Tem vagas em todo Brasil.
Leram meu pensamento! Haha!
Isso tb é resultado…
No meu caso avaliei duas técnicas e deu isso. Ai na conclusão parti pro lado do custo de cada técnica e uma se tornou mais viável por questões financeiras…
Cuidado Jaqueline, existe um desenho específico para estudos de não inferioridade( se aceita que a nova técnica seja um pouco pior que a tradicional) simplesmente por oferecer uma vantagem prática ou financeira em comparada com a técnica tradicional. Uma outra questão é que seu estudo pode estar sofrendo do erro do tipo II ( não ter poder estatístico para detectar uma diferença que realmente existe).
Sente e chora ou aumenta o N rs
Resultado negativo é tão importante quanto o positivo.
Leiam
Enfim uma boa resposta..
Ufa.
Concordo, mas n são “atrativos” p publicação (segundo as revistas e pareceristas).
Ou: torture os dados até que eles confessem o resultado desejado!
Boa kkkk
refaz o experimento …
Excelente texto!
Além de ser muito didático, traz à tona uma discussão muito importante: o uso equivocado das análises estatísticas.
O meio acadêmico é repleto de “achismos” e de pesquisadores que entendem muito da sua área de domínio, mas pouco de estatística.
A gente ainda encontra por aí pesquisadores que fazem determinadas análises estatísticas porque “todo mundo faz assim” (como se porque todo mundo faz errado, não há problema em fazer também); porque “eu acho que fica melhor desse jeito” (como se a opinião pessoal fosse mais importante que os requisitos e pressupostos dos testes); ou porque “eu sempre fiz assim” (prefiro nem comentar essa).
Esse texto é quase um serviço de utilidade pública (acadêmica).
Eu sinto uma vergonha alheia quando leio em um artigo que “apesar dos resultados não apresentarem diferença estatística significativa, o tratamento I foi 5% superior ao tratamento II”.
Ora, se não houve diferença estatística significativa, então não houve, e ponto final. Esses 5% de diferença aí provavelmente são efeitos do acaso amostral ou do erro experimental.
Ao invés de tentar entender as limitações do valor de p ou de tentar explicar o fenômeno observado e a ausência de diferença estatística significativa, o cidadão tenta fazer “na marra” uma diferença entre os tratamentos.
Se não vai aceitar os resultados da análise estatística, então nem os apresente.
Isso quando o cara não começa a tirar e/ou manipular os dados para que fique significativo.
Nesse caso a gente não fica nem sabendo…
Isso de colocar a diferença em porcentagem, em certos momentos torna-se muito prático. Muitas empresas por exemplo, não colocam suas expectativas em diferenças estatísticas. Quando se trata de produtividade, 1% de diferença que seja é um BAITA resultado, que pode significar em perda ou ganho em dinheiro para um produtor por exemplo. Acho que falta praticidade em muitos trabalhos por aí…
Gabrielly, leia com atenção o tópico “1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?”
Quando não existe diferença significativa, esse 1% que você diz que é um “baita resultado” pode ter ocorrido devido ao acaso ou ao erro experimental, e NÃO devido aos efeitos que você estava estudando. Se você repetir o experimento, provavelmente não irá obter novamente esse 1% de diferença.
Nesse caso, discutir essa diferença em função dos seus tratamentos é correr um grande risco de discutir algo que, na prática, simplesmente não existe.
E ao recomendar algo com base em um efeito que não existe, você corre um grande risco de fazer com que o produtor que você citou perca dinheiro.
Vale a pena correr esse risco?
Agora, se houve diferença significativa, você pode discutir esse 1% como sendo um “baita resultado”, com uma probabilidade de erro muito menor.
Gabrielly, como você falou em “produtor” e em “produtividade“, acredito que você também trabalhe na área de Ciências Agrárias.
Nessa área existe uma grande quantidade de produtos e tecnologias que no campo não correspondem aos resultados divulgados pelas empresas.
E isso ocorre justamente porque algumas empresas deste ramo realizam “experimentos” sem repetições, sem casualização, sem cuidado com o método científico e não “colocam suas expectativas em diferenças estatísticas“, porque o objetivo é apenas gerar dados para o marketing.
Entretanto, na minha opinião, as empresas da área agrícola deveriam ser justamente as que mais “colocam suas expectativas em diferenças estatísticas“, pois o controle sobre as condições do experimento é muito precário, podendo ocorrer variações genéticas, edáficas, climáticas, de manejo, fitossanitárias, etc.
Não por acaso uma boa parte dos testes estatísticos que utilizamos hoje foram criados justamente para experimentos em Ciências Agrárias.
Afinal, quanto maior o risco de erro, mais importante se torna a análise estatística para a tomada de decisões.
E enquanto o pessoal de Ciências Agrárias continuar a “não colocar suas expectativas em diferenças estatísticas” e a considerar “1% de difença como um baita resultado” quando não existe diferença estatística significativa, os produtores vão continuar sofrendo com esses produtos e tecnologias que são maravilhosos no panfleto da empresa, mas que patinam no campo.
Concordo com a Gabriela, creio que você precise estudar com muito empenho os conceitos descritos no item “Por que mesmo você precisa utilizar a análise estatística em sua pesquisa?“
Gabrielly, leia com atenção o tópico “1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?” [3]
É só escrever no final que ainda são necessários mais estudos! xD
Bola pra frente! Dependendo da hipótese levantada e da teoria que sustenta, pode ser um resultado!
Adiciona ou remove variáveis até ficar significativo ?
Aumenta o tamanho da amostra que uma hora vai ser “significativo”. Se não puder fazer isso, use pseudorréplicas. Simples.
Que jeito interessante de fazer ciência
Hahahaha
Cada um heim
é bem assim!
Não há razão para desespero! Modéstia à parte, entendo razoavelmente bem da famigerada bioestatística , e faço uso rotineiro de testes paramétricos e não paramétricos. Fato eh que uma diferença ” estatisticamente significante” pode não ser ” clinicamente importante”; visto que aquela variável investigafa naquele seu projeto/ estudo não eh a única que interfere no resultado final. A importância em termos biológicos não deve ser julgada somente pela estatística. Ter profundo conhecimento da variável investigada e da dimensão na qual ela está envolvida, irá contribuir imensamente na interpretação dos dados.
É mais que um mero resultado…
-Orientadora: analise corretamente as variáveis!
-Eu: Mass doutora? Ahh entendi ..
-orientadora: Olha a deadline
:/
Que texto top! E não sabia sobre estas revistas que publicam resultados negativos.
Isso tb é um resultado! E vale a pena ser divulgada!!!!
O mais bacana é que o texto não tem aquela arrogância recorrente de que “só um estatístico ou um especialista na área de análise de dados” sabe fazer estatística de forma adequada.
Além disso, explica a estatística de forma simples e didática para leigos.
Tenho a impressão de que muitas vezes os estatísticos querem fazer reserva de mercado e desqualificam qualquer um que tente escrever sobre estatística de forma descomplicada e não tenha formação especificamente em estatística.
Não deixa de ser um resultado.
Tem que tomar cuidado quando a amostra é muito grande, pois o teorema informa que quando n tende a infinito a estatística tende ao parâmetro populacional, logo com uma amostra grande o intervalo de erro será pequeno (“quase pontual”), e talvez 5,51 seja diferente 5,56. Provavelmente foi o caso do estudo citado 19 mil pessoas.
Faz análise descritiva! Kkkkk
Comunica que os resultados não são significativos a p-valor tal e tal, o que demanda novos estudos assim e assim.
De fato, o resultado ” negativo” tem seu valor na ciência…. Sem dúvidas sobre isso….
“Resultado negativo também é resultado é tão importante quanto o positivo!”
Pergunto: já conseguiu publicar? Não duvido da importância, concordo que é importante… maaaas…
Resultado negativo ? Muda a abordagem, aumenta o N ou tortura a estatística ! ??
Pq somos obrigados a sempre dar resultados positivos?
Senta e chora….mentira, sempre tem um jeito.
Agora fudeu. Rsrs
Na minha área, essa frase ajuda muito. Porque aí posso defender as vanatagens e desvantagens de cada método isoladamente e cria-se a liberdade de escolherem a técnica como lhe convier.
Dificil viu! o melhor são os comentários kk
Às vezes é necessário reconhecer que a hipótese levantada não é verdadeira.
Ótimo texto!! Parabéns!! Esclareceu muito meus pensamentos!! Abraços.
Tudo isso no texto de dar importância aos resultados negativos é interessante e tem um potencial de explicar mais teorias até mesmo do que os resultados com estatística significativa. O problema na nossa ciência é que SEMPRE TEMOS QUE DAR RESULTADOS significativos, senão os artigos não são aceitos nas revistas. Se a postura dos editores e revisores não mudar daqui pra frente de nada vai adiantar os nossos esforços. Além disso, TODA PESQUISA TEM ERRO, SEJA DE ESFORÇO AMOSTRAL, TAMANHO DO N e por aí vai.
Gostei, pesquisador que acompanha sua pesquisa tem condições de interpretar os resultados e a estatistica é para ajuadar a interpretação.
Excelente texto! Mas olha a quantidade de bobagens escritas: “tortura os dados”, “aumenta N”, “use pseudo réplicas”, dentre outras asneiras… Por isso a ciência não é levada a sério no Brasil. Se nem os pesquisadores levam, quem dirá os políticos, responsáveis pela liberação dos investimentos…
Faz oferenda ou perde bolsa…
Todo mundo é forçado a apresentar diferença significativa e quando não tem diferença o sujeito se desespera, pq a revista não vai publicar o artigo.
Muito obrigada pela excelente explicação!! Uma luz enorme !!
Texto muito bom!
Texto perfeito!!! Abordou um dos temas que mais nos assombra no mundo científico atual! Obrigada!
Parabéns ! Excelente texto, me ajudou muito a entender um pouco mais de estatística
Nunca pensei em ler algo sobre estatística sorrindo. Sempre faço o contrário, choro muito, de desespero mesmo.
Parabéns, texto maravilhoso! E muito obrigada por esclarecer esse questionamento sobre diferença estatística significativa.
Ser significativo é um resultado. Não ser significativo também é um resultado. É assim que se faz ciência. Experimentando. Parabéns pelo texto.
É muito rico o conteúdo apresentado…
Ajudou bastante, valeu.
Abraços!!!