Não houve diferença estatística significativa. E agora?

A frase “não houve diferença estatística significativa” soa quase como uma sentença de morte para muitos alunos de graduação, pós-graduação e até mesmo para alguns pesquisadores.

Como assim “não houve diferença estatística significativa”? Eu fiz tudo certinho: calculei o tamanho da amostra de forma correta, tive cuidado na implantação do experimento, tive cuidado na coleta de dados, escolhi os teste estatísticos adequados e agora todo o meu trabalho não servirá para nada? Os resultados que encontrei não têm valor?

Calma, não é bem assim! Se você tiver paciência (e fôlego) para ler este texto até o fim, perceberá o quanto é equivocada essa ditadura do “p-significativo” que rege a pesquisa científica atualmente.

1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?

Antes de embarcarmos na discussão sobre “diferença estatística significativa”, é preciso relembrar primeiro por que precisamos utilizar a análise estatística em uma pesquisa científica.

Milhares de trabalhos científicos são publicados anualmente em centenas de periódicos, e a esmagadora maioria, tanto em estudos destinados à ciência básica, quanto naqueles de pesquisa aplicada, utiliza a estatística para referendar suas conclusões.

Em qualquer pesquisa científica, o procedimento geral é o de formular hipóteses e verificá-las, diretamente, ou por meio de suas consequências (Vianna, 2001). E o que nos obriga a utilizar a análise estatística para testar hipóteses formuladas é a presença, em todas as observações ou dados, de efeitos de fatores não controlados, que podem causar variação em nossos dados tanto quanto o efeito dos tratamentos que são objeto de estudo (Pinto e Schwaab, 2011).

Em um mundinho científico perfeito, o cientista conseguiria controlar todos os fatores que não estão sendo estudados e a única variação de dados na pesquisa seria referente ao efeito ou ao fenômeno estudado.

Mas, na prática, um cientista da área médica não consegue controlar totalmente os fatores genéticos, os hábitos alimentares, a rotina de trabalho e a rotina de exercícios de todos os indivíduos do teste. Da mesma forma, um cientista da área de Agronomia não consegue controlar fatores como clima, solo, ataque de pragas, incidência de doenças, competição com plantas daninhas.

Portanto, quem recorre à estatística como ferramenta de tomada de decisão se depara, antes mesmo de calcular qualquer medida ou teste estatístico, ou ainda no processo de ensino aprendizagem da disciplina de investigação, com o conceito de erro (Martins e Domingues, 2014).

Desta forma, os testes de hipóteses ou testes de significância nos permitem decidir se rejeitamos ou não uma determinada hipótese estatística, com o menor risco possível de se cometer um erro (Moore e Fligner, 2014).

2. O valor de p e a diferença estatística significativa

Quando encontramos diferença estatística significativa entre grupos ou entre tratamentos, inferimos que essas diferenças não devem ser atribuídas ao acaso (ou ao erro, ou aos fatores não controlados), mas sim aos efeitos maiores de alguns dos grupos ou dos tratamentos (Rumsey, 2009).

Assim, ao realizar um experimento, o cientista formula uma hipótese nula (H₀), também chamada de hipótese da nulidade, em que não existe diferença entre os efeitos estudados, que será posta à prova. Os dados observados e a análise estatística serão utilizados para tomar a decisão de rejeitar (assumindo que seja falsa) ou não rejeitar (assumindo que seja verdadeira) essa hipótese nula (Schwaab, 2007).

Admitindo-se inicialmente que a hipótese da nulidade seja verdadeira, se verificarmos que os resultados obtidos em uma amostra diferem acentuadamente dos resultados esperados para essa hipótese podemos concluir, com base na teoria das probabilidades, que as diferenças são significativas e, portanto, rejeitamos a hipótese de nulidade em favor de uma outra, denominada hipótese alternativa (H₁) ou (H_a) (Vieira, 2011).

Este processo é semelhante à presunção de inocência do direito penal. Até prova em contrário, o réu é inocente; face às provas, o juiz ou jurados decidem: culpado ou não culpado. Em analogia com os testes de hipóteses, a hipótese nula é verdadeira até que uma evidência suficientemente forte indique que essa afirmação é incorreta, com uma baixa probabilidade de erro.

Essa probabilidade de erro é o valor de p. Para Sir Ronald Aylmer Fisher, quanto menor fosse o valor de p, maior seria a probabilidade de que a hipótese nula, aquela em que não existe diferença entre os grupos ou entre os tratamento, fosse falsa.

A ironia é que quando Fisher apresentou o valor de p na década de 1920, ele não quis dizer que o valor de p seria um teste definitivo. O valor de p era visto por Fischer apenas como uma maneira informal para julgar se determinada evidência era digna de um segundo olhar. Ou seja, o valor de p não foi concebido para ser utilizado da maneira como é utilizado hoje!

Quando se conclui que uma diferença não é estatisticamente significativa, isso não indica propriamente que as médias sejam iguais, ou que não exista um efeito substantivo. Indica apenas que não houve evidência suficientemente forte para provar que a hipótese nula era falsa (Rumsey, 2009).

3. Diferença significativa ou diferença estatística significativa

Entre as consequências desta busca insana pelo p < 0,05 está a tendência em desviar a atenção do tamanho real de um efeito. Algumas diferenças podem ser significativas segundo a estatística, mas irrelevantes na prática. E vice-versa.

Em 2013, por exemplo, um estudo com mais de 19 mil pessoas concluiu que os casais dos Estados Unidos que tiveram seu primeiro encontro online eram menos propensos ao divórcio (p < 0,002) e mais propensos a ter uma alta satisfação conjugal (p < 0,001) do que aqueles que tiveram seu primeiro encontro pessoalmente.

Isso poderia soar impressionante, se os efeitos observados não fossem minúsculos: os encontros online mudaram a taxa de divórcio de 7,67 para 5,96%, enquanto a satisfação conjugal se moveu de 5,48 para 5,64, em uma escala de zero a sete.

Em alguns artigos científicos (principalmente de língua inglesa), por economia de espaço ou por outro motivo qualquer, os autores omitem o termo “estatística” e escrevem apenas que “não houve diferença entre os grupos” ou “não houve diferença significativa entre os grupos”. Em estudos com medicamentos, por exemplo, é possível que diferentes tratamentos não possuam diferença estatística significativa entre si, mas a morte de um paciente em um dos tratamentos seria altamente significativa do ponto de vista clínico, por motivos óbvios (Moore e Fligner, 2014).

4. A ditadura da diferença estatística significativa

Considerando que os valores de significância tenham erroneamente se revestido de tamanha autoridade científica, temos presenciado um viés que privilegia apenas a publicação de artigos que encontrem diferença estatística significativa, como se os estudos que não encontrassem tais diferenças não tivessem aplicabilidade ou pudessem despertar interesse!

Se com nossa pesquisa não conseguimos descobrir qual é a explicação para um determinado fenômeno, ao menos descobrimos qual explicação NÃO é. Isso é importante, pois resultados negativos também são resultados, tão válidos quanto os positivos, e sua publicação evita a duplicação de esforços, ou seja, cientistas da mesma área não irão tentar os mesmos experimentos (Vianna, 2001).

Além disso, a publicação deste tipo de artigo abre espaço para a discussão sobre os motivos pelos quais os experimentos não tiveram os resultados esperados. O resultado é o mesmo: economia de tempo e de recursos.

Uma prova de que essa percepção é importante é o surgimento de revistas como o Journal of Negative Results in Biomedicine, o Journal of Negative Results – Ecology and Evolutionary Biology, o Journal of Pharmaceutical Negative Results, o Journal of Interesting Negative Results, entre outros, que publicam apenas pesquisas de refutação de hipóteses.

Outro periódico, o Journal of Errology, publicou durante anos apenas os resultados de pesquisas que NÃO deram certo, como protocolos que não funcionaram como deveriam ou então erros que invalidaram a pesquisa. Esse periódico possuía um sistema de revisão aberto, feito por meio de discussões online.

Entretanto, em alguns casos, não encontrar diferença estatística significativa é tão relevante quanto encontrá-la. Este pesquisador, por exemplo, estudou adubos verdes (leguminosas) e adubos industrializados (ureia) em lavouras de milho e observou que quando o milho era cultivado após a ervilhaca-peluda (uma leguminosa utilizada como adubo verde) não havia diferença estatística significativa entre as doses de ureia utilizadas no cultivo de milho.

Olha só que bacana: todo o nitrogênio de que a planta de milho necessita foi suprido pelo adubo verde (ervilhaca-peluda), de modo que qualquer dose de ureia aplicada não afetava a produtividade das plantas de milho. Uma baita economia para o agricultor, se levarmos em conta o custo dos fertilizantes industrializados.

Portanto, ao se deparar com o “não houve diferença estatística significativa”, ao invés de ficar #chateado e ir “xingar muito no Twitter”, procure entender:

1. Que o valor de p e a tal diferença estatística significativa não são essa Coca-Cola toda.
O valor de p não é um teste definitivo. Leve em consideração a magnitude do efeito, os intervalos de confiança, o tamanho da amostra, e o poder do teste estatístico utilizado.

2. Quais foram os motivos/causas que levaram a não encontrar diferença estatística significativa.
Foi um problema com o número de amostras? Foi um problema com o método de coleta de dados? Houve influência de fatores não controlados conhecidos? A análise estatística é a adequada? Ou, caso não encontre um dos problemas anteriores, como posso explicar esse resultado? O que ocasionou esse resultado?

3. Se esse resultado possui aplicação prática.
Partindo do pressuposto que o efeito esperado realmente não aconteceu, o que isso significa? Quais são as implicações práticas deste resultado?

4. Se esse resultado indica em qual direção seguir.
Já que esse efeito/fenômeno não pode ser observado dessa forma, de qual forma seria possível? Como fazer para conseguir resolver esse problema?

Afinal, se você faz Ciência e não está cometendo erros, então provavelmente você não está fazendo isso certo!

Por Pós-Graduando|2018-12-06T01:56:14-03:0031-10-2015|debates|61 Comentários

Sobre o Autor: Pós-Graduando

Criador e editor de conteúdo do blog, é portador de uma imaginação hiperativa e de uma necessidade patológica de estar sempre bem-humorado. Acredita que a Pós-Graduação, como tudo na vida, pode ser interessante, divertida e descomplicada.

61 Comentários

Edvaldo Antunes 31.10.15 at 12:23- Responder

Agora eh deixar o seu currículo na Subway
- Romário Rodrigues 31.10.15 at 13:20- Responder
  
  Tem vagas em todo Brasil.
Rayan Santos 31.10.15 at 12:25- Responder

Leram meu pensamento! Haha!
Luiz Eduardo Lazzarini 31.10.15 at 12:28- Responder

Isso tb é resultado…
Jaqueline Hannoff Pilon 31.10.15 at 12:32- Responder

No meu caso avaliei duas técnicas e deu isso. Ai na conclusão parti pro lado do custo de cada técnica e uma se tornou mais viável por questões financeiras…
- Antonio 01.11.15 at 09:38- Responder
  
  Cuidado Jaqueline, existe um desenho específico para estudos de não inferioridade( se aceita que a nova técnica seja um pouco pior que a tradicional) simplesmente por oferecer uma vantagem prática ou financeira em comparada com a técnica tradicional. Uma outra questão é que seu estudo pode estar sofrendo do erro do tipo II ( não ter poder estatístico para detectar uma diferença que realmente existe).
Rodrigo Lacerda 31.10.15 at 12:35- Responder

Sente e chora ou aumenta o N rs
Alex Farias 31.10.15 at 12:45- Responder

Resultado negativo é tão importante quanto o positivo.
Leiam
- Millke Jasmine Morales 31.10.15 at 15:12- Responder
  
  Enfim uma boa resposta..
- Nara Muniz 31.10.15 at 15:32- Responder
  
  Ufa.
- Natália Paiva 31.10.15 at 17:12- Responder
  
  Concordo, mas n são “atrativos” p publicação (segundo as revistas e pareceristas).
Claudia Cruz 31.10.15 at 12:49- Responder

Ou: torture os dados até que eles confessem o resultado desejado!
- Anelena Carvalho 31.10.15 at 12:59- Responder
  
  Boa kkkk
Guido Humada 31.10.15 at 12:57- Responder

refaz o experimento …
Paulo César 31.10.15 at 12:02- Responder

Excelente texto!

Além de ser muito didático, traz à tona uma discussão muito importante: o uso equivocado das análises estatísticas.

O meio acadêmico é repleto de “achismos” e de pesquisadores que entendem muito da sua área de domínio, mas pouco de estatística.

A gente ainda encontra por aí pesquisadores que fazem determinadas análises estatísticas porque “todo mundo faz assim” (como se porque todo mundo faz errado, não há problema em fazer também); porque “eu acho que fica melhor desse jeito” (como se a opinião pessoal fosse mais importante que os requisitos e pressupostos dos testes); ou porque “eu sempre fiz assim” (prefiro nem comentar essa).

Esse texto é quase um serviço de utilidade pública (acadêmica).
Gabriela 31.10.15 at 12:06- Responder

Eu sinto uma vergonha alheia quando leio em um artigo que “apesar dos resultados não apresentarem diferença estatística significativa, o tratamento I foi 5% superior ao tratamento II”.

Ora, se não houve diferença estatística significativa, então não houve, e ponto final. Esses 5% de diferença aí provavelmente são efeitos do acaso amostral ou do erro experimental.

Ao invés de tentar entender as limitações do valor de p ou de tentar explicar o fenômeno observado e a ausência de diferença estatística significativa, o cidadão tenta fazer “na marra” uma diferença entre os tratamentos.

Se não vai aceitar os resultados da análise estatística, então nem os apresente.
- Rodrigo Gomes 31.10.15 at 12:18- Responder
  
  Isso quando o cara não começa a tirar e/ou manipular os dados para que fique significativo.
  Nesse caso a gente não fica nem sabendo…
- Gabrielly 08.11.15 at 13:28- Responder
  
  Isso de colocar a diferença em porcentagem, em certos momentos torna-se muito prático. Muitas empresas por exemplo, não colocam suas expectativas em diferenças estatísticas. Quando se trata de produtividade, 1% de diferença que seja é um BAITA resultado, que pode significar em perda ou ganho em dinheiro para um produtor por exemplo. Acho que falta praticidade em muitos trabalhos por aí…
  - Gabriela 09.11.15 at 06:53- Responder
    
    Gabrielly, leia com atenção o tópico “1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?”
    
    Quando não existe diferença significativa, esse 1% que você diz que é um “baita resultado” pode ter ocorrido devido ao acaso ou ao erro experimental, e NÃO devido aos efeitos que você estava estudando. Se você repetir o experimento, provavelmente não irá obter novamente esse 1% de diferença.
    
    Nesse caso, discutir essa diferença em função dos seus tratamentos é correr um grande risco de discutir algo que, na prática, simplesmente não existe.
    
    E ao recomendar algo com base em um efeito que não existe, você corre um grande risco de fazer com que o produtor que você citou perca dinheiro.
    
    Vale a pena correr esse risco?
    
    Agora, se houve diferença significativa, você pode discutir esse 1% como sendo um “baita resultado”, com uma probabilidade de erro muito menor.
  - Paulo Roberto 09.11.15 at 07:50- Responder
    
    Gabrielly, como você falou em “produtor” e em “produtividade“, acredito que você também trabalhe na área de Ciências Agrárias.
    
    Nessa área existe uma grande quantidade de produtos e tecnologias que no campo não correspondem aos resultados divulgados pelas empresas.
    
    E isso ocorre justamente porque algumas empresas deste ramo realizam “experimentos” sem repetições, sem casualização, sem cuidado com o método científico e não “colocam suas expectativas em diferenças estatísticas“, porque o objetivo é apenas gerar dados para o marketing.
    
    Entretanto, na minha opinião, as empresas da área agrícola deveriam ser justamente as que mais “colocam suas expectativas em diferenças estatísticas“, pois o controle sobre as condições do experimento é muito precário, podendo ocorrer variações genéticas, edáficas, climáticas, de manejo, fitossanitárias, etc.
    
    Não por acaso uma boa parte dos testes estatísticos que utilizamos hoje foram criados justamente para experimentos em Ciências Agrárias.
    
    Afinal, quanto maior o risco de erro, mais importante se torna a análise estatística para a tomada de decisões.
    
    E enquanto o pessoal de Ciências Agrárias continuar a “não colocar suas expectativas em diferenças estatísticas” e a considerar “1% de difença como um baita resultado” quando não existe diferença estatística significativa, os produtores vão continuar sofrendo com esses produtos e tecnologias que são maravilhosos no panfleto da empresa, mas que patinam no campo.
    
    Concordo com a Gabriela, creio que você precise estudar com muito empenho os conceitos descritos no item “Por que mesmo você precisa utilizar a análise estatística em sua pesquisa?“
  - Júlio César 09.11.15 at 08:06- Responder
    
    Gabrielly, leia com atenção o tópico “1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?” [3]
Michele Schnell 31.10.15 at 13:08- Responder

É só escrever no final que ainda são necessários mais estudos! xD
Claudia Cruz 31.10.15 at 12:10- Responder

Bola pra frente! Dependendo da hipótese levantada e da teoria que sustenta, pode ser um resultado!
Wesley GB 31.10.15 at 12:13- Responder

Adiciona ou remove variáveis até ficar significativo ?
Pedro Aurélio Lima 31.10.15 at 12:18- Responder

Aumenta o tamanho da amostra que uma hora vai ser “significativo”. Se não puder fazer isso, use pseudorréplicas. Simples.
- Matheus Castro 31.10.15 at 16:23- Responder
  
  Que jeito interessante de fazer ciência
- Giovani Kolling 31.10.15 at 17:32- Responder
  
  Hahahaha
  Cada um heim
Laurinha Bomdespacho 31.10.15 at 12:22- Responder

é bem assim!
Roberta Cysneiros 31.10.15 at 14:37- Responder

Não há razão para desespero! Modéstia à parte, entendo razoavelmente bem da famigerada bioestatística , e faço uso rotineiro de testes paramétricos e não paramétricos. Fato eh que uma diferença ” estatisticamente significante” pode não ser ” clinicamente importante”; visto que aquela variável investigafa naquele seu projeto/ estudo não eh a única que interfere no resultado final. A importância em termos biológicos não deve ser julgada somente pela estatística. Ter profundo conhecimento da variável investigada e da dimensão na qual ela está envolvida, irá contribuir imensamente na interpretação dos dados.
Ramon Guedes 31.10.15 at 14:51- Responder

É mais que um mero resultado…
Henrique Nunes 31.10.15 at 15:01- Responder

-Orientadora: analise corretamente as variáveis!
-Eu: Mass doutora? Ahh entendi ..
-orientadora: Olha a deadline
:/
Pedro Campelo 31.10.15 at 14:32- Responder

Que texto top! E não sabia sobre estas revistas que publicam resultados negativos.
Fernanda Morena 31.10.15 at 16:15- Responder

Isso tb é um resultado! E vale a pena ser divulgada!!!!
Henrique Gomes 31.10.15 at 15:26- Responder

O mais bacana é que o texto não tem aquela arrogância recorrente de que “só um estatístico ou um especialista na área de análise de dados” sabe fazer estatística de forma adequada.

Além disso, explica a estatística de forma simples e didática para leigos.

Tenho a impressão de que muitas vezes os estatísticos querem fazer reserva de mercado e desqualificam qualquer um que tente escrever sobre estatística de forma descomplicada e não tenha formação especificamente em estatística.
Lidiomar Soares 31.10.15 at 18:23- Responder

Não deixa de ser um resultado.
João Flávio 31.10.15 at 17:24- Responder

Tem que tomar cuidado quando a amostra é muito grande, pois o teorema informa que quando n tende a infinito a estatística tende ao parâmetro populacional, logo com uma amostra grande o intervalo de erro será pequeno (“quase pontual”), e talvez 5,51 seja diferente 5,56. Provavelmente foi o caso do estudo citado 19 mil pessoas.
Sicilia Avelar Gonçalves 31.10.15 at 19:03- Responder

Faz análise descritiva! Kkkkk
Erisson Viana 31.10.15 at 20:26- Responder

Comunica que os resultados não são significativos a p-valor tal e tal, o que demanda novos estudos assim e assim.
Gisela Guadalupe 31.10.15 at 22:00- Responder

De fato, o resultado ” negativo” tem seu valor na ciência…. Sem dúvidas sobre isso….
Josue Augusto 31.10.15 at 22:33- Responder

“Resultado negativo também é resultado é tão importante quanto o positivo!”
Pergunto: já conseguiu publicar? Não duvido da importância, concordo que é importante… maaaas…
Maria Fernanda Salomão 31.10.15 at 23:54- Responder

Resultado negativo ? Muda a abordagem, aumenta o N ou tortura a estatística ! ??
Pq somos obrigados a sempre dar resultados positivos?
Alex Franco 01.11.15 at 00:35- Responder

Senta e chora….mentira, sempre tem um jeito.
Naty Ferreira 01.11.15 at 00:28- Responder

Agora fudeu. Rsrs
Alessandra Soares 01.11.15 at 09:27- Responder

Na minha área, essa frase ajuda muito. Porque aí posso defender as vanatagens e desvantagens de cada método isoladamente e cria-se a liberdade de escolherem a técnica como lhe convier.
Amanda Lima 01.11.15 at 10:50- Responder

Dificil viu! o melhor são os comentários kk
Ricardo Felipini 01.11.15 at 16:48- Responder

Às vezes é necessário reconhecer que a hipótese levantada não é verdadeira.
Thiago Cardoso de Oliveira 01.11.15 at 18:48- Responder

Ótimo texto!! Parabéns!! Esclareceu muito meus pensamentos!! Abraços.
pesquisa 02.11.15 at 08:17- Responder

Tudo isso no texto de dar importância aos resultados negativos é interessante e tem um potencial de explicar mais teorias até mesmo do que os resultados com estatística significativa. O problema na nossa ciência é que SEMPRE TEMOS QUE DAR RESULTADOS significativos, senão os artigos não são aceitos nas revistas. Se a postura dos editores e revisores não mudar daqui pra frente de nada vai adiantar os nossos esforços. Além disso, TODA PESQUISA TEM ERRO, SEJA DE ESFORÇO AMOSTRAL, TAMANHO DO N e por aí vai.
José Luiz 04.11.15 at 17:01- Responder

Gostei, pesquisador que acompanha sua pesquisa tem condições de interpretar os resultados e a estatistica é para ajuadar a interpretação.
Luís Oscar 05.11.15 at 09:41- Responder

Excelente texto! Mas olha a quantidade de bobagens escritas: “tortura os dados”, “aumenta N”, “use pseudo réplicas”, dentre outras asneiras… Por isso a ciência não é levada a sério no Brasil. Se nem os pesquisadores levam, quem dirá os políticos, responsáveis pela liberação dos investimentos…
Exu Tranca-Bolsa 10.11.15 at 10:13- Responder

Faz oferenda ou perde bolsa…
Junielson 26.04.17 at 02:35- Responder

Todo mundo é forçado a apresentar diferença significativa e quando não tem diferença o sujeito se desespera, pq a revista não vai publicar o artigo.
Márcia Teixeira 16.11.17 at 11:59- Responder

Muito obrigada pela excelente explicação!! Uma luz enorme !!
Mauro Alves 15.03.18 at 08:59- Responder

Texto muito bom!
Adriana Guercio 24.07.18 at 18:52- Responder

Texto perfeito!!! Abordou um dos temas que mais nos assombra no mundo científico atual! Obrigada!
Francisco Camolesi Ide 13.06.19 at 13:22- Responder

Parabéns ! Excelente texto, me ajudou muito a entender um pouco mais de estatística
Paula 06.05.20 at 17:04- Responder

Nunca pensei em ler algo sobre estatística sorrindo. Sempre faço o contrário, choro muito, de desespero mesmo.
Parabéns, texto maravilhoso! E muito obrigada por esclarecer esse questionamento sobre diferença estatística significativa.
Jefferson 08.06.20 at 15:24- Responder

Ser significativo é um resultado. Não ser significativo também é um resultado. É assim que se faz ciência. Experimentando. Parabéns pelo texto.
Augusto 20.01.21 at 08:00- Responder

É muito rico o conteúdo apresentado…

Ajudou bastante, valeu.

Abraços!!!