A frase “não houve diferença estatística significativa” soa quase como uma sentença de morte para muitos alunos de graduação, pós-graduação e até mesmo para alguns pesquisadores.

Como assim “não houve diferença estatística significativa”? Eu fiz tudo certinho: calculei o tamanho da amostra de forma correta, tive cuidado na implantação do experimento, tive cuidado na coleta de dados, escolhi os teste estatísticos adequados e agora todo o meu trabalho não servirá para nada? Os resultados que encontrei não têm valor?

Calma, não é bem assim! Se você tiver paciência (e fôlego) para ler este texto até o fim, perceberá o quanto é equivocada essa ditadura do “p-significativo” que rege a pesquisa científica atualmente.

1. Por que mesmo você precisa utilizar a análise estatística em sua pesquisa científica?

Antes de embarcarmos na discussão sobre “diferença estatística significativa”, é preciso relembrar primeiro por que precisamos utilizar a análise estatística em uma pesquisa científica.

Milhares de trabalhos científicos são publicados anualmente em centenas de periódicos, e a esmagadora maioria, tanto em estudos destinados à ciência básica, quanto naqueles de pesquisa aplicada, utiliza a estatística para referendar suas conclusões.

Em qualquer pesquisa científica, o procedimento geral é o de formular hipóteses e verificá-las, diretamente, ou por meio de suas consequências (Vianna, 2001). E o que nos obriga a utilizar a análise estatística para testar hipóteses formuladas é a presença, em todas as observações ou dados, de efeitos de fatores não controlados, que podem causar variação em nossos dados tanto quanto o efeito dos tratamentos que são objeto de estudo (Pinto e Schwaab, 2011).

Em um mundinho científico perfeito, o cientista conseguiria controlar todos os fatores que não estão sendo estudados e a única variação de dados na pesquisa seria referente ao efeito ou ao fenômeno estudado.

Mas, na prática, um cientista da área médica não consegue controlar totalmente os fatores genéticos, os hábitos alimentares, a rotina de trabalho e a rotina de exercícios de todos os indivíduos do teste. Da mesma forma, um cientista da área de Agronomia não consegue controlar fatores como clima, solo, ataque de pragas, incidência de doenças, competição com plantas daninhas.

Portanto, quem recorre à estatística como ferramenta de tomada de decisão se depara, antes mesmo de calcular qualquer medida ou teste estatístico, ou ainda no processo de ensino aprendizagem da disciplina de investigação, com o conceito de erro (Martins e Domingues, 2014).

Desta forma, os testes de hipóteses ou testes de significância nos permitem decidir se rejeitamos ou não uma determinada hipótese estatística, com o menor risco possível de se cometer um erro (Moore e Fligner, 2014).

2. O valor de p e a diferença estatística significativa

Quando encontramos diferença estatística significativa entre grupos ou entre tratamentos, inferimos que essas diferenças não devem ser atribuídas ao acaso (ou ao erro, ou aos fatores não controlados), mas sim aos efeitos maiores de alguns dos grupos ou dos tratamentos (Rumsey, 2009).

Assim, ao realizar um experimento, o cientista formula uma hipótese nula (H0), também chamada de hipótese da nulidade, em que não existe diferença entre os efeitos estudados, que será posta à prova. Os dados observados e a análise estatística serão utilizados para tomar a decisão de rejeitar (assumindo que seja falsa) ou não rejeitar (assumindo que seja verdadeira) essa hipótese nula (Schwaab, 2007).

Admitindo-se inicialmente que a hipótese da nulidade seja verdadeira, se verificarmos que os resultados obtidos em uma amostra diferem acentuadamente dos resultados esperados para essa hipótese podemos concluir, com base na teoria das probabilidades, que as diferenças são significativas e, portanto, rejeitamos a hipótese de nulidade em favor de uma outra, denominada hipótese alternativa (H1) ou (Ha) (Vieira, 2011).

Este processo é semelhante à presunção de inocência do direito penal. Até prova em contrário, o réu é inocente; face às provas, o juiz ou jurados decidem: culpado ou não culpado. Em analogia com os testes de hipóteses, a hipótese nula é verdadeira até que uma evidência suficientemente forte indique que essa afirmação é incorreta, com uma baixa probabilidade de erro.

Essa probabilidade de erro é o valor de p. Para Sir Ronald Aylmer Fisher, quanto menor fosse o valor de p, maior seria a probabilidade de que a hipótese nula, aquela em que não existe diferença entre os grupos ou entre os tratamento, fosse falsa.

A ironia é que quando Fisher apresentou o valor de p na década de 1920, ele não quis dizer que o valor de p seria um teste definitivo. O valor de p era visto por Fischer apenas como uma maneira informal para julgar se determinada evidência era digna de um segundo olhar. Ou seja, o valor de p não foi concebido para ser utilizado da maneira como é utilizado hoje!

Quando se conclui que uma diferença não é estatisticamente significativa, isso não indica propriamente que as médias sejam iguais, ou que não exista um efeito substantivo. Indica apenas que não houve evidência suficientemente forte para provar que a hipótese nula era falsa (Rumsey, 2009).

3. Diferença significativa ou diferença estatística significativa

Entre as consequências desta busca insana pelo p < 0,05 está a tendência em desviar a atenção do tamanho real de um efeito. Algumas diferenças podem ser significativas segundo a estatística, mas irrelevantes na prática. E vice-versa.

Em 2013, por exemplo, um estudo com mais de 19 mil pessoas concluiu que os casais dos Estados Unidos que tiveram seu primeiro encontro online eram menos propensos ao divórcio (p < 0,002) e mais propensos a ter uma alta satisfação conjugal (p < 0,001) do que aqueles que tiveram seu primeiro encontro pessoalmente.

Isso poderia soar impressionante, se os efeitos observados não fossem minúsculos: os encontros online mudaram a taxa de divórcio de 7,67 para 5,96%, enquanto a satisfação conjugal se moveu de 5,48 para 5,64, em uma escala de zero a sete.

Em alguns artigos científicos (principalmente de língua inglesa), por economia de espaço ou por outro motivo qualquer, os autores omitem o termo “estatística” e escrevem apenas que “não houve diferença entre os grupos” ou “não houve diferença significativa entre os grupos”. Em estudos com medicamentos, por exemplo, é possível que diferentes tratamentos não possuam diferença estatística significativa entre si, mas a morte de um paciente em um dos tratamentos seria altamente significativa do ponto de vista clínico, por motivos óbvios (Moore e Fligner, 2014).

4. A ditadura da diferença estatística significativa

Considerando que os valores de significância tenham erroneamente se revestido de tamanha autoridade científica, temos presenciado um viés que privilegia apenas a publicação de artigos que encontrem diferença estatística significativa, como se os estudos que não encontrassem tais diferenças não tivessem aplicabilidade ou pudessem despertar interesse!

Se com nossa pesquisa não conseguimos descobrir qual é a explicação para um determinado fenômeno, ao menos descobrimos qual explicação NÃO é. Isso é importante, pois resultados negativos também são resultados, tão válidos quanto os positivos, e sua publicação evita a duplicação de esforços, ou seja, cientistas da mesma área não irão tentar os mesmos experimentos (Vianna, 2001).

Além disso, a publicação deste tipo de artigo abre espaço para a discussão sobre os motivos pelos quais os experimentos não tiveram os resultados esperados. O resultado é o mesmo: economia de tempo e de recursos.

Uma prova de que essa percepção é importante é o surgimento de revistas como o Journal of Negative Results in Biomedicine, o Journal of Negative Results – Ecology and Evolutionary Biology, o Journal of Pharmaceutical Negative Results, o Journal of Interesting Negative Results, entre outros, que publicam apenas pesquisas de refutação de hipóteses.

Outro periódico, o Journal of Errology, publicou durante anos apenas os resultados de pesquisas que NÃO deram certo, como protocolos que não funcionaram como deveriam ou então erros que invalidaram a pesquisa. Esse periódico possuía um sistema de revisão aberto, feito por meio de discussões online.

Entretanto, em alguns casos, não encontrar diferença estatística significativa é tão relevante quanto encontrá-la. Este pesquisador, por exemplo, estudou adubos verdes (leguminosas) e adubos industrializados (ureia) em lavouras de milho e observou que quando o milho era cultivado após a ervilhaca-peluda (uma leguminosa utilizada como adubo verde) não havia diferença estatística significativa entre as doses de ureia utilizadas no cultivo de milho.

Olha só que bacana: todo o nitrogênio de que a planta de milho necessita foi suprido pelo adubo verde (ervilhaca-peluda), de modo que qualquer dose de ureia aplicada não afetava a produtividade das plantas de milho. Uma baita economia para o agricultor, se levarmos em conta o custo dos fertilizantes industrializados.

Portanto, ao se deparar com o “não houve diferença estatística significativa”, ao invés de ficar #chateado e ir “xingar muito no Twitter”, procure entender:

1. Que o valor de p e a tal diferença estatística significativa não são essa Coca-Cola toda.
O valor de p não é um teste definitivo. Leve em consideração a magnitude do efeito, os intervalos de confiança, o tamanho da amostra, e o poder do teste estatístico utilizado.

2. Quais foram os motivos/causas que levaram a não encontrar diferença estatística significativa.
Foi um problema com o número de amostras? Foi um problema com o método de coleta de dados? Houve influência de fatores não controlados conhecidos? A análise estatística é a adequada? Ou, caso não encontre um dos problemas anteriores, como posso explicar esse resultado? O que ocasionou esse resultado?

3. Se esse resultado possui aplicação prática.
Partindo do pressuposto que o efeito esperado realmente não aconteceu, o que isso significa? Quais são as implicações práticas deste resultado?

4. Se esse resultado indica em qual direção seguir.
Já que esse efeito/fenômeno não pode ser observado dessa forma, de qual forma seria possível? Como fazer para conseguir resolver esse problema?

Afinal, se você faz Ciência e não está cometendo erros, então provavelmente você não está fazendo isso certo!