A análise de regressão é normalmente utilizada quando se deseja obter um modelo preditivo do efeito de uma variável sobre outra sendo que essas variáveis devem ser contínuas. Na Regressão Linear Simples têm-se apenas duas variáveis, uma variável preditora (eixo X) e outra resposta (eixo y).

Existem quatro pressupostos básicos para análises de regressão:

LINEARIDADE (o modelo linear descreve corretamente a relação funcional entre X e Y)
Se esse pressuposto for violado a estimativa do erro aumentará, já que os valores observados não se aproximarão dos valores preditos (local onde passará a reta). Pressuposto fundamental já que essa regressão é um modelo linear.

VARIÁVEL PREDITORA MEDIDA SEM ERROS
Garante que a variação observada na análise é devido apenas à sua associação com a variável resposta Esse pressuposto tem sido ignorado devido a eficiência da solução dos mínimos quadrados.

NORMALIDADE
Normalidade dos resíduos é esperada para que não existam tendências e que a estatística F funcione de forma correta.

VARIÂNCIAS HOMOGÊNEAS
As variâncias dentro de cada grupo é igual (ou pelo menos aproximadamente) àquela dentro de todos os grupos. Desta forma, cada tratamento contribui de forma igual para a soma dos quadrados.

Se os pressupostos forem atendidos fica mais fácil afirma que os resultados da análise são devido aos efeitos testados. Além disso, a confiabilidade do teste aumenta, já que se terá certeza que não há tendências nos resultados.

Segue um scrip para a realização da regressão linear simples no R (em verde são os comentários):

#Primeiramente, vamos criar dois conjuntos de dados (“x” e “y”) apenas para realizar o exemplo
x< -c(1,2,3,4,5,6,7,8,9,10)
y<-c(2,5,8,5,3,9,10, 12, 9, 10)

#A função para regressão é “lm” e não requer pacote estatístico (variavel resposta ~ variável preditora)
resmodelo<-lm(x~y) #Sumário dos resultados do modelo summary(resmodelo) #Teste para NORMALIDADE (valores de p > 0,05 indicam dados normais)
shapiro.test(rstudent(resmodelo))   ##teste de shapiro wilk (normalidade)

# Análise visual para homogeneidade dos resíduos (visualmente eles devem se distribuir igualmente #abaixo e acima da linha)
plot(rstudent(resmodelo) ~ fitted(resmodelo), pch = 19)
abline(h = 0, lty = 2)

#Visualização gráfica lty é o tipo da linha 1: linha contínua; 2: linha descontínua
plot(x~y)
abline(resmodelo,lty=2) 

Ao digitar todas essas linhas de comando, o resultado final deverá ser um R2 ajustado = 0,55. Para montar a equação é necessário pegar o valor do intercepto e da inclinação: y = 0,3586 + 0,7043x. Além disso, por meio do teste de Shapiro Wilk (W) é possível atestar a normalidade dos dados (p = 0,33) e através da inspeção visual dos resíduos verifica-se que os mesmos distribuem-se de forma igual.

Um dos principais resultados da regressão é o R2, que é o coeficiente de determinação. Esse valor varia de -1 a 1 (repostas positivas e negativas) e indica o grau de associação entre as duas variáveis testadas. Já o parâmetro da inclinação demonstra o quanto a variável resposta varia em função da preditora. Desta forma, uma inclinação igual a zero indicaria a falta de associação entre elas.

Este tutorial foi elaborado por Herick Soares de Santana, aluno de doutorado do programa de pós-graduação em Ecologia de Ambientes Aquáticos Continentais. Gosto bastante de trabalhar com números e estatística univariada e multivariada (principalmente no ambiente R) e, atualmente, tenho focado minhas pesquisas em dinâmica populacional e crescimento de peixes migradores, ecologia aquática e efeito da construção de hidroelétricas sobre as comunidades aquáticas. Espero que o tutorial possa ajudar. Qualquer dúvida, sugestão ou erro no script é só enviar um email para [email protected] que resolveremos da melhor forma possível.