Qual teste estatístico devo usar?


Como comentei em outro artigo curto, a Estatística, uma ciência independente, é usada como ferramenta por ecólogos e vários outros cientistas. Não é necessário fazer uma graduação na área para rodar um qui-quadrado. Porém, é fundamental estudar direito os fundamentos dessa ciência e a lógica dos testes mais usados, para ser um bom usuário. Para você, que precisa usar Estatística em sua pesquisa, escrevi este passo-a-passo e adaptei um guia ao estilo road map, que visa ajudá-lo a escolher o melhor teste para o seu caso. O artigo está no formato de perguntas que você deve responder a si mesmo, a cada passo da escolha. Aqui trato apenas dos casos mais simples e corriqueiros; posteriormente escreverei outro artigo sobre testes baseados em reamostragem e testes multivariados.

 

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.” –  Sir Ronald Fisher

Aviso: é bom lembrar que este guia não substitui um bom curso de Estatística aplicada à Biologia e nem a leitura de livros especializados! Ele serve apenas como material de apoio para quem já tem uma noção, ajudando a recordar coisas que foram estudadas formalmente. Se o seu curso de Biologia, Ecologia, Veterinária ou Engenharia Florestal não tiver uma boa disciplina na área, corra para o departamento de Estatística mais próximo e pegue algumas disciplinas de lá. Também é bom ler artigos ecológicos que aplicaram cada tipo de teste, para ver como cada ferramenta é usada na prática. Ajuda muito também pedir conselhos a estatísticos profissionais: de tempos em tempos para os testes mais corriqueiros e sempre que for fazer um teste novo. Lembre-se também de que eu mesmo não sou um estatístico, mas um biólogo, então não confie cegamente nas minhas recomendações, pois posso estar errado.

1. Qual é a sua pergunta?

Esse é o primeiro e mais importante passo em qualquer pesquisa científica. O cerne de um projeto de pesquisa, tese ou artigo é a pergunta. Fazemos pesquisas para matarmos nossa curiosidade sobre como funciona a natureza ou para gerarmos tecnologia. Não é possível atingir esses objetivos, se você não planejar muito bem aonde quer chegar, antes de começar um projeto. Não comece sem direção alguma, apenas para ver no que vai dar. Em 99% dos casos, isso leva à desistência no meio do caminho ou a resultados completamente irrelevantes. Para exemplificar, vamos trabalhar com a seguinte pergunta: dentre morcegos nectarívoros de uma mesma espécie, o tamanho do indivíduo influencia sua eficiência como polinizador?

2. O que você espera observar?

Não basta bolar uma pergunta original e relevante. Com base no que já se sabe sobre o fenômeno, organismo ou ambiente de interesse, faça um exercício dedutivo e imagine qual deve ser a resposta à pergunta feita. Ou seja, a partir da pergunta de trabalho, crie uma hipótese. Quanto mais complexa a pergunta, mais respostas alternativas ela pode ter. Para criar uma hipótese original e interessante, você precisa estudar a fundo a literatura relacionada, além de ter experiência com as entidades envolvidas no projeto. Estudando o que já se sabe sobre o assunto de interesse é possível saber onde estão as fronteiras do conhecimento e decidir em que direção você quer expandí-las. Tomando como base a pergunta formulada anteriormente, uma possível hipótese seria: em morcegos da espécie A, quanto maior o indivíduo, maior sua eficiência como polinizador. Note que essa é apenas uma das hipóteses possíveis para a pergunta de trabalho, que é mais ampla do que parece.

Poderíamos imaginar que a justificativa para essa hipótese específica seria o fato de morcegos maiores precisarem beber mais néctar para suprirem suas necessidades energéticas diárias, o que os levaria a visitarem um número maior de flores por noite, aumentando assim sua eficiência do ponto de vista da planta visitada, já que mais flores seriam fecundadas. Note que toda hipótese precisa ser justificada. Não adianta sair jogando hipóteses ao vento em um projeto ou artigo: você precisa explicar de maneira convincente porque acha que aquele hipótese é uma boa resposta à pergunta proposta. Tenha sempre em mente que o significado e a relevância dos dados coletados em um projeto de pesquisa são dados pela hipótese e sua justificativa. Os resultados do teste estatístico, estejam eles de acordo ou não com o que você esperava, só fazem sentido à luz desse contexto biológico.

3. Como exatamente você vai medir o fenômeno?

Depois de criada a hipótese, pense o seguinte: se essa hipótese for mesmo uma boa resposta para a minha pergunta de trabalho, o que eu espero observar de concreto no campo, no laboratório ou no computador? Essa expectativa se chamaprevisão e o processo de criá-la é conhecido como operacionalização (leia umoutro artigo sobre isso). Este é o cerne do método hipotético-dedutivo, o mais usado na ciência contemporânea. A operacionalização é um passo crucial, pois nenhuma hipótese pode ser testada diretamente, já que hipóteses são feitas de conceitos abstratos (variáveis teóricas). O que é testado de fato são as previsões derivadas da hipótese, estas, sim, concretas e palpáveis (feitas de variáveis operacionais). Quando a maioria das previsões derivadas de uma hipótese é confirmada, ela passa a ser aceita como uma tese; caso contrário, a hipótese é abandonada ou reformulada. Se você não operacionalizar direito a sua hipótese, será impossível saber qual teste estatístico precisará usar. Na verdade, será impossível até medir as variáveis operacionais.

Vamos pegar a hipótese proposta e dela derivar uma previsão testável. Em outras palavras, vamos imaginar uma conseqüência dessa hipótese e definir que medidas vamos tomar. Contudo, antes de prosseguirmos, note que, para ser eficiente, um polinizador precisa primeiro ser legítimo, ou seja, ter um comportamento de visitação às flores com potencial concreto de resultar em fecundação. Esta é uma premissa, também conhecida como condição contorno. Sendo assim, a espécie de morcego A escolhida para o projeto precisa ter sido estudada antes quanto à sua legitimidade de polinização. A previsão então poderia ser: se, dentro de uma mesma espécie, morcegos maiores são de fato polinizadores mais eficientes, então eu espero observar que, quanto maior a massa corporal do indivíduo (em g), maior deve ser o número de flores que ele visita de maneira legítima em uma mesma noite. Geralmente, o que se chama de hipótese em Estatística, na verdade, é uma representação matemática de uma previsão biológica (leia Farji-Brener 2003 e 2004). Cuidado com as diferenças de terminologia e seu sentido lógico. A hipótese biológica você apresenta logo na introdução, já a hipótese estatística (previsão) você explica nos métodos.

4. Que tipos de variáveis estão envolvidos?

Agora que você já tem uma previsão testável, examine a estrutura lógica dela com cuidado. A primeira coisa a checar é a natureza das variáveis escolhidas. Há diferentes classificações na Estatística. Na maioria dos casos, primeiro você deve checar se a sua variável é qualitativa ou quantitativa. Variáveis qualitativas não são mensuráveis. Elas se dividem em nominais, quando não há um ranking de valores (e.g., macho ou fêmea, cor dos olhos), e ordinais, quando há uma ordem entre os estados da variável (e.g., doença em estado inicial, intermediário ou terminal). As variáveis quantitativas podem ser medidas e se dividem em discretas e contínuas. As variáveis discretas são resultado de contagens e só têm valores inteiros; e.g., número de filhotes, anos de idade, tamanho populacional. Por sua vez, as variáveiscontínuas geralmente resultam de medidas com instrumentos ou índices, e assumem valores na escala real, onde frações fazem sentido; e.g., altura, massa corporal, carga alar. Também se chama de não-paramétricas as variáveis nominais, ordinais e discretas, e de paramétricas as variáveis contínuas. No nosso caso hipotético, temos então duas variáveis, sendo ambas quantitativas, porém uma discreta (número de visitas) e a outra contínua (massa).

5. Qual é a relação entre as variáveis?

Agora você precisa pensar sobre qual variável é a causa (independente ou fator) e qual é o efeito (dependente ou resposta). Pegando o nosso exemplo, podemos imaginar que a massa corporal é a variável independente (X) e que o número de flores visitadas legitimamente em uma noite é a variável dependente (Y). Isso porque só tem sentido supor que a massa causa o número de visitas legítimas e não o contrário. A maioria dos testes estatísticos supõe implicitamente uma relação de causa e efeito. Mesmo os testes em que a variável independente é qualitativa (nominal ou ordinal), como o teste t e a ANOVA. A exceção são testes como a correlação, sem premissa de causalidade. Aqui neste exemplo, há apenas uma variável dependente, a eficiência do morcego. Quando a sua hipótese e a sua previsão envolvem mais de uma variável dependente, você está no terreno perigosodas análises multivariadas, um tema mais complexo que eu não abordo neste artigo.

6. No final das contas, qual teste se adequa melhor ao exemplo?

Agora que você já tem uma pergunta, uma hipótese e uma previsão, e sabe que tipo de variáveis tem em mãos e como elas se relacionam entre si, pode escolher com segurança o melhor teste estatístico para testar sua previsão. Continuando no nosso exemplo, dentre todos os testes adequados, o mais simples e bem sintonizado, neste caso, seria uma regressão linear simples, tomando a massa corporal como X e o número de visitas legítimas de cada morcego individual como Y. Através de um teste de regressão, saberíamos não apenas se a relação entre essas variáveis existe de fato ou não (significância ou P), como também se ela é positiva (maior massa, mais visitas) ou negativa (maior massa, menos visitas), e quão forte ela é (r²). As assim chamadas “hipóteses estatísticas” seriam: hipótese nula – não há relação entre X e Yhipótese alternativa 1 – há relação positiva entre X e Yhipótese alternativa 2 – há uma relação negativa entre X e Y. É bom ressaltar que, neste exemplo didático, considerando a forma como a nossa previsão biológica foi formulada, apenas a hipótese alternativa 1 confirma nossas expectativas. Relembrando, uma hipótese estatística, no fundo, é uma previsão científica, do ponto de vista epistemológico. Antes de rodar uma regressão linear simples, é preciso também testar a normalidade da distribuição de erros. Em alguns tipos de teste estatístico, caso a distribuição dos dados, erros ou diferenças não seja normal, é preciso fazer algum tipo de transformação ou então usar uma versão não-paramétrica. Defina também o nível de significância; na Ecologia, costuma-se usar 5%, mas isso varia entre áreas. Veja se o teste escolhido tem mais alguma outro pressuposto além da normalidade dos dados (e.g., homocedasticidade) e cheque tudo o que for necessário. Rode o teste e não se esqueça de prestar atenção também ao tamanho do efeito e ao poder estatístico.

7. E no meu caso, por qual estrada devo seguir?

Considere tudo o que foi dito até este ponto. Depois, para facilitar sua escolha, use este mapa adaptado por mim a partir de um mapa usado no curso de Estatística para Biólogos ministrado pela Dra. Jutta Schmid, da Universidade de Ulm, Alemanha. Este mapa não cobre todas as possibilidades existentes, que são várias, mas abrange a grande maioria dos testes rotineiramente usados por ecólogos. Clique na imagem para aumentá-la.

8. Resumo dos passos necessários para fazer um teste estatístico

  1. Defina uma pergunta de trabalho e, a partir dela, elabore uma hipótese;
  2. A partir da hipótese, elabore uma previsão biológica;
  3. Examine a natureza das variáveis envolvidas na previsão: elas são nominais, ordinais, discretas ou contínuas?
  4. Pense sobre a relação entre as variáveis: há causalidade ou não?
  5. Defina sua previsão matemática (hipótese estatística) de forma mais precisa;
  6. Planeje bem quantas amostras serão necessárias para ter um bom poder estatístico;
  7. Colete os dados no campo, laboratório ou computador;
  8. Plote gráficos para examinar visualmente a relação entre as variáveis;
  9. Escolha o teste mais adequado para testar a previsão;
  10. Cheque todos os pressupostos do teste (e.g., normalidade e homocedasticidade);
  11. Se necessário, aplique alguma transformação aos dados;
  12. Defina o nível de significância do teste;
  13. Rode o teste escolhido;
  14. Preste atenção também ao tamanho do efeito e ao poder estatístico do teste.

9. Pressupostos dos testes

No fundo, o pressuposto mais importante de qualquer teste estatístico é a qualidade da coleta dos dados: as observações têm que ter sido feitas dentro do maior rigor possível, bem afinadas com a orientação dada pela previsão biológica, com a precisão necessária a cada caso, e de forma que as unidades amostrais sejamindependentes entre si. Vale lembrar que a normalidade dos dados não é um pressuposto tão fundamental assim em todos os testes estatísticos. Portanto, muitas vezes, pode-se aplicar um teste paramétrico a dados originais, resíduos ou erros que não sigam a distribuição normal, sem grandes diferenças no resultado, especialmente quando o efeito é forte.  Na grande família dos modelos lineares, que incluem o teste t e a ANOVA, testes mais complexos, como os modelos lineares gerais de efeitos mistos, importam-se muito pouco com a normalidade dos dados brutos.

Há também diferentes transformações que tornam normal a distribuição dos dados. Muitos testes têm também versões baseadas em outros tipos de distribuição ou emreamostragem, contornando esse problema da distribuição dos dados. Contudo, neste guia, sigo a orientação tradicional de escolher o teste levando em conta a normalidade dos dados. A Estatística, assim como qualquer outra ciência, também tem diferentes visões e escolas, assim como temas mais ou menos controversos. Via de regra, tenha em mente que os testes paramétricos costumam ter um poder estatístico maior do que os não-paramétricos, então sempre que possível prefira os primeiros aos segundos.

10. Sinta o “jeitão” dos dados

Não confie cegamente nos resultados numéricos dos testes! Sempre pode ter havido algum erro na hora de rodar o programa estatístico. Por isso, antes de rodar qualquer teste, até mesmo um qui-quadrado 2×2, examine seus dados visualmente, para ter um feeling sobre o jeitão deles e sentir no estômago se sua previsão foi confirmada ou não. Primeiro, faça histogramas para examinar a distribuição dos dados. Segundo, faça gráficos já relacionando as variáveis de interesse (gráficos de barras, diagramas de dispersão, box-plots etc.). Só depois de conhecer seus dados mais intimamente, rode as análises.

11. Conselhos finais

  1. Sendo você um biólogo, não dê ênfase demais às análises estatísticas no seu projeto ou artigo. Fale sobre os fenômenos biológicos estudados, usando os números como apoio.
  2. Não confunda hipótese biológica com hipótese estatística. Lembre-se de que os seus dados só farão sentido, se você elaborar uma hipótese interessante para lhes dar contexto, independente do resultado do teste estatístico.
  3. Escolha as análises estatísticas antes de iniciar o projeto e não depois de ter coletado os dados. A estatística faz parte do planejamento e envolve questões fundamentais, como o modelo a ser usado e o número de amostras que serão necessárias para testar as previsões feitas.

12. Sugestões de leitura

Fonte: http://marcoarmello.wordpress.com/2012/05/17/qual-teste-estatistico-devo-usar/#more-352

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s