Medidas de tendência central e dispersão

Exercício 1

Pesquisadores médicos mediram níveis de colesterol de 28 vítimas de ataque cardíaco, após 2, 4 e 14 dias do ataque. Os níveis de colesterol de 30 indivíduos que não sofreram ataque foram tomados como controle. 

Tarefas:

  1. Calcular medidas de tendência central: Média, mediana, moda
  2. Calcular medidas de dispersão: Desvio-padrão, Intervalo-Interquartil
  3. Calcular desvio-padrão da média
  4. Fazer histogramas e boxplots, por grupo.

Bancos de dados:

No Excel:

a) (Recordação) Utilizando as colunas com os dados originais, calcule os valores de média, mediana, moda, desvio padrão e desvio padrão da média, através das funções do próprio Excel. Lembre-se que as funções (média, mediana, moda, etc.) podem ser também inseridas utilizando-se o ícone fx.

As funções do Excel são:

média -> MÉDIA( )

mediana -> MED( )

moda -> MODO( )

desvio padrão -> DESVPAD( )

contar números ->CONT.NÚM( )

raiz -> RAIZ( )

excel2_1

b) Faça um gráfico do valor médio (eixo das ordenadas) em função dos grupos de dados (eixo das abscissas).

No Minitab:

c) Transfira os dados para o Minitab (CTRL-C para copiar e CTRL-V para colar). Faça histogramas para cada coluna de dados (2, 4 e 14 dias, e grupo-controle). Procure estimar visualmente valores de tendência central (escolha o estimador que julgar mais adequado para o caso) e também de dispersão.

minitab2_1  minitab2_2

 

minitab2_3

d) No modo de Estatística Descritiva, obtenha uma listagem das estimativas dos parâmetros de tendência central e de dispersão.

minitab2_4 

minitab2_5

e) Ainda no modo de estatística descritiva, obtenha um sumário gráfico (em Basic Statistics -> Graphical Summary). Observe atentamente as informações obtidas (gráficos e estimativas de parâmetros).

No SPSS:

1.       Clique em File -> Open -> Data...

     a.       Na janela “Open Data”, mude a opção “Files of type:” para “Excel (.xls, ....”

     b.      Encontre e selecione o arquivo “colesterol.xls

     c.       Na janela “Opening Excel Data Source”, verifique se a opção “Read variable names ...” está selecionada (se não estiver, selecione), e clique em OK

2.       Clique em Analyze -> Descriptive Statistics -> Frequencies....

     a.       Na janela Frequencies, selecione todas as variáveis, para que apareçam no campo “Variable(s):”

     b.      Clique em “Statistics...” e na nova janela selecione as medidas que deseja calcular, depois clique em “Continue”

     c.       Clique em “Charts...” selecione “Histograms:” e “Show normal curve...”, depois clique em “Continue”

     d.      Clique em “OK”

3.       O Intervalo-interquartil pode ser calculado em Analyze -> Descriptive Statistics -> Explore...

4.       Clique em Graphs -> Legacy Dialogs -> Boxplot...

     a.       Marque a opção “Summaries of separate variables”

     b.      Selecione todas as variáveis para o campo “Boxes Represent:”

     c.       Clique em “Options...” e selecione a opção “Exclude cases variable by variable”, depois clique em “Continue”

     d.      Clique em “OK”

Dados reorganizados:

5.       Carregue o arquivo “colesterol_stack.xls

6.       Clique em Analyze -> Descriptive Statistics -> Explore...

     a.       Selecione a variável “Colesterol” no campo “Dependent List”

     b.      Selecione a variável “Tempo” no campo “Factor List”

     c.       Selecione a variável “Paciente” no campo “Label Cases by:”

     d.      Clique em “Plots...”, selecione “Histogram” e desmarque “Steam-and-leaf”

     e.      Clique em “OK”

7.       Clique em Graphs -> Legacy Dialogs -> Histogram...

     a.       Selecione a variável “Colesterol” no campo “Variable”

      b.      Selecione a variável “Tempo” no campo “Rows:”

No R (Rcmdr):

1.      Acessar o Rcmdr através do R: comando require("Rcmdr") ou library("Rcmdr") .

     a.       Clique em Dados->Importar arquivos de dados-> de conjunto de dados do Excel, Access ou dBase...

     b.       Defina o nome do conjunto de dados, exemplo "Aula2_Exercicio1”

     c.      Encontre e selecione o arquivo “colesterol.xls

     d.     Na janela aberta selecione “Plan1” 

     e.      Clique em “OK”

     f.       Para mudar os nomes das variáveis: Dados->Modificação de variáveis no conjutno de dados->Renomear variáveis...

     g.      Após selecionar na variável desejada, mudar o nome para por exemplo “dois_dias”, “quatro_dias”, ...

2.       Clique em Estatísticas-> Resumos->Conjunto de dados ativo 

     a.       Na Saída ou "Output" aparece o "summary" (resumo) com os resultados dos principais valores das “Variable(s):”                      como média, mediana, ...

     b.      Clique em Estatísticas-> Resumos->Resumos numéricos 

     c.       Selecione uma variavél, depois clique em "Estatísticas" e selecione em Média, Desvio padrão, Erro Padrão da média,                     Intervalo-Interquartil, clique finalmente em "OK"

     d.        Na Saída ou "Output" aparecem os valores solicitados 

3.            Clique em Gráficos->Histograma 

     a.      Selecione em "Dados" uma variável, depois clique em "Opções" 

     b.      Mude os nomes dos rótulos dos eixos X e Y, e o nome do gráfico

     c.       Clique em “OK”

     d.      O gráfico é gerado no GUI (Interface Gráficado R

4.            Clique em Gráficos->Boxplot

     a.      Selecione em "Dados" uma variável, depois clique em "Opções" Marque a opção “Summaries of separate variables”

     b.      Mude os nomes dos rótulos dos eixos X e Y, e o nome do gráfico

     c.       Clique em “OK”

     d.      O gráfico é gerado no GUI (Interface Gráficado R  

***Para mais informações, baixar o tutorial passo a passo: Tutorial_Aula2_exercicio1_Rcmdr

Dados reorganizados:

5.       Carregue o arquivo “colesterol_stack.xls”, como foi explicado linhas acima

6.       Clique em Estatísticas-> Resumos->Resumos numéricos...

       a.     Selecione uma variável, e depois clique em "Resuma por Grupos"..

       b.     Selecione em "Tempo" e clique em "OK"

       c.     Clique em "Estatísticas" em Média, Desvio padrão, Erro Padrão da média,  Intervalo-Interquartil, clique finalmente em 

       d.     Clique em "OK".

       e.     Na Saída ou "Output" aparecem os valores solicitados 

7.       Clique em Estatísticas-> Resumos->Tabelas de estatísticas...

       a.     Escolha uma ou as duas variáveis (Colesterol e Paciente)

       b.     Selecione em "Estatística" alguma das opções: Média, ou Mediana, ou Desvio-Padrão..

       c.     Clique em "OK"

       d.     Na Saída ou "Output" aparecem os valores solicitados   

8.       Clique em Gráficos->Histograma

       a.      Selecione em "Dados" uma variável, e depois clique em "Gráfico por grupos"..

       b.     Selecione em "Tempo" e clique em "OK"

       c.     Clique novamente em "OK",  os histogramas são gerados no GUI 

9.        Clique em Gráficos->Boxplot

       a.      Selecione em "Dados" uma variável, e depois clique em "Gráfico por grupos"..

       b.     Selecione em "Tempo" e clique em "OK"

       c.     Clique novamente em "OK",  os boxplots são gerados no GUI

Exercício 2

Na tabela ovos.mtw (ou ovos.txt ou ovos.sav) estão os dados de cotação mensal do ovo extra branco no atacado de São Paulo, em R$ por caixa de 30 dúzias, nos anos de 2000 e 2001.

a) No modo de Estatística Descritiva do Minitab, obtenha os sumários gráficos para a cotação mensal, e observe as estimativas dos parâmetros de tendência central e de dispersão. Neste caso, além do campo “Variables” (cotação), é necessário preencher o campo “By variable” (ano).

b) Faça boxplots com os dados dos 2 anos.

 

minitab2_6

minitab2_7

minitab2_7

c) Faça gráficos do tipo boxplot para os dados do exercício 1.

Para empilhar os dados em uma única coluna, utilize o comando Stack, conforme descrito abaixo. É interessante denominar duas colunas vazias (por exemplo, 'dados' e 'categoria'), onde os dados serão empilhados.

minitab2_7

 

minitab2_8

Exercício 3

O arquivo Poodle.mtw (ou Poodle.txt ou Poodle.sav) contém dados de peso, idade, sexo, freqüência cardíaca, freqüência respiratória de cães da raça Poodle.

a) Com base no que foi visto nos exercícios 1 e 2, obtenha, utilizando a Estatística Descritiva do Minitab, estimativas para as medidas de tendência central e de dispersão, e também o sumário gráfico para peso e idade para cães Poodle machos e fêmeas (separadamente).

b) Faça gráficos do tipo boxplot para os dados de peso e idade, separando por sexo.