Medidas de tendência central e dispersão
Exercício 1
Pesquisadores médicos mediram níveis de colesterol de 28 vítimas de ataque cardíaco, após 2, 4 e 14 dias do ataque. Os níveis de colesterol de 30 indivíduos que não sofreram ataque foram tomados como controle.
Tarefas:
- Calcular medidas de tendência central: Média, mediana, moda
- Calcular medidas de dispersão: Desvio-padrão, Intervalo-Interquartil
- Calcular desvio-padrão da média
- Fazer histogramas e boxplots, por grupo.
Bancos de dados:
- Para fazer o exercício no Excel e Minitab: explor.xls.
- Para fazer o exercício no SPSS e no Rcmdr: colesterol.xls
No Excel:
a) (Recordação) Utilizando as colunas com os dados originais, calcule os valores de média, mediana, moda, desvio padrão e desvio padrão da média, através das funções do próprio Excel. Lembre-se que as funções (média, mediana, moda, etc.) podem ser também inseridas utilizando-se o ícone fx.
As funções do Excel são:
média -> MÉDIA( )
mediana -> MED( )
moda -> MODO( )
desvio padrão -> DESVPAD( )
contar números ->CONT.NÚM( )
raiz -> RAIZ( )
b) Faça um gráfico do valor médio (eixo das ordenadas) em função dos grupos de dados (eixo das abscissas).
No Minitab:
c) Transfira os dados para o Minitab (CTRL-C para copiar e CTRL-V para colar). Faça histogramas para cada coluna de dados (2, 4 e 14 dias, e grupo-controle). Procure estimar visualmente valores de tendência central (escolha o estimador que julgar mais adequado para o caso) e também de dispersão.
d) No modo de Estatística Descritiva, obtenha uma listagem das estimativas dos parâmetros de tendência central e de dispersão.
e) Ainda no modo de estatística descritiva, obtenha um sumário gráfico (em Basic Statistics -> Graphical Summary). Observe atentamente as informações obtidas (gráficos e estimativas de parâmetros).
No SPSS:
1. Clique em File -> Open -> Data...
a. Na janela “Open Data”, mude a opção “Files of type:” para “Excel (.xls, ....”
b. Encontre e selecione o arquivo “colesterol.xls”
c. Na janela “Opening Excel Data Source”, verifique se a opção “Read variable names ...” está selecionada (se não estiver, selecione), e clique em OK
2. Clique em Analyze -> Descriptive Statistics -> Frequencies....
a. Na janela Frequencies, selecione todas as variáveis, para que apareçam no campo “Variable(s):”
b. Clique em “Statistics...” e na nova janela selecione as medidas que deseja calcular, depois clique em “Continue”
c. Clique em “Charts...” selecione “Histograms:” e “Show normal curve...”, depois clique em “Continue”
d. Clique em “OK”
3. O Intervalo-interquartil pode ser calculado em Analyze -> Descriptive Statistics -> Explore...
4. Clique em Graphs -> Legacy Dialogs -> Boxplot...
a. Marque a opção “Summaries of separate variables”
b. Selecione todas as variáveis para o campo “Boxes Represent:”
c. Clique em “Options...” e selecione a opção “Exclude cases variable by variable”, depois clique em “Continue”
d. Clique em “OK”
Dados reorganizados:
5. Carregue o arquivo “colesterol_stack.xls”
6. Clique em Analyze -> Descriptive Statistics -> Explore...
a. Selecione a variável “Colesterol” no campo “Dependent List”
b. Selecione a variável “Tempo” no campo “Factor List”
c. Selecione a variável “Paciente” no campo “Label Cases by:”
d. Clique em “Plots...”, selecione “Histogram” e desmarque “Steam-and-leaf”
e. Clique em “OK”
7. Clique em Graphs -> Legacy Dialogs -> Histogram...
a. Selecione a variável “Colesterol” no campo “Variable”
b. Selecione a variável “Tempo” no campo “Rows:”
No R (Rcmdr):
1. Acessar o Rcmdr através do R: comando require("Rcmdr") ou library("Rcmdr") .
a. Clique em Dados->Importar arquivos de dados-> de conjunto de dados do Excel, Access ou dBase...
b. Defina o nome do conjunto de dados, exemplo "Aula2_Exercicio1”
c. Encontre e selecione o arquivo “colesterol.xls”
d. Na janela aberta selecione “Plan1”
e. Clique em “OK”
f. Para mudar os nomes das variáveis: Dados->Modificação de variáveis no conjutno de dados->Renomear variáveis...
g. Após selecionar na variável desejada, mudar o nome para por exemplo “dois_dias”, “quatro_dias”, ...
2. Clique em Estatísticas-> Resumos->Conjunto de dados ativo
a. Na Saída ou "Output" aparece o "summary" (resumo) com os resultados dos principais valores das “Variable(s):” como média, mediana, ...
b. Clique em Estatísticas-> Resumos->Resumos numéricos
c. Selecione uma variavél, depois clique em "Estatísticas" e selecione em Média, Desvio padrão, Erro Padrão da média, Intervalo-Interquartil, clique finalmente em "OK"
d. Na Saída ou "Output" aparecem os valores solicitados
3. Clique em Gráficos->Histograma
a. Selecione em "Dados" uma variável, depois clique em "Opções"
b. Mude os nomes dos rótulos dos eixos X e Y, e o nome do gráfico
c. Clique em “OK”
d. O gráfico é gerado no GUI (Interface Gráfica) do R
4. Clique em Gráficos->Boxplot
a. Selecione em "Dados" uma variável, depois clique em "Opções" Marque a opção “Summaries of separate variables”
b. Mude os nomes dos rótulos dos eixos X e Y, e o nome do gráfico
c. Clique em “OK”
d. O gráfico é gerado no GUI (Interface Gráfica) do R
***Para mais informações, baixar o tutorial passo a passo: Tutorial_Aula2_exercicio1_Rcmdr
Dados reorganizados:
5. Carregue o arquivo “colesterol_stack.xls”, como foi explicado linhas acima
6. Clique em Estatísticas-> Resumos->Resumos numéricos...
a. Selecione uma variável, e depois clique em "Resuma por Grupos"..
b. Selecione em "Tempo" e clique em "OK"
c. Clique em "Estatísticas" em Média, Desvio padrão, Erro Padrão da média, Intervalo-Interquartil, clique finalmente em
d. Clique em "OK".
e. Na Saída ou "Output" aparecem os valores solicitados
7. Clique em Estatísticas-> Resumos->Tabelas de estatísticas...
a. Escolha uma ou as duas variáveis (Colesterol e Paciente)
b. Selecione em "Estatística" alguma das opções: Média, ou Mediana, ou Desvio-Padrão..
c. Clique em "OK"
d. Na Saída ou "Output" aparecem os valores solicitados
8. Clique em Gráficos->Histograma
a. Selecione em "Dados" uma variável, e depois clique em "Gráfico por grupos"..
b. Selecione em "Tempo" e clique em "OK"
c. Clique novamente em "OK", os histogramas são gerados no GUI
9. Clique em Gráficos->Boxplot
a. Selecione em "Dados" uma variável, e depois clique em "Gráfico por grupos"..
b. Selecione em "Tempo" e clique em "OK"
c. Clique novamente em "OK", os boxplots são gerados no GUI
Exercício 2
Na tabela ovos.mtw (ou ovos.txt ou ovos.sav) estão os dados de cotação mensal do ovo extra branco no atacado de São Paulo, em R$ por caixa de 30 dúzias, nos anos de 2000 e 2001.
a) No modo de Estatística Descritiva do Minitab, obtenha os sumários gráficos para a cotação mensal, e observe as estimativas dos parâmetros de tendência central e de dispersão. Neste caso, além do campo “Variables” (cotação), é necessário preencher o campo “By variable” (ano).
b) Faça boxplots com os dados dos 2 anos.
c) Faça gráficos do tipo boxplot para os dados do exercício 1.
Para empilhar os dados em uma única coluna, utilize o comando Stack, conforme descrito abaixo. É interessante denominar duas colunas vazias (por exemplo, 'dados' e 'categoria'), onde os dados serão empilhados.
Exercício 3
O arquivo Poodle.mtw (ou Poodle.txt ou Poodle.sav) contém dados de peso, idade, sexo, freqüência cardíaca, freqüência respiratória de cães da raça Poodle.
a) Com base no que foi visto nos exercícios 1 e 2, obtenha, utilizando a Estatística Descritiva do Minitab, estimativas para as medidas de tendência central e de dispersão, e também o sumário gráfico para peso e idade para cães Poodle machos e fêmeas (separadamente).
b) Faça gráficos do tipo boxplot para os dados de peso e idade, separando por sexo.