Capítulo 1. IntroduçãoEste texto é dirigido ao ensino da Estatística descritiva, especialmente para estudantes de engenharia. Show
A nossa proposta é ensinar a Estatística descritiva, abordando todos os seus conceitos básicos e ao mesmo tempo disponibilizar uma ferramenta computacional, onde o aluno poderá obter os resultados de suas análises através do uso do programa livre R, que estamos disponibilizando no CD da apostila. R é um sistema para análises estatísticas e gráficos criado por Ross Lhaka y Robert Gentleman (Lhaka R. & Gentleman R. 1996. R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5:299-314. R tem uma característica dupla de programa e linguagem de programação e é considerado como um dialeto da linguagem S criada pelos laboratórios AT&T Bell. R é distribuído gratuitamente sob os termos da GNU (General Public Licence). Seu desenvolvimento e distribuição são implementados por vários estatísticos conhecidos como o Grupo Nuclear de desenvolvimento do R. 1.1. Os métodos de engenharia e o pensamento estatístico Um engenheiro é alguém que resolve problemas de interesse para sociedade pela eficiente aplicação de princípios científicos. Estes profissionais realizam isto, ou por refinar um produto existente ou processar ou por desenhar um novo produto ou processo de acordo com a necessidade de seus clientes. A engenharia ou método científico é a foram par formulação e solução paa esses problemas. Os passos nos métodos da engenharia são os seguintes:
Os passos dos métodos da engenharia são mostrados na figura 1. Figura 1.1 Os métodos da engenharia Os passos 2-4 na Fig. 1 indicam que vários ciclos de iteração são necessários para obter a solução final. Consequentemente, engenheiros devem ter conhecimento para planejar eficientemente os experimentos, coletar, analizar e interpretar dados; e entender como os dados observados estão relacionados ao modelo propostopar o pproblema em estudo. A ciência estatística trata da coleta, apresentação, análise, e uso dos dados para tomar decisões, solucionar problemas, e propor novos produtos e processos. Em função de muitos aspectos práticos da engenharia envolver o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificamente, as técnicas estatísticas podem dar uma forte ajuda no desenho de novos produtos e sistemas, melhorando os projetos existentes, e desevolvendo, e melhorando os processos de produção. 1.2. De que trata a Estatística? Estatítica é ciência que se ocupa da obtenção de informação (amostragem, planejamento de experimentos), seu tratamento inicial (ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas - em suma, estatística descritiva e análise exploratória de dados), com a finalidade de, através de resultados probabílisticos adequados, inferir de uma amosra para a população (decisão sobre hipóteses, estimativa de parâmetros populacionais a partir de características amostrais relevantes, comparação de populações, relacionamento de uma variáel resposta com variáveis controladas). Por outras palavras, é um instrumento de leitura de informação e da sua transformação em Conhecimento. É, também, uma ciência que se ocupa de estratégias e decisão num contexto de variabilidade e incerteza. Galileu afirmava que Deus escreveu o Mundo em linguagem matemática, e que competia ao homem decifrar esta linguagem. Caso Galileu vivesse hoje, teria certamente escrito “estatística” em vez de “matemática”: o âmago da Estatística é a decifração dos dados. O propósito último da análise estatística é inferir, a partir de uma amostra as características de uma população, ou comparar populações; e se possível, predizer acontecimentos futuros (no sentido específico de avaliar as suas probabilidades). Inferência e predição decorrem de modelos probabilísticos, e só podem ser efetivados com estudo prévio da matemática das incertezas, a teoria da probabilidade. DEFINIÇÃOEstatística descritiva é o ramo que trata da organização, do resumo e da apresentação dos dados. Estatística indutiva ou inferencial é o ramo que trata de tirar conclusões sobre uma população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a probabilidade. População é o conjunto de elementos que formam o universo de nosso estudo que são passíves de ser observados, sob as mesmas condições. Amostra é uma parte dos elementos de uma população, obtidos por um determinado critério. Amostragem é om processo ou critério que será usado para selecionar as unidades que comporão a amostra. Parâmetro é uma medida que descreve certa característica dos elementos da população. Estatística é uma medida que descreve certa característica dos elementos da amostra. Estimativa é um valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro de interesse. ****************************** 1.3. Coleta, registro e inspeção dos dados Os objetos de estudo da Estatística são os dados estatísticos, e o objetivo da Estatística é obter dados, por observação ou produzindo-os intencionalmente, descrevê-los, sumarizá-los, agrupá-los, organizá-los, analisá-los e interpretar os resultados da análise. Existem várias maneiras de recompilar datos. En termos gerais podem ser coletados conforme a figura 2. Figura 1.2. Métodos de coleta de dados. 1.4. Tipo de dados No ambiente de engenharia, os dados são quase sempre uma amostra que tenha sido selecionada a partir de alguma população. Três métodos básicos de coleta de dados são:
Um procedimento de coleta de dados eficaz pode simplificar muito a análise e levar à melhorar a compreensão da população ou processo que está sendo estudado. Para realizar cálculos estatísticos uma das primeiras coisas a serem feitas é caracterizar qual tipo de dados está sendo trabalhado, pois muitos cálculos estatísticos aplicáveis a um, não são adequados para outros. Chamamos unidades amostrais aos elementos sobre os quais temos acesso aos dados. Uma variável estatística é uma característica que pode ser diferente nas diversas observações feitas, e pode ser de natureza qualitativa ou quantitativa. Sobre qualquer unidade amostral, podemos observar qualidades ou medir quantidades. A estatística qualitativa ocupa-se das variáveis qualitativas, em geral usando contagens ou frequencias absolutas, ou percentagens ou frequencias relativas das classes ou categorias, sendo as variáveis nominais ou ordinais. A estatística quantitativa ocupa-se das variáveis quantitativas, que em geral resultam de contagens ou de medições. Os resultados das medições são expressos numa escala contínua ou intervalar ou numa escala absoluta (Figura 3). Figura 1.3. Classificação dos dados. Exemplo 1.1. Classificação dos dados
Exercício 1.1
Capítulo 2. Apresentação de dados em Tabelas.Dados corretamente coletados fornecem conheciemntos que não seriam obtidos por simples especulação. Mas os dados precisam ser apresentados. A melhor e mais organizada forma de apresentar dados é por meio de tabelas, construídas de acordo com as normas técnicas. Uma tabela deve ter:
Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção dos dados; as chamadas clarificam pontos específicos na tabela. Exemplo 2.1. Tabelas Tabela 2.1 Histórico da população brasileira
2.1. Tabelas de distribuição de frequênciasDEFINIÇÃOUma distribuição de frequências é uma tabela que mostra classes ou intervalos de entrada de dados com um número total de entradas em cada classe. A frequência f de uma classe é o número de entrada de dados na classe. *************** 2.1.1 Apresentação de dados qualitativosNos dados de natureza qualitativa, cada unidade é classificda em determinada categoria. A tabela de distribuição de frequências apresenta a frequência de unidades em cada categoria, ou seja, quantas vezes você observou cada categoria da variável. Exemplo 2.1 Para adequar os produtos às prefrẽncias dos clientes, um projetista de páginas de Internet pretende conhecer o perfil dos indivíduos que acessam um de seus sites. Pensando nisso, ele fez uma pesquisa e levantou algumas características dos visitantes de seu site. Os resultados são apresentados a seguir: Tabela 2.2. Perfil de indíviduos que acessam diferentes provedores
Para construir a distribuição de frequências com os dados, basta contar a quantidade de resultados observados em cada categoria, que corresponde a frequência absoluta (f) ou simplesmente frequẽncia. Além disso é usual fornecer, além das frequências absolutas as frequências relativas (frel), que corresponde ao quociente entre a frequência de cada categoria e o total. Estes valores podem ser apresentados também em percentual, bastando multiplicar por 100. \(frel=\frac{f}{total}\) Tabela 2.3 Distribuição de frequências do provedor usado pelo visitante no site.
****Fonte: Barbeta et al., 2008 2.1.2. Apresentação de dados quantitativos discretos em tabela de distribuição de frequênciasSe os dados são discretos, para organizar a tabela de distribuição de frequências; 1. Conte quantas vezes cada valor se repete. 2. Escreva os dados em ordem crescente. 3. organize a tabela como já foi feito para dados qualitativos, mas colocando os valores numéricos, em ordem natural, no lugar das categorias. Exemplo 2.2. foi feito inspeção de um produto na linha de saída e foram contados os defeitos em uma amostra de tamannho igual a 27. os dados estão a seguir.
Tabela 2.4 Distribuição de frequência dos defeitos em 27 amostras de um produto.
2.1.3. Apresentação de dados quantitativos contínuos em tabelas de distribuição de frequênciasPara construir uma tabela de distribuição de frequências com dados contínuos:
Cálculo do número de classes (K) O número de classes deve ser escolhido, em função do que se quer mostrar. em geral, convém estabelecer de 5 a 20 classes. Se o número de classes for demasiado pequeno (por exemplo, 3), perde-se muita informação. Se for grande, têm-se pormenores desnecessŕios. O importante é saber que não existe um número “ideal” de classes para um conjunto de dados, embora existam até fórmulas para estabelecer quantas classes devem ser construídas. Para usar uma dessas fórmulas, faça n indicar o número de dados. O número de classes será o inteiro mais próximo de K, obtido pela fórmula: \(k = \sqrt{n}\)Outras fórmulas utilizadas para o cálculo do número de classes: Sturges: k = 1 + 3,3log(n), em que log é o logaritmo decimal Milone: k = -1 + 2ln(n), em que ln é o logaritmo neperiano. Após construir uma distribuição de frequências, há vários aspectos adicionais que pode-se incluir para uma melhor compreenssão dos dados. Esses aspectos são o ponto médio (pm) e as frequências relativa (frel) e acumuladas (facum), os quais podem ser adicionados nas colunas de sua tabela. DEFINIÇÃOO ponto médio (pm) de uma classe é a metade da soma entre os limites inferior e superior da classe. \(pm=\frac{(lim\ inf\ da\ classe)+(lim\ sup\ da\ classe)}{2}\)A frequência relativa (fr) de uma classe é a proporção ou porcentagem de dados que entra nessa classe. Para determinar divida a frequência absoluta f pelo tamanho da amostra n. As frquências relativas podem exigir arredondamentos nos cálculos individuais e nas totalizações, uma vez que elas devem totalizar 100. Os arredondamentos são os convencionais, isto é, abaixo de cinco, mantém-se o valor até o último dígito significativo; para cinco ou mais soma-se um ao último dígito significativo. \(f = \frac{(frequência\ da\ classe)}{n}\)A frequência acumulada (facum) de uma classe é a soma da frequência daquela classe com a de todas as classes anteriores. A frequência acunulada da última classe é igual ao tamanho da amostra n Exemplo 2.3 Os dados representam o tempo (segundos) para carga de um aplicativo, num sistema compartlhado. Construa a tabela de frequência.
Solução
At = Max - Min = 14,1-4,7 - 9,4
\(k=\sqrt{n}\) \(k=\sqrt{50}\) k = 7,07 k=7
\(Ac=\frac{At}{k}\) \(c=\frac{9,4}{7}\) c = 1,34 c = 1,5
Tabela 2.5. Distribuição de frequências do tempo para carga de um aplicativo.
Capítulo 3. Apresentação de dados em GráficosCD MaterialGráficos estatísticos são usados para apresentar informação quantitativa na forma de ilustrações, o que facilita a compreensão e visualização dos dados. De acordo com as normas da ABNT, os gráficos devem:
Elementos de um gráfico:
Erros mais comuns em gráficos
3.1 Histograma e Polígono de FrequênciaA representação gráfica dos valores associados a uma tabela de frequência, que costuma ser feita por meio de colunas justapostas, dá-se o nome de histograma. Os histogramas podem ser emoldurados por linhas contínuas, abertas ou fechadas, compatíveis e adequadas às distribuições dos dados que pretendem retratar. em caso de frequências simples, a linha fechada de contorno externo é denominada linha característica, A linha característica que une os pontos médios das classes de frequências simples é dita linha de frequências; a que un os pontos médios das classes de frequências acumuladas, ogiva. Se os dados estão uniformemente distribuídos no intervalo, as linhas são compostas por segmentos de retas e definem a poligonal característica da distribuição, a qual permite a obtenção de valores intermediários por interpolação linear. Quando o número de intervalos tende a infinito, a linha de frequências é dita função de densidade dos dados; similarmente, a ogiva é denominada função de distribuição dos dados. A linha de frequência é fechada no eixo das abcissas; para tanto, acrescenta-se à distribuição uma classe à esquerda e outra à direita, ambas com frequência zero. Destaca-se que a área sob a linha de frequẽncias assim construída é igual á área do histograma. A ogiva, por sua vez, por indicar os valores inferiores ou superiores a dado valor, é aberta de um de seus lados e fechada do outro. Uma das aplicações da ogiva é na determinação das separatrizes da distribuição. O polígono de frequẽncias e a ogiva produzem figuras regulares ou irregulares, simétricas ou assimétricas, alongadas ou afiladas e nas posições as mais díspares( como em J ou em U). A comparação de duas ou mais distribuições pode ser feita colocando-se os respectivos gráficos lado a lado ou um sobre o outro. Exemplos-Gráficos: histogramas, polígonos de frequências e ogivas
3.2 Gráfico de barrasO gráfico de barras assemelha-se ao histograma. Porém os dados referem-se as categorias. É um excelente recurso para apresentar dados qualitativos, como por exemplo respostas de questionários. Tabela 3.1 Opinião dos brasileiros sobre determiado técnico de futebol
3.3 Gráfico de setoresO gráfico de setores ou circular, também conhecido como “pizza” pode ser utilizado para representar a frequência de observações de diferentes categorias. O tamanho pode ser definido em números percentuais ou absolutos. Em geral, um gráfico de setores não é um bom modo de representar dados porque o olho humano tem dificuldades para comparar áreas relativas com medidas lineares. 3.4 Gráfico de dispersãoGráficos que mostram a dispersão de dados são úteis para identificar muitas características de dados. Além da dispersão, outliers, tendência entre outros aspectos. 3.5 Diagrama de caixa (Box-plot)O box-plot é um gráfico que mostra a posição central, dispersão e simetria dos dados de uma amostra, comprimento de caudas e dados discrepantes. É utilizado para resumir as informações de um conjunto de dados. São várias as informações mostradas em um boxplot. A caixa (box) corresponde aos dados observados. O traço horizontal destacado dentro do box corresponde à mediana. Os limites inferior e superior representam o primeiro (quartil inferior) e terceiro quartil (quartil superior), respectivamente. As linhas verticais pontilhadas são chamadas whiskers (bigodes) e indicam aproximadamente o valor de dois desvios-padrões. Todos os valores observados fora dos whiskers são plotados como pontos individuais e, em teoria, são outliers. São valores muito distantes, que estão além de 3 desvios quartílicos (quartil superior - quartil inferior). O gráfico do exemplo 3.6 mostra que a distribuição dos dados não é exatamente simétrica em torno de um valor central porque as linhas abaixo e acima e as partes da caixa abaixo e acima da mediana não tem o mesmo comprimento. Exercício 3.1
Tabela 3.2 ***********************
Fonte: Milone, 2006.
Tabela 3.3 Diâmetro interno (mm) de anéis de pistons.
Fonte: Montgomery, 2004
Tabela 3.4 Diâmetro dos orifícios (mm) da nervura do bordo de ataque da asa.
Capítulo 4. Medidas de Tendência CentralCD Material4.1. Sumarização e apresentação de dadosResumos e exibições de dados bem construídos são essenciais para um bom raciocínio estatístico, porque eles podem concentrar o engenheiro em características importantes dos dados ou fornecer informações sobre o tipo de modelo que deve ser utilizado na resolução do problema. O computador tornou-se uma ferramenta importante na apresentação e análise de dados. Embora muitas técnicas estatísticas requerem apenas uma calculadora de mão, muito tempo e esforço pode ser exigido por esta abordagem, e um computador irá executar as tarefas de forma muito mais eficiente. A maioria das análises estatísticas são feitas usando uma biblioteca de comandos pré-escrita nos programas estatísticos. O usuário insere os dados e, em seguida, seleciona os tipos de análise e as saídas de interesse são exibidas. Muitos pacotes de software estatísticos estão disponíveis para para computadores pessoais. Vamos apresentar exemplos de saída do programa R (um dos pacotes de PC mais utilizados e de uso segundo a filosofia livre), ao longo da apostila. No Cd que acompanha a apostila o aluno poderá exercitar os comandos no R. Muitas vezes é útil descrever os dados numericamente. Por exemplo, podemos caracterizar a localização ou a tendência central dos dados pela média aritmética ordinária ou média. Média aritmética para dados agrupadosMedianaModaCapítulo 5. Medidas de Variabilidade ou dispersãoDesvio padrão amostral (sample standard deviation)Capítulo 6. Introdução à ProbablidadeCapítulo 7. Distribuição NormalCapítulo 8. Distribuição BinomialCapítulo 9. Distribuição NormalReferênciasMilone, G. Estatística geral e aplicada. São Paulo:Thomson Learning, 2006. Montgomery, D. Introdução ao controle estatístico de qualidade. Rio de Janeiro:LTC, 20014. This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com. When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
You can also embed plots, for example: Note that the convertendo para pdfinstall.packages(“Pandoc”)require(Pandoc)render(“estat_descrit.Rmd”, output_format = “pdf_document”)O que é estatística inferencial ou indutiva?A Estatística Indutiva ou Inferência Estatística, baseando-se nos resulta- dos obtidos da análise de amostra de uma população, procura inferir ou estimar as leis de comportamento de toda a população. Técnicas por meio das quais são tomadas decisões sobre uma população com base na observação de uma amostra.
O que se estuda em estatística inferencial?A estatística inferencial, o segundo tipo de procedimentos em estatística, preocupa-se com o raciocínio necessário para, a partir dos dados, se obter conclusões gerais. O seu objectivo é obter uma afirmação acerca de uma população com base numa amostra.
Qual é o objetivo da estatística inferencial?Estatísticas inferenciais usam uma amostra aleatória dos dados coletados de uma população para descrever e fazer inferências sobre a população. As estatísticas inferenciais são valiosas quando não é conveniente ou possível examinar cada membro de uma população inteira.
O que é estatística descritiva e estatística indutiva?A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e resumir um conjunto de dados. Diferencia-se da estatística inferencial, ou estatística indutiva, pelo objectivo: organizar, resumir dados ao invés de usar os dados em aprendizado sobre a população.
|