Prévia do material em texto
Cálculo de probabilidade
Apresentação
A teoria da probabilidade é um ramo da matemática que cria, elabora e pesquisa modelos para
estudar experimentos ou fenômenos aleatórios. Ela permite calcular incertezas, como, por exemplo,
a probabilidade de sair o número cinco ao lançarmos um dado, a probabilidade de cair cara ao
lançarmos uma moeda ou, ainda, de uma peça fabricada ser defeituosa, entre outras. Para o estudo
das probabilidades, é necessário introduzir alguns conceitos básicos, como, por exemplo, evento,
espaço amostral, eventos dependentes e independentes, eventos mutuamente excludentes e
complementares.
Nesta Unidade de Aprendizagem, você vai estudar a teoria da probabilidade, efetuando cálculos
simples relacionados com situações aplicadas.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Diferenciar eventos mutuamente excludentes de eventos complementares.•
Distinguir eventos independentes de eventos dependentes.•
Realizar cálculos simples de probabilidade.•
Desafio
Três eventos são independentes quando a probabilidade da interseção é o produto das
probabilidades e nenhum deles depende da ocorrência do outro. Caso contrário, os três eventos (A,
B e C) são ditos dependentes. A probabilidade da união de três eventos é igual à soma da
probabilidade do evento A mais a do evento B mais a do evento C, menos a probabilidade da
interseção entre os três (se não existir interseção, esse item é igual a zero). Essa propriedade é útil
quando interessa calcular a probabilidade de que ocorra, pelo menos, um entre três eventos.
Portanto, você deverá analisar o caso em que são realizados pedidos para as três transportadoras,
respondendo as seguintes perguntas:
a) Qual é a probabilidade de que as três transportadoras atendam imediatamente? Além de
apresentar a forma de cálculo que você adotou, explique por que é importante saber dessa
informação a respeito da entrega dos produtos aos clientes.
b) Qual é a probabilidade de que somente uma das transportadoras atenda imediatamente? Além
da apresentação do raciocínio para o cálculo dessa probabilidade, acrescente a sua conclusão.
Infográfico
Existem fenômenos (ou experimentos) que, mesmo sendo repetidos muitas vezes e sob condições
idênticas, não apresentam os mesmos resultados. Fenômenos desse tipo são denominados
aleatórios (ou casuais).
Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos os resultados possíveis
é chamado de espaço amostral. Todo subconjunto de um espaço amostral é denominado evento,
ou seja, os resultados que poderão ocorrer em determinado fenômeno, desejando que aconteçam
ou não.
No estudo da estatística, existem tipos distintos de eventos. Veja, neste Infográfico, como
identificar eventos mutuamente excludentes, eventos complementares e como distinguir os
eventos independentes dos dependentes.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/362a2274-62ca-45b9-b664-ea6ae34275b1/37347e58-7688-4624-8519-7bf4bc4e7cdd.jpg
Conteúdo do livro
A estatística, em particular o cálculo da probabilidade, tem grande relevância na tomada de decisão
para a sociedade como um todo. Entender quais são as chances de um evento incerto ocorrer
permite prever comportamentos e fazer estimativas que poderão embasar providências a serem
adotadas para a resolução de determinado problema. Nesse contexto, o cálculo da probabilidade
associa a ocorrência de um resultado a um valor que varia de zero a um e, quanto mais próximo de
um estiver o resultado, maior é a certeza da sua ocorrência.
No capítulo Cálculo de probabilidade, base teórica desta Unidade de Aprendizagem, você vai
aprofundar os conhecimentos sobre os diferentes tipos de eventos, conhecendo as suas
particularidades e aplicações. Diversos exemplos e leituras recomendadas são disponibilizados para
facilitar a compreensão.
Boa leitura.
ESTATÍSTICA
Jamur Silveira
Cálculo de probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Diferenciar eventos mutuamente excludentes de eventos comple-
mentares.
� Distinguir eventos independentes de eventos dependentes.
� Realizar cálculos simples de probabilidade.
Introdução
Neste texto, você vai estudar um dos conceitos mais importantes da
estatística: a probabilidade. A partir dele, você terá informações adicionais
da situação que está analisando e, com isso, mais êxito na tomada de
decisões.
Probabilidade
A teoria das probabilidades é um ramo da matemática que cria, elabora e
pesquisa modelos para estudar experimentos ou fenômenos aleatórios.
Há certos fenômenos (ou experimentos) que, embora sejam repetidos muitas
vezes e sob condições idênticas, não apresentam os mesmos resultados. Por
exemplo, no lançamento de uma moeda perfeita, o resultado é imprevisível,
não se pode determiná-lo antes de ser realizado e não podemos prever, mas
podemos saber quais são os possíveis resultados. Aos fenômenos (ou expe-
rimentos) desse tipo damos o nome de fenômenos aleatórios (ou casuais).
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório é
que buscamos os resultados prováveis, as chances e as probabilidades de um
determinado resultado ocorrer.
Identificação interna do documento PYDB0XJZAK-D1SFU31
Segundo Mann, a probabilidade corresponde à medida numérica da possibilidade de
que um determinado evento venha a ocorrer.
Espaço amostral
Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos
os resultados possíveis é chamado espaço amostral, que vamos indicar por
U ou Ω.
Veja os seguintes exemplos.
� Lançar uma moeda e observar a face voltada para cima: U = {cara,
coroa}.
� Lançar um dado e observar a face voltada para cima: U = {1, 2, 3, 4, 5, 6}.
Evento
Chama-se evento todo subconjunto de um espaço amostral, ou seja, os resul-
tados que poderão ocorrer em um determinado fenômeno. Resultados esses
que queremos que aconteçam ou não.
No lançamento de um dado, por exemplo, em relação à face voltada para
cima, podemos ter os seguintes eventos.
� O número é par: {2, 4, 6}.
� O número é menor que 5: U = {1, 2, 3, 4}.
� O número é 8: {}.
Cálculo de probabilidade2
Identificação interna do documento PYDB0XJZAK-D1SFU31
Uma urna contém 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso e se
observa o número indicado. Descrever de forma explícita os seguintes conjuntos e
dar o número de elementos de cada um:
a) o espaço amostral U.
b) o evento A: o número da bola é ímpar.
c) o evento B: o número da bola é múltiplo de 3.
Solução:
a) O conjunto de todos os resultados possíveis é representado pelo seguinte espaço
amostral: U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. O número de elementos desse conjunto é n(U) = 10.
b) Se o número da bola é ímpar, temos o evento: A = {1, 3, 5, 7, 9}. O número de
elementos desse conjunto é n(A) = 5.
Se o número da bola é múltiplo de 3, temos o evento: B = {3, 6, 9}. O número de
elementos desse conjunto é n(B) = 3.
Eventos mutuamente excludentes e eventos
complementares
Eventos que não podem ocorrer conjuntamente são conhecidos com eventos
mutuamente excludentes (também chamados de eventos mutuamente exclu-
sivos). Caso dois ou mais eventos sejam mutuamente excludentes, no máximo
um deles irá ocorrer a cada vez que repetirmos o experimento. Por conseguinte,
a ocorrência de um evento exclui a ocorrência do outro, ou de outros eventos.
Considerando, por exemplo, dois lançamentos de uma moeda, esse expe-
rimento tem quatro resultados possíveis: cara/cara, cara/coroa, coroa/cara,
coroa/coroa. Esses resultados são mutuamente excludentes, uma vez que um,
e somente um, deles irá ocorrer ao lançarmos a moeda duas vezes.
Chama-se evento complementar de um evento A e é representado por Ā
o conjunto formado por todos os elementos do espaço amostral U que não
pertencem ao eventoque, até aqui, apenas fizemos a padronização da variável com
média de 2.000 e desvio-padrão de 900 em uma variável z com média 1 e
Distribuições contínuas de probabilidade104
desvio-padrão 0. Depois da padronização, precisamos observar a tabela para
encontrarmos a probabilidade.
Procuramos, na tabela, o cruzamento da linha com o 0,2 até a coluna do
0,02, que é a nossa segunda casa decimal. Nesse cruzamento, encontramos o
valor de 0,08706. Estamos trabalhando em uma tabela que tem apenas metade
da distribuição. Nesse caso, precisamos adicionar a outra metade que não
está na tabela a esse valor de probabilidade encontrado. A área de cálculo é
mostrada na Figura 6.
Figura 6. Área de cálculo da tabela apresentada.
Fonte: Freund (2006, p. 492).
0 z
P(X 0,11) temos que fazer a subtração, pois
a tabela forneceu o valor de P(z 2100) = 0,5 – 0,04380 = 0,45620
Se quisermos calcular a probabilidade de a financeira emprestar entre
R$ 2.100,00 e R$ 2.200,00, este seria o cálculo:
105Distribuições contínuas de probabilidade
P(2100 . Acesso em: 3 jan. 2018.
SUPORTE AO MINITAB. Distribuição de Laplace. c2017a. Disponível em: . Acesso em:
3 jan. 2019.
SUPORTE AO MINITAB. Distribuição logística. c2017b. Disponível em: . Acesso em: 3 jan. 2019.
SUPORTE AO MINITAB. Selecione a distribuição e os parâmetros. c2017c. Disponível em:
.
Acesso em: 3 jan. 2019.
107Distribuições contínuas de probabilidade
Dica do professor
Para obtermos a probabilidade, no caso da distribuição contínua, consideramos intervalos, entre
pontos abaixo de uma curva. Matematicamente, a resolução se dá por meio da integração da
função da distribuição em estudo, o que nem sempre é simples, por isso costumamos utilizar
tabelas para auxiliar no cálculo de probabilidade.
No vídeo, falaremos um pouco mais sobre distribuições contínuas de probabilidade e em que
situações cada uma delas pode ser utilizada.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/6df7b9ae5f135568372a814e640ef2ea
Exercícios
O salário médio de 500 funcionários de uma empresa é de R$ 7.550,00 com desvio-padrão de R$
750,00. Se os salários estão normalmente distribuídos, quantos funcionários ganham entre R$
6.000,00 e R$ 7.750,00? Confira, a seguir, a tabela da Distribuição Normal.
1)
A) 293 salários.
B) 250 salários.
C) 294 salários.
D) 500 salários.
E) 127 salários.
Em um determinado concurso público, as notas apresentaram média de 550 pontos e desvio-
padrão de 100 pontos. Considerando uma distribuição Normal e sabendo que apenas 1% dos
candidatos foi aprovado, qual a nota do último candidato classificado? Confira a tabela a seguir.
2)
A) 650 pontos.
B) 550 pontos.
C) 100 pontos.
D) 783 pontos.
E) 1100 pontos.
O carrinho de uma montanha russa é indicado para até seis passageiros. O engenheiro que o
projetou e construiu sabe que ele suporta até 500 kg. Se a distribuição do peso das pessoas que
frequentam o parque é N(70,100),ou seja, segue uma distribuição normal com μ=70 e σ=10, calcule
a probabilidade de seis pessoas ultrapassarem o limite de carga do carrinho e avalie se o brinquedo
é seguro ou não. Confira a tabela a seguir
3)
A) 92%. O brinquedo é muito perigoso e deveria ser interditado.
B) 9,2%. O brinquedo é razoavelmente perigoso e deveria ser interditado.
C) 0,92%. O brinquedo é um pouco perigoso e deveria ser utilizado apenas por adultos.
D) 0,092%. O brinquedo é muito seguro, mas ainda assim, deve-se instalar uma balança de
verificação ou evitar que adultos muito grandes o utilizem ao mesmo tempo.
E) 0,0092%. O brinquedo é 100% seguro.
Uma fábrica de lâmpadas efetuou testes de qualidade e descobriu que elas duram, em média, 800
horas com desvio-padrão de 20 horas. Se o fabricante quer estabelecer uma garantia de troca, em
caso de defeito, para trocar menos que 3% das lâmpadas, qual deve ser o número de horas da
garantia?
4)
A) 20 horas.
B) 762 horas.
C) 800 horas.
D) 837 horas.
E) 777 horas.
Suponha que uma máquina produza parafusos de 2 cm com distribuição Normal e desvio-padrão
de 0,04 cm. Os clientes devolvem todos os parafusos menores que 1,96 cm ou maiores que 2,04
cm. Qual será o percentual de devolução das vendas?
5)
A) 0,04%.
B) 3,17%.
C) 31,73%.
D) 4%.
E) 43,17%.
Na prática
No estudo da estatística e probabilidade, é muito importante conhecer os tipos de variáveis.
Existem dois deles: discretas e contínuas.
As variáveis aleatórias discretas representam um conjunto de valores enumeráveis. Já as variáveis
contínuas representam um conjunto não enumerável de valores. Definindo as variáveis dessa forma
fica difícil, assim, para entender melhor as variáveis contínuas, você vai conhecer alguns exemplos
de aplicação.
Acompanhe nesse vídeo 360 algumas aplicações de variáveis contínuas.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://grupoa-edtech.grupoa.education/object/VIaN3gqDQfWT91aWlHLoXg
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Distribuição Normal - Introdução
Esse vídeo primeiramente apresenta a definição de função densidade de probabilidade, suas
características e seu gráfico. Depois aborda a distribuição normal a partir de um experimento de
lançamento de moedas.
Aponte a câmera para ocódigo e acesse o link do conteúdo ou clique no código para acessar.
Distribuição normal
Esse vídeo define a distribuição normal, apresentando sua curva, a expressão da função densidade
de probabilidade e a distribuição normal padrão. Os conceitos são aplicados na resolução de
problemas.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Distribuição de Probabilidade Contínua
Esse vídeo apresenta as distribuições contínuas de probabilidade, destacando as diferenças entre as
variáveis discretas e contínuas e ilustrando por meio de gráfico.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/NlWcDFAq90A
https://www.youtube.com/embed/yhfODPGaMmY
https://www.youtube.com/embed/bZ7DAS-52aM
Correlações
Apresentação
Ao trabalhar com dados estatísticos frequentemente há interesse em investigar se duas variáveis
estão relacionadas ou não para que se possa compreender um fenômeno e, em alguns casos,
realizar previsões (Callegari-Jacques, 2007). Ou seja, procura-se determinar o quão bem uma
equação descreve ou explica a relação existente entre variáveis.
Assim, pode-se afirmar que no estudo da correlação se busca identificar a influência que uma
variável tem sobre a outra. Por exemplo, o risco de câncer de pulmão aumenta conforme o tempo
do hábito do tabagismo, a pressão arterial se eleva com a idade, o risco de desenvolver doenças
cardiovasculares diminui com a prática regular de exercícios (Vieira, 2021). A compreensão dos
testes de correlações auxilia na interpretação da relação entre as variáveis, das possíveis influências
que uma mantém sobre a outra e, principalmente, ajuda a obter informações sobre determinada
amostra ou população.
Nesta Unidade de Aprendizagem, você vai estudar os testes de correlações entre as variáveis em
estudo e construir o diagrama de dispersão, reconhecendo quando a correlação é positiva, negativa
ou nula e identificando o grau de correlação a partir da análise do valor do coeficiente de
correlação r.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir o que é um teste de correlação.•
Diferenciar as correlações: positiva, negativa e nula.•
Identificar, a partir da correlação, o grau de associação entre as variáveis.•
Desafio
Avaliar se existe algum tipo de associação entre duas variáveis quantitativas pode ser um objetivo
de diferentes estudos nas mais diversas áreas da ciência, e a estatística traz subsídios para
identificar essa relação.
Por exemplo, um profissional da área da saúde pode querer avaliar se o aumento de casos de
doenças respiratórias está associado à qualidade do ar nos grandes centros metropolitanos. Um
economista pode estar interessado em saber se o valor da renda média de uma pessoa está
associado à sua escolarização. Um professor pode estar interessado em saber se o índice de evasão
escolar está associado ao acompanhamento da família nos estudos da criança, entre outros
exemplos.
Veja um exemplo de correlação aplicado à área da saúde.
Para realizar essa tarefa, você precisa:
a) Construir o diagrama de dispersão com os dados da tabela considerando pontos de coordenadas
(x, y), onde x representa a idade (em anos), e y representa a altura (em cm).
b) Depois de construir o diagrama, identificar se os pontos têm uma tendência de comportamento:
eles estão subindo ou descendo? Conforme a sua interpretação, traçar uma reta identificando a
principal tendência desses pontos.
c) Calcular o coeficiente de correlação r para esses dados.
d) Com base no diagrama e no r calculado, responder: o que você pode concluir sobre a correlação
entre as variáveis idade e altura nessa fase entre 2 e 18 anos?
Infográfico
Identificar se as variáveis estão ou não correlacionadas é um dos objetivos de pesquisa nas mais
diversas áreas. Uma vez coletados os dados e apresentados por meio de tabelas ou gráficos, pode-
se visualizar se existe correlação e então calculá-la de maneira exata utilizando ferramentas da
estatística.
Para visualizar se duas variáveis estão relacionadas, costuma-se inicialmente construir o diagrama
de dispersão. No entanto, para descobrir o grau de correlação entre elas, a forma mais eficiente é
através do coeficiente de correlação, que tem a vantagem de ser um número puro, independente
da unidade de medida de cada variável.
Acompanhe, neste Infográfico, as vantagens de utilizar o coeficiente de correlação de Pearson.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/02983b59-687c-4786-bbf7-256c93dd3875/ff10638a-45bc-45fb-a3e3-ca2dd988a1f0.png
Conteúdo do livro
Identificar se existe associação entre duas características quantitativas é o objetivo de muitos
estudos em biologia e ciências da saúde (Callegari-Jacques, 2009). Por exemplo, o nível de
contaminação da água de uma cidade pode estar relacionado ao número de infecções
gastrintestinais registradas em uma unidade básica de saúde, o aumento de casos de obesidade
pode estar relacionado à falta de atividade física, entre outros exemplos.
Sempre que se deseja saber se duas variáveis quantitativas x e y estão correlacionadas, é possível
utilizar o coeficiente de correlação linear. Para identificar essa correlação, inicialmente é possível
construir o diagrama de dispersão; posteriormente, para avaliar a intensidade da correlação,
calcula-se o coeficiente de correlação (r). Nesse processo, é possível utilizar fórmulas matemáticas
ou aplicativos e softwares estatísticos, como Excel ou SPSS.
No capítulo Correlações, base teórica desta Unidade de Aprendizagem, você vai ver os conceitos e
definições fundamentais para realizar um teste de correlação. Serão fornecidos subsídios para que
você amplie o conhecimento e estabeleça conexão entre as definições e os possíveis métodos de
resolução e perceba sua aplicabilidade e relevância na área da saúde.
BIOESTATÍSTICA
OBJETIVOS DE APRENDIZAGEM
> Definir o que é um teste de correlação.
> Diferenciar as correlações: positiva, negativa e nula.
> Identificar a partir da correlação o grau de associação entre as variáveis.
Introdução
A maior parte dos problemas do nosso cotidiano envolve a interação entre
pelos menos duas variáveis. Medir a relação entre elas ajuda a compreender o
comportamento dos dados e o que essa relação significa. Para isso, utiliza-se
o coeficiente de correlação, que permite mensurar o grau de relacionamento
entre duas variáveis. Ao gerar um gráfico de dispersão, caso os pontos das
variáveis apresentem uma distribuição ao longo de uma reta imaginária, diz-se
que os dados apresentam uma correlação linear.
Uma medida para avaliar o grau e o sinal da correlação linear entre duas
variáveis (x, y) é dada pelo coeficiente de correlação linear de Pearson.
Essa medida é relevante nas mais diversas áreas do conhecimento. Pode haver
interesse, por exemplo, em saber se existe e como é a relação entre: i) o peso e
a altura dos indivíduos; ii) o preço do vinho e o montante da colheita em cada
ano; iii) a receita das vendas e os descontos fornecidos; iv) a renda e a despesa
das famílias. Entre tantas outras.
Neste capítulo, você vai conhecer o teste de correlação, os tipos e subtipos
de correlações existentes, bem como a utilidade de um teste de correlação.
Além disso, a resolução de problemas aplicados utilizando o teste de correlação
e os diagramas de dispersão permitirão avaliar cada situação particular.
Correlações
Cristiane da Silva
Propósito de um teste de correlação
A análise de correlação tem por propósito estudar o comportamento conjunto
de duas ou mais variáveis. Em outras palavras, ela é uma técnica estatística
que permite verificar se duas ou mais variáveis estão relacionadas umas
com as outras. Tomando como exemplo a área da saúde, podemos saber se
pessoas com índice demassa corporal (IMC) relativamente alto teriam uma
frequência cardíaca maior, ou, se quanto maior a frequência cardíaca, maior o
IMC. Neste caso, o coeficiente de correlação é bastante útil (MARTINEZ, 2015).
Por meio do teste de correlação é possível determinar o sentido e a
intensidade da relação entre as variáveis, tópicos que serão abordados e
aprofundados nas seções seguintes.
Antes de partir para o teste de correlação, pode-se realizar uma análise
preliminar graficamente. Isso significa que, partindo de uma amostra de n
elementos, conhecidos os valores x e y de duas variáveis — que geram pa-
res como pontos em um gráfico conhecido como diagrama de dispersão —,
é possível identificar algum padrão de comportamento. Assim, temos alguma
ideia sobre a relação entre as duas variáveis. Trata-se de uma inspeção visual
dos dados (RAUPP, 2013). A Figura 1 apresenta diagramas de dispersão que
permitem a realização dessa análise gráfica.
Figura 1. Diagramas de dispersão.
Fonte: Adaptada de zizou7/Shutterstock.com.
Para compreender melhor, considere o Quadro 1 e analise os gráficos de
dispersão nas Figuras 2 e 3, em que temos dados fictícios que se referem aos
percentuais de gordura corporal de 13 homens adultos.
Correlações2
Quadro 1. Percentuais de gordura corporal de homens conforme a idade
Idade Percentual
25 10,5
27 14,0
31 16,5
36 15,5
38 15,0
41 18,0
45 17,0
48 18,5
52 19,0
53 20,5
56 20,0
67 20,5
70 21,0
Figura 2. Diagrama de dispersão entre duas variáveis quantitativas.
Correlações 3
Figura 3. Diagrama de dispersão com linha de tendência linear.
A inspeção visual desses dados significa que existe uma relação positiva
(direta) entre o percentual de gordura corporal (y) e a idade (x) dos homens
que fazem parte da amostra investigada. Também pode-se dizer que a relação
é linear. No entanto, apenas a inspeção visual não é suficiente. É necessária
uma forma mais objetiva de fazer essa análise, utilizando o coeficiente de
variação de Pearson.
Esse coeficiente foi elaborado para avaliar uma forma específica de relação
entre duas variáveis contínuas, que é o grau de relação linear existente entre
elas. Ele é conhecido como coeficiente de correlação de Pearson, coeficiente de
correlação produto-momento ou, simplesmente, r de Pearson (BLAIR; TAYLOR,
2013). O coeficiente de correlação é uma medida numérica da “força” da relação
ou associação entre duas variáveis quantitativas contínuas (MARTINEZ, 2015).
Existem diversas equações para o cálculo do r de Pearson, mas algebrica-
mente elas são todas idênticas (BLAIR; TAYLOR, 2013). Aqui vamos representar
o coeficiente de correlação de Pearson por meio da Equação 1:
=
∑ −
(∑ )(∑ )
∑ 2 −
(∑ )2
∑ 2 −
(∑ )2
(1)
Correlações4
Em que n é o número de pares de dados, e a quantidade r mede a força e
a direção de uma relação linear entre duas variáveis. Embora a fórmula seja
extensa, atualmente o cálculo de r é facilmente realizado pelo computador,
com o Excel (VIEIRA, 2018). Confira os exemplos a seguir.
Archaeopteryx é uma fera extinta que tinha penas, como um pássaro,
mas tinha dentes e uma longa cauda de ossos, como um réptil. Apenas
alguns espécimes de fóssil são conhecidos. Como eles diferem bastante em
tamanho, alguns cientistas pensam que pertencem a espécies diferentes.
Examinaremos alguns dados.
Se alguns pertencem à mesma espécie e diferem em tamanho porque
são mais jovens do que outros, deve haver uma relação linear entre os com-
primentos de pares de ossos de todos os indivíduos. Um valor atípico nessa
relação sugeriria uma espécie diferente. Confira no quadro abaixo os dados
dos comprimentos, em centímetros, do fêmur (osso da perna) e do úmero
(osso da parte superior do braço) para cinco espécimes que preservaram
ambos os ossos.
Fêmur 38 56 59 64 74
Úmero 41 63 70 72 84
Vamos calcular o coeficiente de correlação de Pearson por meio da fór-
mula e verificar como isso pode ser rapidamente calculado usando o Excel.
Utilizando a fórmula, temos:
=
∑ −
(∑ )(∑ )
∑ 2 −
(∑ )2
∑ 2 −
(∑ )2
X Y XY X2 Y2
38 41 1558 1444 1681
56 63 3528 3136 3969
59 70 4130 3481 4900
(Continua)
Correlações 5
X Y XY X2 Y2
64 72 4608 4096 5184
74 84 6216 5476 7056
∑X = 291 ∑Y = 330 ∑XY = 20040 ∑X2 = 17633 ∑Y2 = 22790
Portanto, substituindo-se na fórmula, teremos:
=
20040 −
(291)(330)
5
17633 −
84681
5 22790 −
108900
5
=
20040 − 19206
[696,80][1010]
=
834
√703768
0,9941
No Excel, para obter o coeficiente de correlação r, clicamos na “barra de
ferramentas”, em “dados” e, depois, em “análise de dados”. Abrirá uma tela
como a que vemos na Figura 4. Caso não esteja aparecendo a ferramenta de
dados, leia as instruções ao final deste exemplo.
(Continuação)
Correlações6
Figura 4. Tela para obter a análise de correlação no Excel.
Nessa tela, selecionamos a ferramenta de correlação e clicamos em OK.
Teremos a tela apresentada na Figura 5.
Figura 5. Tela para obter a análise de correlação no Excel.
Correlações 7
Na tela apresentada na Figura 5, devemos informar o intervalo de entrada
dos dados (valores atribuídos a Fêmur e Úmero), incluindo toda a área em
que se encontram os dados das duas variáveis. A seguir, devemos informar
o formato em que os dados foram agrupados na nossa planilha; neste caso,
em colunas. Devemos informar se selecionamos os rótulos, ou seja, os nomes
das variáveis (Fêmur e Úmero). Além disso, escolhemos o local em que serão
apresentados os resultados da análise. Preenchidas essas informações,
clicamos em OK e obtemos o resultado apresentado na Figura 6.
Figura 6. Tela de resultados da análise de correlação no Excel.
O resultado da análise aparece em uma matriz de correlação. A diagonal
principal dessa matriz é preenchida com números 1, pois ali estão coeficientes
de correlação de cada variável com ela mesma. O Excel só preenche a parte de
baixo da matriz, uma vez que ela é simétrica, ou seja, a correlação entre fêmur e
úmero é a mesma correlação entre úmero e fêmur. Observamos que o coeficiente
de correlação entre fêmur e úmero é de aproximadamente 0,9941. Nas seções
seguintes, veremos como interpretar esses resultados (BALDI; MOORE, 2014).
Para fazer o teste de correlação no Excel, clique em “Dados” na barra
de ferramentas e, depois, em “Análise de dados”. Para que dê certo,
as “Ferramentas de análise” precisam estar selecionadas, na aba “Arquivo”, em
“Opções” e “Suplementos”. Assim, uma caixa de diálogo será aberta.
Correlações8
Nesta seção, você conheceu a definição de correlação e o que é correlação
linear simples. Além disso, com uma inspeção visual dos dados, foi possível
identificar a correlação entre variáveis antes mesmo de calcular o coeficiente
de correlação. O cálculo do coeficiente de correlação foi introduzido tanto por
meio da fórmula matemática quanto pelo Excel. A seguir, você vai estudar os
tipos de correlação (positiva, negativa e nula), bem como a sua intensidade:
fraca, regular, forte, muito forte e perfeita.
Tipos de correlação
O coeficiente de correlação (r) assume valores que podem variar entre –1 e
+1. A partir dos valores e sinais observados para o coeficiente, definimos o
tipo de correlação e a sua intensidade. Valores negativos de r indicam uma
correlação do tipo inversa: na medida em que x aumenta, y em média diminui,
e vice-versa. Já valores positivos de r indicam uma correlação do tipo direta:
na medida em que x aumenta, y em média aumenta, e vice-versa (BALDI;
MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).
Quando todos os pontos do diagrama de dispersão estiverem em uma
linha reta inclinada, significa que o valor de r será igual a –1 ou +1, o que se
denomina correlação perfeita. Observe a Figura 7, que evidencia essa situação
(BALDI; MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).
Figura 7. Correlações perfeitas: (a) negativa; (b) positiva.
Fonte: Adaptada de zizou7/Shutterstock.com.
–1 1
A B
Já quando não existe correlação entre x e y, os pontos se distribuemem
nuvens circulares, como mostra a Figura 8.
Correlações 9
Figura 8. Correlação nula.
Fonte: Adaptada de zizou7/Shutterstock.com.
0
As associações com grau intermediário, em que o r está entre zero e |1|,
apresentam-se como nuvens inclinadas de forma elíptica, sendo mais estreitas
quanto maior for a correlação, como mostra a Figura 9.
Figura 9. Correlações (a) r = 0,8 (maior correlação positiva) e (b) r = 0,6 (menor correlação
positiva).
Fonte: Adaptada de Callegari-Jacques (2003).
A B
Nos casos em que os pontos formam uma nuvem cujo eixo principal é uma
curva, o valor de r não mede corretamente a associação entre as variáveis.
Isso ocorre porque a técnica para calcular esse coeficiente supõe que os
pontos do gráfico formam nuvens elípticas, cujo eixo principal é uma reta.
Observe a Figura 10.
Correlações10
Figura 10. Ausência de correlação linear.
Fonte: Adaptada de Callegari-Jacques (2003).
Podemos avaliar o grau de correlação entre duas variáveis quanto à sua
intensidade usando o critério apresentado no Quadro 2.
Quadro 2. Avaliação qualitativa do grau de correlação entre duas variáveis
|r| A correlação é dita:
0 nula
0 — 0,3 fraca
0,3| — 0,6 regular
0,6| — 0,9 forte
0,9 |— 1 muito forte
1 plena/perfeita
Fonte: Adaptado de Callegari-Jacques (2003, p. 90).
Nesta seção, conhecemos os tipos de correlação (inversa, direta e nula),
os valores que o coeficiente de correlação (r) pode assumir e vimos como
avaliar o grau de correlação entre duas variáveis quanto à sua intensidade.
Vimos que r pode ser positivo, negativo ou nulo, e seu módulo pode ser de
intensidade fraca, regular, forte, muito forte ou plena. Na próxima seção,
apresentaremos problemas aplicados que envolvem a identificação do grau
de correlação a partir do cálculo de r e/ou da construção do diagrama de
dispersão.
Correlações 11
Grau de associação entre as variáveis
Retomando os exemplos da primeira seção deste capítulo, que tratam dos
percentuais de gordura corporal de homens conforme a idade e da análise de
correlação entre o fêmur (osso da perna) e o úmero (osso da parte superior do
braço) do Archaeopteryx, podemos avaliar o tipo e o grau de correlação entre
as variáveis envolvidas em cada caso. Além desses exemplos, apresentaremos
outra situação, em que o coeficiente de correlação pode ser utilizado na área
de gestão e negócios.
Exemplo 1
Ao calcular o coeficiente de correlação para os percentuais de gordura corporal
de homens conforme a idade, chegamos ao resultado apresentado na Figura 11.
Figura 11. Coeficiente de correlação para os percentuais de gordura corporal de homens
conforme a idade.
O diagrama de dispersão evidencia uma tendência linear positiva, o que
significa que existe uma correlação direta. O sinal do coeficiente de correlação
positivo entre a idade e o percentual de gordura corporal dos homens da
amostra reforça a observação feita por meio da inspeção visual gráfica. Além
disso, essa correlação pode ser classificada como de muito forte intensidade,
uma vez que r = 0,9000316. Isso porque, para valores do 0,9 ≤ |r|avaliar se os valores de determinada variável
quantitativa têm algum tipo de associação com os valores de outra variável quantitativa
(Martinez, 2015).
Nesses casos, pode-se utilizar o conceito de correlação. Sobre esse conceito, leia as
informações a seguir:
I. A partir do diagrama de dispersão é possível identificar apenas correlação positiva.
II. Quando o valor de r = –0,7, podemos dizer que há forte correlação negativa.
III. Quando o valor de r = 1, não existe correlação entre as variáveis.
IV. Quando r = 0, a correlação pode ser definida como nula.
Quais estão corretas?
A) I e II.
B) I, II e III.
C) II e IV.
D) I, III e IV.
E) II, III e IV.
2) O teste de correlação aparece com frequência em estudos de bioestatística, sendo utilizado
para a tomada de decisão sobre a relação entre variáveis. Nesse contexto, o coeficiente de
correlação é uma medida numérica da intensidade da relação ou associação entre duas
variáveis quantitativas contínuas x e y, sendo o coeficiente de correlação de Pearson (r) o
mais utilizado para esse fim.
Em um estudo sobre a relação entre o tempo dedicado à atividade física e o IMC de um
grupo de 30 idosos, Luísa calculou o coeficiente de correlação e encontrou como resposta r
= 0,657.
O que se pode afirmar sobre esse resultado?
A) Não há correlação entre as duas variáveis.
B) Há uma correlação fraca positiva.
C) Há uma correlação forte positiva.
D) Há uma correção regular positiva.
E) Há uma correlação muito forte positiva.
3)
A partir do diagrama de dispersão, pode-se concluir que:
A) há uma correlação nula.
B) há uma correlação perfeita positiva.
C) há uma correlação perfeita negativa.
D) há uma correlação forte negativa.
E) há uma correlação forte positiva.
4)
Qual é o coeficiente de correlação entre as variáveis e qual é a correlação: perfeita, muito forte,
forte, regular, fraca ou nula?
A) r = –0,8992, correlação regular.
B) r = 0,8992, correlação fraca.
C) r = 0,9508, correlação forte.
D) r = 1, correlação perfeita.
E) r = –0,9508, correlação muito forte.
5)
Pode-se afirmar que a correlação é:
A) nula.
B) muito forte positiva.
C) regular positiva.
D) regular negativa.
E) muito forte negativa.
Na prática
A correlação mede a associação entre duas ou mais variáveis e pode ser simples ou composta.
Quando a correlação é obtida a partir de duas variáveis, é designada como simples, e com mais de
duas, múltipla.
A correlação também pode ser classificada como linear e não linear. Será linear quando puder ser
explicada a partir de uma reta, e não linear quando for explicada por uma função não linear. Uma
forma simples de identificar se a correlação é linear ou não linear é através do diagrama de
dispersão.
Neste Na Prática, você vai ver como a correlação linear simples, que envolve apenas duas variáveis
(x e y), pode ser aplicada na área da saúde.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/ff2a9b0a-4c16-4176-b188-9c33669c7797/785bdd4d-10fd-4228-97ad-47d5b7de243d.png
Saiba mais
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Coeficiente de correlação linear
Este vídeo aborda o coeficiente de correlação de Pearson, que varia entre –1 e 1. Ele mostra
graficamente o que é uma correlação positiva e uma correlação negativa para, depois, explicar a
fórmula. Para finalizar, ele calcula passo a passo o coeficiente de correlação para uma tabela de
pontos dados.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Epidemiologia moderna
Acompanhe, nas páginas 436 a 439, como a ideia de correlação pode ser aplicada na prática em
estudos de epidemiologia envolvendo a noção de variáveis dependentes e as análises dos erros de
classificação.
Conteúdo interativo disponível na plataforma de ensino!
Princípios de bioestatística
No Capítulo 8 deste livro, você verá como testar tendências utilizando o coeficiente de correlação.
O capítulo desenvolve ferramentas que auxiliam na resolução de problemas aplicados envolvendo a
dosagem de medicamentos.
Conteúdo interativo disponível na plataforma de ensino!
Bioestatística: princípios e aplicações
O Capítulo 10 deste livro aborda de forma detalhada a análise de correlação. Ele apresenta
ferramentas para a construção do diagrama de dispersão, o cálculo do coeficiente r, a análise da
intensidade da correlação e o teste de hipóteses da correlação.
Conteúdo interativo disponível na plataforma de ensino!
https://www.youtube.com/embed/g_ARmt_X1Og?si=DKtideNjIg2qwYtZ
Correlação e Regressão
Apresentação
A correlação foi criada por Karl Pearson e é uma forma de associação entre duas variáveis (X e Y).
Este indicador é simples, mas torna-se uma ferramenta poderosa para analisar duas variáveis
métricas de uma pesquisa.
A regressão expande este conceito, permitindo que o pesquisador analise e interprete a relação
entre uma variável e muitas outras.
Nesta Unidade de Aprendizagem você irá estudar sobre a importância destes dois conceitos e
como eles contribuem sobremaneira para as análises, interpretações e relações entre variáveis de
uma mesma pesquisa.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Identificar os tipos de correlação e como elas se tornam base para a análise de regressão.•
Reconhecer os métodos de análise de regressão bivariada e multivariada.•
Analisar as técnicas utilizadas para as análises de regressão.•
Desafio
Marcelo abriu recentemente uma loja de produtos orgânicos na cidade de São Paulo. Para que
obtenha retorno do investimento e ganhe os clientes adeptos a este consumo, Marcelo está
realizando uma pesquisa com diferentes públicos, sendo possível então compreender sua aderência
com os produtos.
Avalie quais são as variáveis dependentes e independentes e diga em que situação se aplicaria a
correlação e uma possível regressão posteriormente.
Infográfico
Acompanhe o Infográfico, que apresenta a linha de pensamento de um pesquisador que inicia a
análise de dados. Primeiramente, entende-se quais são as variáveis, decidindo-se sobre as técnicas
de correlação e, posteriormente, regressão.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/04d3e7b8-74dd-4bdc-bd5d-96b2b21b2f5a/d897f41c-94fd-4587-b12e-aec5e0396a63.jpg
Conteúdo do livro
A técnica mais comum de ajuste de uma linha reta a um diagrama de dispersão é o procedimento
dos mínimos quadrados. Essa técnica determina a reta de melhor ajuste, minimizando o quadrado
das distâncias verticais de todos os pontos a partir da reta.
Acompanhe um trecho do livro Pesquisa de marketing: uma orientação aplicada, base teórica para
esta Unidade de Aprendizagem. Inicie seus estudos pelo tópico Como fazer a análise de regressão
bivariada, em que são explicados os fluxos das etapas envolvidas e sua importância para a análise.
Finalize no tópico Multicolinearidade, que aborda uma etapa importante que deve ser controlada
pelo pesquisador.
Boa leitura.
PESQUISA de6ª EDIÇÃO
UMA ORIENTAÇÃO
APLICADA
NARESH
MALHOTRA
AAKER, D.
Abaixo os Silos
AAKER, D.
Construindo Marcas Fortes
AAKER, D.
Estratégia de Portfólio de Marcas
AAKER, D.; JOACHIMSTHALER, E.
Como Construir Marcas Líderes
FARRIS, P.; BENDLE, N.; PFEIFER, P.; REIBSTEIN, D.
Métricas de Marketing
FISK, P.
O Gênio do Marketing
GUMMESSON, E.
Marketing de Relacionamento Total:
Gerenciamento de Marketing, Estratégia de
Relacionamento e Abordagens de CRM para a
Economia de Rede, 3.ed.
KOTLER, P.
O Marketing sem Segredos
KOTLER & COLS.
Marketing Estratégico para a Área da Saúde
KOTLER, P.; LEE, N.
Coleção Wharton
Marketing no Setor Público: Um Guia para um
Desempenho mais Eficaz
KOTLER, P.; LEE, N.
Marketing Social, 3.ed.
KOTLER, P.; LEE, N.
ColeçãoWharton
Marketing contra a Pobreza
KOTLER, P.; PFOERTSCH, W.
Gestão de Marca em Mercados B2B
LIGHT, L.; KIDDON, J.
Seis Regras para a Revitalização da Marca
LINDSTROM, M.
Brand Sense: Os Segredos Sensoriais por trás
das Coisas que Compramos
NEUMEIER, M.
The Brand Gap: O Abismo da Marca, 2.ed.
NEUMEIER, M
A Empresa Orientada pelo Design
NEUMEIER, M
Zag: A Estratégia No. 1 das Marcas Bem-
-Sucedidas
RANGAN, V.K.
Transformando sua Estratégia de Ingresso no
Mercado
REIN, I.; KOTLER, P.; SHIELDS, B.
Marketing Esportivo: A Reinvenção do Esporte na
Busca de Torcedores
PARENTE, J.; LIMEIRA, T.; BARKI, E.
Varejo para a Baixa Renda
RUST, R.T.; ZEITHAML, V.; LEMON, K.N.
O Valor do Cliente: O Modelo que está
Reformulando a Estratégia Corporativa
SHETH, J.; SOBEL, A.
Clientes para Toda a Vida: Como Grandes
Profissionais Desenvolvem Sólidos
Relacionamentos
SILK, A.
O Que é Marketing?
SIMON, H.; BILSTEIN, F.; LUBY, F.
Gerenciar para o Lucro, não para Participação de
Mercado
WHEELER, A.
Design de Identidade da Marca, 2.ed.
CONHEÇA TAMBÉM
P
ESQ
U
ISA
de
N
A
R
ESH
M
A
L
H
O
T
R
A
www.grupoa.com.br | 0800 703 3444
A Bookman Editora é parte do Grupo A, uma
empresa que engloba diversos selos editoriais e
várias plataformas de distribuição de conteúdo
técnico, científico e profissional, disponibilizando-o
como, onde e quando você precisar.
PESQUISA de
NARESH
MALHOTRA
ADMINISTRAÇÃO/
MARKETING
www.grupoa.com.br
As empresas utilizam a pesquisa de marketing para garantir competitividade e evitar
os altos custos de más decisões baseadas em informações desqualificadas.
Se você é um profissional do marketing, entender os consumidores, fornecedores,
parceiros de canal, funcionários, concorrentes e o ambiente é fundamental para
desenvolver programas de marketing eficientes.
Se você não atua na área de marketing, certamente a empresa ou a organização
para a qual você trabalha utiliza informações de pesquisa de marketing para tomar
decisões. Você precisa saber como gerar tais informações e como avaliar sua
relevância, precisão e utilidade.
O processo de pesquisa que descrevemos neste livro é muito amplo e aplica-se a
qualquer área da administração, não só ao marketing. Portanto, este livro vai auxiliá-
-lo a ser mais eficiente no seu trabalho, não importa em que área você atue.
Materiais disponíveis no site www.grupoa.com.br
Os alunos podem acessar um variado conjunto de dados
para auxiliar nos seus estudos.
Os professores devem visitar a Área do Professor
para acessar material exclusivo deste livro.
P
ESQ
U
ISA
de
N
A
R
ESH
M
A
L
H
O
T
R
A
024966_Pesquisa de Marketing 1 22/09/11 17:26
M249p Malhotra, Naresh K.
Pesquisa de marketing [recurso eletrônico] : uma
orientação aplicada / Naresh K. Malhotra ; tradução: Leme
Belon Ribeiro, Monica Stefani ; revisão técnica: Janaina de
Moura Engracia Giraldi. – 6. ed. – Dados eletrônicos. – Porto
Alegre : Bookman, 2012.
Editado também como livro impresso em 2012.
ISBN 978-85-407-0062-8
1. Marketing. 2. Pesquisa de marketing. I. Título.
CDU 658.8:005.52
Catalogação na publicação: Ana Paula M. Magnus – CRB 10/2052
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 427
Como fazer análise de regressão bivariada
As etapas a serem desenvolvidas na análise de regressão bivariada
são descritas na Figura 17.2. Suponha que o pesquisador pretenda
explicar atitudes em relação à cidade de residência em termos da
duração da residência (ver Tabela 17.1). Para deduzir tais relacio-
namentos, é muitas vezes útil examinar, em primeiro lugar, um dia-
grama de dispersão.
Fazer o diagrama de dispersão
Um diagrama de dispersão é um gráfico dos valores de duas variá-
veis para todos os casos ou observações. É costume grafar a variável
dependente no eixo vertical e a variável independente no eixo hori-
zontal. O diagrama de dispersão serve para determinar a forma da
relação entre as variáveis e pode alertar o pesquisador quanto a de-
terminados padrões dos dados, ou possíveis problemas. Quaisquer
combinações incomuns das duas variáveis podem ser facilmente
identificadas. A Figura 17.3 mostra um gráfico de Y (atitude em re-
lação à cidade) comparado com X (tempo de residência). Os pontos
parecem dispor-se em uma faixa que vai da esquerda inferior para a
direita superior. Pode-se ver logo o padrão: à medida que uma das
variáveis aumenta, a outra também aumenta. Por esse gráfico, pare-
ce que a relação entre X e Y é linear, podendo ser descrita por uma
linha reta. Como determinar a reta que melhor descreve os dados?
A técnica mais comum de ajuste de uma linha reta a um dia-
grama de dispersão é o procedimento dos mínimos quadrados.
Essa técnica determina a reta de melhor ajuste minimizando o qua-
drado das distâncias verticais de todos os pontos a partir da reta e
esse procedimento é chamado de regressão dos mínimos quadrados
ordinários (MQO*). A reta de melhor ajuste é chamada de reta de re-
gressão. Qualquer ponto que não esteja sobre a reta de regressão não
é plenamente considerado. A distância vertical do ponto até a reta é
o erro, ej (ver Figura 17.5). Elevam-se ao quadrado as distâncias de
todos os pontos até a reta e somam-se os resultados, obtendo-se a
soma dos quadrados dos erros, que é a medida do total dos erros, �e2
j.
Ao ajustar a reta, o procedimento de mínimos quadrados minimiza
a soma dos quadrados dos erros. Colocando-se Y no eixo vertical e
X no eixo horizontal, como na Figura 17.5, a reta de melhor ajuste é
chamada de regressão de Y em função de X, pois as distâncias ver-
ticais são minimizadas. O diagrama de dispersão indica se a relação
entre Y e X pode ser modelada como em uma linha reta e, consequen-
temente, se o modelo de regressão bivariada é apropriado.
Procedimento dos mínimos quadrados
Técnica de ajuste de uma linha reta a um diagrama de dispersão pela
minimização do quadrado das distâncias verticais de todos os pontos
a partir da reta. Tal procedimento é denominado regressão dos míni-
mos quadrados ordinários.
Formular o modelo de regressão bivariada
No modelo de regressão bivariada, a forma geral de uma reta é:
onde
Y � variável dependente ou de critério
X = variável independente ou previsora
�0 � intercepto da reta
�1 � coeficiente angular da reta
Estimar os parâmetros
Fazer o diagrama de dispersão
Formular o modelo geral
Estimar o coeficiente de regressão padronizado
Testar a significância
Identificar a intensidade e a significância da associação
Verificar a precisão da previsão
Examinar os resíduos
Fazer a validação cruzada do modelo
FIGURA 17.2 Como fazer uma análise de regressão bi-
variada.
2,25
9
6
3
4,5 6,75 9 11,25 13,5 15,75 18
Duração da residência
A
tit
ud
e
FIGURA 17.3 Gráfico da atitude versus tempo de residência.
* N de T.: Ordinary least-squares (OLS).
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 427Malhotra_17.indd 427 15/09/11 08:5715/09/11 08:57
428 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Este modelo implica uma relação determinística, no sentido de
que Y é completamente determinado por X. O valor de Y pode ser
perfeitamente previsto desde que conheçamos �0 e �l. Em pesqui-
sa de marketing, entretanto, poucas relações são determinísticas.
Por isso, o processo de regressão acrescenta um termo de erro para
responder pela natureza probabilística ou estocástica da relação. A
equação básica da regressão se escreve:
Onde ei é o termo de erro associado à i-ésima observação.8 A es-
timação dos parâmetros de regressão, �0 e �1, é relativamente simples.
Estimar os parâmetros
Na maioria dos casos, �0 e �1 são desconhecidos e devem ser es-
timados com base nas observações amostrais, mediante a equação
onde Ŷi é o valor estimado, ou previsto, de Yi, e a e b estimam �0
e �1, respectivamente. A constante b costuma ser chamada de co-
eficiente de regressão não padronizado. É o coeficiente angular da
reta de regressão e indica a variação esperada em Y quando X varia
deuma unidade. As fórmulas para o cálculo de a e b são simples.9
6
3
2,25 4,5 6,75 9 11,25 13,5 15,75 v
•
•
•
•
•
•
•
•
•
•
•
9
Linha 4
A
tit
ud
e
Duração da residência
Linha 1
Linha 2
Linha 3
FIGURA 17.4 Que linha reta é a melhor?
Y
X
�0 + �1X
X1 X2 X3 X4 X5
Yj
Yi
ej
ei
FIGURA 17.5 Regressão bivariada.
Malhotra_17.indd 428Malhotra_17.indd 428 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 429
O coeficiente angular, b, pode ser calculado em termos da covariân-
cia entre X e Y (COVxy) e da variância de X como:
Pode-se então calcular o intercepto a como:
Para os dados da Tabela 17.1, pode-se ilustrar a estimação dos
parâmetros como segue:
Convém lembrar, de cálculos anteriores da correlação simples, que
Dado n � 12, pode-se calcular b como segue:
Observe que esses coeficientes foram estimados com base nos
dados brutos (não transformados). Se a padronização dos dados
for considerada desejável, o cálculo dos coeficientes padronizados
também pode ser feito de imediato.
Estimar o coeficiente de regressão padronizado
Padronização é o procedimento pelo qual os dados brutos são trans-
formados em novas variáveis, com média 0 e variância 1 (Capítulo
14). Quando os dados são padronizados, o intercepto toma o valor
0. Usa-se a expressão coeficiente beta ou peso beta para denotar
o coeficiente de regressão padronizado. Neste caso, o coeficiente
angular obtido pela regressão de Y sobre X, Byx, é o mesmo que o
coeficiente angular obtido pela regressão de X sobre Y, Bxy. Além
disso, cada um desses coeficientes de regressão é igual à correlação
simples entre X e Y.
Byx � Bxy � rxy
Há uma relação simples entre os coeficientes de regressão pa-
dronizados e não padronizados:
Byx � byx(sx/sy)
Para os resultados de regressão dados na Tabela 17.2, o valor do
coeficiente beta é estimado em 0,9361. Observe que esse também é
o valor de r calculado anteriormente neste capítulo.
Uma vez estimados, os parâmetros podem ser testados quanto
à sua significância.
Testar a significância
Podemos testar a significância estatística da relação linear entre X e
Y examinando as hipóteses:
A hipótese nula implica que não há qualquer relação linear entre
X e Y. A hipótese alternativa é que há alguma relação, positiva ou
TABELA 17.2
Regressão bivariada
R múltiplo 0,93608
R2 0,87624
R2 ajustado 0,86387
Erro padrão 1,22329
gl
Análise da variância
Soma de quadrados
Quadrado
médio
Regressão 1 105,95222 105,95222
Residual 10 14,96444 1,49644
F � 70,80266 Significância de F � 0,0000
Variáveis na equação
Variável b EPB Beta (B) t Significância de t
Tempo de residência 0,58972 0,07008 0,93608 8,414 0,0000
(constante) 1,07932 0,74335 1,452 0,1772
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 429Malhotra_17.indd 429 15/09/11 08:5715/09/11 08:57
430 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
negativa, entre X e Y. Em geral, faz-se um teste bicaudal. Pode-se
utilizar uma estatística t com n – 2 graus de liberdade, onde
EPb denota o desvio-padrão de b e é chamado de erro padrão.10 A
distribuição t foi estudada no Capítulo 15.
Com um programa de computador, a regressão da atitude so-
bre o tempo de residência, utilizando-se os dados da Tabela 17.1,
apresentou os resultados da Tabela 17.2. O intercepto a é 1,0793 e
o coeficiente angular b é 0,5897. Portanto, a equação estimada é:
Atitude (Ŷ) = 1,0793 + 0,5897 (tempo de residência)
O erro padrão ou o desvio-padrão de b é estimado em 0,07008,
e o valor da estatística t é t � 0,5897/0,07008 � 8,414, com n – 2
� 10 graus de liberdade. Na Tabela 4 dos Apêndices Estatísticos,
vemos que o valor crítico de t com 10 graus de liberdade e � � 0,05
é 2,228 para um teste bicaudal. Como o valor calculado de t é maior
do que o valor crítico, rejeitamos a hipótese nula. Logo, existe uma
relação linear significativa entre a atitude em relação à cidade e
o tempo de residência nela. O sinal positivo do coeficiente angu-
lar indica que essa relação é positiva. Em outras palavras, os que
residem há mais tempo na cidade têm atitude mais favorável em
relação a ela. A implicação para gerentes, autoridades municipais
e políticos é a mesma que a discutida para a correlação simples,
sujeita à representatividade da amostra.
Determinar a intensidade e a significância da
associação
Uma inferência relacionada envolve a determinação da intensidade
e da significância da associação entre Y e X. A intensidade da re-
lação é medida pelo coeficiente de determinação, r2. Na regressão
bivariada, r2 é o quadrado do coeficiente de correlação simples ob-
tido ao correlacionar as duas variáveis. O coeficiente r2 varia entre
0 e 1 e indica a proporção da variação total em Y que é ocasionada
pela variação em X. A decomposição da variação total em Y é aná-
loga à da análise da variância (Capítulo 16). Conforme mostra a
Figura 17.6, a variação total, SQy, pode ser decomposta na variação
proporcionada pela reta de regressão, SQreg, e o erro ou a variação
residual, SQerro ou SQres, como segue:
SQy � SQreg + SQres
Onde
Pode-se então calcular a intensidade da associação:
Para ilustrar os cálculos de r2, consideremos novamente o efei-
to do tempo de residência sobre a atitude em relação à cidade. Pelos
cálculos anteriores do coeficiente de correlação simples, sabemos
que:
Os valores previstos (Ŷ) podem ser calculados com auxilio da
equação de regressão:
Atitude (Ŷ) � 1,0793 + 0,5897 (tempo de residência)
Para a primeira observação da Tabela 17.1, esse valor é:
(Ŷ) � 1,0793 + 0,5897 x 10 � 6,9763
Para cada observação sucessiva, os valores previstos são, pela
ordem: 8,1557, 8,1557, 3,4381, 8,1557, 4,6175, 5,7969, 2,2587,
11,6939, 6,3866, 11,1042, 2,2587. Portanto,
Y
X
Y
Variação
total,
SQ
y
Variação residual,
SQ
res
Variação explicada,
SQ
reg
FIGURA 17.6 Decomposição da variação total na re-
gressão bivariada.
Malhotra_17.indd 430Malhotra_17.indd 430 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 431
Pode-se ver que SQy = SQreg + SQ,s. Além disso,
Outro teste equivalente para examinar a significância da rela-
ção linear entre X e Y (significância de b) é o teste da significância
do coeficiente de determinação. As hipóteses, neste caso, são:
H0: R
2
pop � 0
H1: R
2
pop > 0
A estatística de teste apropriada é a estatística F:
que tem distribuição F com 1 e n – 2 graus de liberdade. O teste F
é uma forma generalizada do teste t (ver Capítulo 15). Se uma va-
riável aleatória tiver distribuição t com n graus de liberdade, então
t2 tem distribuição F com 1 e n graus de liberdade. Logo, o teste F
para testar a significância do coeficiente de determinação é equiva-
lente a testar as seguintes hipóteses:
H0: �1 � 0
H1: �1 � 0
Ou
H0: � �0
H1: � � 0
Pela Tabela 17.2, pode-se ver que:
que é o mesmo valor já calculado anteriormente. O valor da esta-
tística F é:
com 1 e 10 graus de liberdade. A estatística F calculada excede o
valor crítico de 4,96 obtido na Tabela 5 dos Apêndices Estatísticos.
Portanto, a relação é significativa ao nível � � 0,05, corroborando
os resultados do teste t. Se a relação entre X e Y for significativa,
faz sentido prever os valores de Y com base nos valores de X e esti-
mar a precisão da predição.
Verificar a precisão da previsão
Para estimar a precisão dos valores previstos, Ŷ, convém calcular o
erro padrão da estimativa, EPE. Essa estatística é o desvio-padrão
dos valores reais de Y em relação aos valores Ŷ previstos.
Ou
ou, de forma mais geral, se há k variáveis independentes,
O EPE pode ser interpretado como uma espécie de resíduo médio
ou erro médio na predição de Y com base na equação de regressão.11
Podem surgir dois casos de previsão. O pesquisador pode que-
rer predizer o valor médio de Y para todos os casos com um de-
terminado valor de X, digamos X0, ou prever o valor de Y para um
único caso. Em ambas as situações, o valor previsto é o mesmo e é
dado porŶ, onde:
Entretanto, o erro padrão é diferente nas duas situações, embora em
ambas seja uma função do EPE. Para grandes amostras, o erro pa-
drão na predição do valor médio de Y é , e para predizer
valores individuais de Y é EPE. Logo, a construção de intervalos
de confiança (ver Capítulo 12) para os valores previstos varia, con-
forme estejamos prevendo o valor médio ou o valor para uma única
observação.
Para os dados da Tabela 17.2, o EPE é estimado conforme a
seguir:
As duas etapas finais da regressão bivariada, a saber, o exame dos
resíduos e a validação cruzada do modelo, serão consideradas mais
adiante.
Suposições
O modelo de regressão exige várias suposições na estimativa dos pa-
râmetros e no teste de significância, conforme mostra a Figura 17.5:
1. O termo de erro tem distribuição normal. Para cada valor fixo
de X, a distribuição de Y é normal.12
2. As médias de todas essas distribuições normais de Y, dado X,
situam-se em uma reta de coeficiente angular b.
3. A média do termo de erro é 0.
4. A variância do termo de erro é constante. Essa variância não
depende dos valores que X toma.
5. Os termos de erro não são correlacionados. Em outras pala-
vras, as observações são extraídas independentemente umas
das outras.
Mediante exame dos resíduos, pode-se obter uma visualização
do alcance dessas suposições. Esse assunto é abordado na próxima
seção sobre regressão múltipla.13
PESQUISA ATIVA
Associando a propaganda e as vendas da Ford
Acesse www.ford.com e pesquise na Internet (utilizando um dispo-
sitivo de busca) e no banco de dados on-line de sua biblioteca infor-
mações sobre as relações entre propaganda e vendas para fabricantes
de automóveis.
Formule um modelo de regressão bivariada explicando a relação
entre propaganda e vendas na indústria automobilística.
Como diretor de marketing da Ford Motor Company, como você
determinaria suas despesas com propaganda?
Malhotra_17.indd 431Malhotra_17.indd 431 15/09/11 08:5715/09/11 08:57
432 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Regressão múltipla
A regressão múltipla envolve uma única variável dependente e
duas ou mais variáveis independentes. As questões suscitadas no
contexto da regressão bivariada também podem ser resolvidas via
regressão múltipla, com a consideração de variáveis independentes
adicionais:
• A variação nas vendas pode ser explicada em termos da va-
riação nas despesas de propaganda, nos preços e no nível de
distribuição?
• A variação na participação de mercado pode ser decorrência
do tamanho da equipe de vendas, das despesas de propaganda
e dos orçamentos de promoção de vendas?
• A conscientização dos consumidores quanto à qualidade é
determinada pela sua percepção quanto a preços, imagem e
atributos da marca?
regressão múltipla
Técnica estatística que desenvolve simultaneamente uma relação ma-
temática entre duas ou mais variáveis independentes e uma variável
dependente intervalar.
A regressão múltipla pode também responder a outras questões:
• Quanto da variação nas vendas pode ser explicado pelas des-
pesas de propaganda, pelos preços e pelo nível de distribuição?
• Qual é a contribuição das despesas de propaganda para expli-
car a variação nas vendas, quando os níveis de preços e de
distribuição são controlados?
• Que níveis de venda podemos esperar, dados os níveis de des-
pesas, de preços e de distribuição?
Pesquisa real
Marcas globais – anúncios locais
Os europeus são receptivos a produtos de outros países, mas quando se
trata de propaganda, preferem a “prata da casa”. Em uma pesquisa feita
por Yankelovich and Partners (www.yankelovich.com) e suas afiliadas,
constatou-se que os comerciais favoritos da maioria dos europeus se
referiam a marcas locais, embora eles não hesitem em comprar produtos
de marcas estrangeiras. Respondentes na França, na Alemanha e no Rei-
no Unido indicaram a Coca-Cola como o refrigerante mais comprado.
Entretanto, os franceses escolheram como favorito o anúncio da afa-
mada e premiada água Perrier. Na Alemanha, o anúncio preferido foi
o de uma marca alemã de cerveja sem álcool, Clausthaler. No Reino
Unido, porém, a Coca-Cola foi não apenas a bebida favorita como a
preferida na propaganda. À luz desses resultados, a questão importante
é: a propaganda ajuda? Ela contribui para aumentar a probabilidade de
venda da marca, ou apenas mantém em alta o conhecimento da marca?
Uma forma de resolver esse problema consiste em fazer uma regressão
na qual a variável dependente é a probabilidade de compra da marca e
as variáveis independentes são as avaliações das qualidades do produto
e avaliações da propaganda. Podem ser elaborados modelos separados,
com propaganda e sem ela, para avaliar qualquer diferença significativa
na contribuição. Podem também ser analisados testes t para verificar a
contribuição significativa tanto dos atributos da marca como da propa-
ganda. Os resultados indicam até que ponto a propaganda desempenha
um papel importante nas decisões de compra da marca. Junto a esses
resultados, um estudo realizado recentemente revelou que a tentativa de
construir fidelidade na compra de uma marca por meio de promoções de
vendas não é uma forma desejável de alcançar esse objetivo. Segundo o
estudo, as promoções de vendas apenas incentivam uma troca momen-
tânea de marca e simplesmente melhoram o desempenho a curto prazo
para as empresas. Além disso, no longo prazo, uma promoção de ven-
das pode implicar uma baixa qualidade, ou imagem de marca instável
frente aos consumidores, ou pode inclusive confundi-los, o que poderia
também levar a um declínio na fidelidade à marca. Os resultados desse
estudo mostram que sacrificar a propaganda e confiar nas promoções de
vendas reduz as associações de marca, o que finalmente acabará levando
a uma diminuição nas compras por fidelidade à marca.14 ■
A forma geral do modelo de regressão múltipla é:
que é estimado pela seguinte equação:
modelo de regressão múltipla
Equação usada para explicar os resultados da análise de regressão
múltipla.
Como anteriormente, o coeficiente a representa o intercepto,
mas os bs são agora coeficientes de regressão parcial. O critério de
mínimos quadrados estima os parâmetros de forma a minimizar o
erro total, SQres.Esse processo também maximiza a correlação entre
os valores reais de Y e os valores previstos, Ŷ. Todas as suposições
feitas na regressão bivariada aplicam-se também à regressão múlti-
pla. A seguir definimos algumas estatísticas associadas e, posterior-
mente, descrevemos o processo da análise de regressão múltipla.15
Estatísticas associadas à regressão múltipla
A maioria das estatísticas e dos termos estatísticos utilizados na
regressão bivariada também se aplicam à regressão múltipla. Além
disso, são empregadas as seguintes estatísticas:
R2 ajustado: R2, coeficiente de determinação múltipla, é ajus-
tado para o número de variáveis independentes e para o ta-
manho da amostra levando em conta os retornos decrescentes.
Após as primeiras variáveis, as variáveis independentes adi-
cionais não oferecem grande contribuição.
Coeficiente de determinação múltipla: a intensidade de asso-
ciação em regressão múltipla é medida pelo quadrado do coe-
ficiente de correlação múltipla, R2, que é chamado também de
coeficiente de determinação múltipla.
Teste F: o teste F é usado para testar a hipótese nula de que
o coeficiente de determinação múltipla na população, R2
pop, é
zero. Isso equivale a testar a hipótese nula H0: �1 � �2 � �3
�... ��k � 0. A estatística de teste tem distribuição F com k e
(n – k – 1) graus de liberdade.
Teste F parcial: pode-se testar a significância de um coefi-
ciente de regressão parcial, �i, de Xi, com auxílio de uma esta-
tística F incremental. A estatística F incremental se baseia no
incremento da soma explicada de quadrados resultante da adi-
ção da variável independente Xi à equação de regressão após
terem sido incluídas todas as outras variáveis independentes.Coeficiente de regressão parcial: o coeficiente de regressão
parcial, b1, denota a variação no valor previsto, Ŷ, por unidade
de variação em X1 quando as outras variáveis independentes,
X2 a Xk, são mantidas constantes.
Malhotra_17.indd 432Malhotra_17.indd 432 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 433
Como fazer análise de regressão múltipla
Os passos para a elaboração de uma análise de regressão múltipla
são similares aos adotados na regressão bivariada. O foco da dis-
cussão reside nos coeficientes de regressão parcial, intensidade de
associação, teste de significância e avaliação de resíduos.
Coeficientes de regressão parcial
Para entender o significado de um coeficiente de regressão parcial,
consideremos um caso em que há duas variáveis independentes, de
forma que
Ŷ = a + b1X1 + b2X2
Observemos inicialmente que a magnitude relativa do coeficiente
de regressão parcial de uma variável independente costuma ser dife-
rente daquela do seu coeficiente de regressão bivariada. Em outras
palavras, o coeficiente de regressão parcial, b1, será diferente do
coeficiente de regressão, b, obtido ao fazermos Y regredir sobre X1
somente. Isso ocorre porque X1 e X2 são geralmente correlacionadas.
Na regressão bivariada, não consideramos X2, e qualquer variação
em Y compartilhada por X1 e X2 foi atribuída a X1. Entretanto, no
caso de variáveis independentes múltiplas, isso não se justifica mais.
A interpretação do coeficiente de regressão parcial, b1, é que
ele representa a variação esperada em Y quando X1 varia de uma
unidade mas X2 é mantida constante ou controlada de outra forma.
De maneira semelhante, b2 representa a variação esperada em Y
para uma variação unitária em X2, quando X1 é mantida constante.
É, pois, adequada a designação de coeficientes de regressão parcial
para b1 e b2. Pode-se ver também que os efeitos combinados de X1 e
X2 sobre Y são aditivos. Em outras palavras, se X1 e X2 variam cada
um de uma unidade, a variação esperada em Y será (b1 + b2).
Conceitualmente, pode-se ilustrar como segue a relação entre
o coeficiente de regressão bivariada e o coeficiente de regressão
parcial. Suponhamos que se deva remover de X1 o efeito de X2. Para
tanto, fazemos uma regressão de X1 sobre X2. Em outras palavras,
estimaríamos a equação X̂1� a + bX2 e calcularíamos o resíduo Xr.
� (X1 – X̂1). O coeficiente de regressão parcial, b1, é igual ao coe-
ficiente de regressão bivariada, br, obtido da equação Ŷ � a + brXr.
Em outras palavras, o coeficiente de regressão parcial, b1, é igual
ao coeficiente de regressão, br, entre Y e os resíduos de X1 dos quais
foi removido o efeito de X2. Pode-se dar interpretação análoga ao
coeficiente parcial b2.
A extensão ao caso de k variáveis é imediata. O coeficiente de
regressão parcial, b1, representa a variação esperada em Y quando
X1 varia de uma unidade e X2 a Xk são mantidas constantes. Pode ser
interpretado também como o coeficiente de regressão bivariada, b,
para a regressão de Y sobre os resíduos de X1 quando o efeito de X2
a Xk foi removido de X1.
Os coeficientes beta são os coeficientes de regressão parcial
obtidos quando todas as variáveis (Y,X1,X2,. Xk) foram padronizadas
com média 0 e variância 1 antes de estimar a equação de regressão.
A relação dos coeficientes padronizados para os não padronizados
é a mesma que a anterior:
O intercepto e os coeficientes de regressão parcial são estima-
dos ao resolver um sistema de equações simultâneas obtido ao dife-
renciar e igualar a 0 as derivadas parciais. Como esses coeficientes
são estimados automaticamente por vários programas de computa-
dor, não vamos apresentar os detalhes. Cabe notar, entretanto, que
as equações não podem ser resolvidas se (1) o tamanho da amostra,
n, não superar o número de variáveis independentes, k, ou (2) uma
variável independente tiver correlação perfeita com outra.
Suponha que, ao explicar a atitude em relação à cidade, intro-
duzamos uma segunda variável – a importância atribuída ao clima.
A Tabela 17.1 apresenta os dados dos 12 entrevistados em um teste
preliminar sobre atitude em relação à cidade, tempo de residência
e importância atribuída ao clima. A Tabela 17.3 exibe os resultados
da análise de regressão múltipla. O coeficiente de regressão parcial
TABELA 17.3
Regressão múltipla
R múltiplo 0,97210
R2 0,94498
R2 ajustado 0,93276
Erro padrão 0,85974
gl
Análise da variância
Soma de quadrados
Quadrado
médio
Regressão 2 114,26425 57,13213
Resíduo 9 6,65241 0,73916
F � 77,29364 Significância de F � 0,0000
Variáveis na equação
Variável b SEB Beta (B) t Significância de t
Importância 0,28865 0,08608 0,31382 3,353 0,0085
Tempo 0,48108 0,05895 0,76363 8,160 0,0000
(Constante) 0,33732 0,56736 0,595 0,5668
SPSS Arquivo de Saída
SAS Arquivo de Saída
Malhotra_17.indd 433Malhotra_17.indd 433 15/09/11 08:5715/09/11 08:57
434 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
para o tempo de residência (X1) agora é 0,48108, diferente do que
era no caso bivariado. O coeficiente beta correspondente é 0,7636.
O coeficiente de regressão parcial para a importância atribuída ao
clima (X2) é 0,28865, com um coeficiente beta de 0,3138. A equa-
ção estimada de regressão é:
(Ŷ) � 0,33732 + 0,48108X1 + 0,28865X2
Ou
Atitude � 0,33732 + 0,48108 (Tempo) + 0,28865 (Importância)
Essa equação pode ser utilizada para vários fins, inclusive a previ-
são de atitudes em relação à cidade com base no conhecimento do
tempo de residência dos entrevistados na cidade e a importância
que eles atribuem ao clima.
Intensidade de associação
Pode-se determinar a intensidade da relação estipulada pela equa-
ção de regressão utilizando medidas adequadas de associação. A
variação total se decompõe como no caso bivariado:
SQy = SQreg + SQres
Onde:
A intensidade da associação é medida pelo quadrado do coeficiente
de correlação múltipla, R2, também chamado de coeficiente de de-
terminação múltipla.
O coeficiente de correlação múltipla, R, também pode ser visto
como o coeficiente de correlação simples, r, entre Y e . São dignos
de nota vários pontos sobre as características de R2. O coeficien-
te de determinação múltipla, R2, não pode ser menor que o maior
bivariado, r2, de qualquer variável independente individual com a
variável dependente. R2 será maior quando as correlações entre as
variáveis independentes forem baixas. Se as variáveis independen-
tes forem estatisticamente independentes (não correlacionadas),
então R2 será a soma dos r2 bivariados de cada variável indepen-
dente com a variável dependente. R2 não pode decrescer quando se
acrescentam mais variáveis independentes à equação de regressão.
Entretanto, em virtude dos retornos decrescentes, as variáveis adi-
cionais não dão qualquer contribuição sensível.16 Por essa razão, R2
é ajustado para o número de variáveis independentes e o tamanho
da amostra pela fórmula:
Para os resultados de regressão dados na Tabela 17.3, o valor de
R2 é:
Esse valor é maior do que o valor de r2, 0,8762, obtido no caso
bivariado, que é o quadrado da correlação simples (momento-
-produto) entre atitude em relação à cidade e tempo de residência.
O R2 obtido na regressão múltipla também é maior do que o qua-
drado da correlação simples entre atitude e importância atribuída
ao clima (que pode ser estimada em 0,5379). O R2 ajustado é es-
timado em:
Observe que o valor de R2 ajustado está próximo de R2 e ambos são
maiores do que r2 para o caso bivariado. Isso sugere que o acrés-
cimo da segunda variável independente, importância atribuída ao
clima, dá uma contribuição para explicar a variação da atitude em
relação à cidade.
Teste da significância
Esse teste envolve o teste da significância não só da equação de
regressão global como dos coeficientes específicos de regressão
parcial. A hipótese nula para o teste global é que o coeficiente de
determinação múltipla na população, R2
pop, é zero.
H0: R
2
pop � 0
Issoequivale à seguinte hipótese nula:
H0: �1 � �2 � �3 �...� �k � 0
O teste global pode ser feito com uma estatística F:
que tem distribuição F com k e (n – k – 1) graus de liberdade.17 Para
os resultados de regressão múltipla da Tabela 17.3,
significativo ao nível � � 0,05.
Se a hipótese nula for rejeitada, pelo menos um coeficiente de
regressão parcial da população é diferente de zero. Para determinar
que coeficientes específicos (�´is) são diferentes de zero, são ne-
cessários testes adicionais. O teste da significância dos �´is pode
ser feito da maneira análoga ao do caso bivariado, utilizando testes
t. A significância do coeficiente parcial da importância atribuída ao
clima pode ser testada pela seguinte equação:
que tem distribuição t com n – k – 1 graus de liberdade. Esse coefi-
ciente é significativo ao nível � � 0,05. Testa-se de maneira análo-
ga a significância do coeficiente do tempo de residência, que cons-
tatamos ser significativa. Logo, tanto o tempo de residência como
a importância atribuída ao clima são importantes para explicar a
atitude em relação à cidade.
Malhotra_17.indd 434Malhotra_17.indd 434 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 435
Alguns programas de computador contêm um teste F equiva-
lente, geralmente chamado de teste F parcial. Esse teste envolve
uma decomposição da soma de quadrados de regressão, SQreg, em
componentes relativos a cada variável independente. Na aborda-
gem padrão, isso se faz supondo que cada variável independente
tenha sido acrescentada à equação de regressão após terem sido
incluídas todas as outras variáveis independentes. O incremento na
soma de quadrados explicada, resultante da adição de uma variável
independente, é o componente da variação atribuída àquela variá-
vel, e se denota por SQxi.
18 Testa-se a significância do coeficiente de
regressão parcial para esta variável, com auxílio de uma estatística
F incremental:
que tem distribuição F com 1 e (n – k – 1) graus de liberdade.
Embora um valor alto de R2 e coeficientes significativos de re-
gressão parcial sejam satisfatórios, a eficácia do modelo de regres-
são deve ser avaliada mais cuidadosamente mediante o exame dos
resíduos.
Exame dos resíduos
Um resíduo é a diferença entre o valor observado de Yi, e o valor
previsto pela equação de regressão, Ŷi. Os resíduos são utilizados
no cálculo de várias estatísticas associadas à regressão. Além disso,
os diagramas de dispersão, em que são diagramados os resíduos
versus os valores previstos, Ŷi, tempo, ou variáveis previsoras, per-
mitem uma visão adequada das suposições fundamentais e da vali-
dade do modelo ajustado.19
resíduo
Diferença entre o valor observado de Y, e o valor previsto pela equa-
ção de regressão, Ŷi.
A suposição de um termo de erro distribuído normalmente
pode ser avaliada construindo um histograma dos resíduos padro-
nizados. Uma verificação visual revela se a distribuição é normal.
Também é útil examinar o gráfico de probabilidade de normalidade
dos resíduos padronizados, que mostra os resíduos padronizados
comparados a resíduos padronizados esperados de uma distribuição
normal. Se os resíduos observados forem normalmente distribuí-
dos, eles ficarão em uma reta de 45°. Além disso, dê uma olhada
na tabela de estatísticas residuais e identifique quaisquer valores
padronizados previstos ou resíduos padronizados que são maiores
do que ± um ou dois desvios-padrão. Essas porcentagens podem ser
comparadas com o que se poderia esperar com a distribuição nor-
mal (68 e 95%, respectivamente). Com o teste K-S de uma amostra,
fazemos uma avaliação mais formal.
A suposição de variância constante do termo de erro pode
ser examinada diagramando os resíduos versus os valores pre-
vistos da variável dependente, Ŷi. Se o padrão não for aleatório, a
variância do termo de erro não é constante. A Figura 17.7 mostra
um padrão cuja variância depende dos valores de Ŷi.
Um gráfico dos resíduos ao longo do tempo, ou da sequência
de observações, lançará alguma luz sobre a suposição de que os
termos de erro não são correlacionados. Se essa suposição for ver-
dadeira, deve-se observar um padrão aleatório. Um gráfico como
o da Figura 17.8 indica uma relação linear entre os resíduos e o
tempo. O teste de Durbin-Watson é um procedimento mais formal
para estudar as correlações entre os termos de erro20.
O gráfico de resíduos versus variáveis independentes eviden-
cia se um modelo linear é adequado ou não. Mais uma vez, o grá-
fico deve apresentar um padrão aleatório. Os resíduos dispõem-se
aleatoriamente, com dispersão relativamente igual em torno de 0, e
não devem apresentar qualquer tendência, seja positiva ou negativa.
Para verificar se devemos incluir quaisquer variáveis adicio-
nais na equação de regressão, podemos fazer uma regressão dos
resíduos sobre as variáveis propostas. Se qualquer variável explica
uma proporção significativa da variação residual, ela deve ser in-
cluída. A inclusão de variáveis na equação de regressão deve ser
fortemente orientada pela teoria do pesquisador. Assim, um estudo
dos resíduos proporciona uma visualização valiosa da adequação
das suposições básicas e do modelo que é ajustado. A Figura 17.9
exibe um gráfico que indica que as suposições básicas são satis-
feitas e que o modelo linear é adequado. Se o exame dos resíduos
indicar que as suposições básicas da regressão linear não são satis-
feitas, o pesquisador pode transformar as variáveis, em uma ten-
tativa de satisfazer as suposições. Transformações, como extrair
logaritmos, ou raízes quadradas ou recíprocas, podem estabilizar a
variância, normalizar a distribuição ou tornar linear a relação.
Os gráficos e as tabelas residuais podem ser pedidos quando a
regressão é feita, por exemplo, ao usar o SPSS. Você deve realizar
essas análises para a regressão múltipla dos dados da Tabela 17.1.
A partir do histograma, pode-se ver que cinco resíduos são posi-
tivos, enquanto sete são negativos. Ao comparar a distribuição de
R
es
id
ua
ls
Predicted Y Values
R
es
íd
uo
s
Valores previstos de Y
FIGURA 17.7 Gráfico dos resíduos, indicando que a va-
riância não é constante.
R
es
id
ua
ls
Time
R
es
íd
uo
s
Tempo
FIGURA 17.8 Gráfico indicando uma relação linear en-
tre resíduos e tempo.
R
es
id
ua
ls
Predicted Y Values
R
es
íd
uo
s
Valores previstos de Y
FIGURA 17.9 Gráfico de resíduos indicando que o mo-
delo ajustado é adequado.
Malhotra_17.indd 435Malhotra_17.indd 435 15/09/11 08:5715/09/11 08:57
436 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
frequência com a distribuição normal mostrada no mesmo resulta-
do, visualizamos que a suposição de normalidade provavelmente
não é satisfeita, mas que o desvio da normalidade pode não ser
significativo. Certamente, podemos fazer um teste estatístico mais
formal para a normalidade se isso for garantido. Todos os resíduos
estatísticos estão dentro de ± dois desvios-padrão. Além disso, mui-
tos dos resíduos são relativamente pequenos, o que indica que a
maioria dos modelos de previsão são bons.
O gráfico da probabilidade de normalidade mostra que os resí-
duos estão bem próximos da reta de 45° apresentada. Quando compa-
ramos o gráfico dos resíduos padronizados com os valores previstos,
nenhum padrão sistemático pode ser visto na disposição dos resíduos.
Finalmente, a tabela de estatísticas residuais indica que todos os va-
lores previstos e todos os resíduos estão dentro de ± dois desvios-
-padrão. Assim, concluímos que a regressão múltipla dos dados da
Tabela 17.1 não parece resultar em violações inaceitáveis das suposi-
ções. Isso sugere que a relação que estamos tentando prever é linear e
que os termos de erro são mais ou menos distribuídos normalmente.
Pesquisa real
O que influencia os preços dos ingressos? Um novo
estádio!
Uma das principais fontes de receita para qualquer time profissional é a
venda de ingressos, especialmente a venda para os sóciosA.
No lançamento de um dado, temos o seu espaço amostral: U = {1, 2, 3, 4,
5, 6}. Considere os eventos a seguir.
� O evento A: o número obtido é menor que 3.
� O evento Ā: o número obtido é maior ou igual a 3.
3Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Observe que os eventos A = {1, 2} e Ā = {3, 4, 5, 6}. Estes são complemen-
tares, pois, A ∩ Ā = { } e A Ā = U, a interseção (o que há de comum entre os
conjuntos) entre os dois conjuntos resulta em um resultado vazio, visto que
os dois conjuntos não possuem resultados em comum, e a união (unir todos
os elementos dos conjuntos envolvidos) entre os dois conjuntos resulta no
conjunto espaço amostral U.
Eventos independentes e eventos dependentes
Dois eventos são independentes quando a ocorrência ou a não ocorrência de um
evento não tem efeito algum na probabilidade de ocorrência do outro evento.
Dois eventos são dependentes quando a ocorrência ou a não ocorrência de um
evento afeta a probabilidade de ocorrência do outro evento.
Os eventos independentes e dependentes são chamados de com e sem
reposição, respectivamente.
Com reposição significa o retorno do evento sorteado ao seu conjunto de
origem. É isso que mantém a probabilidade de sorteio constante, portanto,
não se altera a probabilidade de sorteio do evento seguinte.
Sem reposição significa o não retorno do evento sorteado ou do seu con-
junto de origem, alterando a probabilidade de sorteio do evento seguinte.
Exemplo de evento independente:
Dois lançamentos sucessivos de uma moeda não viciada são considerados
como eventos independentes, uma vez que o resultado do primeiro lançamento
não tem efeito algum nas probabilidades de ocorrer uma cara ou uma coroa
no segundo lançamento.
Exemplo de evento dependente:
A retirada de duas bolas, sem reposição, de uma urna contendo 20 bolas
numeradas de 1 a 20 são dependentes, pois as probabilidades do resultado
da retirada da segunda bola estão diretamente ligadas a retirada da primeira
bola. Especificamente, se na primeira bola retirada saiu a de número 10, e
se não houver reposição, com certeza não existirá a probabilidade de que, na
segunda retirada, a bola 10 apareça, pois esta não se encontra mais na urna, ou
seja, a primeira retirada afetou completamente as probabilidades de retirada
da segunda bola.
Cálculo de probabilidade4
Identificação interna do documento PYDB0XJZAK-D1SFU31
Todo experimento que tiver dois ou mais eventos e aparecer no enunciado as palavras
com reposição ou sem reposição, automaticamente já saberemos se são indepen-
dentes (com reposição) ou dependentes (sem reposição).
Cálculo de probabilidade
Como se calcular questões e/ou experimentos de probabilidade? Considere
uma área muito visitada no Museu de Animais. Em um recipiente, existem
12 aranhas, das quais 8 são fêmeas. A probabilidade de se retirar uma aranha
macho para um experimento é de?
No lançamento de um dado perfeito, qual é a probabilidade de sair um
número maior do que 4?
Em uma urna existem 20 bolas numeradas de 1 a 20. Sorteando-se uma
bola, ao acaso, qual é a probabilidade, em porcentagem, de que o número da
bola sorteada seja divisível por 3?
Considere o lançamento de três dados comuns. Qual é a probabilidade de
que a soma dos valores sorteados seja igual a 5?
Maria ganhou de João nove pulseiras, quatro delas de prata e cinco de
ouro. Maria ganhou de Pedro onze pulseiras, oito delas de prata e três de ouro.
Ela guarda todas essas pulseiras – e apenas essas – em sua pequena caixa de
joias. Uma noite, arrumando-se apressadamente para ir ao cinema com João,
Maria retira, ao acaso, uma pulseira de sua pequena caixa de joias. Ela vê,
então, que retirou uma pulseira de prata. Levando em conta tais informações,
a probabilidade de que a pulseira de prata que Maria retirou seja uma das
pulseiras que ganhou de João é igual a?
Uma urna contém 8 bolas, das quais três são vermelhas e as restantes são
brancas. Qual a probabilidade de, ao retirar duas bolas sucessivamente, sem
reposição, obtermos a 1ª vermelha e a 2ª branca?
Para se calcular as probabilidades de ocorrer determinado evento, como os
casos apresentados acima, além dos conceitos de espaço amostral, eventos e
tipos de eventos, apresentados neste capítulo anteriormente, foi preciso saber
diferenciar os tipos de probabilidade, que veremos adiante: probabilidade
de um evento em um espaço amostral finito; probabilidade condicional; e
probabilidades de eventos independentes. Além de sabermos apresentar os
5Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
cálculos de probabilidade nas 3 maneiras diferentes de apresentação: valor
fracionário, valor numérico e valor percentual.
Resultados da probabilidade
Como citado anteriormente, podemos apresentar os resultados obtidos nos
cálculos de probabilidade de três maneiras diferentes.
� Valor fracionário: quando se faz um cálculo de probabilidade, como
veremos adiante, o primeiro resultado obtido é o fracionário, em que
temos um número que fica na parte superior da fração, chamado de
numerador, e outro valor, na parte inferior da mesma fração, chamado
de denominador (a/b).
1. Exemplo: 2
5
.
� Valor numérico: quando acharmos o valor fracionário e realizarmos
a divisão proposta, ou seja, o numerador (em cima) dividido pelo de-
nominador (embaixo) obterá um resultado, que chamaremos de valor
numérico. É o resultado da divisão do valor fracionário.
2. Exemplo: 2
5 = 0,40 .
� Valor percentual: ao chegarmos ao valor numérico, podemos trans-
formar qualquer um deles em valor percentual, apenas multiplicando
o valor por 100 (cem) e após colocar o símbolo de porcentagem (%).
3. Exemplo: 0,40 × 100 = 40% (quarenta por cento).
Os resultados podem ser apresentados em qualquer uma das três maneiras,
isso vai depender do que for pedido no enunciado de algum problema/questão/
experimento.
Probabilidade de um evento em
um espaço amostral finito
A probabilidade de um evento em um espaço amostral finito também é co-
nhecida como probabilidade clássica. A regra da probabilidade clássica é
aplicada para se calcularem as probabilidades de eventos a um experimento
para o qual os resultados sejam igualmente possíveis.
Dado um experimento aleatório, sendo U o seu espaço amostral, vamos
admitir que todos os elementos de U tenham a mesma chance de acontecer.
Cálculo de probabilidade6
Identificação interna do documento PYDB0XJZAK-D1SFU31
Chamamos de probabilidade de um evento A o número real P(A), tal que:
P(A) = n(A)
n(U)
, em que: n(A) é o número de elementos do conjunto A e n(U)
é o número de elementos do conjunto U.
Em outras palavras:
P(A) =
número de casos favoráveis
número total de casos possíveis
Todas as possíveis respostas favoráveis (eventos) são divididas por todas
de respostas possíveis (espaço amostral).
Encontre a probabilidade de se obter um número par em um lançamento de um dado.
Solução:
Esse experimento tem um total de seis resultados: 1, 2, 3, 4, 5 e 6. Todos estes são
igualmente possíveis. Considere A um evento em que um número par seja observado
no dado. O evento A inclui três resultados possíveis: 2, 4 e 6, ou seja,
A = {2, 4, 6}
Caso qualquer um desses três números seja obtido, considera-se que o evento A
tenha ocorrido. Assim sendo,
P(A) = número de casos favoráveis
número total de casos possíveis
P(A) = 3
6 . Simplificando, ou seja, dividindo o numerador e o denominador pelo
mesmo valor, neste caso, dividindo os dois valores por 3, obtemos: 1
2
(valor fracionário).
Se dividirmos o valor fracionário 1
2
, ou seja, 1 ÷ 2 = 0,50 (valor numérico).
E se multiplicarmos por 100 esse valor numérico, iremos obter o valor fracionário:
0,50 x 100 = 50% (cinquenta por cento).
Resumindo: qualquer uma das 3 respostas são iguais (válidas) e podem ser
apresentadas.
1
2
= 0,50 = 50%
Interpretando o resultado obtido:
1
2
– a cada 2 vezes que o dado for jogado, temos a probabilidadeda tempora-
da. Um estudo fez uma análise de regressão para identificar que fatores
causavam a variação dos preços dos ingressos entre os times na mesma
liga em um determinado ano. A equação de regressão empregada foi a
seguinte:
LNPMI � a0 + a1NVIT + a2RENDA + a3PAG+ a4POP + a5TEND +
a6CAP + a7EST
Onde:
LNPMI � logaritmo neperiano do preço médio dos ingressos
PMI � preço médio dos ingressos
NVIT � número médio de vitórias do time nas últimas três temporadas
RENDA � nível médio de renda da população da cidade
PAG � folha de pagamento do time
POP � tamanho da população da cidade
TEND � tendências no setor
CAP � público como porcentagem da capacidade
EST � se o time está jogando em um estádio novo
A pesquisa reuniu dados cobrindo um período de 7 anos (1996-2002).
Os dados financeiros foram obtidos do Team Marketing Reports e os
outros dados foram coletados utilizando fontes disponíveis publica-
mente, como reportagens esportivas. Os resultados das análises de re-
gressão podem ser vistos na tabela no pé da página.
Os resultados sugerem que diversos fatores influenciam os preços
dos ingressos, e o principal deles foi o fato de o time estar jogando em
um estádio novo. 21 ■
Como no exemplo anterior, algumas variáveis independentes conside-
radas em um estudo muitas vezes se mostram insignificantes. Quando
há muitas variáveis independentes e o pesquisador suspeita que nem
todas elas são significantes, a regressão passo a passo deve ser usada.
Regressão passo a passo
O objetivo da regressão passo a passo é selecionar, entre inúme-
ras variáveis previsoras, um pequeno subconjunto de variáveis que
respondam pela maior parte da variação na variável dependente.
Nesse procedimento, as variáveis previsoras entram na equação de
regressão, ou saem dela, uma de cada vez.22 Há várias abordagens
para a regressão passo a passo.
regressão passo a passo
Procedimento de regressão em que as variáveis previsoras entram na
equação de regressão, ou saem dela, uma de cada vez.
1. Inclusão avançada. Inicialmente, não há variáveis previsoras
na equação de regressão. Elas são introduzidas uma de cada
vez somente se satisfizerem certos critérios definidos em ter-
Resultados da regressão
MLB NBA NFL NHL
Variável
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Coefi-
ciente
Estatísti-
ca t
Valor
p
Constante 1,521 12,012 0,000 2,965 20,749 0,000 2,886 18,890 0,000 3,172 16,410 0,000
POP 0,000 5,404 0,000 0,000 5,036 0,000 0,000 –2,287 0,023 0,000 2,246 0,026
RENDA 0,000 3,991 0,000 0,000 0,208 0,836 0,000 3,645 0,000 0,000 0,669 0,504
EST 0,337 5,356 0,000 0,108 3,180 0,002 0,226 3,357 0,001 0,321 4,087 0,000
NVIT 0,000 0,091 0,927 0,004 3,459 0,001 0,013 2,190 0,030 0,001 0,369 0,713
CAP 0,006 8,210 0,000 0,000 2,968 0,003 0,002 1,325 0,187 0,005 3,951 0,000
PAG 0,004 4,192 0,000 0,008 5,341 0,000 0,001 0,607 0,545 0,002 1,099 0,273
TEND 0,047 6,803 0,000 0,016 1,616 0,100 0,058 6,735 0,000 0,009 0,718 0,474
CAN (Canadá) –0,146 –3,167 0,002
R2 Ajustado 0,778 0,488 0,443 0,292
Estatística F 98,366 28,227 24,763 9,545
Significância de F 0,000 0,000 0,000
Malhotra_17.indd 436Malhotra_17.indd 436 15/09/11 08:5715/09/11 08:57
CAPÍTULO 17 ● CORRELAÇÃO E REGRESSÃO 437
mos da razão F. A ordem em que as variáveis são incluídas se
baseia na contribuição para a variância explicada.
2. Eliminação para trás. Inicialmente, todas as variáveis previso-
ras são incluídas na equação de regressão. Removem-se então
as variáveis previsoras uma de cada vez, com base na razão F.
3. Solução passo a passo. Combina-se a inclusão antecipada
com a remoção das variáveis previsoras que não mais satisfa-
zem o critério especificado em cada passo.
Os procedimentos da regressão passo a passo não resultam em
equações ótimas de regressão, no sentido de gerar o maior R2 para um
número determinado de previsores. Em razão das correlações entre
previsores, pode ocorrer que uma variável importante nunca venha a
ser incluída, enquanto variáveis menos importantes podem ser intro-
duzidas na equação. Para identificar uma equação ótima de regressão,
teríamos de calcular soluções combinatórias em que se examinem to-
das as combinações possíveis. Ainda assim, a regressão passo a passo
é útil quando o tamanho da amostra for grande em relação ao número
de variáveis previsoras, conforme mostra o exemplo a seguir.
Pesquisa real
Saindo... para o shopping center
Até mesmo no século XXI olhar e comparar é uma parte fundamental
das compras – seja on-line ou no shopping. Os clientes gostam de ana-
lisar suas decisões de compra antes de realizá-las. Muitos consideram
que os varejistas de lojas físicas têm uma vantagem sobre os varejistas
da Internet quando se trata de comparar, porque os primeiros são maio-
res em tamanho e ofertas de produtos. Embora a Web seja mais atraente
para os compradores mais jovens, o shopping continuará muito à fren-
te nessa corrida, especialmente com tantas opções de entretenimento
sendo construídas dentro dele atualmente. Elaborou-se um perfil dos
clientes comparadores em shopping centers regionais utilizando três
conjuntos de variáveis independentes: demográficas, comportamentais
e variáveis psicológicas de atitude. A variável dependente consistiu
em um índice de curiosidade/comparação. Em uma regressão passo
a passo incluindo os três conjuntos de variáveis, constatou-se que o
aspecto demográfico era o previsor mais poderoso do comportamento
de comparação. A equação final de regressão, que continha 20 das 36
variáveis possíveis, incluía todas as características demográficas. A ta-
bela a seguir apresenta os coeficientes de regressão, erros padrão dos
coeficientes e seus níveis de significância.
Ao interpretar os coeficientes, deve-se ter em mente que quanto
menor for o índice de curiosidade/comparação (a variável dependen-
te), maior a tendência de apresentar um comportamento associado à
comparação. Os dois previsores com maiores coeficientes são gênero e
situação de emprego. Os comparadores tendem a ser mulheres empre-
gadas. Tendem também a se situar em posição ligeiramente inferior em
comparação com outros clientes do shopping center, apresentando ní-
veis mais baixos de instrução e de renda, após levar em conta os efeitos
do gênero e da situação de emprego. Embora os comparadores tendam
a ser um pouco mais jovens que os não comparadores, não são necessa-
riamente solteiros; os que relatam tamanhos maiores de família tendem
a se associar a menores valores do índice de curiosidade/comparação.
O perfil menos afluente dos curiosos em relação a outros clientes
indica que as lojas especializadas nos shopping centers devem dar ên-
fase a produtos de preço moderado. Isso pode explicar a taxa historica-
mente baixa de falência em shopping centers de tais lojas e a tendência
das lojas especializadas, com preços elevados, a se localizarem apenas
em galerias de prestígio ou em shopping centers mais qualificados.23 ■
Regressão do índice de curiosidade/comparação sobre as variáveis descritivas e de atitude por
ordem de entrada na regressão passo a passo
Descrição da variável Coeficiente EP Significância
Gênero (0 � masc., 1� fem.) – 0,485 0,164 0,001
Situação de emprego (0 � empregado) 0,391 0,182 0,003
Autoconfiança – 0,152 0,128 0,234
Instrução 0,079 0,072 0,271
Intenção quanto à marca – 0,063 0,028 0,024
Vê TV durante o dia? (0 � sim) 0,232 0,144 0,107
Tensão – 0,182 0,069 0,008
Renda 0,089 0,061 0,144
Frequência das visitas ao shopping – 0,130 0,059 0,028
Menos amigos que a maioria 0,162 0,084 0,054
Bom comprador – 0,122 0,090 0,174
As opiniões de outros são importantes – 0,147 0,065 0,024
Controle sobre a vida – 0,069 0,069 0,317
Tamanho da família – 0,086 0,062 0,165
Pessoa entusiasta – 0,143 0,099 0,150
Idade 0,036 0,069 0,603
Número de compras feitas – 0,068 0,043 0,150
Compras por estabelecimento 0,209 0,152 0,167
Compracom economia – 0,055 0,067 0,412
Excelente avaliador de qualidade – 0,070 0,089 0,435
CONSTANTE 3,250
R2 global � 0,477
Malhotra_17.indd 437Malhotra_17.indd 437 15/09/11 08:5715/09/11 08:57
438 PARTE III ● COLETA, PREPARAÇÃO E ANÁLISE DE DADOS E RELATÓRIO
Multicolinearidade
A regressão passo a passo e a regressão múltipla são dificultadas
pela presença da multicolinearidade. Praticamente todas as análises
de regressão múltipla feitas em pesquisa de marketing envolvem
previsores ou variáveis independentes que são correlacionados.
Entretanto, surge a multicolinearidade quando as intercorrelações
entre os previsores são muito altas. A multicolinearidade pode ori-
ginar vários problemas, incluindo:
multicolinearidade
Situação de intercorrelações muito altas entre variáveis independentes.
1. Os coeficientes de regressão parcial podem não ser estimados
com precisão. Os erros padrão tendem a ser muito altos.
2. As magnitudes e os sinais dos coeficientes de regressão par-
cial podem variar de uma amostra para outra.
3. Torna-se difícil avaliar a importância relativa das variáveis in-
dependentes ao explicar a variação na variável dependente.
4. Algumas variáveis previsoras podem ser incluídas ou removi-
das incorretamente na regressão passo a passo.
Nem sempre fica claro o que constitui uma multicolinearidade
grave, embora tenham sido sugeridas várias regras e processos
empíricos, bem como processos de maior ou menor complexida-
de para enfrentar o problema.24 Um processo simples consiste em
utilizar apenas uma das variáveis em um conjunto de variáveis al-
tamente correlacionadas. Alternativamente, pode-se transformar o
conjunto de variáveis independentes em um novo conjunto de pre-
visoras mutuamente independentes, recorrendo-se a técnicas como
análise dos componentes principais (ver Capítulo 19). Podem ser
utilizadas também técnicas mais especializadas, como regressão
em crista e regressão de raízes latentes.25
PESQUISA ATIVA
Avaliação da marca e preferência pelos laptops Lenovo
Visite www.lenovo.com e pesquise na Internet (utilizando um dis-
positivo de busca) e no banco de dados on-line de sua biblioteca
informações sobre os fatores que os consumidores utilizam ao
avaliar as marcas concorrentes de laptops.
Como diretor de marketing da Lenovo Computers, como você
melhoraria a imagem e o posicionamento competitivo de sua marca?
Formule um modelo de regressão múltipla explicando as prefe-
rências do consumidor por marcas de laptop como uma função das
avaliações da marca nos fatores de critérios de escolha dos consumi-
dores para avaliar marcas concorrentes.
Importância relativa dos previsores
Na presença da multicolinearidade, exige-se um cuidado especial na
avaliação da importância relativa de variáveis independentes. Na pes-
quisa de marketing aplicada, é conveniente determinar a importância
relativa dos previsores. Melhor dizendo: qual é a importância das
variáveis independentes na justificativa para a variação na variável
dependente?26 Infelizmente, como os previsores são correlacionados,
não existe uma medida não ambígua da importância relativa dos pre-
visores na análise de regressão.27 Não obstante, há várias abordagens
para avaliar a importância relativa das variáveis previsoras.
1. Significância estatística. Se o coeficiente de regressão par-
cial de uma variável não for significativo, conforme determi-
nado por um teste incremental F, essa variável é considerada
como não importante. Ocorre uma exceção a essa regra se
houver fortes razões teóricas para crer que a variável seja
importante.
2. Quadrado do coeficiente de correlação simples. Essa medi-
da, r2, representa a proporção da variação na variável depen-
dente explicada pela variável independente em uma relação
bivariada.
3. Quadrado do coeficiente de correlação parcial. Essa medida,
R2
yxi.xj xk é o coeficiente de determinação entre a variável de-
pendente e a variável independente, controlando os efeitos das
outras variáveis independentes.
4. Quadrado do coeficiente de correlação de partes. Este coefi-
ciente representa um aumento em R2 quando se introduz uma
variável em uma equação de regressão que já contém as outras
variáveis independentes.
5. Medidas baseadas em coeficientes padronizados ou pesos
beta. As medidas mais usadas são os valores absolutos dos
pesos beta, |Bi|, ou seus quadrados Bi
2. Como são coeficientes
parciais, os pesos beta levam em conta o efeito das outras va-
riáveis independentes. Essas medidas vão se tornando menos
confiáveis conforme aumentam as correlações entre as variá-
veis previsoras (a multicolinearidade aumenta).
6. Regressão passo a passo. Utiliza-se a ordem em que os previ-
sores entram em uma equação de regressão ou saem dela para
inferir sua importância relativa.
Como os previsores são correlacionados, ao menos até certo
ponto, em praticamente todas as situações de regressão, nenhu-
ma dessas medidas é satisfatória. É possível também que as di-
ferentes medidas indiquem uma ordem diferente de importância
dos previsores.28 Todavia, se todas as medidas forem examinadas
coletivamente, pode-se obter uma visualização conveniente da
importância relativa dos previsores.
Pesquisa de decisão
West Michigan Whitecaps: estimulando a
fidelidade dos torcedores
A situação
O West Michigan Whitecaps (www.whitecaps-baseball.com), um
time da liga nacional de beisebol de Gram Rapids, Estados Unidos,
queria saber o que eles deveriam fazer para desenvolver a fidelidade
dos torcedores. Como eles poderiam mantê-la, fazê-la crescer e apro-
veitá-la? O diretor geral Scott Lane contratou a empresa de pesquisa
Message Factors (www.messagefactors.com), com base em Memphis,
Tennessee, para ajudar a identificar maneiras de manter com eficácia
a fidelidade dos torcedores com um orçamento limitado. A Message
Factors desenvolveu um estudo que usou uma técnica proprietária de
análise de valor que examinava a relação entre o valor geral percebido
e os atributos de satisfação específicos a fim de identificar os elemen-
tos que impulsionam a fidelidade. Ela ajudou a determinar as quatro
coisas que os clientes querem lhe dizer, que são os elementos básicos
– o que os clientes esperam da empresa; questões de valor – o que
os clientes valorizam na empresa; irritações – o que os clientes não
gostam na empresa; e sem importância – com o que os clientes não se
importam na empresa.
Pesquisas qualitativas foram feitas para identificar um conjunto de
71 atributos que influenciaram a fidelidade dos torcedores. Em seguida,
um questionário elaborado para incorporar os 71 atributos foi aplicado
Malhotra_17.indd 438Malhotra_17.indd 438 15/09/11 08:5715/09/11 08:57
Encerra aqui o trecho do livro disponibilizado para
esta Unidade de Aprendizagem. Na Biblioteca Virtual
da Instituição, você encontra a obra na íntegra.
Dica do professor
Quando o nível de associação/relação entre as variáveis é muito grande, o pesquisador identifica a
multicolinearidade e realiza algumas ações para ajustar esses resultados, possibilitando que os
resultados sejam mais efetivos para a pesquisa. Assista ao vídeo a seguir, que explica a
multicolinearidade.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/85b644365d84dc69eda1458e4f177908
Exercícios
1)
A respeito da correlação, marque a alternativa com informações INCORRETAS.
A) a) Correlação momento-produto (r) é uma estatística que resume a força de associação entre
duas variáveis não métricas.
B) b) Coeficiente de correlação parcial é uma medida da associação entre duas variáveis após
controlar ou ajustar os efeitos de uma ou mais variáveis adicionais.
C) c) Coeficiente de correlação de partes é uma medida da correlação entre X e Y quando os
efeitos lineares das outras variáveis independentes foram removidos de X (mas não de Y).
D) d) Correlação não métricaé uma medida de correlação para duas variáveis não métricas, que
se baseia em classificações para calcular a correlação.
E) e) Covariância é a relação sistemática entre duas variáveis, em que uma modificação em uma
delas acarreta em modificação correspondente na outra (COVxy).
2) Em que situações a análise de regressão pode ser utilizada? Analise as afirmativas e marque
a CORRETA.
I. Determinar se as variáveis independentes explicam uma variação significativa na variável
dependente: se existe uma relação.
II. Determinar quanto da variação na variável dependente pode ser explicado pelas variáveis
independentes: intensidade da relação.
III. Determinar a estrutura ou a forma da relação: a equação matemática que relaciona as
variáveis independentes e dependentes.
IV. Predizer os valores da variável independente.
V. Controlar outras variáveis dependentes quando da avaliação das contribuições de uma
variável ou conjunto de variáveis específicas.
A) I, II e III estão corretas.
B) I e III estão corretas.
C) I, III e IV estão corretas.
D) III, IV e V estão corretas.
E) IV e V estão corretas.
3) O que é a regressão bivariada?
A) A intensidade da associação que é medida pelo coeficiente de determinação, r2.
B) Um gráfico dos valores de duas variáveis para todos os casos ou observações.
C) Procedimento de dedução de uma relação matemática, na forma de uma equação, entre uma
única variável métrica dependente e uma única variável métrica independente ou previsora.
D) O coeficiente angular que se obtém pela regressão de Y sobre X quando os dados são
padronizados.
E) Medida de correlação para duas variáveis não métricas, que se baseia em classificações para
calcular a correlação.
4) Como fazer uma análise de regressão bivariada? Analise os fluxos propostos e marque qual
deles estaria na ordem adequada.
A)
B)
C)
D)
E)
5) Marque a opção que NÃO condiz com estatísticas associadas à regressão múltipla.
A) R2 ajustado.
B) Coeficiente de determinação múltipla.
C) Teste F.
D) Teste F parcial.
E) Coeficiente bivariado.
Na prática
Victória é gerente de marketing do supermercado Grande Coração. Devido à crise econômica do
País, o estabelecimento passou a vender menos, e, em um intervalo de seis meses, percebeu-se
grande diminuição dos lucros.
Após o investimento, Victória percebeu que as vendas aumentaram, e o lucro tem aumentado
bastante. Porém, Victória agora tem uma grande dúvida: as vendas aumentaram por que o consumo
voltou a ser maior ou foi efeito das propagandas nas quais a empresa investiu?
Victória percebe, então, a necessidade de uma análise de dados baseada em correlação, para
entender qual a associação entre: AUMENTO DAS VENDAS vs. PROPAGANDAS.
A partir desta análise, Victória pôde obter duas diferentes conclusões:
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Regressão Linear Simples - Inferência Estatística
Esse vídeo apresenta dicas para você aprender como fazer inferência estatística na análise de
regressão linear simples, utilizando o Excel para os cálculos.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Regressão Linear Múltipla - Variáveis Dummy parte 1
Nesse vídeo você vai aprender o que são Variáveis Dummy e como utilizá-las na regressão linear
múltipla, sendo demonstrado num caso prático e usando o Excel.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Correlação exercício pesquisa
Aqui é desenvolvido um exercício baseado numa pesquisa, a respeito de correlação, relembrando
os principais conceitos teóricos sobre o assunto. Assista o vídeo e acompanhe o passo-a-passo.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/BWtwzwqmgx8
https://www.youtube.com/embed/kIHAe0QxOSk
https://www.youtube.com/embed/Yn2N8xNvh58de 1 dessas
jogadas ser o valor par.
0,5 – a probabilidade de acontecer um evento é exatamente a metade, ou seja,
cada vez que se joga 2 vezes o dado, a probabilidade é que a metade das vezes (0,5)
aconteça de sair o valor par.
50% – a probabilidade de acontecer o evento favorável, no caso números pares, é
de exatamente 50% a cada 2 vezes que for jogado o dado.
7Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Os valores do espaço amostral: no exemplo acima, foi jogado apenas um dado. Como
ficaria o valor do espaço amostral se jogássemos, ao mesmo tempo, 2, 3 ou mais dados?
Ao jogarmos 1 dado, chegamos a conclusão de que teremos 6 possíveis respostas,
todas as mesmas possibilidades. Mas, ao jogarmos 2 dados ao mesmo tempo, esse
valor não será o mesmo. Vamos pensar um pouco e verificar as possíveis respostas: (1,
1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4),
(3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6,
2), (6, 3), (6, 4), (6, 5) e (6, 6). Isso totaliza 36 possíveis respostas, mas podemos chegar
a esse valor de uma maneira muito mais rápida, utilizando a seguinte operação: 6n.
n é a quantidade de dados que estão sendo utilizados.
Dois dados: 62 = 6 × 6 = 36.
Três dados: 63 = 6 × 6 × 6 = 216.
E assim por diante.
No início do texto referente ao título Cálculo de probabilidade, apresentamos
várias questões sobre probabilidade. Vamos aproveitar agora que aprendemos
a calcular a probabilidade de um evento em um espaço amostral finito (pro-
babilidade clássica) e resolvermos estas:
1. Considere uma área muito visitada do Museu de Animais. Em um
recipiente existem 12 aranhas, das quais 8 são fêmeas. A probabilidade
de se retirar uma aranha macho para um experimento é de quanto?
Solução:
No total, existem 12 aranhas no recipiente e todas elas possuem a mesma
possibilidade de serem sorteadas (espaço amostral) e queremos sortear aranhas-
-macho. Se o problema apresenta que 8 das aranhas são fêmeas, então 4 são
machos (evento).
Colocando os valores na fórmula:
P(A) =
número de casos favoráveis
número total de casos possíveis
P(A) =
4
12
P(A) = 1
3 (valor fracionário, que significa que a cada 3 aranhas retiradas,
temos a probabilidade 1 delas ser macho).
Cálculo de probabilidade8
Identificação interna do documento PYDB0XJZAK-D1SFU31
Ou P(A) = 1
3 = 0,333 ... (valor numérico).
Ou P(A) = 0,333... x 100 = 33,33% (valor percentual).
2. No lançamento de um dado perfeito, qual é a probabilidade de sair um
número maior do que 4?
Solução:
Um dado possui 6 faces numeradas, ou seja, os números 1, 2, 3, 4, 5 e 6
possuem as mesmas possibilidades, ao jogarmos o dado, da face desse número
cair voltada para cima (espaço amostral). O problema pede a probabilidade de
sair a face para cima de um número maior do que 4. Temos como possíveis
respostas os números 5 e 6 (evento).
Colocando na fórmula:
P(A) = 2
6
, simplificando (dividindo os dois valores por 2), obtemos o valor
final de 1
3
.
Ou P(A) = 1
3
= 0,333 ... (valor numérico).
Ou P(A) = 0,333... x 100 = 33,33% (valor percentual).
3. Em uma urna existem 20 bolas numeradas de 1 a 20. Sorteando uma
bola, ao acaso, qual é a probabilidade, em porcentagem, de que o número
da bola sorteada seja divisível por 3?
Solução:
Na urna existem 20 bolas numeradas de 1 a 20, em que todas possuem a
mesma possibilidade de serem retiradas (espaço amostral). O problema quer
calcular a probabilidade de se retirar uma bola, cujo número seja divisível por
3. Esses números são: 3, 6, 9, 12, 15 e 18, ou seja, temos 6 possíveis números
que são favoráveis ao que o problema está solicitando (evento).
Colocando na fórmula:
P(A) = 6
20, simplificando, fica como resultado final 3
10 (a cada 10 retiradas
de bolas, temos a probabilidade de 3 delas serem divisíveis por 3).
Ou P(A) = 3
10
= 0,3 (valor numérico).
Ou P(A) = 0,3 x 100 = 30% (valor percentual).
9Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
4. Considere o lançamento de três dados comuns. Qual é a probabilidade
de que a soma dos valores sorteados seja igual a 5?
Solução:
Em primeiro lugar, precisamos calcular o valor do espaço amostral e da
quantidade de possíveis respostas. Utilizando a operação que foi citada no
Fique Atento acima, como estamos jogando 3 dados ao mesmo tempo, vamos
utilizar a operação: 6n.
63 = 216 possíveis respostas.
O problema está solicitando as respostas em que a soma de todos os dados
ao mesmo tempo sejam 5. Vamos achar essas possíveis respostas: (1, 1, 3), (1,
3, 1), (3, 1, 1), (1, 2, 2), (2, 1, 2) e (2, 2, 1), totalizando 6 possíveis respostas
favoráveis.
Colocando na fórmula:
P(A) = 6
216. Simplificando, ou seja, dividindo os dois valores por 6, chega-
mos ao valor final 1
36
(valor fracionário). A cada 36 vezes que jogarmos os 3
dados ao mesmo tempo, 1 das jogadas dará como soma de todos os números
o valor 5.
Ou P(A) = 1
36 = 0,02777 ...
Ou P(A) = 0,02777... x 100 = 2,77% (valor percentual).
Probabilidade condicional
Se a probabilidade de ocorrência de um evento B interfere na probabilidade
de ocorrência de um evento A, então dizemos que a probabilidade de A está
condicionada à probabilidade de B e representamos por P(A/B). Lê-se: pro-
babilidade de A dado B.
A/B significa a ocorrência do evento A sabendo que o evento B já ocorreu
ou que a ocorrência de B esteja garantida (os eventos A e B são dependentes).
P(A/B) =
n(A ∩ B)
n(B)
Cálculo de probabilidade10
Identificação interna do documento PYDB0XJZAK-D1SFU31
Para se calcular uma probabilidade condicional, no denominador se coloca o total de
possíveis respostas da condição e, no denominador, coloque a quantidade de possíveis
respostas favoráveis (eventos) dentro da condição.
Uma concessionária A tem em seu estoque 25 carros de um modelo B. O quadro a
seguir divide os 25 carros disponíveis em tipo de motor e cor.
Motor
Cor
Branca Preta Prata Vermelha
1.0 2 2 5 1
1.6 1 1 4 1
2.0 2 2 3 1
Um carro do modelo B foi comprado nessa concessionária. Dado que esse carro é
de cor prata, qual a probabilidade que seu motor seja 1.0?
Solução:
Esse problema de probabilidade é um caso de probabilidade condicional, pois
o cálculo está condicionado à informação de que já sabemos que o carro é prata
(condição). Utilizando a fórmula da probabilidade condicional:
P(A/B) = n(A ∩ B)
n(B)
No denominador colocamos a quantidade de possíveis respostas da condição (cor
prata), conforme tabela. Verificou-se que a concessionária possui 12 carros pratas.
Na parte superior, no numerador, colocamos as possibilidades de respostas favoráveis
(motor 1.0) dentro dos carros de cor prata: 5 carros com motor 1.0 e que são de cor prata.
P(A/B) = 5
12
(valor fracionário).
P(A/B) = 5
12 = 0,4166...(valor numérico).
P(A/B) = 0,4166... x 100 = 41,66% (valor percentual).
11Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Resolvendo o problema citado anteriormente:
� Maria ganhou de João nove pulseiras, quatro delas de prata e cinco
de ouro. Maria ganhou de Pedro onze pulseiras, oito delas de prata e
três de ouro. Ela guarda todas essas pulseiras – e apenas essas – em
sua pequena caixa de joias. Uma noite, arrumando-se apressadamente
para ir ao cinema com João, Maria retira, ao acaso, uma pulseira de
sua pequena caixa de joias. Ela vê, então, que retirou uma pulseira de
prata. Levando em conta tais informações, a probabilidade de que a
pulseira de prata que Maria retirou seja uma das pulseiras que ganhou
de João é igual a?
Solução:
Verificamos que a condição é ser uma pulseira de prata, por isso, precisamos
saber o total de pulseiras de prata que Maria ganhou: 12.
Ela que saber a probabilidade de que essa pulseira que ela está pegando
no escuro tenha sido dada de presente pelo João. Então, precisamosverificar
quantas pulseiras de prata João deu de presente: 4.
Utilizando a fórmula:
P(A/B) =
n(A ∩ B)
n(B)
P(A/B) = 4
12
. Simplificando, 1/3 (valor fracionário).
P(A/B) = 13 = 0,3333 ... (valor numérico).
P(A/B) = 0,3333... × 100 = 33,33%.
Probabilidade de eventos independentes
Dois eventos, A e B, são chamados independentes quando a probabilidade
de ocorrência de um deles não interfere na probabilidade de ocorrência do
outro, ou seja:
P(B/A) = P(B) ou P(A/B) = P(A)
Se A e B são eventos independentes, então a probabilidade de ocorrência
de A e B será:
P(A ∩ B) = P(A) × P(B)
Cálculo de probabilidade12
Identificação interna do documento PYDB0XJZAK-D1SFU31
No caso da probabilidade de eventos independentes, calcula-se cada evento se-
paradamente e após obter todas as respostas, faz-se a multiplicação entre todas as
probabilidades de cada evento (resultados).
De acordo com os cálculos de sinistro de uma determinada seguradora, o cliente
Antonio tem uma probabilidade de sinistro para o ano de vigência de seu seguro
de 22%. Já a cliente Maria tem uma probabilidade de sinistro de 10% para o ano de
vigência de seu seguro.
Qual seria a probabilidade de ambos terem um sinistro durante a vigência de seu
seguro? Como temos duas apólices distintas de pessoas que provavelmente nem se
conheçam, temos eventos independentes.
P (Antonio ter sinistro) = 0,22
P (Maria ter sinistro) = 0,10
P (ambos com sinistro) = P (Antonio ter sinistro) ∩ P (Maria ter sinistro)
Por serem eventos independentes, calculamos da seguinte forma:
P (ambos com sinistro) = 0,22 ∙ 0,10 = 0,022 ou 2,20%
Agora, qual é a probabilidade de ambos não terem um sinistro durante a vigência de
seu seguro?
P (Antônio não ter sinistro) = 1 – 0,22 = 0,78
P (Maria não ter sinistro) = 1 – 0,10 = 0,90
P (nenhum com sinistro) = P (Antonio não ter sinistro) ∩ P (Maria não ter sinistro)
Por serem eventos independentes calculamos da seguinte forma:
P (nenhum com sinistro) = 0,78 ∙ 0,90 = 0,7020 ou 70,20%
13Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Resolvendo o problema citado anteriormente:
� Uma urna contém 8 bolas, das quais três são vermelhas e as restantes
são brancas. Qual a probabilidade de serem retiradas duas bolas, suces-
sivamente, sem reposição, sendo a 1ª vermelha e a 2ª branca?
Solução:
Calculando a probabilidade de ocorrer o primeiro evento, em que dentro
da urna há 8 bolas (espaço amostral) e queremos sortear uma bola vermelha,
tendo, dentro da urna, um total de 3 dessa cor (evento):
P(A) =
3
8
Calculando a probabilidade de ocorrer o segundo evento, e sabendo que
não houve reposição, dentro da urna há 7 bolas (espaço amostral), e queremos
sortear, desta vez, uma bola branca, sabendo que, dentro dessa urna, há um
total de 5 bolas dessa cor (evento):
P(B) =
5
7
Calculando a probabilidade de que os eventos ocorram como fora solicitado,
utilizaremos a fórmula da probabilidade dos eventos independentes:
P(A ∩ B) = P(A) × P(B)
P(A ∩ B) = P(A) × P(B) =
3
8
5
7
× =
15
56
P(A ∩ B) =
15
56
= 0,2678 ... (valor numérico).
P(A∩B) = 0,2678... × 100 = 26,78% (valor percentual).
Cálculo de probabilidade14
Identificação interna do documento PYDB0XJZAK-D1SFU31
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração
e economia. 2. ed. São Paulo: Cengage Learning, 2011.
BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística: para cursos de engenharia e
informática. 3. ed. São Paulo: Atlas, 2010.
MANN, P. S. Introdução à estatística. Rio de Janeiro: LTC, 2006.
MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson
Prentice Hall, 2010.
SILVEIRA, J. F. Raciocínio lógico matemático: curso completo preparatório para con-
cursos. [2015?]. Disponível em: . Acesso em: 19 ago. 2017.
Leituras recomendadas
15Cálculo de probabilidade
Identificação interna do documento PYDB0XJZAK-D1SFU31
Dica do professor
A teoria da probabilidade é um campo da matemática que estuda experimentos ou fenômenos
aleatórios e permite calcular as chances de um evento incerto ocorrer. Nesse contexto, cabe
ressaltar que se entende por evento qualquer subconjunto do espaço amostral de um experimento
aleatório.
Nesta Dica do professor, você vai conhecer em detalhes os eventos mutuamente excludentes, os
complementares, os dependentes e os independentes por meio de exemplos triviais com dados
para jogos de tabuleiro e peças de um lote de fabricação.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/f2500ea5abd5de6cf4667336933ab437
Exercícios
1) O conhecimento dos aspectos fundamentais do cálculo das probabilidades é uma
necessidade essencial para o estudo da inferência estatística. São fenômenos que, mesmo
repetidos várias vezes, sob condições semelhantes, apresentam resultados imprevisíveis.
A respeito disso, assinale a alternativa correta.
A) Eventos mutuamente excludentes são aqueles que ocorrem ao mesmo tempo.
B) Eventos complementares são aqueles que costumam ocorrer ao mesmo tempo.
C) Eventos complementares são aqueles cuja interseção resulta no conjunto espaço amostral.
D) Eventos mutuamente excludentes são aqueles em que a ocorrência de um exclui (impede) a
do outro.
E) Eventos mutuamente excludentes são aqueles que acontecem em locais especiais.
2) Dois eventos são independentes quando a ocorrência de um não muda a probabilidade de o
outro ocorrer e, se A e B são independentes, P(A e B) = P(A) P(B). Para usar a regra da
multiplicação, deve-se decidir se os eventos são independentes.
Considerando isso, assinale a alternativa correta.
A) A independência é irrelevante em contextos de jogos de azar.
B) A probabilidade de se obter três caras ao jogar uma moeda três vezes é igual a 1,0.
C) No caso das cores de cartas sucessivas extraídas de um mesmo baralho, o conhecimento do
resultado da primeira extração não muda as probabilidades da segunda.
D) As cores de cartas sucessivas extraídas de um mesmo baralho são independentes.
E) A probabilidade de se obter três caras ao jogar uma moeda três vezes é igual a 0,125.
Em probabilidade e estatística, independência entre variáveis aleatórias ou eventos significa
que, a partir do resultado de um deles, não é possível inferir nenhuma conclusão sobre o
outro. Por outro lado, os eventos dependentes são aqueles em que a ocorrência de um
evento interfere na ocorrência de outro.
3)
Sendo assim, assinale a alternativa correta.
A) Os eventos dependentes são aqueles em que a realização do primeiro evento afeta a
probabilidade dos próximos.
B) Os eventos dependentes são aqueles que só ocorrem ao mesmo tempo.
C) Os eventos independentes são aqueles em que a realização de um evento afeta o resultado
do outro.
D) Os eventos independentes são aqueles que só ocorrem ao mesmo tempo.
E) Os eventos independentes são aqueles que só ocorrem em tempos diferentes.
4) Existem duas definições básicas de probabilidade, sendo que a primeira é a lei de Laplace.
Trata-se do conceito clássico de probabilidade, segundo o qual a probabilidade de
determinado evento ocorrer é o resultado da divisão entre o número de casos favoráveis
pelo número de casos possíveis. Nesse contexto, considere uma equipe composta por cinco
profissionais, sendo duas mulheres e três homens. Um dos cinco profissionais será sorteado
e receberá uma bolsa de estudos para um curso de inglês.
Assinale a alternativa que contêm a probabilidade de ser sorteada uma profissional mulher.
A) 0,5.
B) 0,4.
C) 0,3.
D) 0,2.
E) 0,1.
5) A probabilidade da união de dois eventos é a probabilidade de um primeiro ou de um
segundo evento ocorrer. Sendo assim, considere dois eventos A e B mutuamente exclusivos.
A probabilidade de ocorrência deA vale 0,2 e a de ocorrência de B, 0,4.
Assinale a alternativa que contém o valor da probabilidade de ocorrência do evento A união
B.
A) 0,08.
B) 0,4.
C) 0,6.
D) 0,48.
E) 0,52.
Na prática
Alguns problemas práticos são muito comuns na teoria da probabilidade, como é o caso dos jogos
de carta, do lançamento de dados e do lançamento de moedas. Nos jogos de carta, como o pôquer,
em que o jogador vencedor é o que tem a mão mais rara, ou seja, com menor probabilidade de
acontecer, a probabilidade estuda o que é chamado de experimentos aleatórios, que, repetidos nas
mesmas condições, apresentam um resultado imprevisível.
Outro exemplo é o lançamento de um dado comum não viciado. Além disso, há também o caso das
moedas, que são primordialmente mais fáceis de analisar, pois, para cada lançamento, há apenas
dois possíveis resultados: cara ou coroa.
Este Na Prática apresenta situações comumente encontradas no estudo da teoria da probabilidade
que lhe ajudarão a realizar cálculos simples de probabilidade.
Conteúdo interativo disponível na plataforma de ensino!
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Estatística aplicada
O capítulo 5 desta obra trata da aleatoriedade e da probabilidade. Você conhecerá os diferentes
tipos de probabilidade, as regras aplicáveis, as probabilidades conjuntas e probabilidade
condicional. Esta leitura lhe proporcionará o aprofundamento dos conhecimentos sobre o cálculo
de probabilidade, oferecendo subsídios para seguir estudando tópicos mais avançados. Os
exemplos detalhados e as dicas fornecidas pelos autores auxiliarão no entendimento dos conceitos
e das formas de cálculo.
Conteúdo interativo disponível na plataforma de ensino!
Probabilidade: eventos dependentes e independentes
Neste vídeo, a professora aborda os eventos dependentes e independentes, mostrando a diferença
entre eles e como isso altera o cálculo de probabilidade. Ela inicia retomando conceitos básicos de
probabilidade para, então, seguir com a definição dos tipos de eventos. Na sequência, exemplos são
resolvidos passo a passo para que você possa acompanhar o desenvolvimento e compreender
quando deve utilizar a forma de cálculo para eventos independentes ou dependentes.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Probabilidade: eventos independentes, complementares e
mutuamente excludentes
Neste vídeo, você retomará conceitos básicos de probabilidade, aprofundando os estudos sobre
eventos independentes, complementares e mutuamente excludentes. Adicionalmente, você verá a
regra da adição e da multiplicação. Vários exemplos e ilustrações permitirão visualizar com maior
clareza cada um dos conceitos estudados.
https://www.youtube.com/embed/Q6CGLHP-818
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/Lq398VreXl8
Probabilidade
Apresentação
A teoria da probabilidade é o ramo da matemática que estuda experimentos ou fenômenos
aleatórios. Por meio dela, é possível analisar as chances de um determinado evento ocorrer. A
inteligência artificial busca métodos e formas de simular a forma de pensar do ser humano. Dessa
forma, a utilização da probabilidade está fortemente relacionada aos algoritmos inteligentes.
Nesta Unidade de Aprendizagem, você vai conhecer os conceitos básicos de probabilidade, como
contagem, espaço amostral e evento. Também vai entender o que é probabilidade condicional e o
teorema de Bayes.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir contagem, evento e espaço amostral.•
Distinguir probabilidade, probabilidade condicional e teorema de Bayes.•
Explicar a utilização da probabilidade na inteligência artificial.•
Desafio
Na análise da probabilidade de ocorrência de um determinado evento, três fatores devem ser
considerados: contagem, evento e espaço amostral. Em probabilidade, espaço amostral significa o
conjunto de todos os possíveis resultados de um experimento aleatório. Com relação ao evento,
não são considerados quaisquer subconjuntos do espaço amostral.
Veja o seguinte caso:
Considerando que você seja um profissional especialista em sistemas inteligentes, responda:
1- Qual a justificativa para a utilização de conceitos da Probabilidade na construção do algoritmo
desse sistema?
2- Identifique possíveis variáveis a serem consideradas. Justifique a sua proposta relacionando
conceitos básicos com o universo proposto.
Infográfico
A probabilidade tem por objetivo permitir a identificação de ocorrência de eventos sujeitos a
incertezas. Sua utilização no planejamento e inferência estatística é bastante conhecida e tem se
revelado de grande importância para a inteligência artificial.
Veja neste Infográfico conceitos relacionados à probabilidade. Entender seus conceitos básicos é
fundamental para quem deseja atuar nessa área de pesquisa.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/457ab642-7a52-4fb0-a5af-c35094167a8f/22f23593-d290-429e-9c56-63e05170bcbb.jpg
Conteúdo do livro
A probabilidade permite, por meio de cálculos, identificar a possibilidade de um fato ou condição
ocorrer. A probabilidade analisa os eventos aleatórios que, alinhados, produzem um resultado
uníco e repetitivo e que serão repetidos inúmeras vezes, desde que as mesmas condições sejam
respeitadas.
No capítulo Probabilidade, do livro Inteligência Artificial, você aprenderá sobre os conceitos básicos
de probabilidade e entenderá como a probabilidade está relacionada à inteligência artificial.
Boa leitura.
INTELIGÊNCIA
ARTIFICIAL
Fabricio Machado da Silva
Probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Definir contagem, evento e espaço amostral.
� Distinguir probabilidade, probabilidade condicional e teorema de
Bayes.
� Identificar a utilização da probabilidade na inteligência artificial.
Introdução
A história da probabilidade se iniciou com os jogos de cartas, dados e
roleta, talvez por isso haja uma grande quantidade de exemplos de jogos
de azar associados ao seu estudo. A teoria da probabilidade é calcular
a chance de ocorrência de um resultado em um experimento aleatório,
permitindo prever com certa antecipação essa chance.
Neste capítulo, você estudará as definições básicas de probabilidade,
contagem, evento, espaço amostral; sua utilização na inteligência artificial;
bem como a diferença entre probabilidade, probabilidade condicional
e teorema de Bayes.
Definições básicas de probabilidade
A probabilidade é uma técnica de estudo das chances de ocorrência de cada
resultado de um experimento aleatório, às quais são atribuídos os números
reais do intervalo entre 0 e 1 — os resultados mais próximos de 1 têm mais
chances de ocorrer. Ela também pode ser apresentada na forma de percentual.
A probabilidade associa números às chances de determinado resultado
acontecer, assim, quanto maior for o número, maior deve ser a chance. Existem
ainda um menor número que representa a impossibilidade da ocorrência desse
evento e um maior que mostra a certeza do resultado. Para analisar a probabi-
lidade de sua ocorrência, é necessário entender três fatores envolvidos nela:
Fi
gu
ra
1
. M
ap
a
m
en
ta
l d
a
pr
ob
ab
ili
da
de
.
Fo
nt
e:
T
ab
or
da
(2
01
5,
d
oc
um
en
to
o
n-
lin
e)
.
Probabilidade2
� contagem;
� evento;
� espaço amostral.
Em probabilidade, o espaço amostral é o conjunto de todos os possíveis re-
sultados de um experimento aleatório e, no evento, são considerados quaisquer
subconjuntos desse espaço amostral. Na Figura 1, você pode ver um exemplo
de mapa mental para entender melhor os conceitos de probabilidade. Perceba
que o espaço está em uma etapaanterior ao evento, simbolizando exatamente
o que já foi relatado.
Contagem
Em matemática, a definição de contagem é o ato de determinar um número
de elementos de um conjunto (finito), e existem evidências arqueológicas que
possibilitam concluir que o processo de contar tenha sido utilizado há mais de
50 mil anos por culturas primitivas para acompanhar os dados econômicos
e sociais, como:
� quantidade de membros do grupo, das presas, etc.;
� propriedades e dívidas.
O princípio de contagem levou ao desenvolvimento da notação matemática,
dos sistemas numéricos e da escrita atual. Ela ainda pode ocorrer de várias
formas, por exemplo, verbalmente, falando cada número em voz alta (ou
mentalmente) para acompanhar o progresso, utilizado com frequência para
contar objetos presentes em vez de uma variedade de coisas no decorrer do
tempo (horas, dias, semanas, etc.). Também pode ser por meio de marcações,
com base de contagem unitária, registrando uma marca para cada objeto e
contando seu total, o que é útil quando se deseja contar objetos ao longo de
períodos, como o número de ocorrências de algo durante um dia. A contagem
usual é realizada em base decimal, já os computadores usam base binária
(zeros e uns).
A realização da contagem permite determinar a quantidade de elementos
de determinado conjunto, por exemplo, o censo demográfico, que, por meio
dela, sabe o número de elementos dos seguintes conjuntos:
Fi
gu
ra
1
. M
ap
a
m
en
ta
l d
a
pr
ob
ab
ili
da
de
.
Fo
nt
e:
T
ab
or
da
(2
01
5,
d
oc
um
en
to
o
n-
lin
e)
.
3Probabilidade
� quantidade de pessoas que vivem em determinado estado ou cidade;
� quantidade de pessoas do sexo masculino e do feminino que vivem em
determinado lugar.
No exemplo anterior, o estado ou a cidade podem ser o conjunto da con-
tagem, assim como o sexo.
Evento
O evento é qualquer subconjunto de um espaço amostral e pode conter nenhum
elemento (conjunto vazio) ou todos os elementos desse espaço. Já seu número
de elementos é representado da seguinte forma: n(E), sendo E o evento em
questão. Seus exemplos incluem duas opções.
a) Sair cara em um lançamento de uma moeda.
O evento é sair cara e tem um único elemento. Sua representação também
pode ser feita com notações de conjuntos, e seu número de elementos se trata
de n(E) = 1.
E = {cara}
b) Sair um número par no lançamento de um dado.
O evento é sair um número par, e seu número de elementos se trata de
n(E) = 3.
E = {2, 4, 6}
Os eventos que possuem apenas um elemento (ponto amostral) são cha-
mados de simples. Quando eles forem iguais ao espaço amostral, se chamam
evento certo e sua probabilidade de ocorrência é 100%. Caso eles sejam iguais
ao conjunto vazio, se denominam evento impossível e têm 0% de chances de
ocorrência.
Espaço amostral
O espaço amostral, também chamado de universo, é um conjunto que possui
todos os pontos amostrais de um evento aleatório, por exemplo, quando se
referir ao experimento lançar uma moeda, ele será formado por cara e co-
roa. Além disso, como se trata de um conjunto, qualquer notação deste pode
representá-lo.
Probabilidade4
Assim, o espaço amostral, seus subconjuntos e as operações que o envol-
vem herdam as propriedades e operações dos conjuntos numéricos, por isso,
pode-se dizer que os possíveis resultados do lançamento de duas moedas são:
S = {(x, y) naturais | xde B ocorrer.
Em um algoritmo probabilístico, a mesma sequência de entrada não leva sempre
a um mesmo estado final de computação, porque as transições entre os estados
dependem do estado atual, do símbolo recebido e de uma escolha aleatória.
Simplificadamente, imagine que, além de ler um símbolo para decidir o próximo
passo de computação, a máquina ainda lance uma moeda para decidir se passa
ou não ao próximo estado.
Aplicação da probabilidade na inteligência
artificial
A inteligência artificial é um campo amplo há muitas décadas, que vem sendo
impulsionado rapidamente com a informática e a computação. Sua aplicação
nos sistemas especialistas procura escrever programas que copiem e repro-
duzam os modos como os seres humanos pensam, falam, compreendem e
aprendem, elaborando uma réplica da inteligência humana e aplicando-a nas
diversas áreas da empresa.
Esses sistemas especialistas aplicam a inteligência artificial nas empresas
e, segundo O´Brien (2004), situam-se na área da ciência cognitiva, a qual
utiliza disciplinas como biologia, neurologia, psicologia e matemática para
verificar como os seres humanos aprendem, criam e desenvolvem as aplicações
baseadas no conhecimento com acompanhamento de um especialista. Trata-se
de sistemas que agem e comportam-se como um ser humano, utilizados para
solucionar problemas em áreas específicas da empresa.
Probabilidade8
Os dois grandes paradigmas para o desenvolvimento de sistemas especia-
listas em inteligência artificial são o simbólico e o subsimbólico (conexionista).
No paradigma conexionista, utiliza-se técnicas de redes neurais para representar
e solucionar problemas em um domínio específico, sendo aplicável aos domí-
nios nos quais a forma de raciocínio do especialista não pode ser totalmente
explicitada. No simbólico, por sua vez, o conhecimento é disposto em uma
base de conhecimentos, em que as inferências são representadas por meio
de regras do tipo SE-ENTÃO. Geralmente, o raciocínio do sistema se baseia
em uma árvore de decisões, mas nesse caso, o conhecimento do especialista
deve ser adquirido e representado do modo mais aprofundado possível para
permitir que o sistema emule seu comportamento.
A rede bayesiana trabalha com relações causais quantificadas por valores
de probabilidade condicional e, segundo Murteira (1990), “a causalidade
é a vantagem de nossa existência e a desvantagem de nossa matemática.
Acreditamos em causalidade em nossas interações com a realidade, mas é
difícil capturá-la em nossos modelos”. Portanto, considerando que a causa
precede o efeito, é fundamental ter um processo unidirecional para modelar
a causalidade — se B causa A, então B ocorre antes de A. Já no contexto da
lógica clássica, a implicação não capta uma relação causal por problemas de
falta de direcionalidade, em que (B->A) é equivalente a (]B->]A), assim não
permite que a causalidade seja modelada.
As redes bayesianas são compostas de duas partes complementares: uma
qualitativa e outra quantitativa (GAAG, 1996). A parte qualitativa é um
modelo gráfico (grafo acíclico direcionado), em que as variáveis incluem
os nodos e as regras, relações de dependência entre elas, chamadas de arcos
direcionados. Assim, um arco ligando as variáveis A e B (na forma A->B)
indica que a variável B é a consequência e a variável A se trata da causa,
apresentando uma relação de dependência resumida na regra “se A então
B”. Porém, se não houver um arco ligando duas variáveis, assume-se que
elas são independentes.
Veja na Figura 3 um exemplo de rede bayesiana.
9Probabilidade
Fi
gu
ra
3
. E
xe
m
pl
o
de
u
m
a
re
de
b
ay
es
ia
na
.
Fo
nt
e:
D
an
ta
s (
20
08
).
Probabilidade10
Nos sistemas especialistas probabilísticos, os valores de probabilidade
refletem a crença do especialista sobre o que espera que ocorra em situações
similares às que têm experiência e aprendeu ao longo de sua vivência. Assim,
ele tenta extrapolar com base em experiência e aprendizado no domínio de
aplicação.
Conheça um instituto brasileiro de inteligência artificial, que usa probabilidade e
estatística, no link a seguir.
https://qrgo.page.link/QeSBj
Administrado pelo Centro de Estudos do Risco da Universidade Federal da Bahia
(CER-UFBA), o site Previsão Esportiva tem o objetivo de agregar pesquisadores, alunos
de graduação e pós-graduação interessados no desenvolvimento metodológico
estatístico para dados esportivos. As previsões divulgadas são obtidas a partir de um
modelo estatístico para os resultados dos jogos, que considera os fatores: mando de
campo, poder de ataque e poder de defesa de cada equipe do campeonato. Saiba
mais sobre esse assunto no link a seguir.
https://qrgo.page.link/T2hWE
BRITO, R. Probabilidade condicional: o que é, exemplos e exercícios! Stoodi, 22 jul.
2018. Disponível em: https://www.stoodi.com.br/blog/2018/07/11/probabilidade-
-condicional/. Acesso em: 14 maio 2019.
DANTAS, C. A. B. Probabilidade: um curso introdutório. 3. ed. São Paulo: EDUSP, 2008.
11Probabilidade
MURTEIRA, B. J. F. Probabilidades e estatística. 2. ed. Lisboa: McGraw-Hill, 1990. 2 v.
TABORDA, A. Mapa mental: probabilidade. Desconversa, 13 ago. 2015. Disponível em:
https://descomplica.com.br/blog/matematica/mapa-mental-probabilidade/. Acesso
em: 14 maio 2019.
Leituras recomendadas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2006.
MURTEIRA, B. J. et al. Introdução à estatística. 2. ed. Lisboa: McGraw Hill, 2002.
WALPOLE, R. E. et al. Probabilidade e estatística para engenharia e ciências. 8. ed. São
Paulo: Pearson Prentice Hall, 2014.
Probabilidade12
Dica do professor
Um dos grandes problemas em inteligência artificial é o tratamento dos dados incertos, isto é, como
tomar uma decisão sem ter as informações necessárias. A necessidade de tratar a incerteza em
sistemas levou à construção de sistemas inteligentes probabilísticos.
Nesta Dica do Professor, será apresentado um pouco do conceito de computação probabilistica e
sua ligação com a área de Inteligência Artificial.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/782158e7be4eaa7b97c94c01487e55cd
Exercícios
1) Um morador de uma região metropolitana tem 50% de probabilidade de atrasar-se para o
trabalho quando chove na região; caso não chova, sua probabilidade de atraso é de 25%.
Para um determinado dia, o serviço de meteorologia estima em 30% a probabilidade da
ocorrência de chuva nessa região.
Qual é a probabilidade desse morador se atrasar para o serviço no dia para o qual foi dada a
estimativa de chuva?
A) 0,075
B) 0,150
C) 0,325
D) 0,600
E) 0,800
2) Em Matemática, a definição de contagem é o ato de determinar um número n de elementos
de um conjunto (finito). Sebre esse conceito, é correto afirmar que:
A) Em todo conjunto com um número de elementos finitos, é possível aplicar a contagem, pois é
um conjunto possível de determinar sua quantidade.
B) A contagem não faz sentido para sistemas de I.A.
C) A contagem é um recurso da Matemática e não tem relação com I.A.
D) Não é possível usar a contagem para saber a população de um país.
E) A contagem pode ser aplicada para saber, por exemplo, a quantidade de planetas na galáxia.
3) Os eventos que possuem apenas um elemento (ponto amostral) são chamados de simples.
Quando o evento é igual ao espaço amostral, ele é chamado de evento certo e sua
probabilidade de ocorrência é de 100%.
Sobre eventos é correto afirmar:
A) Eventos simples são subconjuntos de um espaço amostral.
B) O evento é um subconjunto de um espaço amostral.
C) Não é possível ter um evento certo quando se tem somente um elemento no espaço
amostral.
D) Não é possível ter evento simples quando espaço amostral é maior que um elemento.
E) Não existe espaço amostral maior que um.
4) Há diversas formas possíveis para ilustrar a probabilidade condicional.Por exemplo: as
chances de um bebê nascer menina é um evento A. Agora, a probabilidade dessa criança
apresentar doença celíaca, que é intolerância ao glúten, é um evento B. Baseado nesse
exemplo, assinale a alternativa correta:
A) O exemplo não está relacionado com probabilidade condicional.
B) O exemplo está relacionado a um único espaço amostral.
C) O exemplo está relacionado à probabilidade condicional.
D) O exemplo não tem qualquer relação com probabilidade.
E) O exemplo não pode ser resolvido por meio de um sistema inteligente.
5) Nos sistemas especialistas probabilísticos, os valores de probabilidade refletem a crença do
especialista sobre o que ele espera que ocorra em situações similares àquelas que têm
experiência e que aprendeu ao longo de sua vivência. A utilização dos conceitos de
probabilidade está diretamente relacionada:
A) Apenas com os cálculos de fatores envolvidos com problemas matemáticos
B) Sistemas especialistas não se baseiam em crenças e por isso não têm relação alguma com
probabilidade.
C) Apesar de se chamarem sistemas especialistas probalísticos, não têm relação com
probabilidade e sim com aprendizado de máquina.
D) Sistemas especialistas utilizam a probabilidade para ter um grau de crença na ocorrência de
determinado evento.
E) Uso de probabilidade em sistemas especialistas está diretamente ligado a sua aplicação em
campos de pesquisa.
Na prática
A probabilidade faz parte do dia a dia dos indivíduos e está presente nas mais rotineiras tarefas
do cotidiano. Todos os dias as pessoas se deparam com situações que as obrigam a tomar decisões
sobre as quais não têm certeza, mas apenas indicações que as permitem decidir com alguma
probabilidade de acerto.
Veja, neste Na Prática, que você está rodeado de eventos probabilísticos.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/236936e0-d466-43a2-950f-d8dede23dfeb/531f7fe3-0ebd-44fb-820c-a27ce6be5259.jpg
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Dicas de PROBABILIDADE - Questão matemática Comentada
com Dica de RLM
Veja algumas dicas de probabilidade com questões comentadas que ajudarão a assimilar o tema.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.youtube.com/embed/6e0s6YvS1sw
Distribuições Contínuas de
Probabilidade
Apresentação
Em muitas situações envolvendo investigações estatísticas temos algum conhecimento sobre a
função de massa de probabilidade ou sobre a função densidade de probabilidade da população
estudada, o que nos permite realizar aproximações por meio de curvas ou funções, denominadas
distribuições de probabilidade.
As distribuições de probabilidade em estatística podem ser discretas ou contínuas, dependendo do
tipo de variável que está sendo estudado. Para variáveis discretas (valores resultantes de
contagem), utilizamos distribuições discretas, sendo a Binomial e a de Poisson as mais conhecidas.
Para variáveis contínuas (que resultam de medições), utilizamos distribuições contínuas, sendo a
Normal e a Student as mais conhecidas. Nesse tipo de distribuição, a função densidade de
probabilidade (FDP), que terá uma função matemática associada, precisará de uma integral para a
resolução do cálculo de probabilidade, por isso é muito comum o uso de tabelas para auxiliar no
cálculo das probabilidades.
Nesta Unidade de Aprendizagem, vamos identificar quando uma variável segue uma distribuição
contínua, conhecer as principais distribuições contínuas e como podemos encontrar a probabilidade
utilizando a distribuição normal.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Comparar as principais distribuições contínuas de probabilidade.•
Identificar as características das distribuições contínuas.•
Usar a tabela da distribuição normal para encontrar a probabilidade
desejada.
•
Desafio
Muitos experimentos envolvem a ideia de distribuição de probabilidade, ou seja, a população ou a
amostra estudada seguem um comportamento padrão que pode ser aproximado por uma função.
No caso das distribuições contínuas, temos a função densidade de probabilidade, que é diferente
para cada modelo de distribuição estudado. Dessa forma, é muito importante que na prática
conheçamos as condições que tornam um modelo de distribuição de probabilidade apropriado para
a situação que estamos investigando. Vamos ao desafio.
Você foi escolhido para ministrar uma aula de estatística e o assunto será as distribuições
contínuas de probabilidade. Na aula, você deverá citar, pelo menos, quatro distribuições contínuas
diferentes, indicando seus respectivos usos. A resposta será avaliada conforme o seguinte critério:
não serão aceitas cópias dos conceitos constantes nos livros indicados. É importante explicá-la de
forma clara.
Infográfico
As distribuições de probabilidade podem ser discretas ou contínuas, dependendo do tipo de
variável estudada. Quando temos valores resultantes de contagem, estamos lidando com variáveis
discretas e utilizamos distribuições discretas de probabilidade. Quando os valores são resultantes
de medição, temos variáveis aleatórias contínuas e utilizamos distribuições contínuas de
probabilidade.
Neste Infográfico, vamos comparar os dois tipos de distribuições, discretas e contínuas, e
reconhecer as diferenças entre os seus gráficos.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/2f177148-f1c5-4d4b-9d60-44706fe24ee4/7d60adb9-e8b6-4595-8f39-fe54b892bea2.jpg
Conteúdo do livro
Acompanhe o capítuloDistribuições Contínuas de Probabilidade do livro Estatística, que é a base
teórica para esta Unidade de Aprendizagem.
Boa leitura.
ESTATÍSTICA
Juliane Silveira Freire da Silva
Distribuições contínuas
de probabilidade
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Comparar as principais distribuições contínuas de probabilidade.
� Identificar as características das distribuições contínuas.
� Usar a tabela da distribuição normal para encontrar probabilidade
desejada.
Introdução
Neste capítulo, você identificará quando uma variável em estudo segue um
modelo de distribuição contínua de probabilidade, conhecerá as principais
distribuições contínuas de probabilidade e aprenderá a utilizar a mais
importante de todas as distribuições em estatística: a distribuição normal.
Distribuições contínuas de probabilidade
Existem distribuições discretas e contínuas de probabilidade. No primeiro caso,
temos variáveis aleatórias discretas, ou seja, valores resultantes de contagens.
Então, no caso das distribuições discretas de probabilidade, podemos calcular
probabilidade do valor da variável que se quer investigar. Temos funções
matemáticas que fornecem essas probabilidades.
Porém, nas distribuições contínuas de probabilidade, estamos lidando com
variáveis aleatórias contínuas, ou seja, que resultam de uma medição. Nesses
casos, não temos valores únicos em uma escala, mas, sim, em intervalos, pois,
na variável aleatória contínua, podemos ter qualquer valor na reta dos reais.
Dessa forma, a função densidade de probabilidade (FDP), que terá uma
função matemática associada, necessitará uma integral para a resolução do
cálculo de probabilidade. Nesse caso, estamos calculando intervalos abaixo
de uma curva, como mostrado na Figura 1.
Figura 1. Curva de distribuição contínua.
Fonte: Freund (2006, p. 215).
Conforme podemos observar na Figura 1, para obtermos a probabilidade,
no caso da distribuição contínua, não podemos obtê-la em um ponto único,
mas apenas em intervalos, como em um intervalo entre os pontos e quaisquer
abaixo de uma curva. Concluímos, então, que, na distribuição contínua de
probabilidade,não existe probabilidade no ponto.
Matematicamente, a resolução dessas probabilidades se dá com a integração
da função da distribuição em estudo. Isso nem sempre é simples, pois nem
todas as integrações de funções de probabilidade são de fácil resolução. Para
isso, funções comumente utilizadas contêm tabelas para auxiliar no cálculo
de probabilidade.
Esse é o caso da distribuição normal, a mais importante distribuição de
probabilidade em estatística. É do pressuposto de normalidade dos dados que
muitas inferências são possíveis.
Mas, independentemente de estarmos estudando distribuições discretas
ou distribuições contínuas de probabilidade, alguns axiomas continuam va-
lendo, como: 0 ≤ f(x) ≤ 1 e a área total abaixo da curva sempre somarão 1 na
distribuição acumulada.
Características das distribuições contínuas
Veremos, aqui, as características de algumas distribuições de probabilidade
contínuas além da distribuição normal. Mais adiante, trataremos da distri-
buição de Gauss (normal), à qual, por ser a mais importante, daremos um
maior destaque.
Distribuições contínuas de probabilidade98
Para o caso da distribuição de probabilidade exponencial, segundo Doane
e Seward (2014), no modelo exponencial, o foco está no tempo de espera até o
evento subsequente: uma variável contínua. A função densidade de probabi-
lidade exponencial aproxima-se de zero à medida que o valor de x aumenta.
Isso é útil para calcular tempo de vida de alguns componentes.
f(x) = λe–λx se x ≥ 0
0 se x