Data Science AV2

Bases de Dados

breadcrumb-separator

UNAMA

Tecnologia da Informação

em 20/10/2023

Conteúdos escolhidos para você

BIOESTATÍSTICA

ESTÁCIO

Linguagem de Programação

Linguagem de Programação

AMPLI

ESTACIO SIMULADO 2022 2

ESTACIO SIMULADO 2022 2

Mineração de Dados AV1 1

Mineração de Dados AV1 1

UNAMA

Mineração de Dados AV1 2

Mineração de Dados AV1 2

UNAMA

Perguntas dessa disciplina

Pergunta 1 A Engenharia de Prompt transforma a interação com as IAs Generativas de um simples diálogo para uma colaboração cocriativa. Os prompts mais

ChatGPT Abra o aplicativo do ChatGPT Experimente a experiência completa do aplicativo Abrir Questão 2: Leia atentamente o texto a seguir. Nesse...

UNIP

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

Uniasselvi

Os materiais de referência para o Desafio Profissional (ambientação) podem ser textos, anexos, dados, vídeos, podcasts, imagens, filmes, entre outr...

UniCesumar

31:05 Progresso:5/5 60 minutos QUESTIONÁRIO 01 – ESTATÍSTICA APLICADA 1 O aprimoramento de técnicas ___________ para coleta e análise de informações p

ESTÁCIO

Material

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Libere esse material sem enrolação!

Craque Neto

Craque Neto

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

BIOESTATÍSTICA

ESTÁCIO

Linguagem de Programação

Linguagem de Programação

AMPLI

ESTACIO SIMULADO 2022 2

ESTACIO SIMULADO 2022 2

Mineração de Dados AV1 1

Mineração de Dados AV1 1

UNAMA

Mineração de Dados AV1 2

Mineração de Dados AV1 2

UNAMA

Perguntas dessa disciplina

Pergunta 1 A Engenharia de Prompt transforma a interação com as IAs Generativas de um simples diálogo para uma colaboração cocriativa. Os prompts mais

ChatGPT Abra o aplicativo do ChatGPT Experimente a experiência completa do aplicativo Abrir Questão 2: Leia atentamente o texto a seguir. Nesse...

UNIP

Voce toi contratado(a) como Desenvolvedor(a) Android Senior por uma startup de logistica que esta revolucionando o gerenciamento de armazéns. Seu p...

Uniasselvi

Os materiais de referência para o Desafio Profissional (ambientação) podem ser textos, anexos, dados, vídeos, podcasts, imagens, filmes, entre outr...

UniCesumar

31:05 Progresso:5/5 60 minutos QUESTIONÁRIO 01 – ESTATÍSTICA APLICADA 1 O aprimoramento de técnicas ___________ para coleta e análise de informações p

ESTÁCIO

Prévia do material em texto

Data Science AV2 
Conteúdo do exercício 
1. Pergunta 1 
0,5/0,5 
Leia o trecho a seguir: 
“Criado originalmente em 2001 como parte de um curso de linguística computacional do 
Departamento de Ciência da Computação e Informação da Universidade da Pensilvânia, o NLTK é uma 
plataforma usada para construir programas Python que trabalham com dados de linguagem humana 
para aplicação em PLN.” 
Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. 
Teresina: Eripi, 2017. p. 13. 
O texto conta um pouco da história do NLTK. Com base no texto e no seu conhecimento, analise as 
afirmações a seguir: 
I. O comando count analisa quantas linhas o documento inteiro tem. 
II. O comando lower é vinculado a uma variável com count após contas minúsculas. 
III. O comando freq.Dist analisa a distância entre os tokens, vendo qual é mais próximo. 
IV. O comando nltk.word_tokenize gera tokens que serão analisados depois. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. III e IV. 
2. II e III. 
3. I e III. 
4. Correta: 
II e IV. 
Resposta correta 
5. I e IV. 
2. Pergunta 2 
0,5/0,5 
Leia o trecho a seguir: 
“A abordagem básica do bag of words é relativamente simples e tem muitas recomendações. Ela não 
requer capacidade de análise sofisticada ou outra análise linguística.” 
Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 265. 
Percebe-se que não é complicado utilizar o bag of words no âmbito do data science. Com base no 
conteúdo e no seu conhecimento, analise as afirmações a seguir sobre nltk.stem.RSLPStemmer: 
I. O ideal é ser usada depois de remover as stopwords. 
II. Serve para remover o sufixo de palavras. 
III. Analisa frequências e repetições de palavras e dados. 
IV. Analisa sobretudo o tipo gramatical das palavras e dados. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. II e III. 
2. III e IV. 
3. Correta: 
I e II. 
Resposta correta 
4. II e IV. 
5. I e IV. 
3. Pergunta 3 
0,5/0,5 
Leia o trecho a seguir: 
“Até o presente momento, trabalhamos com ideias para o pré-processamento de textos utilizando 
apenas conceitos e estruturas básicas de Python. Porém, em problemas práticos, é adequado utilizar 
bibliotecas que ofereçam recursos avançados de Processamento de Linguagem Natural.” 
Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. 
Teresina: Eripi, 2017. p. 13. 
Em Python, pode-se instalar uma biblioteca destinada à mineração de textos. Ordene os passos para 
instalar o NLTK: 
( ) Clicar em “downloads”. 
( ) Fazer o download da biblioteca NLTK. 
( ) Escrever no notebook os comandos de NLTK. 
( ) Digitar “PIP INSTALL NLTK”. 
( ) Abrir o CMD. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 2, 4, 3, 1, 5. 
2. Correta: 
4, 3, 5, 2, 1. 
Resposta correta 
3. 3, 1, 2, 4, 5. 
4. 1, 2, 4, 5, 3. 
5. 5, 2, 4, 3, 1. 
4. Pergunta 4 
0,5/0,5 
Leia o trecho a seguir: 
“Anualmente, a sociedade profissional dos melhores cientistas de dados, a ACM SIGKDD, realiza sua 
conferência anual (a Conferência Internacional de ACM SIGKDD sobre Descoberta de Conhecimento e 
Mineração de Dados).” 
Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 320. 
O trecho citado mostra a importância da ACM SIGKDD no mundo de data science. Com base no texto e 
nos seus conhecimentos, a SIGKDD: 
Ocultar opções de resposta 
1. foi criada em 1980 e é uma empresa voltada para prestar consultorias. 
2. audita casos de vazamentos em dados, bem como compartilhamentos para consultorias. 
3. por ser tradicional, prefere trabalhos antigos em mineração de dados e em descoberta de 
conhecimento. 
4. é destinada principalmente a montar treinamentos internacionais em descoberta de 
conhecimento em dados. 
5. Correta: 
é uma associação internacional que faz uma conferência de competição em data science. 
Resposta correta 
5. Pergunta 5 
0,5/0,5 
Leia o trecho a seguir: 
“O PLN geralmente usa conceitos linguísticos como classes de palavras (substantivo, verbo, adjetivo 
etc.), aqui chamadas de Part-of-Speech, além de estruturas gramaticais. O PLN também lida com 
situações mais complexas, como anáforas e ambiguidades.” 
Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. 
Teresina: Eripi, 2017. p. 2. 
O trecho explica brevemente a função geral do PLN. Analisando o texto e o conteúdo da aula, podemos 
afirmar que a função de nltk.chunk.ne_chunk serve para: 
Ocultar opções de resposta 
1. determinar um valor mínimo para cada busca. 
2. remover os sufixos de todas as palavras. 
3. definir e exibir a quantidade de linhas. 
4. Correta: 
selecionar o tipo gramatical das palavras. 
Resposta correta 
5. remover os acentos de todas as palavras. 
6. Pergunta 6 
0,5/0,5 
Leia o trecho a seguir: 
“As variáveis compostas homogêneas são capazes de armazenar somente um tipo de dado, por 
exemplo, só dados do tipo inteiro ou só dados do tipo real. Os vetores são variáveis compostas 
unidimensionais, ou seja, possuem uma única dimensão”. 
Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos e 
criando programas. São Paulo: Viena, 2015, p. 69. 
Considerando essas informações e o conteúdo estudado sobre matrizes, podemos afirmar que, ao criar 
uma matriz e digitar a variável mostrar_times.item(4): 
Ocultar opções de resposta 
1. serão mostrados quatro itens. 
2. serão mostradas cinco linhas. 
3. serão mostrados valores iguais a 5. 
4. Correta: 
será mostrado o quinto item. 
Resposta correta 
5. será mostrada a quarta coluna. 
7. Pergunta 7 
0,5/0,5 
Leia o trecho a seguir: 
“A amplitude de uma série de valores é determinada rápida e facilmente, oferecendo uma ideia 
grosseira do grau de dispersão. Conhecendo-se o valor da média e da amplitude, têm-se dados sobre o 
centro da distribuição e da dispersão em torno desse ponto.” 
Fonte: LOPEZ, A. M. C. F. A pesquisa e a estatística na psicologia e na educação. Rio de Janeiro: Scielo, 
2010. p. 23. 
O trecho mostra a importância da amplitude para o ramo do data science. A partir dessas informações 
e do conteúdo estudado, pode-se afirmar que amplitude: 
Ocultar opções de resposta 
1. é a quantidade de palavras contidas em um conjunto de textos e dados. 
2. é a média de cada item multiplicada pela probabilidade de cada item. 
3. é a proporção entre o aumento de dois itens. 
4. é o nível de proximidade entre dois itens, analisando a distância. 
5. Correta: 
é a distância entre o menor e o maior valor de um conjunto de dados. 
Resposta correta 
8. Pergunta 8 
0,5/0,5 
Leia o trecho a seguir: 
“Cientistas de dados precisam ter profundas ligações uns com os outros na comunidade de data 
science. A razão é simplesmente que esse campo é imenso, e existem diversos temas para qualquer 
indivíduo dominar.” 
Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 322. 
O trecho ressalta a importância da relação entre membros da comunidade de data science. Com base 
nos seus conhecimentos, analise as afirmações a seguir: 
I. Cientistas de dados devem saber todas as linguagens de programação. 
II. Cientistas de dados devem se comunicar bem. 
III. Cientistas de dados devem consertar máquinas e hardwares, bem como ferramentas eletrônicas. 
IV. Cientistas de dados devem conhecer técnicas de liderança e gerenciamento. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. III e IV. 
2. I e IV. 
3. Correta: 
 II e IV. 
Resposta correta 
4. I e II. 
5. II e III. 
9. Pergunta 9 
0,5/0,5 
Leia o trecho a seguir: 
“Se a instância é positive e é classificada como positive, conta-se como true positive; se é classificada 
como negative, conta-se como false negative. Se a instância é negative e é classificada como tal, conta-
se como true negative; se é classificada comopositive, conta-se como false positive. Portanto, tendo 
um classificador e um conjunto de instâncias, pode-se construir uma matriz de confusão de 2 por 2, no 
caso de 2 classes. Esta matriz serve como base para muitas métricas que podem ser aplicadas à 
classificação.” 
Fonte: CASTRO, Felipe. Analise Roc. Brasilia: INPE, 2006. p. 2. 
 
Considerando essas informações e o conteúdo estudado, é correto afirmar que estudar a relação entre 
matriz de confusão e curva roc pode fazer com que: 
Ocultar opções de resposta 
1. os dados sejam substituídos por dados padronizados. 
2. Correta: 
seja identificado um valor de corte ao analisar sensibilidade e especificidade. 
Resposta correta 
3. seja criado um índice com validação cruzada na matriz. 
4. seja gerada uma tabela dinâmica capaz de filtrar dados. 
5. seja criada uma validação cruzada. 
10. Pergunta 10 
0,5/0,5 
Leia o trecho abaixo: 
“A Lei da Probabilidade Total é particularmente útil quando um experimento tem duas etapas, e é 
possível expressar as probabilidades condicionais de determinado aspecto da etapa final dados os 
possíveis resultados da etapa inicial.” 
Fonte: OLLA, Leonardo. Introdução a probabilidade. Changai: NYU-Shanghai, 2019. p. 13. 
Considerando essas informações e o conteúdo estudado sobre desvio-padrão, analise as afirmativas 
abaixo. 
I. O desvio-padrão avalia o erro para mais ou para menos. 
II. O valor esperado coloca um valor como meta. 
III. Pode-se desempatar adicionando análises probabilísticas. 
IV. O vizinho mais próximo analisa o percentual estatístico. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. II e IV. 
2. I e IV. 
3. III e IV. 
4. II e III. 
5. Correta: 
I e III. 
Resposta correta