Prévia do material em texto
Data Science AV2 Conteúdo do exercício 1. Pergunta 1 0,5/0,5 Leia o trecho a seguir: “Criado originalmente em 2001 como parte de um curso de linguística computacional do Departamento de Ciência da Computação e Informação da Universidade da Pensilvânia, o NLTK é uma plataforma usada para construir programas Python que trabalham com dados de linguagem humana para aplicação em PLN.” Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. Teresina: Eripi, 2017. p. 13. O texto conta um pouco da história do NLTK. Com base no texto e no seu conhecimento, analise as afirmações a seguir: I. O comando count analisa quantas linhas o documento inteiro tem. II. O comando lower é vinculado a uma variável com count após contas minúsculas. III. O comando freq.Dist analisa a distância entre os tokens, vendo qual é mais próximo. IV. O comando nltk.word_tokenize gera tokens que serão analisados depois. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. III e IV. 2. II e III. 3. I e III. 4. Correta: II e IV. Resposta correta 5. I e IV. 2. Pergunta 2 0,5/0,5 Leia o trecho a seguir: “A abordagem básica do bag of words é relativamente simples e tem muitas recomendações. Ela não requer capacidade de análise sofisticada ou outra análise linguística.” Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 265. Percebe-se que não é complicado utilizar o bag of words no âmbito do data science. Com base no conteúdo e no seu conhecimento, analise as afirmações a seguir sobre nltk.stem.RSLPStemmer: I. O ideal é ser usada depois de remover as stopwords. II. Serve para remover o sufixo de palavras. III. Analisa frequências e repetições de palavras e dados. IV. Analisa sobretudo o tipo gramatical das palavras e dados. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. II e III. 2. III e IV. 3. Correta: I e II. Resposta correta 4. II e IV. 5. I e IV. 3. Pergunta 3 0,5/0,5 Leia o trecho a seguir: “Até o presente momento, trabalhamos com ideias para o pré-processamento de textos utilizando apenas conceitos e estruturas básicas de Python. Porém, em problemas práticos, é adequado utilizar bibliotecas que ofereçam recursos avançados de Processamento de Linguagem Natural.” Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. Teresina: Eripi, 2017. p. 13. Em Python, pode-se instalar uma biblioteca destinada à mineração de textos. Ordene os passos para instalar o NLTK: ( ) Clicar em “downloads”. ( ) Fazer o download da biblioteca NLTK. ( ) Escrever no notebook os comandos de NLTK. ( ) Digitar “PIP INSTALL NLTK”. ( ) Abrir o CMD. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. 2, 4, 3, 1, 5. 2. Correta: 4, 3, 5, 2, 1. Resposta correta 3. 3, 1, 2, 4, 5. 4. 1, 2, 4, 5, 3. 5. 5, 2, 4, 3, 1. 4. Pergunta 4 0,5/0,5 Leia o trecho a seguir: “Anualmente, a sociedade profissional dos melhores cientistas de dados, a ACM SIGKDD, realiza sua conferência anual (a Conferência Internacional de ACM SIGKDD sobre Descoberta de Conhecimento e Mineração de Dados).” Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 320. O trecho citado mostra a importância da ACM SIGKDD no mundo de data science. Com base no texto e nos seus conhecimentos, a SIGKDD: Ocultar opções de resposta 1. foi criada em 1980 e é uma empresa voltada para prestar consultorias. 2. audita casos de vazamentos em dados, bem como compartilhamentos para consultorias. 3. por ser tradicional, prefere trabalhos antigos em mineração de dados e em descoberta de conhecimento. 4. é destinada principalmente a montar treinamentos internacionais em descoberta de conhecimento em dados. 5. Correta: é uma associação internacional que faz uma conferência de competição em data science. Resposta correta 5. Pergunta 5 0,5/0,5 Leia o trecho a seguir: “O PLN geralmente usa conceitos linguísticos como classes de palavras (substantivo, verbo, adjetivo etc.), aqui chamadas de Part-of-Speech, além de estruturas gramaticais. O PLN também lida com situações mais complexas, como anáforas e ambiguidades.” Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. Teresina: Eripi, 2017. p. 2. O trecho explica brevemente a função geral do PLN. Analisando o texto e o conteúdo da aula, podemos afirmar que a função de nltk.chunk.ne_chunk serve para: Ocultar opções de resposta 1. determinar um valor mínimo para cada busca. 2. remover os sufixos de todas as palavras. 3. definir e exibir a quantidade de linhas. 4. Correta: selecionar o tipo gramatical das palavras. Resposta correta 5. remover os acentos de todas as palavras. 6. Pergunta 6 0,5/0,5 Leia o trecho a seguir: “As variáveis compostas homogêneas são capazes de armazenar somente um tipo de dado, por exemplo, só dados do tipo inteiro ou só dados do tipo real. Os vetores são variáveis compostas unidimensionais, ou seja, possuem uma única dimensão”. Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos e criando programas. São Paulo: Viena, 2015, p. 69. Considerando essas informações e o conteúdo estudado sobre matrizes, podemos afirmar que, ao criar uma matriz e digitar a variável mostrar_times.item(4): Ocultar opções de resposta 1. serão mostrados quatro itens. 2. serão mostradas cinco linhas. 3. serão mostrados valores iguais a 5. 4. Correta: será mostrado o quinto item. Resposta correta 5. será mostrada a quarta coluna. 7. Pergunta 7 0,5/0,5 Leia o trecho a seguir: “A amplitude de uma série de valores é determinada rápida e facilmente, oferecendo uma ideia grosseira do grau de dispersão. Conhecendo-se o valor da média e da amplitude, têm-se dados sobre o centro da distribuição e da dispersão em torno desse ponto.” Fonte: LOPEZ, A. M. C. F. A pesquisa e a estatística na psicologia e na educação. Rio de Janeiro: Scielo, 2010. p. 23. O trecho mostra a importância da amplitude para o ramo do data science. A partir dessas informações e do conteúdo estudado, pode-se afirmar que amplitude: Ocultar opções de resposta 1. é a quantidade de palavras contidas em um conjunto de textos e dados. 2. é a média de cada item multiplicada pela probabilidade de cada item. 3. é a proporção entre o aumento de dois itens. 4. é o nível de proximidade entre dois itens, analisando a distância. 5. Correta: é a distância entre o menor e o maior valor de um conjunto de dados. Resposta correta 8. Pergunta 8 0,5/0,5 Leia o trecho a seguir: “Cientistas de dados precisam ter profundas ligações uns com os outros na comunidade de data science. A razão é simplesmente que esse campo é imenso, e existem diversos temas para qualquer indivíduo dominar.” Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 322. O trecho ressalta a importância da relação entre membros da comunidade de data science. Com base nos seus conhecimentos, analise as afirmações a seguir: I. Cientistas de dados devem saber todas as linguagens de programação. II. Cientistas de dados devem se comunicar bem. III. Cientistas de dados devem consertar máquinas e hardwares, bem como ferramentas eletrônicas. IV. Cientistas de dados devem conhecer técnicas de liderança e gerenciamento. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. III e IV. 2. I e IV. 3. Correta: II e IV. Resposta correta 4. I e II. 5. II e III. 9. Pergunta 9 0,5/0,5 Leia o trecho a seguir: “Se a instância é positive e é classificada como positive, conta-se como true positive; se é classificada como negative, conta-se como false negative. Se a instância é negative e é classificada como tal, conta- se como true negative; se é classificada comopositive, conta-se como false positive. Portanto, tendo um classificador e um conjunto de instâncias, pode-se construir uma matriz de confusão de 2 por 2, no caso de 2 classes. Esta matriz serve como base para muitas métricas que podem ser aplicadas à classificação.” Fonte: CASTRO, Felipe. Analise Roc. Brasilia: INPE, 2006. p. 2. Considerando essas informações e o conteúdo estudado, é correto afirmar que estudar a relação entre matriz de confusão e curva roc pode fazer com que: Ocultar opções de resposta 1. os dados sejam substituídos por dados padronizados. 2. Correta: seja identificado um valor de corte ao analisar sensibilidade e especificidade. Resposta correta 3. seja criado um índice com validação cruzada na matriz. 4. seja gerada uma tabela dinâmica capaz de filtrar dados. 5. seja criada uma validação cruzada. 10. Pergunta 10 0,5/0,5 Leia o trecho abaixo: “A Lei da Probabilidade Total é particularmente útil quando um experimento tem duas etapas, e é possível expressar as probabilidades condicionais de determinado aspecto da etapa final dados os possíveis resultados da etapa inicial.” Fonte: OLLA, Leonardo. Introdução a probabilidade. Changai: NYU-Shanghai, 2019. p. 13. Considerando essas informações e o conteúdo estudado sobre desvio-padrão, analise as afirmativas abaixo. I. O desvio-padrão avalia o erro para mais ou para menos. II. O valor esperado coloca um valor como meta. III. Pode-se desempatar adicionando análises probabilísticas. IV. O vizinho mais próximo analisa o percentual estatístico. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. II e IV. 2. I e IV. 3. III e IV. 4. II e III. 5. Correta: I e III. Resposta correta