Prévia do material em texto
17/02/2026, 18:51 Lista de exercícios Processamento De Linguagem Natural e Reconhecimento De Voz Questões 1/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ Você acertou 9 de 10 questões Verifique seu desempenho e continue treinando! Você pode refazer exercício quantas vezes quiser. Verificar Desempenho 1 Marcar para revisão Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto? A TF-IDF KNN c K-Means D Gaussian Naive Bayes E LSTM Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! 2/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ Gabarito Comentado TF-IDF, que é a alternativa correta, é um cálculo estatístico que tem sido amplamente adotado em algoritmos de busca, como do Google, para determinar a relevância de um termo para um documento em um corpus. Ele faz isso ao analisar a frequência com que um termo aparece em um documento específico em comparação com sua frequência em todo corpus. Isso ajuda a identificar quais palavras são mais significativas para um texto específico, contribuindo para tarefas como a clusterização ou agrupamento de documentos semelhantes. Os outros algoritmos listados, como KNN, K-Means, Gaussian Naive Bayes e LSTM, têm diferentes aplicações e não são especificamente projetados para calcular a relevância de uma palavra em um corpus. 2 Marcar para revisão Quando fazemos processamento da linguagem natural, devemos descartar palavras que se repetem muito e que são tidas como auxiliares, adicionando pouca informação ao modelo. A esse conjunto de palavras damos nome de A Clearwords B Stopwords c Tokens D Sentenças E Verbos Resposta correta 3/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ Gabarito Comentado As palavras que são frequentemente descartadas durante o processamento da linguagem natural são chamadas de 'Stopwords'. Essas palavras são geralmente as mais comuns em uma língua (como 'é', 'o', 'a', 'em', etc.) e não contribuem significativamente para significado de uma frase, sendo, portanto, consideradas 'ruído' no processo de análise. Por isso, são removidas para melhorar a eficiência do processamento e a precisão dos resultados. A alternativa correta é a letra 'Stopwords'. 3 Marcar para revisão Quando estamos lidando com PLN é preciso transformar dado textual em algo compreensível às máquinas para que elas possam operar sobre aquele conjunto. Qual destas é uma opção de transformação para este cenário? A Regressão B Vetorização Classificação D Pivot Table E Redução de Dimensionalidade X Resposta incorreta A alternativa correta é a letra Confira gabarito comentado! Gabarito Comentado 4/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ as maquinas possam entender e operar. ISSO e teito transformando cada token (que pode ser uma palavra ou uma sentença) em um vetor ou tensor. Isso pode ser realizado por meio de técnicas como TF-IDF, Word2Vec ou Doc2vec. As outras opções apresentadas na questão, como regressão, classificação, Pivot Table e redução de dimensionalidade, são técnicas ou tipos de aprendizado de máquina, mas não são métodos diretos para transformar dados textuais em um formato compreensível para as máquinas. 4 Marcar para revisão Quando estamos falando de análise de sentimentos queremos mapear sentimento que uma mensagem passa, de positividade, neutralidade ou negatividade. Normalmente fazemos isso pela agregação de polaridades de palavras. Este tipo de tarefa pertence a que família de problemas de aprendizado de máquina supervisionado? A Regressão B Classificação c Agregação D Mineração de Regras de Associação E Mineração de Processos Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! 5/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ Mineração de Regras de Associação são métodos válidos de aprendizado supervisionado. A Regressão é utilizada para prever um valor numérico, enquanto a Mineração de Regras de Associação retorna um conjunto de combinações possíveis mais comuns. No entanto, a análise de sentimentos se enquadra na categoria de Classificação. Isso porque, apesar de operacionalizar valores de polarização, objetivo final é atribuir um rótulo ou uma classe de sentimento a um registro. Portanto, a alternativa correta é a Classificação, que se refere à rotulação de um registro. 5 Marcar para revisão Ao inspecionarmos as classes gramaticais de um conjunto de palavras, estamos passando para nosso algoritmo a noção de estrutura, de regras e composição linguística. Tal técnica pertence à área de análise sintática, permitindo a extração de A POS-Tags Tokens c Segmentos D Lemas E SOP-Tags Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! https://estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ 6/1217/02/2026, 18:51 UI um processo supervisionada ou semi-supervisionada de tokens em um texto. Nesse processo, cada palavra ou "átomo" do documento é associada a um rótulo de classe gramatical. Por exemplo, na frase "O rato roeu a roupa", cada palavra seria rotulada da seguinte forma: [artigo definido, substantivo comum, verbo, artigo definido, substantivo comum]. Portanto, ao inspecionar as classes gramaticais de um conjunto de palavras, estamos essencialmente realizando a extração de POS-Tags. 6 Marcar para revisão Quando nos referimos à classificação de textos, pensamos no NLTK para fazer a parte de NLP, mas, que biblioteca podemos usar para facilitar nossa tarefa de classificação de textos? A NUMPY B POLARS c PANDAS D SKLEARN E DATETIME Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! Gabarito Comentado 7/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ análise de dados. Ela permite a implementação de diversos algoritmos de classificação, incluindo árvores de decisão, tornando processo de classificação de textos mais eficiente e menos complexo. 7 Marcar para revisão Spam são conteúdos enviados pelo remetente sem consentimento do destinatário. Dentre as opções abaixo, qual melhor algoritmo de detecção de e-mails de spams? A GNB KMeans c DBScan D Regressor de Vetores de Suporte E PCA Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! Gabarito Comentado algoritmo GNB, também conhecido como Naive Bayes, é o único classificador entre as opções apresentadas. Ele foi o primeiro a ser utilizado na detecção de spams e ainda é o mais usado atualmente. Isso se deve à sua simplicidade, que proporciona resultados satisfatórios e consome menos recursos computacionais em comparação com outros 8/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ 8 Marcar para revisão Um conjunto de treinamento de PLN é relativamente incomum quando olhamos para a gama de projetos de IA, uma vez que estamos falando de textos, ou comentários, ou qualquer dado em forma textual. nome do conjunto de documentos passados ao processo de mineração de texto, se chama A Radical Lema c Símbolo D Token E Corpus Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! Gabarito Comentado Na área de Processamento de Linguagem Natural (PLN), termo "corpus" é usado para se referir a um conjunto de textos. Esses textos podem ser de qualquer tipo: livros, artigos, comentários, entre outros. O corpus é uma ferramenta essencial para a mineração de texto, pois fornece material necessário para a análise e o treinamento de modelos de IA. Portanto, cada texto individual dentro do corpus pode ser dividido em sentenças, palavras e, finalmente, caracteres para uma análise mais detalhada. 9/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ 9 Marcar para revisão Dado que estamos falando de linguagem, estamos falando também de cultura, de expressões idiomáticas e regionalismos. Sendo assim, cada modelo de NLP terá cobertura de acerto para a linguagem dos conjuntos sobre os quais aprendeu. Nesse caso, que devemos variar ou unir (por concatenação de conjunto de dados)? A Sentenças Tokens Corpus D Vocabulário E Dicionário Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! Gabarito Comentado A alternativa correta é 'Corpus'. Isso porque, em processamento de linguagem natural (NLP), o corpus é um conjunto de textos escritos ou falados que servem como base para aprendizado do modelo. Quanto mais variado for esse conjunto, mais o modelo estará apto a compreender diferentes contextos, expressões idiomáticas e regionalismos. Portanto, ao unir diferentes corpus, estamos ampliando a capacidade do modelo de compreender e processar diversas linguagens e suas nuances. 10/1217/02/2026, 18:51 IU para Quando nós temos um conjunto de textos aos quais queremos associar rótulos baseados em outros textos já rotulados em categorias específicas, temos um problema de aprendizado de máquina chamado de: A Agrupamento Semi-Supervisionado c Regressão D Classificação E Rotação Resposta correta Parabéns, você selecionou a alternativa correta. Confira gabarito comentado! Gabarito Comentado Temos aqui um problema de classificação, uma vez que precisamos aprender uma associação entre as features do conjunto e a rotulação já existente para podermos categorizar novos documentos 11/1217/02/2026, 18:51 estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ https://estacio.saladeavaliacoes.com.br/exercicio/6994daf15dc6e19bb9bb3b62/gabarito/ 12/12