Prévia do material em texto
Verifique o seu desempenho e continue treinando! Você pode refazer o exercício quantas vezes quiser. A B C D 1 Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Embaralhamento Combinação Agrupamento Redução Questão de 10 Corretas Incorretas Em branco 1 2 3 4 5 6 7 8 9 10 Hadoop e… Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 1 of 14 08/06/2025, 22:43 E Gravação da saída Opa! A alternativa correta é a letra A. Confira o gabarito comentado! O processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", é o componente do Hadoop responsável pela geração de pares intermediários de valor e chave. Esses pares são transferidos para a fase de redução. Este processo ocorre em paralelo com outras tarefas da fase de mapeamento, otimizando o uso dos recursos e aumentando a eficiência do processamento de dados. Portanto, a alternativa correta é a "A� Embaralhamento". 2 Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 2 of 14 08/06/2025, 22:43 A B C D E Organizações que lidam com grandes volumes de dados, como redes sociais e plataformas de streaming, frequentemente adotam soluções específicas para garantir desempenho, escalabilidade e tolerância a falhas. Uma dessas soluções é o Hadoop, cuja arquitetura é composta por diversos componentes que trabalham em conjunto. Considerando a função desses componentes, qual deles é ? YARN, por ser o componente responsável pelo agendamento e gerenciamento de tarefas distribuídas NameNode, por conter os metadados que descrevem a localização dos arquivos armazenados MapReduce, por possibilitar a divisão das tarefas em pares chave-valor para processamento paralelo DataNode, por ser o responsável direto pelo armazenamento físico dos dados no cluster Hadoop Common, por fornecer bibliotecas e scripts necessários à execução dos demais componentes Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 3 of 14 08/06/2025, 22:43 A B C Opa! A alternativa correta é a letra D. Confira o gabarito comentado! O DataNode é o componente da arquitetura Hadoop responsável por armazenar os dados reais em cada nó do cluster. Ele atua como "escravo" na estrutura mestre- escravo, sendo coordenado pelo NameNode, que apenas gerencia metadados. Enquanto outros componentes como YARN e MapReduce se concentram em processamento e gerenciamento, o DataNode se encarrega do armazenamento em si. 3 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. Apenas estruturado Estruturado e semiestruturado Estruturado, não estruturado e semiestruturado Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 4 of 14 08/06/2025, 22:43 D E Apenas não estruturado Apenas tabelas relacionais Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O Data Lake é uma solução de armazenamento de dados que permite a inclusão de diferentes formatos de dados, sejam eles estruturados, semiestruturados ou não estruturados. Essa característica de variedade dos dados é uma das principais vantagens do Data Lake, especialmente em aplicações de Big Data, onde a diversidade de formatos de dados é uma constante. Portanto, a alternativa correta é a C, que afirma que o Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados. 4 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 5 of 14 08/06/2025, 22:43 A B C D E YARN NameNode Bloco de dados Replicação DataNode Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O componente lógico que mantém os dados do usuário na forma de blocos de dados no HDFS é o DataNode. Ele é uma parte essencial da arquitetura do HDFS, pois é responsável pelo armazenamento dos dados. Cada arquivo no HDFS é dividido em blocos de dados, que são armazenados em DataNodes. Portanto, a alternativa correta é a E, que menciona o DataNode. 5 Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 6 of 14 08/06/2025, 22:43 A B C D E A arquitetura do Hadoop é projetada para garantir alto desempenho na manipulação de grandes volumes de dados distribuídos. Um de seus principais diferenciais é a capacidade de dividir tarefas entre diversos nós do cluster. Qual componente da arquitetura Hadoop é responsável por ? NameNode NodeManager DataNode TaskTracker Mapper Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O NodeManager atua como o agente em cada máquina (nó) do cluster, sendo responsável por monitorar os recursos locais e repassar essas informações ao ResourceManager, parte integrante do Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 7 of 14 08/06/2025, 22:43 A B C D E YARN. Ele assegura que os containers sejam gerenciados com base na capacidade da máquina, otimizando a alocação de tarefas. 6 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de governança Nível de Metadados Nível de admissão Nível de gerenciamento Nível de consumo Opa! A alternativa correta é a letra E. Confira o gabarito comentado! O Data Lake é estruturado em três níveis principais: admissão, gerenciamento e consumo. O nível de admissão é Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 8 of 14 08/06/2025, 22:43 A B responsável pelos serviços de aquisição de dados. O nível de gerenciamento cuida da identificação e localização dos dados. Por fim, o nível de consumo é o que fornece dados para serem utilizados por aplicações que auxiliam na tomada de decisões de negócios. Portanto, a alternativa correta é o "Nível de consumo", pois é este nível que disponibiliza os dados para análise de negócios. 7 Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição? Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas Classificação – organiza os dados em ordem alfabética antes da gravação final Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 9 of 14 08/06/2025, 22:43 C D E Embaralhamento – redistribui os dados intermediários para os redutores corretos Particionamento – divide os dados em grupos com base em similaridade semântica Agendamento – determina quais tarefas devem ser executadas com prioridade Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O embaralhamento (ou shuffle) é o processo em que os pares chave-valor intermediários, gerados pelos mapeadores, são redistribuídos entre os redutores conforme a chave. Essa etapa garante que todos os valores de uma mesma chave sejam processados juntos, permitindo uma redução eficaz e consistente dos dados. 8 O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 10 of 14 08/06/2025, 22:43 A B C D E apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Processos de extração, transformação e carregamento dos dados. Mecanismo para melhorar o processamento dos dados. Aplicar políticas de segurança. Gerenciamento do armazenamento de dados. Tratar dados não-estruturados. Opa! Aalternativa correta é a letra C. Confira o gabarito comentado! O desafio de aplicar políticas de segurança no Hadoop é significativo, pois envolve a configuração de um sistema que lida com problemas complexos de Big Data. A segurança da informação é um aspecto crítico em qualquer sistema de dados, e no caso do Hadoop, isso se torna ainda mais desafiador devido à sua natureza de lidar com grandes volumes de dados, muitas vezes não estruturados. Portanto, o profissional responsável por essa etapa Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 11 of 14 08/06/2025, 22:43 A B C D E precisa ter um alto nível de conhecimento e habilidade para garantir a segurança adequada dos dados. 9 O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. Python Java Lua JavaScript Perl Opa! A alternativa correta é a letra B. Confira o gabarito comentado! O Hadoop foi originalmente desenvolvido Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 12 of 14 08/06/2025, 22:43 A B C D E utilizando a linguagem de programação Java, pela Apache Foundation. Com o passar do tempo, diferentes versões do framework foram implementadas em várias linguagens, incluindo Python. No entanto, a linguagem de programação principal e mais utilizada para o desenvolvimento e implementação do Hadoop continua sendo Java, tornando a alternativa B a resposta correta para esta questão. 10 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake. Possui alta latência para acesso dos dados. Aplica processos de tratamento nos dados. Armazena os dados de modo eficiente. Demanda por equipamentos especiais. São exclusivos da distribuição Hadoop Apache. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 13 of 14 08/06/2025, 22:43 Parabéns, você selecionou a alternativa correta. Confira o gabarito comentado! O conceito de Data Lake se refere a um sistema de armazenamento que é capaz de guardar uma grande quantidade de dados brutos, em seu formato original. A alternativa correta é a letra C, que afirma que o Data Lake armazena os dados de modo eficiente. Isso ocorre porque o Data Lake é projetado para armazenar grandes volumes de dados de maneira eficaz, permitindo que os usuários acessem e analisem esses dados rapidamente. Além disso, é importante ressaltar que o Data Lake não demanda por equipamentos especiais e não é de uso exclusivo da distribuição Hadoop Apache, contrariando as afirmações das alternativas D e E, respectivamente. Firefox https://estacio.saladeavaliacoes.com.br/exercicio/683f94f9ba09c64b17... 14 of 14 08/06/2025, 22:43