Prévia do material em texto
1)
A ciência de dados é uma área interdisciplinar que combina várias disciplinas para extrair insights e tomar decisões informadas a partir de grandes volumes de dados. Python emergiu como a linguagem de programação preferida para essa área devido à sua simplicidade e vasta gama de bibliotecas específicas. No entanto, para começar a programar em Python, é necessário configurar o ambiente de desenvolvimento, o que pode variar dependendo do sistema operacional utilizado.
Com base no texto, qual das seguintes bibliotecas Python é especificamente mencionada como uma ferramenta para visualização de dados?
Alternativas:
· Seaborn
checkCORRETO
· TensorFlow
· Pandas.
· Scikit-learn.
· PyTorch.
Resolução comentada:
Para responder a esta questão, é necessário identificar no texto-base quais bibliotecas Python são mencionadas e suas respectivas funcionalidades. O texto destaca várias bibliotecas, incluindo NumPy, Pandas, Matplotlib, Seaborn e Scikit-learn, cada uma com suas próprias especialidades.
NumPy é utilizado principalmente para manipulação de arrays e operações matemáticas.
Pandas é uma biblioteca poderosa para manipulação e análise de dados.
Matplotlib e Seaborn são mencionadas como ferramentas para visualização de dados.
Scikit-learn é usada para modelagem de dados e aprendizado de máquina.
TensorFlow e PyTorch são frameworks para construção de modelos avançados de aprendizado de máquina e inteligência artificial.
Dentre essas bibliotecas, Seaborn é especificamente mencionada no texto como uma ferramenta para visualização de dados. Portanto, a alternativa correta é a que identifica Seaborn como a biblioteca para visualização de dados.
Código da questão: 84472
2)
Filtragem, agregação e operações de união são processos essenciais em PySpark para manipulação e análise de grandes conjuntos de dados. A filtragem permite selecionar linhas específicas com base em condições definidas, enquanto a agregação realiza operações estatísticas ou matemáticas para resumir informações. As operações de união combinam dois ou mais DataFrames ou RDDs com o mesmo esquema, concatenando suas linhas.
Associe corretamente os itens da Lista I com os itens da Lista II:
Lista I
I. Filtragem
II. Agregação
III. União
Lista II
A. df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
B. df.filter(df.age > 30)
C. df1.union(df2)
Alternativas:
· I-A, II-B, III-C.
· I-C, II-A, III-B.
· I-A, II-C, III-B.
· I-B, II-A, III-C.
checkCORRETO
· I-B, II-C, III-A.
Resolução comentada:
Para responder a esta questão, é necessário identificar as operações descritas no texto-base e associá-las corretamente.
Filtragem: O texto-base descreve a filtragem como o processo de selecionar linhas específicas de um DataFrame ou RDD com base em condições definidas. O exemplo fornecido é:
df.filter(df.age > 30)
Portanto, a associação correta é I-B.
Agregação: O texto-base descreve a agregação como o processo de realizar operações estatísticas ou matemáticas em um conjunto de dados para resumir ou combinar informações. O exemplo fornecido é:
df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
Portanto, a associação correta é II-A.
União: O texto-base descreve a união como o processo de combinar dois ou mais DataFrames ou RDDs com o mesmo esquema, concatenando suas linhas. O exemplo fornecido é:
df1.union(df2)
Portanto, a associação correta é III-C.
Portanto, a associação correta entre as listas é:
I. Filtragem – B. df.filter(df.age > 30)
II. Agregação – A. df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
III. União – C. df1.union(df2)
Código da questão: 84486
3)
O Apache Spark é uma plataforma de computação em cluster amplamente utilizada para processar grandes volumes de dados de forma eficiente. Uma de suas extensões, o Spark Streaming, permite o processamento de fluxos de dados em tempo real, o que é crucial para aplicações que exigem respostas rápidas a eventos contínuos. Entre suas características, destacam-se a escalabilidade, a tolerância a falhas e a integração com outras bibliotecas do Spark. De acordo com o texto-base, identifique qual das alternativas a seguir descreve corretamente uma característica ou componente do Spark Streaming.
Alternativas:
· Spark Streaming não se integra com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX.
· Spark Streaming não suporta operações de janelas, o que limita a capacidade de realizar cálculos em intervalos de tempo específicos.
· Spark Streaming processa dados em grandes intervalos de tempo, conhecidos como macro-batches, para permitir a análise contínua.
· Receivers são componentes que enviam dados de fontes externas para o armazenamento em disco do Spark para processamento.
· A principal abstração de Spark Streaming é o DStream, que representa um fluxo contínuo de dados dividido em pequenos batches discretos.
checkCORRETO
Resolução comentada:
No texto-base, é mencionado que a principal abstração de Spark Streaming é o DStream, que representa um fluxo contínuo de dados dividido em pequenos batches discretos. Essa característica é fundamental para o processamento em tempo real, pois permite que os dados sejam analisados em pequenos intervalos de tempo, conhecidos como micro-batches. Isso proporciona insights imediatos e a capacidade de responder rapidamente a eventos. Além disso, o DStream permite a aplicação de operações semelhantes às aplicadas a RDDs, facilitando a manipulação e transformação dos dados de streaming.
As outras alternativas estão incorretas por vários motivos:
A alternativa Spark Streaming processa dados em grandes intervalos de tempo, conhecidos como macro-batches, para permitir a análise contínua está errada porque Spark Streaming processa dados em pequenos intervalos de tempo chamados micro-batches, e não macro-batches.
A alternativa Spark Streaming não suporta operações de janelas, o que limita a capacidade de realizar cálculos em intervalos de tempo específicos está incorreta porque Spark Streaming suporta operações de janelas, permitindo cálculos em intervalos de tempo específicos.
A alternativa Receivers são componentes que enviam dados de fontes externas para o armazenamento em disco do Spark para processamento está errada porque os receivers armazenam dados na memória do Spark para processamento, e não em disco.
A alternativa Spark Streaming não se integra com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX está incorreta porque Spark Streaming se integra perfeitamente com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX, permitindo análises combinadas em uma única aplicação.
Código da questão: 84488
4)
Na sociedade digital atual, a capacidade de analisar e compreender grandes quantidades de dados é essencial para a tomada de decisões bem fundamentadas. Ferramentas de visualização de dados desempenham um papel vital nesse processo, transformando informações complexas em representações visuais intuitivas e interativas. Essas ferramentas facilitam a identificação de padrões, tendências e discrepâncias, além de promover a colaboração entre equipes. De acordo com o texto-base, analise as afirmativas a seguir sobre as ferramentas de visualização de dados e assinale a alternativa que contém a sequência correta de verdadeiro (V) ou falso (F).
( ) Ferramentas modernas de visualização de dados são projetadas para serem intuitivas e fáceis de usar, permitindo a criação de visualizações significativas sem necessidade de codificação extensa.
( ) A interatividade não é um componente chave das ferramentas de visualização de dados, pois os usuários não podem explorar os dados em tempo real.
( ) Ferramentas de visualização de dados frequentemente incluem recursos de colaboração e compartilhamento, permitindo que equipes trabalhem juntas em dashboards e relatórios.
( ) Tableau é uma ferramenta de visualização de dados que oferece uma interface intuitiva de arrastar e soltar, mas não suporta uma ampla gama de fontes de dados.
Alternativas:
· V, F, F, V.
· V, V, F, F.
· V, F, V, F.
checkCORRETO
· F, V, F, V.
· F, F, V, V.
Resolução comentada:
Vamos analisar cada afirmativa paraentender por que essa sequência é a correta:
Verdadeiro: Ferramentas modernas de visualização de dados são projetadas para serem intuitivas e fáceis de usar, permitindo que usuários com diferentes níveis de habilidade técnica criem visualizações significativas sem necessidade de codificação extensa. Isso está claramente mencionado no texto-base.
Falso: A interatividade é, de fato, um componente chave das ferramentas de visualização de dados. Elas permitem que os usuários explorem os dados em tempo real, façam zoom em detalhes específicos e realizem análises ad-hoc com uma interface visual atraente. Portanto, a afirmativa é falsa.
Verdadeiro: Ferramentas de visualização de dados frequentemente incluem recursos de colaboração e compartilhamento, permitindo que equipes trabalhem juntas em dashboards e relatórios, compartilhem insights com facilidade e mantenham todos os stakeholders informados. Isso é mencionado no texto-base.
Falso: Tableau é uma ferramenta de visualização de dados que oferece uma interface intuitiva de arrastar e soltar e suporta uma ampla gama de fontes de dados, incluindo bases de dados, planilhas e serviços na nuvem. Portanto, a afirmativa é falsa.
Código da questão: 84490
5)
O Apache Spark é composto por vários componentes principais que fornecem diferentes funcionalidades, como Spark Core, Spark SQL, MLlib, Spark Streaming e GraphX. Cada um desses componentes desempenha um papel específico no processamento de dados em larga escala. Além disso, os RDDs (Resilient Distributed Datasets) são a principal abstração de dados do Spark, representando uma coleção distribuída e imutável de objetos que podem ser processados em paralelo.
De acordo com o texto-base, analise as afirmativas a seguir e assinale a alternativa que contém a sequência correta de verdadeiro (V) ou falso (F):
( ) Spark Core fornece funcionalidades básicas de processamento de dados, como operações em RDDs e gerenciamento de memória.
( ) Spark SQL é um módulo para processamento de dados em tempo real, permitindo a construção de pipelines de dados.
( ) MLlib é uma biblioteca de aprendizado de máquina que fornece algoritmos comuns como classificação, regressão e clustering.
( ) Os RDDs são imutáveis e podem ser particionados automaticamente pelo Spark para permitir processamento paralelo.
Alternativas:
· V, F, V, V.
checkCORRETO
· V, V, F, F.
· V, F, F, V.
· F, V, V, F.
· F, F, V, V.
Resolução comentada:
Para responder a esta questão, é necessário verificar cada uma das afirmativas de acordo com texto-base.
Afirmativa 1: O texto-base menciona que Spark Core fornece funcionalidades básicas de processamento de dados, como operações em RDDs, gerenciamento de memória e execução de tarefas. Portanto, esta afirmativa é verdadeira.
Afirmativa 2: O texto-base descreve Spark SQL como um módulo para processamento estruturado de dados, permitindo consultas SQL em DataFrames e RDDs, e não para processamento de dados em tempo real. Portanto, esta afirmativa é falsa.
Afirmativa 3: MLlib é descrita como uma biblioteca de aprendizado de máquina escalável que fornece algoritmos comuns como classificação, regressão, clustering e filtragem colaborativa. Portanto, esta afirmativa é verdadeira.
Afirmativa 4: Os RDDs são descritos como imutáveis e automaticamente particionados pelo Spark, permitindo que as operações sejam distribuídas e processadas em paralelo nos nós do cluster. Portanto, esta afirmativa é verdadeira.
Código da questão: 84479
6)
PySpark é a ferramenta que conecta Python ao Apache Spark, oferecendo uma maneira poderosa de analisar dados e realizar machine learning em grande escala. Originado no AMPLab da Universidade da Califórnia, em Berkeley, e mantido pela Apache Software Foundation, o Spark se destaca por sua velocidade e capacidade de processamento em memória. Por meio do PySpark, desenvolvedores e cientistas de dados podem aproveitar toda a funcionalidade robusta do Spark usando a linguagem Python, incluindo manipulação de dados com DataFrames e Datasets, execução de consultas SQL e aplicação de algoritmos de machine learning com MLlib.
De acordo com o texto-base, qual das seguintes afirmações sobre PySpark é correta?
Alternativas:
· PySpark é mantido pela Universidade da Califórnia, em Berkeley, e não conta com suporte para operações distribuídas.
· PySpark é uma ferramenta que conecta Python ao Hadoop, proporcionando uma maneira de analisar dados em pequena escala.
· PySpark permite a manipulação de dados com DataFrames e Datasets, mas não suporta consultas SQL.
· PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores.
checkCORRETO
· PySpark é uma ferramenta que conecta Python ao Apache Hive, oferecendo funcionalidades limitadas de machine learning.
Resolução comentada:
Para responder a esta questão, é necessário identificar as funcionalidades e características do PySpark conforme descrito no texto-base.
PySpark é uma ferramenta que conecta Python ao Apache Spark: O texto-base menciona que PySpark conecta Python ao Apache Spark, e não ao Hadoop ou Apache Hive. Portanto, as alternativas PySpark é uma ferramenta que conecta Python ao Hadoop, proporcionando uma maneira de analisar dados em pequena escala e PySpark é uma ferramenta que conecta Python ao Apache Hive, oferecendo funcionalidades limitadas de machine learning são falsas.
Origem e manutenção: O texto-base indica que PySpark originou-se no AMPLab da Universidade da Califórnia, em Berkeley, e é mantido pela Apache Software Foundation. Portanto, a alternativa PySpark é mantido pela Universidade da Califórnia, em Berkeley, e não conta com suporte para operações distribuídas é falsa, pois afirma que não tem suporte para operações distribuídas, o que é incorreto.
Manipulação de dados e consultas SQL: O texto-base menciona que PySpark permite a manipulação de dados com DataFrames e Datasets, execução de consultas SQL e aplicação de algoritmos de machine learning com MLlib. Portanto, a alternativa PySpark permite a manipulação de dados com DataFrames e Datasets, mas não suporta consultas SQL é falsa, pois afirma que não suporta consultas SQL.
Suporte para operações distribuídas: O texto-base destaca que PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores para análise eficiente de grandes conjuntos de dados. Portanto, a alternativa PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores é verdadeira.
A alternativa correta é a que identifica que PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores.
Código da questão: 84482
7)
Os dashboards interativos são ferramentas essenciais para a análise de dados em tempo real, permitindo que os usuários explorem e interajam com as informações de maneira dinâmica. Ferramentas como Streamlit, Plotly Dash e Dash são amplamente utilizadas para criar esses dashboards devido à sua flexibilidade e capacidade de integração com diversas fontes de dados. Considere o caso do hospital SaúdePlus, que enfrenta desafios no monitoramento de ocupação, gestão de inventário de medicamentos e análise de feedback dos pacientes. Baseado no texto-base, analise as assertivas a seguir e assinale a alternativa que contém apenas as assertivas corretas.
I. Streamlit é uma biblioteca Python que facilita a criação de aplicativos web interativos para análise de dados, permitindo a execução de aplicações com o comando streamlit run nome_do_arquivo.py.
II. Plotly Dash permite a criação de aplicativos analíticos interativos com componentes HTML, CSS e JavaScript, e pode integrar callbacks para atualizar componentes do dashboard em tempo real.
III. O dashboard de ocupação do hospital SaúdePlus, que mostra em tempo real a ocupação dos leitos e o fluxo de pacientes, é construído usando Power BI.
IV. O dashboard de inventário de medicamentos do hospital SaúdePlus, que rastreia os níveis de estoquee previsões de demanda, é criado no Tableau.
V. O dashboard de satisfação do paciente, que consolida o feedback dos pacientes de várias fontes, é desenvolvido usando D3.js e integra ferramentas de análise de texto para identificar tendências.
Alternativas:
· II, III e IV são corretas.
· II, IV e V são corretas.
· I, III e V são corretas.
· I e II são corretas.
· I, II e V são corretas.
checkCORRETO
Resolução comentada:
Vamos analisar cada assertiva para entender por que essa combinação é a correta:
I. Verdadeira: Streamlit é uma biblioteca Python que facilita a criação de aplicativos web interativos para análise de dados. A execução de aplicações é feita com o comando streamlit run nome_do_arquivo.py, conforme descrito no texto-base.
II. Verdadeira: Plotly Dash permite a criação de aplicativos analíticos interativos com componentes HTML, CSS e JavaScript. Além disso, Dash permite a integração de callbacks para atualizar componentes do dashboard em tempo real, como mencionado no texto-base.
III. Falsa: O dashboard de ocupação do hospital SaúdePlus, que mostra em tempo real a ocupação dos leitos e o fluxo de pacientes, é construído usando Tableau, e não Power BI, conforme descrito no texto-base.
IV. Falsa: O dashboard de inventário de medicamentos do hospital SaúdePlus, que rastreia os níveis de estoque e previsões de demanda, é criado no Power BI, e não no Tableau, conforme descrito no texto-base.
V. Verdadeira: O dashboard de satisfação do paciente, que consolida o feedback dos pacientes de várias fontes, é desenvolvido usando D3.js. Este dashboard integra ferramentas de análise de texto para identificar tendências, conforme mencionado no texto-base.
Código da questão: 84492
8)
O Apache Spark é um framework de código aberto para processamento distribuído de dados em larga escala, projetado para ser rápido e de uso geral. Ele permite tanto processamento em batch quanto em tempo real, e sua arquitetura é composta por várias camadas que interagem para fornecer um ambiente robusto de processamento de dados. Entre essas camadas, temos o Driver, o Cluster Manager, os Executors e as Tasks, cada um desempenhando um papel específico na execução das operações.
Complete as lacunas com os termos corretos:
O _________ é a aplicação principal que cria o contexto Spark, define as operações no RDDs e DataFrames, e solicita a execução dessas operações. O _________ gerencia os recursos do cluster e aloca recursos para as aplicações Spark. Os _________ são processos que executam as tarefas atribuídas pelo Driver.
Alternativas:
· Executors; Cluster Manager; Driver.
· Driver; Cluster Manager; Executors.
checkCORRETO
· Executor; Driver; Cluster Manager.
· Driver; Executors; Cluster Manager.
· Cluster Manager; Executors; Driver.
Resolução comentada:
Resolução comentada: Para responder a esta questão, é necessário identificar as funções de cada componente da arquitetura do Apache Spark conforme descrito no texto-base.
Driver: O texto-base menciona que o Driver é a aplicação principal que cria o contexto Spark, define as operações no RDDs e DataFrames, e solicita a execução dessas operações. Portanto, a primeira lacuna deve ser preenchida com "Driver".
Cluster Manager: O texto-base descreve o Cluster Manager como o componente que gerencia os recursos do cluster e aloca recursos para as aplicações Spark. Portanto, a segunda lacuna deve ser preenchida com "Cluster Manager".
Executors: O texto-base indica que os Executors são processos que executam as tarefas atribuídas pelo Driver. Portanto, a terceira lacuna deve ser preenchida com "Executors".
Portanto, a sequência correta é: Driver, Cluster Manager, Executors.
Código da questão: 84478
9)
Para começar a programar em Python, é necessário configurar o ambiente de desenvolvimento, que pode variar dependendo do sistema operacional utilizado. No Windows, o instalador deve ser baixado do site oficial e a opção "Add Python to PATH" deve ser marcada. No macOS, recomenda-se instalar a versão mais recente do Python 3.x usando o Homebrew. Já no Linux, a maioria das distribuições vem com Python pré-instalado, mas pode ser necessário usar o gerenciador de pacotes para atualizar para a versão mais recente.
Complete as lacunas com as ferramentas ou comandos corretos para instalar Python em diferentes sistemas operacionais:
Para instalar Python no Windows, deve-se acessar o site oficial e marcar a opção _________. No macOS, recomenda-se usar o _________ para instalar a versão mais recente do Python 3.x. No Linux, em distribuições como Ubuntu, pode-se usar o comando ___________________.
Alternativas:
· "Add Python to PATH"; dnf; brew install python.
· "Add Python to PATH"; PyCharm; sudo apt-get install python3.
· "Add Python to PATH"; Homebrew ;sudo apt-get install python3.
checkCORRETO
· VS Code; Homebrew; sudo dnf install python3.
· Homebrew; "Add Python to PATH"; sudo dnf install python3.
Resolução comentada:
Para responder a esta questão, é necessário identificar no texto-base as ferramentas ou comandos corretos para instalar Python em diferentes sistemas operacionais.
Windows: O texto menciona que, ao instalar Python no Windows, é necessário baixar o instalador do site oficial e marcar a opção "Add Python to PATH". Isso garante que o Python seja adicionado ao PATH do sistema, facilitando seu uso no terminal.
macOS: Para instalar a versão mais recente do Python 3.x no macOS, o texto recomenda usar o Homebrew. O comando fornecido é brew install python, o que confirma que Homebrew é a ferramenta correta.
Linux (Ubuntu): para distribuições Linux como Ubuntu, o texto sugere usar o comando sudo apt-get install python3 para instalar ou atualizar para a versão mais recente do Python.
Portanto, a alternativa correta é a que identifica "Add Python to PATH" para Windows, Homebrew para macOS e sudo apt-get install python3 para Ubuntu.
Código da questão: 84473
10)
Python é amplamente utilizado na ciência de dados devido à sua rica biblioteca de pacotes e ferramentas que facilitam a análise de dados, visualização e aprendizado de máquina. Entre as bibliotecas mais populares estão NumPy e Pandas, cada uma com suas próprias funcionalidades e usos específicos. NumPy é fundamental para computação científica, oferecendo um poderoso objeto de array multidimensional e uma vasta gama de funções matemáticas. Pandas, por outro lado, é essencial para manipulação e análise de dados tabulares, fornecendo estruturas de dados de alto nível como Series e DataFrame.
Associe corretamente os itens da Lista I com os itens da Lista II:
Lista I
I. NumPy
II. Pandas
III. Dicionários
Lista II
A. Series e DataFrame
B. Pares chave-valor
C. Array multidimensional
Alternativas:
· I-B, II-A, III-C.
· I-A, II-B, III-C.
· I-C, II-B, III-A.
· I-A, II-C, III-B.
· I-C, II-A, III-B.
checkCORRETO
Resolução comentada:
Resolução comentada: Para responder a esta questão, é necessário entender as funcionalidades e características de NumPy, Pandas e Dicionários, conforme descrito no texto-base.
NumPy: É uma biblioteca fundamental para computação científica em Python, conhecida por seu poderoso objeto de array multidimensional chamado ndarray. Portanto, a associação correta é NumPy – Array multidimensional.
Pandas: É uma biblioteca essencial para manipulação e análise de dados tabulares, fornecendo estruturas de dados de alto nível como Series e DataFrame. Portanto, a associação correta é Pandas – Series e DataFrame.
Dicionários: São coleções desordenadas de pares chave-valor. Portanto, a associação correta é Dicionários – Pares chave-valor.
Portanto, a associação correta entre as listas é:
I. NumPy – C. Array multidimensional.
II. Pandas – A. Series e DataFrame.
III. Dicionários – B. Pares chave-valor.
Código da questão: 84475