Logo Passei Direto
Buscar

Linguagens de programação para ciência de dados (Python com Spark)

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

1)
A ciência de dados é uma área interdisciplinar que combina várias disciplinas para extrair insights e tomar decisões informadas a partir de grandes volumes de dados. Python emergiu como a linguagem de programação preferida para essa área devido à sua simplicidade e vasta gama de bibliotecas específicas. No entanto, para começar a programar em Python, é necessário configurar o ambiente de desenvolvimento, o que pode variar dependendo do sistema operacional utilizado.
Com base no texto, qual das seguintes bibliotecas Python é especificamente mencionada como uma ferramenta para visualização de dados?
Alternativas:
· Seaborn
checkCORRETO
· TensorFlow
· Pandas.
· Scikit-learn.
· PyTorch.
Resolução comentada:
Para responder a esta questão, é necessário identificar no texto-base quais bibliotecas Python são mencionadas e suas respectivas funcionalidades. O texto destaca várias bibliotecas, incluindo NumPy, Pandas, Matplotlib, Seaborn e Scikit-learn, cada uma com suas próprias especialidades.
NumPy é utilizado principalmente para manipulação de arrays e operações matemáticas.
Pandas é uma biblioteca poderosa para manipulação e análise de dados.
Matplotlib e Seaborn são mencionadas como ferramentas para visualização de dados.
Scikit-learn é usada para modelagem de dados e aprendizado de máquina.
TensorFlow e PyTorch são frameworks para construção de modelos avançados de aprendizado de máquina e inteligência artificial.
Dentre essas bibliotecas, Seaborn é especificamente mencionada no texto como uma ferramenta para visualização de dados. Portanto, a alternativa correta é a que identifica Seaborn como a biblioteca para visualização de dados.
Código da questão: 84472
2)
Filtragem, agregação e operações de união são processos essenciais em PySpark para manipulação e análise de grandes conjuntos de dados. A filtragem permite selecionar linhas específicas com base em condições definidas, enquanto a agregação realiza operações estatísticas ou matemáticas para resumir informações. As operações de união combinam dois ou mais DataFrames ou RDDs com o mesmo esquema, concatenando suas linhas.
Associe corretamente os itens da Lista I com os itens da Lista II:
Lista I
I. Filtragem
II. Agregação
III. União
Lista II
A. df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
B. df.filter(df.age > 30)
C. df1.union(df2)
Alternativas:
· I-A, II-B, III-C.
· I-C, II-A, III-B.
· I-A, II-C, III-B.
· I-B, II-A, III-C.
checkCORRETO
· I-B, II-C, III-A.
Resolução comentada:
Para responder a esta questão, é necessário identificar as operações descritas no texto-base e associá-las corretamente.
Filtragem: O texto-base descreve a filtragem como o processo de selecionar linhas específicas de um DataFrame ou RDD com base em condições definidas. O exemplo fornecido é:
df.filter(df.age > 30)
Portanto, a associação correta é I-B.
Agregação: O texto-base descreve a agregação como o processo de realizar operações estatísticas ou matemáticas em um conjunto de dados para resumir ou combinar informações. O exemplo fornecido é:
df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
Portanto, a associação correta é II-A.
União: O texto-base descreve a união como o processo de combinar dois ou mais DataFrames ou RDDs com o mesmo esquema, concatenando suas linhas. O exemplo fornecido é:
df1.union(df2)
Portanto, a associação correta é III-C.
Portanto, a associação correta entre as listas é:
I. Filtragem – B. df.filter(df.age > 30)
II. Agregação – A. df.groupBy(\"nome\").agg({\"idade\": \"mean\"})
III. União – C. df1.union(df2)
Código da questão: 84486
3)
O Apache Spark é uma plataforma de computação em cluster amplamente utilizada para processar grandes volumes de dados de forma eficiente. Uma de suas extensões, o Spark Streaming, permite o processamento de fluxos de dados em tempo real, o que é crucial para aplicações que exigem respostas rápidas a eventos contínuos. Entre suas características, destacam-se a escalabilidade, a tolerância a falhas e a integração com outras bibliotecas do Spark. De acordo com o texto-base, identifique qual das alternativas a seguir descreve corretamente uma característica ou componente do Spark Streaming.
Alternativas:
· Spark Streaming não se integra com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX.
· Spark Streaming não suporta operações de janelas, o que limita a capacidade de realizar cálculos em intervalos de tempo específicos.
· Spark Streaming processa dados em grandes intervalos de tempo, conhecidos como macro-batches, para permitir a análise contínua.
· Receivers são componentes que enviam dados de fontes externas para o armazenamento em disco do Spark para processamento.
· A principal abstração de Spark Streaming é o DStream, que representa um fluxo contínuo de dados dividido em pequenos batches discretos.
checkCORRETO
Resolução comentada:
No texto-base, é mencionado que a principal abstração de Spark Streaming é o DStream, que representa um fluxo contínuo de dados dividido em pequenos batches discretos. Essa característica é fundamental para o processamento em tempo real, pois permite que os dados sejam analisados em pequenos intervalos de tempo, conhecidos como micro-batches. Isso proporciona insights imediatos e a capacidade de responder rapidamente a eventos. Além disso, o DStream permite a aplicação de operações semelhantes às aplicadas a RDDs, facilitando a manipulação e transformação dos dados de streaming.
As outras alternativas estão incorretas por vários motivos:
A alternativa Spark Streaming processa dados em grandes intervalos de tempo, conhecidos como macro-batches, para permitir a análise contínua está errada porque Spark Streaming processa dados em pequenos intervalos de tempo chamados micro-batches, e não macro-batches.
A alternativa Spark Streaming não suporta operações de janelas, o que limita a capacidade de realizar cálculos em intervalos de tempo específicos está incorreta porque Spark Streaming suporta operações de janelas, permitindo cálculos em intervalos de tempo específicos.
A alternativa Receivers são componentes que enviam dados de fontes externas para o armazenamento em disco do Spark para processamento está errada porque os receivers armazenam dados na memória do Spark para processamento, e não em disco.
A alternativa Spark Streaming não se integra com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX está incorreta porque Spark Streaming se integra perfeitamente com outras bibliotecas do Spark, como Spark SQL, MLlib e GraphX, permitindo análises combinadas em uma única aplicação.
Código da questão: 84488
4)
Na sociedade digital atual, a capacidade de analisar e compreender grandes quantidades de dados é essencial para a tomada de decisões bem fundamentadas. Ferramentas de visualização de dados desempenham um papel vital nesse processo, transformando informações complexas em representações visuais intuitivas e interativas. Essas ferramentas facilitam a identificação de padrões, tendências e discrepâncias, além de promover a colaboração entre equipes. De acordo com o texto-base, analise as afirmativas a seguir sobre as ferramentas de visualização de dados e assinale a alternativa que contém a sequência correta de verdadeiro (V) ou falso (F).
( ) Ferramentas modernas de visualização de dados são projetadas para serem intuitivas e fáceis de usar, permitindo a criação de visualizações significativas sem necessidade de codificação extensa.
( ) A interatividade não é um componente chave das ferramentas de visualização de dados, pois os usuários não podem explorar os dados em tempo real.
( ) Ferramentas de visualização de dados frequentemente incluem recursos de colaboração e compartilhamento, permitindo que equipes trabalhem juntas em dashboards e relatórios.
( ) Tableau é uma ferramenta de visualização de dados que oferece uma interface intuitiva de arrastar e soltar, mas não suporta uma ampla gama de fontes de dados.
Alternativas:
· V, F, F, V.
· V, V, F, F.
· V, F, V, F.
checkCORRETO
· F, V, F, V.
· F, F, V, V.
Resolução comentada:
Vamos analisar cada afirmativa paraentender por que essa sequência é a correta:
Verdadeiro: Ferramentas modernas de visualização de dados são projetadas para serem intuitivas e fáceis de usar, permitindo que usuários com diferentes níveis de habilidade técnica criem visualizações significativas sem necessidade de codificação extensa. Isso está claramente mencionado no texto-base.
Falso: A interatividade é, de fato, um componente chave das ferramentas de visualização de dados. Elas permitem que os usuários explorem os dados em tempo real, façam zoom em detalhes específicos e realizem análises ad-hoc com uma interface visual atraente. Portanto, a afirmativa é falsa.
Verdadeiro: Ferramentas de visualização de dados frequentemente incluem recursos de colaboração e compartilhamento, permitindo que equipes trabalhem juntas em dashboards e relatórios, compartilhem insights com facilidade e mantenham todos os stakeholders informados. Isso é mencionado no texto-base.
Falso: Tableau é uma ferramenta de visualização de dados que oferece uma interface intuitiva de arrastar e soltar e suporta uma ampla gama de fontes de dados, incluindo bases de dados, planilhas e serviços na nuvem. Portanto, a afirmativa é falsa.
Código da questão: 84490
5)
O Apache Spark é composto por vários componentes principais que fornecem diferentes funcionalidades, como Spark Core, Spark SQL, MLlib, Spark Streaming e GraphX. Cada um desses componentes desempenha um papel específico no processamento de dados em larga escala. Além disso, os RDDs (Resilient Distributed Datasets) são a principal abstração de dados do Spark, representando uma coleção distribuída e imutável de objetos que podem ser processados em paralelo.
De acordo com o texto-base, analise as afirmativas a seguir e assinale a alternativa que contém a sequência correta de verdadeiro (V) ou falso (F):
( ) Spark Core fornece funcionalidades básicas de processamento de dados, como operações em RDDs e gerenciamento de memória.
( ) Spark SQL é um módulo para processamento de dados em tempo real, permitindo a construção de pipelines de dados.
( ) MLlib é uma biblioteca de aprendizado de máquina que fornece algoritmos comuns como classificação, regressão e clustering.
( ) Os RDDs são imutáveis e podem ser particionados automaticamente pelo Spark para permitir processamento paralelo.
Alternativas:
· V, F, V, V.
checkCORRETO
· V, V, F, F.
· V, F, F, V.
· F, V, V, F.
· F, F, V, V.
Resolução comentada:
Para responder a esta questão, é necessário verificar cada uma das afirmativas de acordo com texto-base.
Afirmativa 1: O texto-base menciona que Spark Core fornece funcionalidades básicas de processamento de dados, como operações em RDDs, gerenciamento de memória e execução de tarefas. Portanto, esta afirmativa é verdadeira.
Afirmativa 2: O texto-base descreve Spark SQL como um módulo para processamento estruturado de dados, permitindo consultas SQL em DataFrames e RDDs, e não para processamento de dados em tempo real. Portanto, esta afirmativa é falsa.
Afirmativa 3: MLlib é descrita como uma biblioteca de aprendizado de máquina escalável que fornece algoritmos comuns como classificação, regressão, clustering e filtragem colaborativa. Portanto, esta afirmativa é verdadeira.
Afirmativa 4: Os RDDs são descritos como imutáveis e automaticamente particionados pelo Spark, permitindo que as operações sejam distribuídas e processadas em paralelo nos nós do cluster. Portanto, esta afirmativa é verdadeira.
Código da questão: 84479
6)
PySpark é a ferramenta que conecta Python ao Apache Spark, oferecendo uma maneira poderosa de analisar dados e realizar machine learning em grande escala. Originado no AMPLab da Universidade da Califórnia, em Berkeley, e mantido pela Apache Software Foundation, o Spark se destaca por sua velocidade e capacidade de processamento em memória. Por meio do PySpark, desenvolvedores e cientistas de dados podem aproveitar toda a funcionalidade robusta do Spark usando a linguagem Python, incluindo manipulação de dados com DataFrames e Datasets, execução de consultas SQL e aplicação de algoritmos de machine learning com MLlib.
De acordo com o texto-base, qual das seguintes afirmações sobre PySpark é correta?
Alternativas:
· PySpark é mantido pela Universidade da Califórnia, em Berkeley, e não conta com suporte para operações distribuídas.
· PySpark é uma ferramenta que conecta Python ao Hadoop, proporcionando uma maneira de analisar dados em pequena escala.
· PySpark permite a manipulação de dados com DataFrames e Datasets, mas não suporta consultas SQL.
· PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores.
checkCORRETO
· PySpark é uma ferramenta que conecta Python ao Apache Hive, oferecendo funcionalidades limitadas de machine learning.
Resolução comentada:
Para responder a esta questão, é necessário identificar as funcionalidades e características do PySpark conforme descrito no texto-base.
PySpark é uma ferramenta que conecta Python ao Apache Spark: O texto-base menciona que PySpark conecta Python ao Apache Spark, e não ao Hadoop ou Apache Hive. Portanto, as alternativas PySpark é uma ferramenta que conecta Python ao Hadoop, proporcionando uma maneira de analisar dados em pequena escala e PySpark é uma ferramenta que conecta Python ao Apache Hive, oferecendo funcionalidades limitadas de machine learning são falsas.
Origem e manutenção: O texto-base indica que PySpark originou-se no AMPLab da Universidade da Califórnia, em Berkeley, e é mantido pela Apache Software Foundation. Portanto, a alternativa PySpark é mantido pela Universidade da Califórnia, em Berkeley, e não conta com suporte para operações distribuídas é falsa, pois afirma que não tem suporte para operações distribuídas, o que é incorreto.
Manipulação de dados e consultas SQL: O texto-base menciona que PySpark permite a manipulação de dados com DataFrames e Datasets, execução de consultas SQL e aplicação de algoritmos de machine learning com MLlib. Portanto, a alternativa PySpark permite a manipulação de dados com DataFrames e Datasets, mas não suporta consultas SQL é falsa, pois afirma que não suporta consultas SQL.
Suporte para operações distribuídas: O texto-base destaca que PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores para análise eficiente de grandes conjuntos de dados. Portanto, a alternativa PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores é verdadeira.
A alternativa correta é a que identifica que PySpark oferece suporte para operações distribuídas, possibilitando o processamento de dados em um cluster de computadores.
Código da questão: 84482
7)
Os dashboards interativos são ferramentas essenciais para a análise de dados em tempo real, permitindo que os usuários explorem e interajam com as informações de maneira dinâmica. Ferramentas como Streamlit, Plotly Dash e Dash são amplamente utilizadas para criar esses dashboards devido à sua flexibilidade e capacidade de integração com diversas fontes de dados. Considere o caso do hospital SaúdePlus, que enfrenta desafios no monitoramento de ocupação, gestão de inventário de medicamentos e análise de feedback dos pacientes. Baseado no texto-base, analise as assertivas a seguir e assinale a alternativa que contém apenas as assertivas corretas.
I. Streamlit é uma biblioteca Python que facilita a criação de aplicativos web interativos para análise de dados, permitindo a execução de aplicações com o comando streamlit run nome_do_arquivo.py.
II. Plotly Dash permite a criação de aplicativos analíticos interativos com componentes HTML, CSS e JavaScript, e pode integrar callbacks para atualizar componentes do dashboard em tempo real.
III. O dashboard de ocupação do hospital SaúdePlus, que mostra em tempo real a ocupação dos leitos e o fluxo de pacientes, é construído usando Power BI.
IV. O dashboard de inventário de medicamentos do hospital SaúdePlus, que rastreia os níveis de estoquee previsões de demanda, é criado no Tableau.
V. O dashboard de satisfação do paciente, que consolida o feedback dos pacientes de várias fontes, é desenvolvido usando D3.js e integra ferramentas de análise de texto para identificar tendências.
Alternativas:
· II, III e IV são corretas.
· II, IV e V são corretas.
· I, III e V são corretas.
· I e II são corretas.
· I, II e V são corretas.
checkCORRETO
Resolução comentada:
Vamos analisar cada assertiva para entender por que essa combinação é a correta:
I. Verdadeira: Streamlit é uma biblioteca Python que facilita a criação de aplicativos web interativos para análise de dados. A execução de aplicações é feita com o comando streamlit run nome_do_arquivo.py, conforme descrito no texto-base.
II. Verdadeira: Plotly Dash permite a criação de aplicativos analíticos interativos com componentes HTML, CSS e JavaScript. Além disso, Dash permite a integração de callbacks para atualizar componentes do dashboard em tempo real, como mencionado no texto-base.
III. Falsa: O dashboard de ocupação do hospital SaúdePlus, que mostra em tempo real a ocupação dos leitos e o fluxo de pacientes, é construído usando Tableau, e não Power BI, conforme descrito no texto-base.
IV. Falsa: O dashboard de inventário de medicamentos do hospital SaúdePlus, que rastreia os níveis de estoque e previsões de demanda, é criado no Power BI, e não no Tableau, conforme descrito no texto-base.
V. Verdadeira: O dashboard de satisfação do paciente, que consolida o feedback dos pacientes de várias fontes, é desenvolvido usando D3.js. Este dashboard integra ferramentas de análise de texto para identificar tendências, conforme mencionado no texto-base.
Código da questão: 84492
8)
O Apache Spark é um framework de código aberto para processamento distribuído de dados em larga escala, projetado para ser rápido e de uso geral. Ele permite tanto processamento em batch quanto em tempo real, e sua arquitetura é composta por várias camadas que interagem para fornecer um ambiente robusto de processamento de dados. Entre essas camadas, temos o Driver, o Cluster Manager, os Executors e as Tasks, cada um desempenhando um papel específico na execução das operações.
Complete as lacunas com os termos corretos:
O _________ é a aplicação principal que cria o contexto Spark, define as operações no RDDs e DataFrames, e solicita a execução dessas operações. O _________ gerencia os recursos do cluster e aloca recursos para as aplicações Spark. Os _________ são processos que executam as tarefas atribuídas pelo Driver.
Alternativas:
· Executors; Cluster Manager; Driver.
· Driver; Cluster Manager; Executors.
checkCORRETO
· Executor; Driver; Cluster Manager.
· Driver; Executors; Cluster Manager.
· Cluster Manager; Executors; Driver.
Resolução comentada:
Resolução comentada: Para responder a esta questão, é necessário identificar as funções de cada componente da arquitetura do Apache Spark conforme descrito no texto-base.
Driver: O texto-base menciona que o Driver é a aplicação principal que cria o contexto Spark, define as operações no RDDs e DataFrames, e solicita a execução dessas operações. Portanto, a primeira lacuna deve ser preenchida com "Driver".
Cluster Manager: O texto-base descreve o Cluster Manager como o componente que gerencia os recursos do cluster e aloca recursos para as aplicações Spark. Portanto, a segunda lacuna deve ser preenchida com "Cluster Manager".
Executors: O texto-base indica que os Executors são processos que executam as tarefas atribuídas pelo Driver. Portanto, a terceira lacuna deve ser preenchida com "Executors".
Portanto, a sequência correta é: Driver, Cluster Manager, Executors.
Código da questão: 84478
9)
Para começar a programar em Python, é necessário configurar o ambiente de desenvolvimento, que pode variar dependendo do sistema operacional utilizado. No Windows, o instalador deve ser baixado do site oficial e a opção "Add Python to PATH" deve ser marcada. No macOS, recomenda-se instalar a versão mais recente do Python 3.x usando o Homebrew. Já no Linux, a maioria das distribuições vem com Python pré-instalado, mas pode ser necessário usar o gerenciador de pacotes para atualizar para a versão mais recente.
Complete as lacunas com as ferramentas ou comandos corretos para instalar Python em diferentes sistemas operacionais:
Para instalar Python no Windows, deve-se acessar o site oficial e marcar a opção _________. No macOS, recomenda-se usar o _________ para instalar a versão mais recente do Python 3.x. No Linux, em distribuições como Ubuntu, pode-se usar o comando ___________________.
Alternativas:
· "Add Python to PATH"; dnf; brew install python.
· "Add Python to PATH"; PyCharm; sudo apt-get install python3.
· "Add Python to PATH"; Homebrew ;sudo apt-get install python3.
checkCORRETO
· VS Code; Homebrew; sudo dnf install python3.
· Homebrew; "Add Python to PATH"; sudo dnf install python3.
Resolução comentada:
Para responder a esta questão, é necessário identificar no texto-base as ferramentas ou comandos corretos para instalar Python em diferentes sistemas operacionais.
Windows: O texto menciona que, ao instalar Python no Windows, é necessário baixar o instalador do site oficial e marcar a opção "Add Python to PATH". Isso garante que o Python seja adicionado ao PATH do sistema, facilitando seu uso no terminal.
macOS: Para instalar a versão mais recente do Python 3.x no macOS, o texto recomenda usar o Homebrew. O comando fornecido é brew install python, o que confirma que Homebrew é a ferramenta correta.
Linux (Ubuntu): para distribuições Linux como Ubuntu, o texto sugere usar o comando sudo apt-get install python3 para instalar ou atualizar para a versão mais recente do Python.
Portanto, a alternativa correta é a que identifica "Add Python to PATH" para Windows, Homebrew para macOS e sudo apt-get install python3 para Ubuntu.
Código da questão: 84473
10)
Python é amplamente utilizado na ciência de dados devido à sua rica biblioteca de pacotes e ferramentas que facilitam a análise de dados, visualização e aprendizado de máquina. Entre as bibliotecas mais populares estão NumPy e Pandas, cada uma com suas próprias funcionalidades e usos específicos. NumPy é fundamental para computação científica, oferecendo um poderoso objeto de array multidimensional e uma vasta gama de funções matemáticas. Pandas, por outro lado, é essencial para manipulação e análise de dados tabulares, fornecendo estruturas de dados de alto nível como Series e DataFrame.
Associe corretamente os itens da Lista I com os itens da Lista II:
Lista I
I. NumPy
II. Pandas
III. Dicionários
Lista II
A. Series e DataFrame
B. Pares chave-valor
C. Array multidimensional
Alternativas:
· I-B, II-A, III-C.
· I-A, II-B, III-C.
· I-C, II-B, III-A.
· I-A, II-C, III-B.
· I-C, II-A, III-B.
checkCORRETO
Resolução comentada:
Resolução comentada: Para responder a esta questão, é necessário entender as funcionalidades e características de NumPy, Pandas e Dicionários, conforme descrito no texto-base.
NumPy: É uma biblioteca fundamental para computação científica em Python, conhecida por seu poderoso objeto de array multidimensional chamado ndarray. Portanto, a associação correta é NumPy – Array multidimensional.
Pandas: É uma biblioteca essencial para manipulação e análise de dados tabulares, fornecendo estruturas de dados de alto nível como Series e DataFrame. Portanto, a associação correta é Pandas – Series e DataFrame.
Dicionários: São coleções desordenadas de pares chave-valor. Portanto, a associação correta é Dicionários – Pares chave-valor.
Portanto, a associação correta entre as listas é:
I. NumPy – C. Array multidimensional.
II. Pandas – A. Series e DataFrame.
III. Dicionários – B. Pares chave-valor.
Código da questão: 84475

Mais conteúdos dessa disciplina