3 1 Ebook - 1

ESTÁCIO

Geovanna Ribeiro

em 17/01/2025

Conteúdos escolhidos para você

30 pág.

Slide da Unidade - A Estrutura e Organização do Big Data

Líbano

49 pág.

Plataformas de Big Data e Nossa História

UFRA

55 pág.

Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

ESTÁCIO

54 pág.

Big Data e Ciência de Dados - Unidade 1 - Intrudução ao Big Data

ESTÁCIO

77 pág.

Perguntas dessa disciplina

Nesta atividade, você é convidado a verificar como a disciplina em questão pode contribuir para a sua experiência e formação profissional. Por esse...

UniCesumar

3) Analise as afirmações a seguir, julgando-as verdadeiras (V) e falsas (F), em seguida, assinale a proposição correta. ( ) 0 Big Data corresponde à g

ESTÁCIO

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O Big Data surge com O advento do desenvolvimento crescente da tecnologia, incentivando O uso dos demais sistemas de gestão de dados e informações. Co

UNIFAVENI

Nas últimas décadas, bilhões de pessoas se conectaram ao mundo digital. Dados recentes da União Internacional de Telecomunicações (UIT) mostram que...

FMU

Material

Conteúdos escolhidos para você

30 pág.

Slide da Unidade - A Estrutura e Organização do Big Data

Líbano

49 pág.

Plataformas de Big Data e Nossa História

UFRA

55 pág.

Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

ESTÁCIO

54 pág.

Big Data e Ciência de Dados - Unidade 1 - Intrudução ao Big Data

ESTÁCIO

77 pág.

Perguntas dessa disciplina

Nesta atividade, você é convidado a verificar como a disciplina em questão pode contribuir para a sua experiência e formação profissional. Por esse...

UniCesumar

3) Analise as afirmações a seguir, julgando-as verdadeiras (V) e falsas (F), em seguida, assinale a proposição correta. ( ) 0 Big Data corresponde à g

ESTÁCIO

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O Big Data surge com O advento do desenvolvimento crescente da tecnologia, incentivando O uso dos demais sistemas de gestão de dados e informações. Co

UNIFAVENI

Nas últimas décadas, bilhões de pessoas se conectaram ao mundo digital. Dados recentes da União Internacional de Telecomunicações (UIT) mostram que...

FMU

Prévia do material em texto

BIG DATA E CIÊNCIA
DE DADOS
A estrutura e organização do
Big Data
CEO
DAVID LIRA STEPHEN BARROS
Gerente de Produção Editorial
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico
RAMONIQUE DESIRRE
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA E ALAN DE OLIVEIRA SANTANA
4 BIG DATA E CIÊNCIA DE DADOS
A
U
TO
RI
A
Jéssica Laisa Dias da Silva
Olá. Sou graduada em Sistemas da Informação pela
Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em
Sistema e Computação pela Universidade Federal de Rio Grande
do Norte (UFRN). Atualmente, sou doutoranda em Sistema e
Computação pela UFRN e professora conteudista na elaboração
de cadernos.
Alan de Oliveira Santana
Olá. Sou graduado em Ciência da Computação pela
Universidade do Estado do Rio Grande do Norte (UERN) e mes-
tre em Sistemas da Computação pela Universidade Federal do Rio
Grande do Norte (UFRN). Atualmente, sou professor conteudista,
elaborador de cadernos de questões e doutorando em Ciências
da Computação. Como cientista, atuo no desenvolvimento e ava-
liação de técnicas de desenvolvimento de sistemas com ênfase
na educação.
Desse modo, fomos convidados pela Editora Telesapiens
a integrar seu elenco de autores independentes. Estamos muito
satisfeitos com o convite e a possibilidade de auxiliar em seu de-
senvolvimento intelectual e profissional. Bons estudos!
5BIG DATA E CIÊNCIA DE DADOS
ÍC
O
N
ES
Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
No início do
desenvolvimento
de uma nova
competência.
DEFINIÇÃO
Caso haja a
necessidade de
apresentar um novo
conceito.
NOTA
Quando são
necessárias
observações ou
complementações.
IMPORTANTE
Se as observações
escritas tiverem que
ser priorizadas.
EXPLICANDO
MELHOR
Se algo precisar ser
melhor explicado ou
detalhado.
VOCÊ SABIA?
Se existirem
curiosidades e
indagações lúdicas
sobre o tema em
estudo.
SAIBA MAIS
Existência de
textos, referências
bibliográficas e links
para aprofundar seu
conhecimento.
ACESSE
Se for preciso acessar
sites para fazer
downloads, assistir
vídeos, ler textos ou
ouvir podcasts.
REFLITA
Se houver a
necessidade de
chamar a atenção
sobre algo a
ser refletido ou
discutido.
RESUMINDO
Quando for preciso
fazer um resumo
cumulativo das últimas
abordagens.
ATIVIDADES
Quando alguma
atividade de
autoaprendizagem
for aplicada.
TESTANDO
Quando uma
competência é
concluída e questões
são explicadas.
6 BIG DATA E CIÊNCIA DE DADOS
Processamento de grandes volumes de dados .................... 10
Produção de dados ..........................................................................................12
Armazenamento ...............................................................................................14
Framework para processamento de dados .................................................. 16
Hadoop .................................................................................................18
Spark ......................................................................................................19
Storm .....................................................................................................20
Inteligência de negócio para Big Data ................................... 22
Big Data e sua importância no mercado de negócio .................................. 22
Inteligência de negócio para Big Data ........................................................... 26
Perfil comportamental do profissional de análise de inteligência
de negócios ..........................................................................................29
Big Data aplicado no mercado ........................................................................30
Magazine Luiza ....................................................................................30
Amazon .................................................................................................31
Nordstrom ............................................................................................31
Bancos de dados para Big Data .............................................. 34
Banco NoSql .......................................................................................................35
Características dos bancos de dados NoSQL ................................ 36
Tipos de banco de dados NoSQL ..................................................... 37
Principais mecanismos de banco de dados NoSQL .................................... 39
Cassandra .............................................................................................39
MongoDB ..............................................................................................40
Redis ......................................................................................................40
HBase ....................................................................................................41
SU
M
Á
RI
O
7BIG DATA E CIÊNCIA DE DADOS
Amazon DynamoDB ...........................................................................42
Neo4j .....................................................................................................42
Recuperação de informações ................................................. 44
Big Data e a recuperação da informação ....................................... 46
Ontologia .............................................................................................47
Data Warehouse ..................................................................................48
Apache Lucene ...................................................................................................49
8 BIG DATA E CIÊNCIA DE DADOS
A
PR
ES
EN
TA
ÇÃ
O
Estudamos, anteriormente, como a quantidade de dados é
grande hoje e como é importante a utilização de soluções compu-
tacionais como Big Data e ciência de dados. Assim, nesta unidade
vamos nos deter a estudar como processar grandes massas de
dados. Abordaremos sobre ferramentas e recursos importantes
que ajudam a processar a enorme quantidade de informação.
Veremos ainda sobre inteligência de negócio e como a uti-
lização de Big Data pode favorecer neste ambiente. Além disso,
entenderemos o tipo de banco de dados adotado em aplicações
de Big Data, bem como a sua estrutura e tecnologias envolvidas.
Estudaremos ainda, nesta unidade, sobre o banco de dado
utilizado em aplicações em Big Data, como também a estrutura e
as particularidades destes. Também iremos abordar sobre a im-
portância do banco de dados e apresentar exemplos de banco de
dados aplicados em trabalhos que adotam Big Data.
Por fim, abordaremos sobre a recuperação de informação
utilizando as soluções de Big Data e Data Science como outros re-
cursos computacionais que surgiram.
9BIG DATA E CIÊNCIA DE DADOS
O
BJ
ET
IV
O
SOlá. Seja muito bem-vindo! Nosso objetivo é auxiliar você
no desenvolvimento das seguintes competências profissionais até
o término desta etapa de estudos:
1. Conhecer o processamento de grandes volumes de
dados.
2. Entender a inteligência de negócio para Big Data.
3. Conhecer os bancos de dados para Big Data.
4. Conhecer o processo de recuperação de informação.
Então? Preparado para adquirir conhecimento sobre um
assunto fascinante e inovador como esse? Vamos lá!
10 BIG DATA E CIÊNCIA DE DADOS
Processamento de grandes
volumes de dados
Ao término deste capítulo, você será capaz de sa-
ber como funciona o processamento de grande vo-
lume de dados a partir da explanação de como os
grandes volumes de dados são produzidos e arma-
zenados. Logo após, exploraremos os frameworks
que realizam este processamento. E então? Moti-
vado para desenvolver esta competência? Então,
vamos lá!
É importante relembrar que o Big Data está relacionado e
aplicado à análise, ao processamento e armazenamento de grandes
volumes de dados e que as suas soluções computacionais e seus
métodos são usualmente precisos quandoas tecnologias e técnicas
clássicas já não são suficientes para a execução destas atividades.
Ainda sobre o conceito de Big Data que já estudamos, preci-
samos recordar também as características dos “Vs” que o compõe,
representado por esta fórmula apresentada por (Taurion, 2013):
Big Data = volume + variedade + velocidade + veracidade
gerando + valor
Deste modo, o volume representa a quantidade de peta-
bytes de dados produzidas a cada dia, a qual se estima que esse
volume dobre a cada dezoito meses.
Segundo Taurion (2013), cada um desses Vs, conforme
apresentado a seguir, está relacionado com a produção de dados:
• Variedade: caracteriza os dados oriundos de siste-
mas estruturados e não estruturados, originados por
e-mails, redes sociais como Facebook, Twitter, YouTube,
entre outras, documentos eletrônicos, apresentações
11BIG DATA E CIÊNCIA DE DADOS
estilo Powerpoint, mensagens instantâneas, sensores,
etiquetas RFID, câmeras de vídeo, entre outros.
Imagem 3.1 – Redes sociais
Fonte: Freepik.
• Velocidade: característica relacionada às práticas
em tempo real sobre o grande volume de dados.
A velocidade representa um critério que se torna
muito importante por causa da crescente agilidade
com que as empresas precisam reagir às modifica-
ções no cenário de negócios, bem como a necessi-
dade de dados em tempo real, interferindo na exe-
cução do próprio processo de negócios.
• Veracidade: essa característica implica em garantir
a integridade dos dados, verificando se fazem sen-
tido e são autênticos (Taurion, 2013).
• Valor: representando a junção das demais caracte-
rísticas (Taurion, 2013).
Podemos citar ainda que, em 2022, a IDC (International
Data Corporation) estimou que o volume global de dados gera-
dos atingirá 175 zettabytes até 2025, refletindo um crescimento
exponencial em comparação aos anos anteriores. O conceito de
Big Data continua a se referir a conjuntos de dados com volumes
massivos, variedade e velocidade que ultrapassam a capacida-
de de sistemas tradicionais de gerenciamento e processamento.
12 BIG DATA E CIÊNCIA DE DADOS
Atualmente, com o uso de ferramentas mais avançadas, como
Hadoop, Spark, e soluções baseadas em inteligência artificial e
machine learning, as empresas estão cada vez mais preparadas
para processar e analisar esses dados em tempo real, gerando
insights valiosos para a tomada de decisão.
Dessa forma, a partir desta revisão, entendemos que o Big
Data é justamente uma solução computacional que trabalha como
esses grandes volumes de dados. Na próxima sessão, teremos a
explanação de onde vem todos esses dados.
Produção de dados
A produção de dados continua a crescer exponencialmen-
te. De acordo com um estudo da International Data Corporation
(IDC), o volume global de dados digitais gerados atingiu 64.2 zet-
tabytes em 2020 e deve chegar a 175 zettabytes até 2025. Esse
crescimento acelerado é impulsionado pelo aumento no uso de
dispositivos conectados à Internet, Internet das Coisas (IoT), inteli-
gência artificial, e o crescente uso de serviços em nuvem. A expec-
tativa é que, em 2025, mais de 75% da população mundial interaja
diariamente com dados, e grande parte desses dados seja gerada
e processada em tempo real (IDC, 2021).
Imagem 3.2 – Escala de dados
Fonte: Elaborada pela autoria (2020).
13BIG DATA E CIÊNCIA DE DADOS
Amaral (2016) entende que a produção de dados não está
somente relacionada pela entrada de algum dispositivo, mas tam-
bém pela análise ou para execução de procedimentos operacio-
nais, podendo ser responsáveis por produzir volumes significati-
vos de dados.
Ainda abordando sobre os grandes volumes de dados, vale
ressaltar que estes são processados pelas soluções de Big Data, o
qual crescem e atribuem exigências diferentes de armazenamen-
to e processamento, expondo um grande desafio às organizações
de TI clássicas, visto como os grandes volumes de dados, neces-
sitam de armazenamento escalonável e um enfoque distribuído
para permitir a consulta deles.
Os dados estão sendo produzidos cada vez mais e vem de
todas as partes. Segundo Amaral (2016), dados podem ser com-
prados, produzidos ou simplesmente coletados. Segue a descrição
de cada um dos tipos de dados:
• Dados comprados - podem derivar de empresas es-
pecializadas em vender dados, conhecidas como “data
brokers”. Os data brokers permitem o entendimento de
como se dá a coleta de informações sobre os consumi-
dores de diferentes e abundantes fontes comerciais.
• Dados produzidos - são originados por sistemas
transacionais, operações de processamento exem-
plificando o fechamento da folha de pagamento, os
processos de transformação de dados e o ELT (ex-
tração, carregamento, transformação).
• Dados coletados - podem ser originados de outros sis-
temas, pesquisas, históricos, arquivos ou até de um data
warehouse. Um data warehouse refere-se a um sistema
de gerenciamento de dados projetados para ativar e for-
nece suporte às tarefas de business intelligence (BI).
https://www.oracle.com/br/database/what-is-data-management/
14 BIG DATA E CIÊNCIA DE DADOS
Por outro lado, é importante destacar os dados gerados
pelos sensores. Nos smartphones, por exemplo, as câmeras são
responsáveis pela maior parte do volume de dados, seguidas pe-
los sensores de touchscreen, GPS e os voltados para comunicação,
como Bluetooth, Wi-Fi, WiDi, NFC, entre outros.
Cada vez mais, aumenta-se a tendência de utilização de
carros, bússola, GPS, rádio, TV, câmera fotográfica, filmadora, vi-
deogame e carros, e consequentemente a produção de dados ge-
rados por eles.
O artigo “Volume de dados exigirá velocidade para
sobreviver ao Big Data” aborda as grandes massas
de dados produzidas pelos diversos equipamen-
tos. Nele, são citados alguns exemplos atuais de
equipamentos que estão produzindo grandes vo-
lumes de dados e sobre a necessidade da velocida-
de exigida para o processamento e análise destes.
Acesse o QR Code.
Armazenamento
Os dados estão sendo gerados continuamente e de for-
ma exponencial, o que exige novos meios de armazenamento, já
que os recursos tradicionais não conseguem suportar o grande
volume de informações produzidas. Além disso, as capacidades
de transferência das redes de comunicação são frequentemente
excedidas, evidenciando a necessidade urgente de revolucionar as
tecnologias de armazenamento e comunicação.
https://itforum.com.br/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data/amp/
15BIG DATA E CIÊNCIA DE DADOS
Imagem 3.3 – Armazenamento de dados
Fonte: Freepik.
Conforme Amaral (2016), o armazenamento viabiliza que
posteriormente os dados possam ser readquiridos facilmente
para se fazer uma cópia ou para replicar o processo ocorrido, bem
como para produzir informação ou conhecimento.
É importante ressaltar que o armazenamento deve primar
por segurança da informação, integridade, minimização de redun-
dância, concorrência, otimização de espaço etc. Vale salientar ain-
da que o armazenamento pode ser realizado em um dispositivo
volátil ou não volátil.
Atualmente, muitas empresas utilizam aplicações de Big
Data integradas ao ambiente de cloud computing, ou computação
em nuvem, não apenas para armazenamento, mas também para
processamento em grande escala e análises avançadas. Desde
2022, o uso de serviços em nuvem, como Amazon Web Services
(AWS), Microsoft Azure e Google Cloud, expandiu-se significativa-
mente devido à crescente demanda por escalabilidade, flexibilida-
de e redução de custos operacionais.
A computação em nuvem permite que empresas alu-
guem capacidade de computação e armazenamento conforme
16 BIG DATA E CIÊNCIA DE DADOS
a demanda, com um modelo de pagamento baseado na utiliza-
ção, sem a necessidade de investimentos iniciais elevados em
infraestrutura física. Atualmente, tecnologias como containers,
Kubernetes e serverless computing permitem uma gestão mais efi-
ciente e automatizada dos recursos na nuvem, otimizando ainda
mais os custose a agilidade operacional.
Assim, a computação em nuvem continua sendo uma tec-
nologia essencial para a viabilidade do Big Data. Por meio dela,
as organizações podem processar e analisar grandes volumes de
dados em tempo real, além de escalar suas operações rapidamen-
te conforme as necessidades de mercado, sem a necessidade de
grandes investimentos em instalações físicas de armazenamento
e processamento de dados.
Vale ressaltar que em muitas circunstâncias o pro-
cesso de análise dos dados deve ser eficiente e
quase em tempo real, assim, o armazenamento de
todos os dados capturados é quase inviável.
Ao mesmo tempo, a computação em nuvem oferece am-
bientes com ampla capacidade de armazenamento, escaláveis, fle-
xíveis, com alto desempenho e disponibilidade, tornando-se um
importante recurso que serve como uma opção para viabilizar a
construção de aplicações de gestão e análise de grandes volumes
de dados. Podemos destacar a computação em nuvens com um
grande aliado na utilização de ferramentas de Big Data.
Framework para processamento
de dados
Já é sabido que o Big Data pode ser conceituado como
grandes volumes de dados, com diversos níveis de complexidade
e muitas vezes desestruturados, os quais necessitam de outros
17BIG DATA E CIÊNCIA DE DADOS
tipos de ferramentas e procedimentos para serem processados
ou analisados.
Para processar grandes volumes de dados de for-
ma eficiente, é necessário implementar proces-
samento paralelo em larga escala e desenvolver
novos algoritmos de análise, permitindo obter e
fornecer informações adequadas no momento
certo para a tomada de decisão. Isso ocorre por-
que grandes quantidades de dados demandam
muito tempo, tornando essencial a criação de no-
vas estruturas que reduzam significativamente o
tempo de processamento.
Por seguinte, há algumas tecnologias orientadas a tratar
volumes muito grandes como Hadoop e sistemas de bancos de da-
dos específicos, como o Cassandra, utilizado hoje pelo Facebook,
Twitter e Reddit, os quais necessitam trabalhar com muita veloci-
dade com grandes volumes de dados de modo distribuído.
É importante saber que no contexto de processamento de
dados, pode-se ter três tipos:
• Processamento em batch - versa para processar da-
dos em lotes, de modo que, neste tipo de processa-
mento, um conjunto de dados é instruído da fonte
de dados, sendo posteriormente processado e ano-
tado na fonte de destino. É importante ressaltar que,
historicamente, a grande maioria das tecnologias de
processamento de dados foram projetadas para este
tipo de processamento.
• Processamento em tempo real - refere-se a pro-
cessar os dados e conseguir os resultados quase
imediatamente.
• Processamento em stream - versa em processar
dados consecutivamente e atuar sobre os dados em
18 BIG DATA E CIÊNCIA DE DADOS
live stream para se obter os resultados. Os dados são
processados como artefatos individuais, ao invés de
serem processados como um lote gradativamente.
A seguir, seguem as sessões apresentando alguns exem-
plos de frameworks que trabalham com processamento de gran-
des massas de dados.
Hadoop
O Hadoop, como estudado anteriormente, é uma platafor-
ma de software open source desenvolvida pela Apache Software
Foundation e escrita em Java. Ele permite o processamento de
grandes volumes de dados em clusters de computadores. Embora
seja amplamente reconhecido por sua capacidade de armaze-
namento, o Hadoop também se destaca como uma ferramenta
de processamento, utilizando o MapReduce. Seus dois principais
componentes são o HDFS, estrutura de armazenamento, e o pró-
prio MapReduce, ambos estreitamente interligados.
A seguir, apresentamos uma descrição detalhada desses
componentes:
• Hadoop Distributed File System (HDFS) - trata-se
de um sistema de arquivos distribuído, idealizado
para armazenar grandes massas de dados de modo
confiável e realizar a transmissão para os usuários.
O HDFS tem características de tolerância a falhas
e pode ser expandido de um único servidor para
milhares de máquinas, cada uma proporcionando
armazenamento local. Ele ainda trabalha em dois
tipos de nós: o “Mestre”, que gerencia a hierarquia
de sistemas; e vários “Escravos”, os nós de dados.
• MapReduce - é um modelo de programação para
processar e gerar grandes conjuntos de dados úteis
19BIG DATA E CIÊNCIA DE DADOS
para atividades no mundo real. Ele tem as funções
map (mapeamento) e reduce (redução), de modo
que a função map atende o par chave/valor (cha-
ve trata o identificador do registro, e valor, o seu
conteúdo) como entrada, e gera pares chave/valor
intermediários. Por sua vez, a função reduce mescla
todos os pares associados à mesma chave (inter-
mediários), permitindo a geração de uma saída.
Spark
O Spark é um framework para processamento de Big Data
idealizado com foco em velocidade, facilidade de utilização e aná-
lises aprimoradas. Ele foi projetado para garantir uma vasta gama
de cargas de tarefas, como aplicativos em lote, algoritmos intera-
tivos, consultas interativas e streaming, permitindo a tolerância a
toda essa carga de trabalho e minimizando a carga de gerencia-
mento da manutenção de ferramentas separadas.
O principal diferencial do Spark é sua capacidade de com-
putação em cluster na memória, o que acelera significativamente
o processamento de aplicativos. Ele oferece um framework pa-
dronizado e de fácil entendimento para gerenciar e processar Big
Data, abrangendo uma ampla variedade de conjuntos de dados,
sejam em lotes (batch) sejam em streaming em tempo real.
O framework também suporta as linguagens Python, Java e
Scala, ainda possuindo outros módulos para aprendizado de má-
quina e inteligência artificial. O conceito principal desse framework é
o Resilient Distributed Datasets (RDD), pelo qual funciona como uma
tabela do banco de dados que pode arquivar qualquer tipo de dado.
Outras características do Spark são:
• Dar um suporte adicional além das funções de map
e reduce;
https://spark.apache.org/
https://blog.geekhunter.com.br/o-java-ainda-faz-historia/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
20 BIG DATA E CIÊNCIA DE DADOS
• Otimização da utilização de operadores de grafos
arbitrários;
• Avaliação sob demanda de consultas de Big Data,
favorecendo a otimização do fluxo global do pro-
cessamento de dados;
• Apresenta shell interativo para Scala e Python.
O Spark armazena os dados do RDD em distintas partições,
o que auxilia a reorganização computacional e a questão de otimi-
zar o processamento dos dados.
Storm
O Apache Storm é um sistema de computação em tempo
real distribuído e de código aberto que trabalha no processamen-
to de fluxos de dados ilimitados, fazendo para o processamento
em tempo real, o que o Hadoop fez no processamento em lote.
O Storm trabalha com modelos de streaming para proces-
samento por meio de sua camada principal.
O Storm apresenta vantagens como facilidade de uso, fun-
cionamento compatível com diversas linguagens de programação,
estabilidade e tolerância a falhas. No entanto, também possui al-
gumas desvantagens como limitações em confiabilidade, desem-
penho, eficiência e gerenciamento.
E então? Gostou do que lhe mostramos? Agora, só
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos
resumir tudo o que vimos. Você deve ter apren-
dido que, quando abordamos grandes massas de
dados, lidamos com Big Data e seu ambiente de
21BIG DATA E CIÊNCIA DE DADOS
trabalho. Podemos perceber as diversas fontes de
dados atuais e como aumentam a quantidade de
dados, contribuindo para esta grande massa exis-
tente e que necessita ser processada. Estudamos
um pouco sobre os tipos de armazenamento quan-
do se trata de dados e chegamos ao final abordan-
do os tipos de processamento existentes. Ainda
estudando sobre o processamentoem batch, tem-
po real e stream, apresentamos alguns frameworks
que trabalham com o processamento de grandes
massas de dados.
22 BIG DATA E CIÊNCIA DE DADOS
Inteligência de negócio para
Big Data
Ao término deste capítulo você será capaz de en-
tender sobre inteligência de negócio e como a uti-
lização de Big Data pode favorecer neste ambiente.
Apresentaremos, também, a relação do Big Data
e Business Intelligence e como ambos trabalham.
Abordaremos ainda os ganhos e exemplos de co-
mo se dá suas aplicações. E então? Motivado para
desenvolver esta competência? Vamos lá!
Big Data e sua importância no
mercado de negócio
Com a grande produção de dados por meio das análises
de Big Data, são possibilitadas inovações em tecnologias, produ-
tos, gestão e estratégias organizacionais. Atualmente, o uso de Big
Data é fundamental para o desenvolvimento de soluções basea-
das em inteligência artificial (IA), aprendizado de máquina (machi-
ne learning) e automação, que estão transformando diversos seto-
res, desde a saúde até as finanças e a manufatura.
Vale ressaltar que, desde 2022, o Big Data continua a ser
apontado como uma das principais tendências tecnológicas estra-
tégicas. De acordo com o relatório anual do Gartner sobre ten-
dências tecnológicas, o Big Data e a análise avançada de dados
permanecem no centro das transformações digitais nas empre-
sas, especialmente quando combinados com IA e edge computing,
permitindo decisões mais rápidas e eficazes. Essas tecnologias são
essenciais para otimizar processos, personalizar experiências de
consumidores e prever demandas futuras, o que as torna indis-
pensáveis na estratégia das organizações.
23BIG DATA E CIÊNCIA DE DADOS
Imagem 3.4 – Mercado de negócio
Fonte: Freepik.
Tendo em vista os produtos em abundância e as informa-
ções dos clientes, bem como registros e a massa de dados dis-
poníveis para ampliar constantemente novas tecnologias, vê-se o
aperfeiçoamento dos serviços existentes, pois tendem a melhorar
a eficiência da produção, diminuir custos, criar inovações e trazer
a satisfação as necessidades dos clientes.
A análise do Big Data pode impactar positivamente no
mercado de negócio, nos seguintes processos:
• Desenvolvimento de produto;
• Desenvolvimento do mercado;
• Eficiência nas operações;
• Experiência e fidelidade do cliente;
• Prever a demanda de mercado.
No entanto, muitos executivos só buscam por recursos de
Big Data quando precisam urgentemente responder a uma amea-
ça ou para encontrar uma oportunidade em um determinado es-
copo de mercado.
24 BIG DATA E CIÊNCIA DE DADOS
Uma organização de telecomunicações europeia, após au-
mentar sua parte de participação no mercado, decidiu criar um
sistema que possibilite identificar as causas que levariam seus
clientes a selecionarem uma ou outra empresa. Isso foi possível
por meio da análise de grandes massas de dados e o aumento
de informações disponibilizadas pelos próprios usuários em redes
sociais e portais das empresas.
Para saber mais sobre a importância e as perspec-
tivas do Big Data nas empresas, leia o artigo “Inova-
ção nos negócios por meio da Análise de Big Data”.
Acesse o QR Code.
É importante entender que o Big Data gera modificação
na organização do modelo de negócios devido a trazer consigo as
três características de dados estruturados e não estruturados, em
que necessita de novas capacidades e conhecimentos para que
cada setor realizar o tratamento de dados de modo mais eficiente.
O uso do Big Data nas organizações é impulsionado pela ne-
cessidade de um planejamento adequado e da definição de estra-
tégias que viabilizem o alcance das metas e objetivos estabelecidos.
Nesse contexto, a adoção do Big Data pode auxiliar no desenvolvi-
mento do planejamento estratégico das empresas, promovendo a
conquista de objetivos e a criação de vantagens competitivas.
O Big Data transformou significativamente a forma como
conduzimos negócios, gestão e pesquisas. Assim, as ciências orien-
tadas por dados, especialmente em computação intensiva, estão
https://singep.org.br/6singep/resultado/333.pdf
25BIG DATA E CIÊNCIA DE DADOS
se consolidando em um cenário que busca oferecer ferramentas
para enfrentar os desafios associados ao Big Data.
Portanto, fica evidente que o Big Data pode gerar resulta-
dos extraordinários para as organizações. Contudo, a visão e as
decisões dos executivos continuam sendo fundamentais, agora
fortalecidas pela análise de dados, tornando o processo de deci-
são mais embasado e estratégico.
Conforme mencionado anteriormente, podemos destacar
o exemplo apresentado por Vivek Ranadive, CEO da Tibco e reno-
mado autor de livros sobre o tema. Ele relata que, em uma loja
varejista de produtos de jardinagem, sabe-se que compradores
de sementes têm 90% de probabilidade de adquirir fertilizantes e
40% de chance de comprar móveis de jardim.
Partindo para uma primeira análise, pode-se imaginar que
a melhor estratégia seja estimular a compra de fertilizante ou ex-
por este próximo das sementes. Entretanto, analisando com mais
detalhe, pode-se verificar que a melhor estratégia é desenvolver
ações que impulsionem a venda dos móveis, afinal, existe uma
margem maior de crescimento para estes produtos.
O Big Data motiva a inovação nos modelos de negócios por
meio da análise dos ambientes, desenvolvendo novos produtos e
serviços com a análise de dados originados pelos consumidores,
permitindo cooperações estratégicas ao compartilhar a grande
massa de informações com outras empresas.
Uma grande contribuição no contexto da aplicação
do Big Data nas empresas é o crescente aumento
das fontes de informações às empresas extraídas
das redes sociais, recursos informatizados de coo-
peração, bem como os sensores em vários produ-
tos ou registros de tráfego de internet, entre outros.
26 BIG DATA E CIÊNCIA DE DADOS
Outras fontes de informações geradas a partir de equipa-
mentos que originam grandes quantidades de dados e que possi-
bilitam ter relevância para as empresas são: telefones celulares,
vendas na internet, redes sociais, comunicação eletrônica, GPS e
maquinário computadorizado.
Dessa forma, analisamos as contribuições que o uso do
Big Data proporciona às empresas e aos executivos no contexto
geral de mercado e negócios. Na próxima sessão, exploraremos
com mais detalhes a aplicação do Business Intelligence em conjunto
com o Big Data.
Inteligência de negócio para
Big Data
Com o aumento da produção de dados e a busca das em-
presas por melhorias em seus negócios e vantagens competitivas,
destaca-se a inteligência de negócios, ou Business Intelligence (BI).
Esse recurso engloba tecnologias, aplicativos e métodos voltados
à coleta, integração, análise e apresentação de informações no
contexto empresarial.
Em resumo, o Business Intelligence (BI) oferece aos executi-
vos e tomadores de decisão os recursos necessários para aprimo-
rar suas escolhas. O BI utiliza dados estruturados e concentra-se
exclusivamente no que já ocorreu, sem exigir a participação de
cientistas de dados para criar boas aplicações.
Os painéis de BI, que apresentam métricas e indicadores
importantes, ganham relevância ao integrar dados internos das
empresas, sendo exibidos de maneira visual e simplificada. No en-
tanto, esses painéis operam dentro dos limites da empresa, sem
explorar contextos externos.
27BIG DATA E CIÊNCIA DE DADOS
A partir daqui surge a necessidade de utilizar soluções
mais robustas com o Big Data, apropriadas para fazer análises
sobre dados não estruturados e, com isso, enriquecendo a per-
cepção do negócio por meio das correlações de dados e análises
preditivas e prescritivas.
A análise de Big Data, além de ajudar a lidar com
esses dados complexos, também amplia a finalida-
de do BI, o qual, na maioria das vezes, tem o foco
nos bancos de dados internos das empresas, bus-
cando extrair valor de dados externo.
Assim, o Big Data favorece trabalhar com grandes volumes
de dadosde bancos externos, enriquecendo o processo de toma-
da de decisão e consequentemente os negócios.
Imagem 3.5 – Inteligência de mercado
Fonte: Pexels.
O trabalho com Big Data corresponde a uma preocupação
para a inteligência de negócios, visto que se caracterizam por alto
volume, variedade e velocidade, requerendo competências tecnoló-
gicas avançadas, muitas vezes, ainda não desenvolvidas ou consoli-
dadas para manipular e gerar conhecimento antecipado aos fatos.
Vale ressaltar que a solução de Big Data não permite de-
finir as causas das correlações encontradas, porém, por meio de
28 BIG DATA E CIÊNCIA DE DADOS
análises multivariadas, é possível controlar as variáveis e seus efei-
tos em outras variáveis.
Isso implica uma exigência maior na escolha de profissio-
nais em projetos de Big Data devido à complexidade e habilidades
específicas exigidas.
Já com relação ao Business Intelligence, podemos entender,
de modo geral, como um recurso ou etapa a ser seguida após o Big
Data extrair e utilizar os dados para compreender o negócio, ensi-
na os profissionais envolvidos a tomarem ações de modo melhor.
Desta forma, o BI será adotado como uma solução que
proporciona o filtro e ordena as informações, possibilitando com
que elas se compartilhem entre si avaliando e as direcionando
estrategicamente.
No artigo “Business Intelligence: Inteligência nos
Negócios”, você poderá ver uma explanação dos
recursos tecnológicos e algumas de suas caracte-
rísticas. Para lê-lo, acesse o QR Code.
Podemos afirmar que o BI serve como base para o Big
Data. Empresas com sistemas de Business Intelligence robustos
têm maior probabilidade de iniciar projetos em Big Data, pois as
descobertas podem ser rapidamente testadas e monitoradas por
meio do sistema de BI.
http://mtc-m16c.sid.inpe.br/col/lac.inpe.br/worcap/2003/10.31.15.48/doc/ArtigoWorkap3.pdf
29BIG DATA E CIÊNCIA DE DADOS
Perfil comportamental do profissional
de análise de inteligência de negócios
Eis algumas habilidades necessárias de perfis comporta-
mentais dos profissionais analistas de BI para vencer os desafios
da área, segue a lista:
• Comunicação - ter a habilidade de se expressar e se
fazer entender são pontos importantes. Transmitir
com clareza as premissas para realizar as tarefas, de-
liberar escopos e riscos procurando oferecer as solu-
ções de Inteligência em uma linguagem clara e prática.
• Pacificador - é importante o analista de BI fazer a ponte
entre os envolvidos, apresentando a capacidade de tra-
duzir a regra de negócio para o ambiente técnico.
• Liderança - é de extrema importância que o ana-
lista de BI tenha o perfil de liderança para delegar
as soluções e definir os papéis dos envolvidos.
A liderança necessitará também de uma postura
apropriada e segura de suas definições, bem como
nortear a equipe e as áreas interessadas.
• Conhecimento técnico - é de crucial importância
que o analista de BI tenha conhecimento técnico
profundo, e não apenas saber o desenho da solu-
ção. O conhecimento técnico também é responsá-
vel por dar garantias que a solução seja elaborada
com a tecnologia adequada e no melhor ambiente.
• Atitude - o analista de BI deve entender que é o
principal responsável por fazer as coisas acontece-
rem, pois é quem aplica o raciocínio lógico, define
processos, projeta modelos de solução e possui
o conhecimento técnico e do negócio. Sem a sua
atuação, nada funciona adequadamente.
30 BIG DATA E CIÊNCIA DE DADOS
Em resumo, é fundamental compreender que os analistas
de BI geralmente trabalham com a análise e o desenvolvimento
de projetos de modelagem de dados, utilizando informações co-
letadas de um armazém de dados centralizado ou de diferentes
bancos de dados da organização. Cada empresa pode priorizar as
habilidades mais relevantes ao selecionar seu analista de BI.
Big Data aplicado no mercado
Apresentaremos, nesta seção, alguns exemplos de suces-
so de empresas que utilizam as soluções de Big Data para otimizar
seus serviços.
Magazine Luiza
Uma das principais iniciativas do Magazine Luiza em 2014 foi
a criação do Luizalabs, um laboratório de tecnologia e inovação com
o objetivo de desenvolver produtos e serviços voltados para o vare-
jo, aprimorando a experiência de compra dos clientes. Desde então,
o Luizalabs evoluiu significativamente, tornando-se um dos maiores
hubs de inovação tecnológica do Brasil, focando não apenas no de-
senvolvimento de novas tecnologias para e-commerce, como também
na automação logística e na implementação de inteligência artificial
para personalização de ofertas e atendimento ao cliente.
Outro projeto de destaque é o Magalu Ads, uma platafor-
ma de Big Data lançada em 2021, que utiliza IA e análise avança-
da de dados para recomendar produtos de forma personalizada,
além de enviar ofertas e campanhas segmentadas por meio de
diversos canais, como e-mail, notificações por aplicativo e redes
sociais. Essa iniciativa substituiu o projeto Bob e se tornou uma
peça central na estratégia de marketing digital e Big Data do
Magazine Luiza.
31BIG DATA E CIÊNCIA DE DADOS
Amazon
A Amazon passou por uma expansão significativa ao longo
dos anos em seu modelo de negócios, que originalmente era focado
na venda on-line de livros. Atualmente, a empresa se transformou
em uma das maiores varejistas globais, oferecendo uma vasta gama
de bens físicos e virtuais, incluindo e-books, serviços de streaming de
vídeo, produtos eletrônicos, e até mesmo serviços de computação
em nuvem através do Amazon Web Services (AWS), que é líder no
mercado de cloud computing. A empresa também implementou o
Amazon Fresh e Amazon Prime Now, expandindo para o setor de
supermercados, oferecendo produtos frescos com entregas rápidas,
competindo diretamente com grandes redes varejistas (Marr, 2016).
Conforme Marr (2016), a Amazon utiliza Big Data para ali-
mentar seu sistema de recomendações, analisando dados sobre
o que os usuários compram, o que visualizam, os horários de na-
vegação, o endereço de entrega para determinar dados demo-
gráficos, além de registrar comentários e opiniões no site. Mais
recentemente, a Amazon tem aprimorado suas capacidades de
Big Data e inteligência artificial para personalizar ainda mais a ex-
periência do cliente, integrando também algoritmos de machine
learning para prever comportamentos de compra futuros e otimi-
zar a logística de entrega. Nos usuários do aplicativo para celular,
a empresa continua a coletar informações de localização pelo GPS
e dados sobre o uso de outros aplicativos, aprimorando suas ofer-
tas baseadas em localização e comportamentos específicos.
Nordstrom
A Nordstrom é uma empresa varejista de moda de luxo
dos Estados Unidos, reconhecida pela qualidade no atendimen-
to e serviço ao consumidor, além de seu merchandising de alto
nível. A marca implementou um projeto de Big Data, criando um
32 BIG DATA E CIÊNCIA DE DADOS
laboratório de inovação para gerar insights sobre as tendências
de comportamento de compra de seus clientes. Desde então, a
Nordstrom tem utilizado essas informações para personalizar a
experiência do cliente, recomendando produtos específicos e ofe-
recendo campanhas de marketing altamente segmentadas em
seus canais digitais e físicos.
Imagem 3.6 – Marketing
Fonte: Freepik.
Atualmente, a Nordstrom extrai dados de suas platafor-
mas de e-commerce, perfis em redes sociais e estatísticas de vendas
em lojas físicas. A empresa também aprimorou seu programa de
fidelidade, integrando dados de comportamento de compra on-li-
ne e off-line para criar uma experiência omnichannel personalizada,
cujos clientes recebem recomendações e ofertas específicas com
base em seus hábitos de compra. Além disso, continua monitoran-
do o comportamento dos consumidores por meio de wi-fi em suas
lojas físicas. Mais recentemente, a Nordstrom ampliou o uso de
inteligência artificial e machine learning para prever tendências de
compra, gerando recomendações ainda mais precisase otimizando
seus estoques em tempo real para melhor atender a demanda.
33BIG DATA E CIÊNCIA DE DADOS
E então? Gostou do que lhe mostramos? Agora, só
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos resu-
mir tudo o que vimos. Você deve ter aprendido co-
mo os produtos em abundância e as informações
dos clientes, assim como os registros de dados e a
massa de dados disponíveis, são usadas como so-
lução computacional de Big Data, em que se pode
agregar valor para os modelos de negócio. Vimos
ainda, no decorrer do capítulo, a importância e as
contribuições geradas pela utilização do Big Data,
como também a sua relação com BI e como estes
recursos se complementam. Além do exposto, des-
tacamos o perfil de comportamento do analista de
BI. Por fim, abordamos exemplos de empresas que
adotaram o Big Data para melhorar seus negócios
e atrair mais clientes.
34 BIG DATA E CIÊNCIA DE DADOS
Bancos de dados para Big Data
Ao término deste capítulo você será capaz de
entender como funciona o banco de dados que
trabalha com Big Data, a estrutura e as suas par-
ticularidades. Também iremos abordar sobre a
importância do banco de dados e demonstrar
exemplos de banco de dados aplicados em traba-
lhos que adotam Big Data. E então? Motivado para
desenvolver esta competência? Vamos lá!
Já estudamos e sabemos que a definição de Big Data trata
de conjuntos de dados, cujo tamanho e capacidade permitem cap-
turar, armazenar, gerenciar e analisar dados.
Imagem 3.7 – Banco de dados
Fonte: Freepik.
Conforme Amaral (2016), com as exigências de aplicações
mais robustas, surgiram necessidades de novos meios de geren-
ciamento de dados, por causa das aplicações que agregam gran-
des volumes de dados, como prontuário eletrônico, gestão de do-
cumentos, análises de séries temporais, entre outros.
35BIG DATA E CIÊNCIA DE DADOS
Antes, existia o modelo relacional que tinha foco em pri-
mar pela normalização, integridade e não redundância de dados,
porém a nova aplicação tem como prioridade maior escalabilida-
de, volume e processamento. Por conseguinte, é exigido outro
tipo de banco de dados para trabalhar com Big Data, justamente
devido aos diferentes tipos de dados, sejam estruturados, semies-
truturados e não estruturados. Com isto, nas próximas seções ire-
mos abordar sobre essas estruturas que surgiram para ajudar a
trabalhar com Big Data.
Banco NoSql
Diante da necessidade de estruturas de banco de dados ca-
pazes de lidar com o grande volume, variedade e velocidade dos da-
dos gerados pelo Big Data, surgiram novos modelos, como os bancos
de dados NoSQL, desenvolvidos para processar grandes quantida-
des de dados estruturados e não estruturados (Taurion, 2013).
O termo “NoSql” originou-se em 1998, porém iniciou-se,
de modo efetivo, em 2004, com a idealização do banco de dados
BigTable pela empresa Google. Logo, vieram outras iniciativas pela
empresa Amazon em 2007, e Facebook em 2008, pelos quais dis-
tribuíram, respectivamente, os BDs Dynamo e Cassandra. A partir
daí, surgiram diversas soluções em Banco de Dados NoSql.
É importante destacar ainda que este termo, NoSQL, não
implica especificamente que não se pode utilizar uma linguagem
declarativa para consultar dados em um gerenciador NoSQL, po-
rém significa que são bancos de dados que não estão somente
com base no modelo relacional.
Nos bancos de dados NoSQL, as tabelas são conhecidas
como tabelas de hash distribuídas. Nelas, os objetos armazena-
dos são indexados por chaves, permitindo que sejam localizados a
partir dessas chaves. Diferente dos bancos de dados estruturados,
36 BIG DATA E CIÊNCIA DE DADOS
os bancos NoSQL são projetados para escalar horizontalmente,
o que significa que a indexação é realizada por meio de clusters
distribuídos em hardware de baixo custo.
Leia sobre as diferenças de NoSQL no artigo “O que
é NoSQL?”. Você poderá ter uma explanação geral
sobre NoSQL e a diferença com um banco de da-
dos relacional. Acesse o QR Code.
Podemos ressaltar também que os bancos de dados
NoSQL trabalham usando uma variedade de modelos de dados
para acessar e gerenciar os dados. De modo geral, esses bancos
são aperfeiçoados designadamente para aplicativos que exigem
modelos de grande volume de dados, menor latência e flexibilida-
de. Essas condições são consentidas mediante a flexibilização de
algumas restrições de consistência de dados dos outros bancos.
Características dos bancos de dados
NoSQL
Considerando que existem diversos bancos de dados
NoSQL, cada um projetado para resolver problemas específicos, a
maioria deles compartilha características comuns que os definem
como bancos de dados NoSQL. Essas características estão descri-
tas a seguir, conforme detalhado:
• Alta escalabilidade;
• Alta performance;
https://aws.amazon.com/pt/nosql/
37BIG DATA E CIÊNCIA DE DADOS
• Alta disponibilidade;
• Processamento distribuído;
• Ausência de esquema;
• Manter a replicação de dados;
• Trabalha com armazenamento de dados estrutura-
dos e não estruturados;
• Contém um API simples para acesso aos dados;
• Maior flexibilidade às propriedades ACID
(Atomicidade, Consistência, Isolamento e
Durabilidade);
• Não suportam a linguagem SQL;
• São produtos novos.
Após a descrição desse banco de dados, na próxima seção
vamos abordar sobre os tipos de bancos de dados NoSQL.
Tipos de banco de dados NoSQL
Segundo Amaral (2016), existem diversas famílias de pro-
dutos NoSQL, com cada uma delas partilhando um mesmo conjun-
to de padrão de armazenamento. A seguir, temos a descrição de
modo geral de cada um desses tipos:
• Chave-valor - os BDs, com base neste modelo, utili-
zam o conceito de uma chave e um valor conhecido,
como uma tabela hash constituída dos registros e ga-
rantindo que não ocorra redundância. Esse modelo
mais tradicional ao invés de conter uma tabela com
um número fixo de colunas tipadas, trabalha com o
termo chave-valor, ou KVS, acrônimo para Key-Value
Store, de modo que, em vez de conter um conjunto
38 BIG DATA E CIÊNCIA DE DADOS
de atributos, a operação adiciona informações nos
bancos somente com a chave e um valor. Algumas
implementações do tipo KVS são Couchbase, Kyoto
Cabinet, Redis e DynamoDB da Amazon.
• Banco de dados orientado a documentos - o mode-
lo armazena chave e valor, porém são organizados em
conjuntos, permitindo o armazenamento de estrutu-
ras como um arquivo JSON. São exemplos de imple-
mentações deste modelo o MongoDB e o CouchDB,
com este último também da função Apache.
• Banco de dados orientado a grafos - esse mo-
delo utiliza a estrutura de grafos para armazenar
informações, classificando-as como entidades e es-
tabelecendo suas relações por meio das conexões
entre os elementos do grafo. É um modelo flexí-
vel, escalável em várias máquinas, e amplamente
aplicado em áreas como medicina, genética, eco-
nomia e matemática. Exemplos incluem o Neo4j e
o FlockDB, que são projetados para armazenar e
operar de forma otimizada sobre grafos.
Os bancos de dados NoSQL foram criados para
resolver desafios enfrentados por aplicações que
operam de forma distribuída e lidam com grandes
volumes de dados. No entanto, é importante des-
tacar que o NoSQL não foi projetado para subs-
tituir os bancos de dados relacionais, mas para
abordar questões relacionadas à escalabilidade e à
disponibilidade dos servidores de banco de dados
para essas aplicações.
Portanto, o NoSql é uma opção alternativa ao modelo re-
lacional para atender determinados escopos, nos quais os bancos
de dados relacionais apresentam lacunas.
39BIG DATA E CIÊNCIA DE DADOS
Principais mecanismos de banco
de dados NoSQL
Diante do exposto, podemos destacar alguns dos prin-
cipais mecanismos de banco de dados NoSQL como MongoDB,
Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j, dessa for-
ma, nas próximas seções serão apresentadas as características e
funções de cada um.
Cassandra
O Apache Cassandra é um bancode dados NoSQL open
source escalável, adotado para gerenciar dados estruturados, se-
miestruturados e não estruturados sobre múltiplos meios de da-
dos e na nuvem.
O Cassandra possui características que garantem alta dis-
ponibilidade contínua, escalabilidade linear e operação simplifica-
da em múltiplos servidores, sem um único ponto de falha. Sua ar-
quitetura masterless em formato de anel elimina a necessidade de
um nó principal, funcionando de forma integrada com um modelo
de dados dinâmico, projetado para oferecer maior flexibilidade e
respostas rápidas.
O Cassandra é um banco de dados descentralizado, distri-
buído e orientado a colunas, projetado para operar em clusters e
oferecer acesso de baixa latência aos clientes. Uma das vantagens
de sua arquitetura orientada a colunas é a facilidade em realizar
determinados tipos de consultas, além de possibilitar maior velo-
cidade ao armazenar dados esperados de forma contínua em uma
única linha. Vale ressaltar que grandes empresas, como Facebook,
Twitter e Digg utilizam o Cassandra.
40 BIG DATA E CIÊNCIA DE DADOS
MongoDB
O MongoDB tem o foco em determinar modelos de dados
apropriados para sua aplicação, contudo, as técnicas utilizadas
são muito variadas daquelas consideradas nos bancos de dados
relacionais. Isso se deve por se atentar com os dados que são ex-
traídos do banco diferente dos bancos de dados tradicionais no
escopo relacional.
No MongoDB, os dados não são tratados como registros,
mas como documentos no formato JSON, organizados em cole-
ções. Ele oferece os recursos necessários para ambientes de pro-
dução, incluindo balanceamento de carga, replicação, indexação,
consultas e a capacidade de operar como um sistema de arquivos
com tolerância a falhas. Além disso, uma característica fundamen-
tal do MongoDB é sua escalabilidade, projetada para lidar com
grandes volumes de dados.
De acordo com Queiroz et al. (2013), o MongoDB utiliza co-
leções de documentos que se assemelham ao conceito de tabelas
e linhas das tecnologias relacionais, com a diferença de que os
documentos não precisam seguir o mesmo esquema. O MongoDB
é utilizado por plataformas como Foursquare e SourceForge.
Redis
O Redis tem uma implementação key-value store, a qual
trata de ser um paradigma que atribui valores às chaves para faci-
litar a entrada e o armazenamento desses valores. Esta tecnologia
suporta seus pares de valores-chave na memória, permitindo seu
acesso rápido.
Ao longo do tempo, muitas APIs foram elaboradas para
uma variedade maior de linguagens de programação, tornando
41BIG DATA E CIÊNCIA DE DADOS
o Redis uma boa opção para desenvolvedores. Dessa forma, te-
mos o Remote Dictionary Server (Redis) como um banco de dados
NoSQL do tipo chave-valor e que armazena os dados em memória.
É importante destacar também que os comandos são atômicos,
de modo que a ordem de execução das operações é a mesma or-
dem das chamadas.
Outras características incluem a capacidade de criar cha-
ves e definir seu tempo de existência, permitindo configurar a ex-
clusão automática após um período determinado. Um exemplo
prático disso é seu uso em sessões de usuário e carrinhos de com-
pras. Além disso, vale destacar que todas as consultas são realiza-
das por meio das chaves, que retornam um valor, e as redundân-
cias de dados não representam um problema significativo.
HBase
O HBase é um banco de dados orientado à coluna, distri-
buído em implementação gratuita e aberta do BigTable do Google.
Este tem a característica de facilitar e encontrar de modo eficiente
os dados dispersos e distribuídos, sendo um dos seus pontos for-
tes. O HBase possui uma série de implementações em empresas
como LinkedIn, Facebook e Spotify.
Podemos destacar que muitos projetos relacionados do
Apache oferecem suporte ao HBase, fornecendo uma camada SQL
para acesso a dados, o que ajuda os administradores de banco de
dados relacionais que buscam implementar uma solução NoSQL e
como existe um número grande de instalações Hadoop, o HBase é
uma importante solução de armazenamento NoSQL.
42 BIG DATA E CIÊNCIA DE DADOS
Amazon DynamoDB
O Amazon DynamoDB é um serviço do banco de dados
NoSQL em nuvem disponibilizado pela Amazon Web Service (AWS).
O DynamoDB é muito veloz e flexível para todas as aplicações que
precisam de latência constante abaixo de 10 milissegundos em
qualquer escala.
O serviço deste banco de dados em nuvem é todo geren-
ciável e compatível com os modelos de armazenamento de do-
cumentos e de chave-valor, propiciando dados flexíveis, desem-
penho confiável e a escalabilidade automática da capacidade de
throughput, fazendo desse serviço uma opção apropriada para
aplicações móveis, web, jogos, tecnologia de anúncios e internet
das coisas (IoT), por exemplo.
Merece destaque algumas empresas como Lyft, Airbnb e
Redfin, bem como Samsung, Toyota, e Capital One, que dependem
da escala e da atuação do DynamoDB para comportar seus volu-
mes de trabalho.
Neo4j
O Neo4j é o sistema de gerenciamento de banco de dados
com base em grafos (ou Graph Database), sendo o sistema mais co-
nhecido e usado atualmente desta categoria. Esse Graph Database
é estruturado com forma de grafo, de modo que as arestas atuam
como relacionamentos entre os vértices, relacionando diretamen-
te com as instâncias de dados umas com as outras. Este também
possui uma implementação de código aberto, em que os dados
no Neo4j podem ser acessados e atualizados por meio da Cypher
Query Language, uma linguagem semelhante à linguagem SQL.
Podemos apresentar que uma das vantagens de banco é,
em alguns casos de uso, como cenários de mineração de dados e
http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/
43BIG DATA E CIÊNCIA DE DADOS
reconhecimento de padrões, as associações entre instâncias de
dados serem explicitamente declaradas.
E então? Gostou do que lhe mostramos? Agora, só
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos
resumir tudo o que vimos. Você deve ter aprendi-
do que, com o aumento da produção de dados e
os avanços das aplicações, surgiu a necessidade
de bancos de dados capazes de lidar com tipos
de dados que os bancos relacionais não conse-
guem gerenciar. Nesse contexto, discutimos o sur-
gimento dos bancos de dados da família NoSQL,
que utilizam uma variedade de modelos de dados
para acessar e gerenciar informações. De maneira
geral, esses bancos são especialmente projetados
para aplicativos que demandam grandes volumes
de dados, menor latência e maior flexibilidade.
Também exploramos os princípios, características
e tipos de bancos NoSQL, como os baseados em
chave-valor, documentos e grafos. Por fim, vimos
exemplos práticos e características de bancos de
dados adotados por empresas de sucesso.
44 BIG DATA E CIÊNCIA DE DADOS
Recuperação de informações
Ao término deste capítulo você será capaz de
entender como funciona a recuperação de infor-
mação, utilizando as soluções de Big Data e Data
Science como outros recursos computacionais que
surgiram. E então? Motivado para desenvolver esta
competência? Vamos lá!
Atualmente, as áreas de gestão, recuperação da informa-
ção e apoio à decisão estão sendo provocadas devido ao volu-
me, variedade e velocidade de uma grande massa de dados de
diversos tipos, semiestruturados e não estruturados, de origem
complexa que precisam ser buscados e analisados quanto ao seu
valor e veracidade, que também é disponibilizado às organizações
como grandes oportunidades de terem um conhecimento profun-
do e mais preciso de seus negócios.
Imagem 3.8 – Recuperar informações
Fonte: Freepik.
Com isto, temos a recuperação da informação se tornando
o centro de muitas pesquisas por conta da grande quantidade de
informações que, atualmente, se encontram espalhadas pela rede.
45BIG DATA E CIÊNCIA DE DADOS
A recuperação da informação lida com a representação,
armazenamento, organização e acesso às informações,buscando
fornecer ao usuário exatamente o que ele precisa de maneira sim-
plificada. Trata-se do processo de localizar documentos e itens de
informação armazenados, com o objetivo de facilitar o acesso dos
usuários aos componentes e objetos solicitados.
É importante que você entenda que o processo de
recuperação da informação visa buscar um con-
junto de documentos de um sistema, os quais são
os que suprem as necessidades informacionais do
usuário. Deste modo, o usuário não está interes-
sado em recuperar dados, nem achar documentos
que atendam sua expressão de busca, contudo,
deseja encontrar a informação sobre um determi-
nado assunto.
O processamento da informação se torna mais eficiente se
o armazenamento tiver ocorrido com melhor qualidade e os produ-
tos resultantes deste processamento forem apresentados na lingua-
gem apropriada ao usuário. Os autores ainda afirmam que a aten-
ção com o ruído, redundância, canal de comunicação e codificação
têm impactos positivos na etapa de interrogação e busca, devido ao
sistema estar organizado e livre de informações desnecessárias ou
distorcidas, contribuindo com a recuperação da informação.
Segundo a Associação Nacional de Pesquisa e Pós-
-Graduação em Ciência da Informação, os suces-
sivos avanços das tecnologias da informação têm
favorecido novos modos de acessar, recuperar,
armazenar, gerir e interagir com a informação.
Assim, os objetos tradicionais para apresentar a
informação já não são satisfatórios, bem como os
ambientes de interação com a informação têm es-
tado em transformação, tal como o comportamen-
to das pessoas.
46 BIG DATA E CIÊNCIA DE DADOS
Big Data e a recuperação da
informação
Como já vimos, em ambientes de Big Data, o uso de bancos
de dados relacionais não é apropriado para a persistência, proces-
samento e recuperação dos dados em ambientes escaláveis e com
diferentes tipos de dados.
Estudamos que, para tentar resolver este quesito da per-
sistência da informação, foram originados novos conceitos nas
tecnologias de banco de dados, como o NoSQL (Not Only SQL).
Esses bancos vieram para representar soluções viáveis ao
modelo relacional, proporcionando maior escalabilidade e veloci-
dade no armazenamento dos dados.
Define-se Big Data como grande volume, velocidade e/ou
alta variedade de informações que necessitam de novas formas
de processamento para permitir a melhor tomada de decisão,
nova descoberta do conhecimento e otimização de processos.
Assim, no processo de busca da informação em cenários
da Inteligência Competitiva e Big Data, são utilizados robôs de ex-
tração de dados na Internet, esses são sistemas que coletam os
dados da web e montam uma base de dados, que é processada
para aumentar a rapidez na recuperação de informação.
A extração de informações importantes pode classificar
uma página seguindo um contexto de domínio e recuperar infor-
mações, estruturando-as e armazenando-as em bases de dados.
Com o propósito de adicionar significado aos conteú-
dos buscados em domínio específico, associam-se aos robôs
de busca na web conceitos semânticos que permitem realizar a
procura, não mais por palavras-chave num processo de busca
47BIG DATA E CIÊNCIA DE DADOS
textual, mas por significado e valor, extraindo das páginas e ser-
viços da web informações de real relevância, descartando aquilo
que é desnecessário.
Imagem 3.9 – Busca da informação
Fonte: Freepik.
A partir disso, a ontologia aparece como solução na busca
de inserir semântica neste processo. Veja a seguir um pouco mais
sobre ontologia.
Ontologia
Na busca por realizar a coleta de dados referente a um
escopo determinado de conhecimento, surge o termo ontologia.
Aplicada à ciência da computação e à informática, a ontologia
é uma estrutura de dados utilizada para representar um con-
junto de termos e suas relações em uma determinada área do
conhecimento ou domínio. Nos últimos anos, o uso de ontolo-
gias tem sido cada vez mais fundamental em sistemas de inte-
ligência artificial, aprendizado de máquina e na Web Semântica,
facilitando a comunicação entre humanos e máquinas, além de
permitir que os sistemas entendam o contexto e o significado
dos dados processados.
48 BIG DATA E CIÊNCIA DE DADOS
A ontologia, tradicionalmente definida como o estudo do
ser e de seus relacionamentos, passou a ser amplamente utilizada
na ciência da computação e na ciência da informação para supor-
tar o desenvolvimento de sistemas de busca semântica, processa-
mento de linguagem natural (PLN), e a extração de dados relevan-
tes de grandes volumes de informações. Hoje, as ontologias são
componentes-chave em sistemas de conhecimento e são aplica-
das em áreas como a Internet das Coisas (IoT), redes inteligentes
e até mesmo na robótica para melhorar a descoberta e integração
de informações complexas e em tempo real, com maior precisão.
A ciência da computação utiliza a ontologia quando se tra-
ta da obtenção de conhecimentos a partir de dados semiestrutu-
rados, aplicando técnicas e métodos para processar essas infor-
mações. Atualmente, esse uso foi expandido para lidar com dados
não estruturados, como imagens e vídeos, e tem sido fundamental
no desenvolvimento de assistentes virtuais inteligentes e sistemas
autônomos, que precisam interpretar e reagir ao ambiente com
base em conhecimentos representados ontologicamente.
Data Warehouse
Um Data Warehouse é um conjunto de dados orientado a
assuntos integrados, não voláteis, com variações no tempo e da-
dos corporativos granulares, que permitem dar suporte às deci-
sões da gestão. Nos últimos anos, os Data Warehouses evoluíram
para armazenar volumes ainda maiores de dados, integrando-se
com tecnologias como o Big Data e plataformas de computação
em nuvem para aumentar a escalabilidade e a acessibilidade.
Isso implica que um Data Warehouse está orientado para
as principais áreas de uma organização e é suportado por múltiplas
fontes de dados, em que os dados são transformados, formata-
dos, reorganizados e integrados. Além disso, uma vez armazenada
49BIG DATA E CIÊNCIA DE DADOS
a informação, ela não se perde, sendo mantido um histórico de
dados. Atualmente, tecnologias como o Amazon Redshift, Google
BigQuery e Snowflake têm permitido que Data Warehouses se tor-
nem mais dinâmicos e adaptáveis, com capacidades de processa-
mento em tempo real e análises mais avançadas. Essas soluções
em nuvem permitem que empresas façam consultas e análises em
dados massivos sem comprometer a performance, otimizando a
tomada de decisões em tempo real.
O Data Warehouse é uma variante no tempo que implica
um avanço dos dados ao longo do tempo, como também é dife-
rente de uma base de dados operacional. Enquanto estas últimas
são transacionais, os Data Warehouses têm as características par-
ticulares de estarem direcionados a aplicações de apoio à decisão
e de serem otimizados para a recuperação de dados e não para o
processamento de transações rotineiras.
Apache Lucene
A tecnologia Apache Lucene é considerada uma bibliote-
ca de software livre para indexação e recuperação de informações
que em sua elaboração foi escrita em Java. Essa foi desenvolvida
por Doug Cuttingol no ano 2000, foi aperfeiçoada e, logo após,
incorporada à Fundação Apache.
Lucene concede um nível adequado de abstração para um
conjunto robusto de técnicas fundamentadas no modelo Vetorial
e Booleano. A biblioteca Lucene é formada por duas partes: inde-
xação e pesquisa, com base em palavra-chave, o algoritmo pro-
cessa os dados gerando um formato que possibilita a realização
de consultas.
Por conseguinte, temos que Lucene é utilizado para indexar
e pesquisar dados em páginas de web, documentos armazenados
50 BIG DATA E CIÊNCIA DE DADOS
em sistemas locais de arquivo, arquivos de texto simples, HTML
ou qualquer outro formato por meio do qual é possível coletar
informações textuais.
Entretanto, é importante que você saiba que para
pesquisar grandes quantidades de texto de modorápido em um primeiro momento, de acordo com
Andrade (2010), Lucene indexa o texto e o trans-
forma em um formato que o permite deixá-lo mais
veloz na busca.
Este processo é chamado de indexação e sua saída é deno-
minada de índice. Logo, a busca ou pesquisa se trata do processo
de buscar palavras em um índice para encontrar documentos em
que elas aparecem.
Já existem fundamentalmente duas funcionalidades im-
portantes: o processo de indexação, acessível por meio do co-
mando indexer, e o processo de busca, disponível por meio do
comando searcher.
A seguir, a descrição das duas etapas:
• Indexação - usa em seu índice a estrutura de da-
dos denominada de índice invertido, em que cada
conceito acrescentado possui uma referência para
o arquivo que o contém.
• Busca - no Lucene, para cada documento atual no
resultado de alguma busca, é aplicada uma pon-
tuação que representa a semelhança de tal docu-
mento com a consulta. O cálculo dessa pontuação
é feito baseando-se no modelo de recuperação de
informação escolhido.
51BIG DATA E CIÊNCIA DE DADOS
Imagem 3.10 – Indexar e buscar documento
Fonte: Freepik.
A biblioteca Lucene suporta os seguintes modelos:
• Modelo Booleano;
• Modelo Espaço Vetorial;
• Modelo Probabilístico;
• Modelo com base em linguagem natural.
Todavia, é bom destacar que por padrão, a busca no Lucene
acontece por meio da combinação de duas técnicas de recuperação
de informação: Modelo Espaço Vetorial e Modelo Booleano.
Contudo, uma vantagem para o programador é que não
precisa implementar algoritmos de busca e classificação, pois a
biblioteca Lucene tem mecanismos para calcular a pontuação de
cada documento que seja referente a uma consulta e retornar do-
cumentos relevantes conforme com essas pontuações.
52 BIG DATA E CIÊNCIA DE DADOS
Para saber mais sobre o assunto, leia o artigo “Apa-
che Lucene”, de Arthur de Lima, Jefferson José da
Silva e Vagner Messias da Costa Junior. Acesse o
QR Code.
E então? Gostou do que lhe mostramos? Agora, só
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos re-
sumir tudo o que vimos. Você deve ter aprendido
sobre recuperação de informação, fazendo uma
abordagem no contexto geral sobre o que ela trata
e passando sobre seu processo. Vimos que a re-
cuperação da informação trata da representação,
do armazenamento, da organização e do acesso
às informações. Assim, abordamos ainda sua im-
portância para a tomada de decisão e mostramos
como é relacionada à ciência de dados e da infor-
mação, de modo que explanamos como o Big Data,
Data Warehouse e ontologias estão relacionadas a
este processo. Por fim, foi apresentada a biblioteca
Apache que trabalha no processo de recuperação
de informação, o Lucene.
https://www-di.inf.puc-rio.br/~casanova/Disciplinas/INF1331/Slides/26-Demo_%20Apache%20Lucene%20(Arthur%20Ozorio,%20Jefferson%20Silva,%20e%20Vagner%20Costa%20Junior).pdf
53BIG DATA E CIÊNCIA DE DADOS
AMARAL, F. Introdução à Ciência de Dados: mineração de dados
e Big Data. Rio de Janeiro: ALTA Books, 2016.
ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de
documentos. 2011. Monografia (Graduação em Ciência da
Computação). Universidade Gama Filho. Piedade. 2011.
APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível
em: https://www.tutorialspoint.com/apache_spark/apache_spark_
introduction.htm. Acesso em: 01 jun. 2020.
ARAÚJO, H. Precisão no processo de busca e recuperação da
informação. Brasília: Thesaurus, 2007.
DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em:
https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020.
MARR, B. Big Data in Practice. West Sussex: Wiley, 2016.
QUEIROZ, R. et al. Geographic Databases and NoSQL.
Accomlishments and future directions. Revista Brasileira de
Cartografia, p. 479-492, 2013.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013.
RE
FE
RÊ
N
CI
A
S
Processamento de grandes volumes de dados
Produção de dados
Armazenamento
Framework para processamento de dados
Hadoop
Spark
Storm
Inteligência de negócio para Big Data
Big Data e sua importância no mercado de negócio
Inteligência de negócio para
Big Data
Perfil comportamental do profissional de análise de inteligência de negócios
Big Data aplicado no mercado
Magazine Luiza
Amazon
Nordstrom
Bancos de dados para Big Data
Banco NoSql
Características dos bancos de dados NoSQL
Tipos de banco de dados NoSQL
Principais mecanismos de banco de dados NoSQL
Cassandra
MongoDB
Redis
HBase
Amazon DynamoDB
Neo4j
Recuperação de informações
Big Data e a recuperação da informação
Ontologia
Data Warehouse
Apache Lucene

3 1 Ebook - 1

ESTÁCIO

Ferramentas de estudo

Conteúdos escolhidos para você

Slide da Unidade - A Estrutura e Organização do Big Data

Plataformas de Big Data e Nossa História

Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

Big Data e Ciência de Dados - Unidade 1 - Intrudução ao Big Data

Big Data e o apoio à decisão

Perguntas dessa disciplina

Nesta atividade, você é convidado a verificar como a disciplina em questão pode contribuir para a sua experiência e formação profissional. Por esse...

3) Analise as afirmações a seguir, julgando-as verdadeiras (V) e falsas (F), em seguida, assinale a proposição correta. ( ) 0 Big Data corresponde à g

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O Big Data surge com O advento do desenvolvimento crescente da tecnologia, incentivando O uso dos demais sistemas de gestão de dados e informações. Co

Nas últimas décadas, bilhões de pessoas se conectaram ao mundo digital. Dados recentes da União Internacional de Telecomunicações (UIT) mostram que...

Conteúdos escolhidos para você

Slide da Unidade - A Estrutura e Organização do Big Data

Plataformas de Big Data e Nossa História

Big Data e Ciência de Dados - Unidade 3 - Estrutura e Organização do Big Data

Big Data e Ciência de Dados - Unidade 1 - Intrudução ao Big Data

Big Data e o apoio à decisão

Perguntas dessa disciplina

Nesta atividade, você é convidado a verificar como a disciplina em questão pode contribuir para a sua experiência e formação profissional. Por esse...

3) Analise as afirmações a seguir, julgando-as verdadeiras (V) e falsas (F), em seguida, assinale a proposição correta. ( ) 0 Big Data corresponde à g

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O Big Data surge com O advento do desenvolvimento crescente da tecnologia, incentivando O uso dos demais sistemas de gestão de dados e informações. Co

Nas últimas décadas, bilhões de pessoas se conectaram ao mundo digital. Dados recentes da União Internacional de Telecomunicações (UIT) mostram que...

Mais conteúdos dessa disciplina