Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

BIG DATA E CIÊNCIA 
DE DADOS
A estrutura e organização do 
Big Data
CEO 
DAVID LIRA STEPHEN BARROS
Gerente de Produção Editorial 
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico 
RAMONIQUE DESIRRE
TIAGO DA ROCHA
Autoria 
JÉSSICA LAISA DIAS DA SILVA E ALAN DE OLIVEIRA SANTANA
4 BIG DATA E CIÊNCIA DE DADOS
A
U
TO
RI
A
Jéssica Laisa Dias da Silva 
Olá. Sou graduada em Sistemas da Informação pela 
Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em 
Sistema e Computação pela Universidade Federal de Rio Grande 
do Norte (UFRN). Atualmente, sou doutoranda em Sistema e 
Computação pela UFRN e professora conteudista na elaboração 
de cadernos.
Alan de Oliveira Santana 
Olá. Sou graduado em Ciência da Computação pela 
Universidade do Estado do Rio Grande do Norte (UERN) e mes-
tre em Sistemas da Computação pela Universidade Federal do Rio 
Grande do Norte (UFRN). Atualmente, sou professor conteudista, 
elaborador de cadernos de questões e doutorando em Ciências 
da Computação. Como cientista, atuo no desenvolvimento e ava-
liação de técnicas de desenvolvimento de sistemas com ênfase 
na educação.
Desse modo, fomos convidados pela Editora Telesapiens 
a integrar seu elenco de autores independentes. Estamos muito 
satisfeitos com o convite e a possibilidade de auxiliar em seu de-
senvolvimento intelectual e profissional. Bons estudos!
5BIG DATA E CIÊNCIA DE DADOS
ÍC
O
N
ES
Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
No início do 
desenvolvimento 
de uma nova 
competência.
DEFINIÇÃO
Caso haja a 
necessidade de 
apresentar um novo 
conceito.
NOTA
Quando são 
necessárias 
observações ou 
complementações.
IMPORTANTE
Se as observações 
escritas tiverem que 
ser priorizadas.
EXPLICANDO 
MELHOR
Se algo precisar ser 
melhor explicado ou 
detalhado.
VOCÊ SABIA?
Se existirem 
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo.
SAIBA MAIS
Existência de 
textos, referências 
bibliográficas e links 
para aprofundar seu 
conhecimento.
ACESSE
Se for preciso acessar 
sites para fazer 
downloads, assistir 
vídeos, ler textos ou 
ouvir podcasts. 
REFLITA
Se houver a 
necessidade de 
chamar a atenção 
sobre algo a 
ser refletido ou 
discutido.
RESUMINDO
Quando for preciso 
fazer um resumo 
cumulativo das últimas 
abordagens.
ATIVIDADES
Quando alguma 
atividade de 
autoaprendizagem 
for aplicada.
TESTANDO
Quando uma 
competência é 
concluída e questões 
são explicadas.
6 BIG DATA E CIÊNCIA DE DADOS
Processamento de grandes volumes de dados .................... 10
Produção de dados ..........................................................................................12
Armazenamento ...............................................................................................14
Framework para processamento de dados .................................................. 16
Hadoop .................................................................................................18
Spark ......................................................................................................19
Storm .....................................................................................................20
Inteligência de negócio para Big Data ................................... 22
Big Data e sua importância no mercado de negócio .................................. 22
Inteligência de negócio para Big Data ........................................................... 26
Perfil comportamental do profissional de análise de inteligência 
de negócios ..........................................................................................29
Big Data aplicado no mercado ........................................................................30
Magazine Luiza ....................................................................................30
Amazon .................................................................................................31
Nordstrom ............................................................................................31
Bancos de dados para Big Data .............................................. 34
Banco NoSql .......................................................................................................35
Características dos bancos de dados NoSQL ................................ 36
Tipos de banco de dados NoSQL ..................................................... 37
Principais mecanismos de banco de dados NoSQL .................................... 39
Cassandra .............................................................................................39
MongoDB ..............................................................................................40
Redis ......................................................................................................40
HBase ....................................................................................................41
SU
M
Á
RI
O
7BIG DATA E CIÊNCIA DE DADOS
Amazon DynamoDB ...........................................................................42
Neo4j .....................................................................................................42
Recuperação de informações ................................................. 44
Big Data e a recuperação da informação ....................................... 46
Ontologia .............................................................................................47
Data Warehouse ..................................................................................48
Apache Lucene ...................................................................................................49
8 BIG DATA E CIÊNCIA DE DADOS
A
PR
ES
EN
TA
ÇÃ
O
Estudamos, anteriormente, como a quantidade de dados é 
grande hoje e como é importante a utilização de soluções compu-
tacionais como Big Data e ciência de dados. Assim, nesta unidade 
vamos nos deter a estudar como processar grandes massas de 
dados. Abordaremos sobre ferramentas e recursos importantes 
que ajudam a processar a enorme quantidade de informação.
Veremos ainda sobre inteligência de negócio e como a uti-
lização de Big Data pode favorecer neste ambiente. Além disso, 
entenderemos o tipo de banco de dados adotado em aplicações 
de Big Data, bem como a sua estrutura e tecnologias envolvidas.
Estudaremos ainda, nesta unidade, sobre o banco de dado 
utilizado em aplicações em Big Data, como também a estrutura e 
as particularidades destes. Também iremos abordar sobre a im-
portância do banco de dados e apresentar exemplos de banco de 
dados aplicados em trabalhos que adotam Big Data.
Por fim, abordaremos sobre a recuperação de informação 
utilizando as soluções de Big Data e Data Science como outros re-
cursos computacionais que surgiram.
9BIG DATA E CIÊNCIA DE DADOS
O
BJ
ET
IV
O
SOlá. Seja muito bem-vindo! Nosso objetivo é auxiliar você 
no desenvolvimento das seguintes competências profissionais até 
o término desta etapa de estudos:
1. Conhecer o processamento de grandes volumes de 
dados.
2. Entender a inteligência de negócio para Big Data.
3. Conhecer os bancos de dados para Big Data.
4. Conhecer o processo de recuperação de informação.
Então? Preparado para adquirir conhecimento sobre um 
assunto fascinante e inovador como esse? Vamos lá!
10 BIG DATA E CIÊNCIA DE DADOS
Processamento de grandes 
volumes de dados 
Ao término deste capítulo, você será capaz de sa-
ber como funciona o processamento de grande vo-
lume de dados a partir da explanação de como os 
grandes volumes de dados são produzidos e arma-
zenados. Logo após, exploraremos os frameworks 
que realizam este processamento. E então? Moti-
vado para desenvolver esta competência? Então, 
vamos lá!
É importante relembrar que o Big Data está relacionado e 
aplicado à análise, ao processamento e armazenamento de grandes 
volumes de dados e que as suas soluções computacionais e seus 
métodos são usualmente precisos quandoas tecnologias e técnicas 
clássicas já não são suficientes para a execução destas atividades.
Ainda sobre o conceito de Big Data que já estudamos, preci-
samos recordar também as características dos “Vs” que o compõe, 
representado por esta fórmula apresentada por (Taurion, 2013):
Big Data = volume + variedade + velocidade + veracidade 
gerando + valor
Deste modo, o volume representa a quantidade de peta-
bytes de dados produzidas a cada dia, a qual se estima que esse 
volume dobre a cada dezoito meses. 
Segundo Taurion (2013), cada um desses Vs, conforme 
apresentado a seguir, está relacionado com a produção de dados:
 • Variedade: caracteriza os dados oriundos de siste-
mas estruturados e não estruturados, originados por 
e-mails, redes sociais como Facebook, Twitter, YouTube, 
entre outras, documentos eletrônicos, apresentações 
11BIG DATA E CIÊNCIA DE DADOS
estilo Powerpoint, mensagens instantâneas, sensores, 
etiquetas RFID, câmeras de vídeo, entre outros. 
Imagem 3.1 – Redes sociais 
Fonte: Freepik.
 • Velocidade: característica relacionada às práticas 
em tempo real sobre o grande volume de dados. 
A velocidade representa um critério que se torna 
muito importante por causa da crescente agilidade 
com que as empresas precisam reagir às modifica-
ções no cenário de negócios, bem como a necessi-
dade de dados em tempo real, interferindo na exe-
cução do próprio processo de negócios.
 • Veracidade: essa característica implica em garantir 
a integridade dos dados, verificando se fazem sen-
tido e são autênticos (Taurion, 2013). 
 • Valor: representando a junção das demais caracte-
rísticas (Taurion, 2013).
Podemos citar ainda que, em 2022, a IDC (International 
Data Corporation) estimou que o volume global de dados gera-
dos atingirá 175 zettabytes até 2025, refletindo um crescimento 
exponencial em comparação aos anos anteriores. O conceito de 
Big Data continua a se referir a conjuntos de dados com volumes 
massivos, variedade e velocidade que ultrapassam a capacida-
de de sistemas tradicionais de gerenciamento e processamento. 
12 BIG DATA E CIÊNCIA DE DADOS
Atualmente, com o uso de ferramentas mais avançadas, como 
Hadoop, Spark, e soluções baseadas em inteligência artificial e 
machine learning, as empresas estão cada vez mais preparadas 
para processar e analisar esses dados em tempo real, gerando 
insights valiosos para a tomada de decisão.
Dessa forma, a partir desta revisão, entendemos que o Big 
Data é justamente uma solução computacional que trabalha como 
esses grandes volumes de dados. Na próxima sessão, teremos a 
explanação de onde vem todos esses dados.
Produção de dados 
A produção de dados continua a crescer exponencialmen-
te. De acordo com um estudo da International Data Corporation 
(IDC), o volume global de dados digitais gerados atingiu 64.2 zet-
tabytes em 2020 e deve chegar a 175 zettabytes até 2025. Esse 
crescimento acelerado é impulsionado pelo aumento no uso de 
dispositivos conectados à Internet, Internet das Coisas (IoT), inteli-
gência artificial, e o crescente uso de serviços em nuvem. A expec-
tativa é que, em 2025, mais de 75% da população mundial interaja 
diariamente com dados, e grande parte desses dados seja gerada 
e processada em tempo real (IDC, 2021).
Imagem 3.2 – Escala de dados
Fonte: Elaborada pela autoria (2020).
13BIG DATA E CIÊNCIA DE DADOS
Amaral (2016) entende que a produção de dados não está 
somente relacionada pela entrada de algum dispositivo, mas tam-
bém pela análise ou para execução de procedimentos operacio-
nais, podendo ser responsáveis por produzir volumes significati-
vos de dados. 
Ainda abordando sobre os grandes volumes de dados, vale 
ressaltar que estes são processados pelas soluções de Big Data, o 
qual crescem e atribuem exigências diferentes de armazenamen-
to e processamento, expondo um grande desafio às organizações 
de TI clássicas, visto como os grandes volumes de dados, neces-
sitam de armazenamento escalonável e um enfoque distribuído 
para permitir a consulta deles.
Os dados estão sendo produzidos cada vez mais e vem de 
todas as partes. Segundo Amaral (2016), dados podem ser com-
prados, produzidos ou simplesmente coletados. Segue a descrição 
de cada um dos tipos de dados:
 • Dados comprados - podem derivar de empresas es-
pecializadas em vender dados, conhecidas como “data 
brokers”. Os data brokers permitem o entendimento de 
como se dá a coleta de informações sobre os consumi-
dores de diferentes e abundantes fontes comerciais.
 • Dados produzidos - são originados por sistemas 
transacionais, operações de processamento exem-
plificando o fechamento da folha de pagamento, os 
processos de transformação de dados e o ELT (ex-
tração, carregamento, transformação). 
 • Dados coletados - podem ser originados de outros sis-
temas, pesquisas, históricos, arquivos ou até de um data 
warehouse. Um data warehouse refere-se a um sistema 
de gerenciamento de dados projetados para ativar e for-
nece suporte às tarefas de business intelligence (BI).
https://www.oracle.com/br/database/what-is-data-management/
14 BIG DATA E CIÊNCIA DE DADOS
Por outro lado, é importante destacar os dados gerados 
pelos sensores. Nos smartphones, por exemplo, as câmeras são 
responsáveis pela maior parte do volume de dados, seguidas pe-
los sensores de touchscreen, GPS e os voltados para comunicação, 
como Bluetooth, Wi-Fi, WiDi, NFC, entre outros. 
Cada vez mais, aumenta-se a tendência de utilização de 
carros, bússola, GPS, rádio, TV, câmera fotográfica, filmadora, vi-
deogame e carros, e consequentemente a produção de dados ge-
rados por eles.
O artigo “Volume de dados exigirá velocidade para 
sobreviver ao Big Data” aborda as grandes massas 
de dados produzidas pelos diversos equipamen-
tos. Nele, são citados alguns exemplos atuais de 
equipamentos que estão produzindo grandes vo-
lumes de dados e sobre a necessidade da velocida-
de exigida para o processamento e análise destes. 
Acesse o QR Code. 
Armazenamento 
Os dados estão sendo gerados continuamente e de for-
ma exponencial, o que exige novos meios de armazenamento, já 
que os recursos tradicionais não conseguem suportar o grande 
volume de informações produzidas. Além disso, as capacidades 
de transferência das redes de comunicação são frequentemente 
excedidas, evidenciando a necessidade urgente de revolucionar as 
tecnologias de armazenamento e comunicação.
https://itforum.com.br/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data/amp/
15BIG DATA E CIÊNCIA DE DADOS
Imagem 3.3 – Armazenamento de dados 
Fonte: Freepik. 
Conforme Amaral (2016), o armazenamento viabiliza que 
posteriormente os dados possam ser readquiridos facilmente 
para se fazer uma cópia ou para replicar o processo ocorrido, bem 
como para produzir informação ou conhecimento. 
É importante ressaltar que o armazenamento deve primar 
por segurança da informação, integridade, minimização de redun-
dância, concorrência, otimização de espaço etc. Vale salientar ain-
da que o armazenamento pode ser realizado em um dispositivo 
volátil ou não volátil. 
Atualmente, muitas empresas utilizam aplicações de Big 
Data integradas ao ambiente de cloud computing, ou computação 
em nuvem, não apenas para armazenamento, mas também para 
processamento em grande escala e análises avançadas. Desde 
2022, o uso de serviços em nuvem, como Amazon Web Services 
(AWS), Microsoft Azure e Google Cloud, expandiu-se significativa-
mente devido à crescente demanda por escalabilidade, flexibilida-
de e redução de custos operacionais.
A computação em nuvem permite que empresas alu-
guem capacidade de computação e armazenamento conforme 
16 BIG DATA E CIÊNCIA DE DADOS
a demanda, com um modelo de pagamento baseado na utiliza-
ção, sem a necessidade de investimentos iniciais elevados em 
infraestrutura física. Atualmente, tecnologias como containers, 
Kubernetes e serverless computing permitem uma gestão mais efi-
ciente e automatizada dos recursos na nuvem, otimizando ainda 
mais os custose a agilidade operacional.
Assim, a computação em nuvem continua sendo uma tec-
nologia essencial para a viabilidade do Big Data. Por meio dela, 
as organizações podem processar e analisar grandes volumes de 
dados em tempo real, além de escalar suas operações rapidamen-
te conforme as necessidades de mercado, sem a necessidade de 
grandes investimentos em instalações físicas de armazenamento 
e processamento de dados.
Vale ressaltar que em muitas circunstâncias o pro-
cesso de análise dos dados deve ser eficiente e 
quase em tempo real, assim, o armazenamento de 
todos os dados capturados é quase inviável.
Ao mesmo tempo, a computação em nuvem oferece am-
bientes com ampla capacidade de armazenamento, escaláveis, fle-
xíveis, com alto desempenho e disponibilidade, tornando-se um 
importante recurso que serve como uma opção para viabilizar a 
construção de aplicações de gestão e análise de grandes volumes 
de dados. Podemos destacar a computação em nuvens com um 
grande aliado na utilização de ferramentas de Big Data.
Framework para processamento 
de dados 
Já é sabido que o Big Data pode ser conceituado como 
grandes volumes de dados, com diversos níveis de complexidade 
e muitas vezes desestruturados, os quais necessitam de outros 
17BIG DATA E CIÊNCIA DE DADOS
tipos de ferramentas e procedimentos para serem processados 
ou analisados.
Para processar grandes volumes de dados de for-
ma eficiente, é necessário implementar proces-
samento paralelo em larga escala e desenvolver 
novos algoritmos de análise, permitindo obter e 
fornecer informações adequadas no momento 
certo para a tomada de decisão. Isso ocorre por-
que grandes quantidades de dados demandam 
muito tempo, tornando essencial a criação de no-
vas estruturas que reduzam significativamente o 
tempo de processamento.
Por seguinte, há algumas tecnologias orientadas a tratar 
volumes muito grandes como Hadoop e sistemas de bancos de da-
dos específicos, como o Cassandra, utilizado hoje pelo Facebook, 
Twitter e Reddit, os quais necessitam trabalhar com muita veloci-
dade com grandes volumes de dados de modo distribuído.
É importante saber que no contexto de processamento de 
dados, pode-se ter três tipos: 
 • Processamento em batch - versa para processar da-
dos em lotes, de modo que, neste tipo de processa-
mento, um conjunto de dados é instruído da fonte 
de dados, sendo posteriormente processado e ano-
tado na fonte de destino. É importante ressaltar que, 
historicamente, a grande maioria das tecnologias de 
processamento de dados foram projetadas para este 
tipo de processamento.
 • Processamento em tempo real - refere-se a pro-
cessar os dados e conseguir os resultados quase 
imediatamente. 
 • Processamento em stream - versa em processar 
dados consecutivamente e atuar sobre os dados em 
18 BIG DATA E CIÊNCIA DE DADOS
live stream para se obter os resultados. Os dados são 
processados como artefatos individuais, ao invés de 
serem processados como um lote gradativamente.
A seguir, seguem as sessões apresentando alguns exem-
plos de frameworks que trabalham com processamento de gran-
des massas de dados.
Hadoop
O Hadoop, como estudado anteriormente, é uma platafor-
ma de software open source desenvolvida pela Apache Software 
Foundation e escrita em Java. Ele permite o processamento de 
grandes volumes de dados em clusters de computadores. Embora 
seja amplamente reconhecido por sua capacidade de armaze-
namento, o Hadoop também se destaca como uma ferramenta 
de processamento, utilizando o MapReduce. Seus dois principais 
componentes são o HDFS, estrutura de armazenamento, e o pró-
prio MapReduce, ambos estreitamente interligados. 
A seguir, apresentamos uma descrição detalhada desses 
componentes: 
 • Hadoop Distributed File System (HDFS) - trata-se 
de um sistema de arquivos distribuído, idealizado 
para armazenar grandes massas de dados de modo 
confiável e realizar a transmissão para os usuários. 
O HDFS tem características de tolerância a falhas 
e pode ser expandido de um único servidor para 
milhares de máquinas, cada uma proporcionando 
armazenamento local. Ele ainda trabalha em dois 
tipos de nós: o “Mestre”, que gerencia a hierarquia 
de sistemas; e vários “Escravos”, os nós de dados. 
 • MapReduce - é um modelo de programação para 
processar e gerar grandes conjuntos de dados úteis 
19BIG DATA E CIÊNCIA DE DADOS
para atividades no mundo real. Ele tem as funções 
map (mapeamento) e reduce (redução), de modo 
que a função map atende o par chave/valor (cha-
ve trata o identificador do registro, e valor, o seu 
conteúdo) como entrada, e gera pares chave/valor 
intermediários. Por sua vez, a função reduce mescla 
todos os pares associados à mesma chave (inter-
mediários), permitindo a geração de uma saída. 
Spark
O Spark é um framework para processamento de Big Data 
idealizado com foco em velocidade, facilidade de utilização e aná-
lises aprimoradas. Ele foi projetado para garantir uma vasta gama 
de cargas de tarefas, como aplicativos em lote, algoritmos intera-
tivos, consultas interativas e streaming, permitindo a tolerância a 
toda essa carga de trabalho e minimizando a carga de gerencia-
mento da manutenção de ferramentas separadas.  
O principal diferencial do Spark é sua capacidade de com-
putação em cluster na memória, o que acelera significativamente 
o processamento de aplicativos. Ele oferece um framework pa-
dronizado e de fácil entendimento para gerenciar e processar Big 
Data, abrangendo uma ampla variedade de conjuntos de dados, 
sejam em lotes (batch) sejam em streaming em tempo real. 
O framework também suporta as linguagens Python, Java e 
Scala, ainda possuindo outros módulos para aprendizado de má-
quina e inteligência artificial. O conceito principal desse framework é 
o Resilient Distributed Datasets (RDD), pelo qual funciona como uma 
tabela do banco de dados que pode arquivar qualquer tipo de dado. 
Outras características do Spark são:
 • Dar um suporte adicional além das funções de map 
e reduce;
https://spark.apache.org/
https://blog.geekhunter.com.br/o-java-ainda-faz-historia/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/
20 BIG DATA E CIÊNCIA DE DADOS
 • Otimização da utilização de operadores de grafos 
arbitrários;
 • Avaliação sob demanda de consultas de Big Data, 
favorecendo a otimização do fluxo global do pro-
cessamento de dados;
 • Apresenta shell interativo para Scala e Python.
O Spark armazena os dados do RDD em distintas partições, 
o que auxilia a reorganização computacional e a questão de otimi-
zar o processamento dos dados.
Storm
O Apache Storm é um sistema de computação em tempo 
real distribuído e de código aberto que trabalha no processamen-
to de fluxos de dados ilimitados, fazendo para o processamento 
em tempo real, o que o Hadoop fez no processamento em lote. 
O Storm trabalha com modelos de streaming para proces-
samento por meio de sua camada principal.
O Storm apresenta vantagens como facilidade de uso, fun-
cionamento compatível com diversas linguagens de programação, 
estabilidade e tolerância a falhas. No entanto, também possui al-
gumas desvantagens como limitações em confiabilidade, desem-
penho, eficiência e gerenciamento.
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos 
resumir tudo o que vimos. Você deve ter apren-
dido que, quando abordamos grandes massas de 
dados, lidamos com Big Data e seu ambiente de
21BIG DATA E CIÊNCIA DE DADOS
trabalho. Podemos perceber as diversas fontes de 
dados atuais e como aumentam a quantidade de 
dados, contribuindo para esta grande massa exis-
tente e que necessita ser processada. Estudamos 
um pouco sobre os tipos de armazenamento quan-
do se trata de dados e chegamos ao final abordan-
do os tipos de processamento existentes. Ainda 
estudando sobre o processamentoem batch, tem-
po real e stream, apresentamos alguns frameworks 
que trabalham com o processamento de grandes 
massas de dados.
22 BIG DATA E CIÊNCIA DE DADOS
Inteligência de negócio para 
Big Data
Ao término deste capítulo você será capaz de en-
tender sobre inteligência de negócio e como a uti-
lização de Big Data pode favorecer neste ambiente. 
Apresentaremos, também, a relação do Big Data 
e Business Intelligence e como ambos trabalham. 
Abordaremos ainda os ganhos e exemplos de co-
mo se dá suas aplicações. E então? Motivado para 
desenvolver esta competência? Vamos lá!
Big Data e sua importância no 
mercado de negócio
Com a grande produção de dados por meio das análises 
de Big Data, são possibilitadas inovações em tecnologias, produ-
tos, gestão e estratégias organizacionais. Atualmente, o uso de Big 
Data é fundamental para o desenvolvimento de soluções basea-
das em inteligência artificial (IA), aprendizado de máquina (machi-
ne learning) e automação, que estão transformando diversos seto-
res, desde a saúde até as finanças e a manufatura.
Vale ressaltar que, desde 2022, o Big Data continua a ser 
apontado como uma das principais tendências tecnológicas estra-
tégicas. De acordo com o relatório anual do Gartner sobre ten-
dências tecnológicas, o Big Data e a análise avançada de dados 
permanecem no centro das transformações digitais nas empre-
sas, especialmente quando combinados com IA e edge computing, 
permitindo decisões mais rápidas e eficazes. Essas tecnologias são 
essenciais para otimizar processos, personalizar experiências de 
consumidores e prever demandas futuras, o que as torna indis-
pensáveis na estratégia das organizações.
23BIG DATA E CIÊNCIA DE DADOS
Imagem 3.4 – Mercado de negócio
Fonte: Freepik.
Tendo em vista os produtos em abundância e as informa-
ções dos clientes, bem como registros e a massa de dados dis-
poníveis para ampliar constantemente novas tecnologias, vê-se o 
aperfeiçoamento dos serviços existentes, pois tendem a melhorar 
a eficiência da produção, diminuir custos, criar inovações e trazer 
a satisfação as necessidades dos clientes.
A análise do Big Data pode impactar positivamente no 
mercado de negócio, nos seguintes processos:
 • Desenvolvimento de produto;
 • Desenvolvimento do mercado;
 • Eficiência nas operações;
 • Experiência e fidelidade do cliente; 
 • Prever a demanda de mercado.
No entanto, muitos executivos só buscam por recursos de 
Big Data quando precisam urgentemente responder a uma amea-
ça ou para encontrar uma oportunidade em um determinado es-
copo de mercado. 
24 BIG DATA E CIÊNCIA DE DADOS
Uma organização de telecomunicações europeia, após au-
mentar sua parte de participação no mercado, decidiu criar um 
sistema que possibilite identificar as causas que levariam seus 
clientes a selecionarem uma ou outra empresa. Isso foi possível 
por meio da análise de grandes massas de dados e o aumento 
de informações disponibilizadas pelos próprios usuários em redes 
sociais e portais das empresas.
Para saber mais sobre a importância e as perspec-
tivas do Big Data nas empresas, leia o artigo “Inova-
ção nos negócios por meio da Análise de Big Data”. 
Acesse o QR Code. 
É importante entender que o Big Data gera modificação 
na organização do modelo de negócios devido a trazer consigo as 
três características de dados estruturados e não estruturados, em 
que necessita de novas capacidades e conhecimentos para que 
cada setor realizar o tratamento de dados de modo mais eficiente. 
O uso do Big Data nas organizações é impulsionado pela ne-
cessidade de um planejamento adequado e da definição de estra-
tégias que viabilizem o alcance das metas e objetivos estabelecidos. 
Nesse contexto, a adoção do Big Data pode auxiliar no desenvolvi-
mento do planejamento estratégico das empresas, promovendo a 
conquista de objetivos e a criação de vantagens competitivas.
O Big Data transformou significativamente a forma como 
conduzimos negócios, gestão e pesquisas. Assim, as ciências orien-
tadas por dados, especialmente em computação intensiva, estão 
https://singep.org.br/6singep/resultado/333.pdf
25BIG DATA E CIÊNCIA DE DADOS
se consolidando em um cenário que busca oferecer ferramentas 
para enfrentar os desafios associados ao Big Data.
Portanto, fica evidente que o Big Data pode gerar resulta-
dos extraordinários para as organizações. Contudo, a visão e as 
decisões dos executivos continuam sendo fundamentais, agora 
fortalecidas pela análise de dados, tornando o processo de deci-
são mais embasado e estratégico.
Conforme mencionado anteriormente, podemos destacar 
o exemplo apresentado por Vivek Ranadive, CEO da Tibco e reno-
mado autor de livros sobre o tema. Ele relata que, em uma loja 
varejista de produtos de jardinagem, sabe-se que compradores 
de sementes têm 90% de probabilidade de adquirir fertilizantes e 
40% de chance de comprar móveis de jardim. 
Partindo para uma primeira análise, pode-se imaginar que 
a melhor estratégia seja estimular a compra de fertilizante ou ex-
por este próximo das sementes. Entretanto, analisando com mais 
detalhe, pode-se verificar que a melhor estratégia é desenvolver 
ações que impulsionem a venda dos móveis, afinal, existe uma 
margem maior de crescimento para estes produtos.
O Big Data motiva a inovação nos modelos de negócios por 
meio da análise dos ambientes, desenvolvendo novos produtos e 
serviços com a análise de dados originados pelos consumidores, 
permitindo cooperações estratégicas ao compartilhar a grande 
massa de informações com outras empresas.
Uma grande contribuição no contexto da aplicação 
do Big Data nas empresas é o crescente aumento 
das fontes de informações às empresas extraídas 
das redes sociais, recursos informatizados de coo-
peração, bem como os sensores em vários produ-
tos ou registros de tráfego de internet, entre outros. 
26 BIG DATA E CIÊNCIA DE DADOS
Outras fontes de informações geradas a partir de equipa-
mentos que originam grandes quantidades de dados e que possi-
bilitam ter relevância para as empresas são: telefones celulares, 
vendas na internet, redes sociais, comunicação eletrônica, GPS e 
maquinário computadorizado.
Dessa forma, analisamos as contribuições que o uso do 
Big Data proporciona às empresas e aos executivos no contexto 
geral de mercado e negócios. Na próxima sessão, exploraremos 
com mais detalhes a aplicação do Business Intelligence em conjunto 
com o Big Data.
Inteligência de negócio para 
Big Data 
Com o aumento da produção de dados e a busca das em-
presas por melhorias em seus negócios e vantagens competitivas, 
destaca-se a inteligência de negócios, ou Business Intelligence (BI). 
Esse recurso engloba tecnologias, aplicativos e métodos voltados 
à coleta, integração, análise e apresentação de informações no 
contexto empresarial. 
Em resumo, o Business Intelligence (BI) oferece aos executi-
vos e tomadores de decisão os recursos necessários para aprimo-
rar suas escolhas. O BI utiliza dados estruturados e concentra-se 
exclusivamente no que já ocorreu, sem exigir a participação de 
cientistas de dados para criar boas aplicações.
Os painéis de BI, que apresentam métricas e indicadores 
importantes, ganham relevância ao integrar dados internos das 
empresas, sendo exibidos de maneira visual e simplificada. No en-
tanto, esses painéis operam dentro dos limites da empresa, sem 
explorar contextos externos. 
27BIG DATA E CIÊNCIA DE DADOS
A partir daqui surge a necessidade de utilizar soluções 
mais robustas com o Big Data, apropriadas para fazer análises 
sobre dados não estruturados e, com isso, enriquecendo a per-
cepção do negócio por meio das correlações de dados e análises 
preditivas e prescritivas.
A análise de Big Data, além de ajudar a lidar com 
esses dados complexos, também amplia a finalida-
de do BI, o qual, na maioria das vezes, tem o foco 
nos bancos de dados internos das empresas, bus-
cando extrair valor de dados externo. 
Assim, o Big Data favorece trabalhar com grandes volumes 
de dadosde bancos externos, enriquecendo o processo de toma-
da de decisão e consequentemente os negócios.
Imagem 3.5 – Inteligência de mercado
Fonte: Pexels. 
O trabalho com Big Data corresponde a uma preocupação 
para a inteligência de negócios, visto que se caracterizam por alto 
volume, variedade e velocidade, requerendo competências tecnoló-
gicas avançadas, muitas vezes, ainda não desenvolvidas ou consoli-
dadas para manipular e gerar conhecimento antecipado aos fatos.
Vale ressaltar que a solução de Big Data não permite de-
finir as causas das correlações encontradas, porém, por meio de 
28 BIG DATA E CIÊNCIA DE DADOS
análises multivariadas, é possível controlar as variáveis e seus efei-
tos em outras variáveis. 
Isso implica uma exigência maior na escolha de profissio-
nais em projetos de Big Data devido à complexidade e habilidades 
específicas exigidas.
Já com relação ao Business Intelligence, podemos entender, 
de modo geral, como um recurso ou etapa a ser seguida após o Big 
Data extrair e utilizar os dados para compreender o negócio, ensi-
na os profissionais envolvidos a tomarem ações de modo melhor. 
Desta forma, o BI será adotado como uma solução que 
proporciona o filtro e ordena as informações, possibilitando com 
que elas se compartilhem  entre si avaliando e as direcionando 
estrategicamente. 
No artigo “Business Intelligence: Inteligência nos 
Negócios”, você poderá ver uma explanação dos 
recursos tecnológicos e algumas de suas caracte-
rísticas. Para lê-lo, acesse o QR Code. 
Podemos afirmar que o BI serve como base para o Big 
Data. Empresas com sistemas de Business Intelligence robustos 
têm maior probabilidade de iniciar projetos em Big Data, pois as 
descobertas podem ser rapidamente testadas e monitoradas por 
meio do sistema de BI. 
http://mtc-m16c.sid.inpe.br/col/lac.inpe.br/worcap/2003/10.31.15.48/doc/ArtigoWorkap3.pdf
29BIG DATA E CIÊNCIA DE DADOS
Perfil comportamental do profissional 
de análise de inteligência de negócios
Eis algumas habilidades necessárias de perfis comporta-
mentais dos profissionais analistas de BI para vencer os desafios 
da área, segue a lista:
 • Comunicação - ter a habilidade de se expressar e se 
fazer entender são pontos importantes. Transmitir 
com clareza as premissas para realizar as tarefas, de-
liberar escopos e riscos procurando oferecer as solu-
ções de Inteligência em uma linguagem clara e prática.
 • Pacificador - é importante o analista de BI fazer a ponte 
entre os envolvidos, apresentando a capacidade de tra-
duzir a regra de negócio para o ambiente técnico.
 • Liderança - é de extrema importância que o ana-
lista de BI tenha o perfil de liderança para delegar 
as soluções e definir os papéis dos envolvidos. 
A liderança necessitará também de uma postura 
apropriada e segura de suas definições, bem como 
nortear a equipe e as áreas interessadas.
 • Conhecimento técnico - é de crucial importância 
que o analista de BI tenha conhecimento técnico 
profundo, e não apenas saber o desenho da solu-
ção. O conhecimento técnico também é responsá-
vel por dar garantias que a solução seja elaborada 
com a tecnologia adequada e no melhor ambiente.
 • Atitude -  o analista de BI deve entender que é o 
principal responsável por fazer as coisas acontece-
rem, pois é quem aplica o raciocínio lógico, define 
processos, projeta modelos de solução e possui 
o conhecimento técnico e do negócio. Sem a sua 
atuação, nada funciona adequadamente. 
30 BIG DATA E CIÊNCIA DE DADOS
Em resumo, é fundamental compreender que os analistas 
de BI geralmente trabalham com a análise e o desenvolvimento 
de projetos de modelagem de dados, utilizando informações co-
letadas de um armazém de dados centralizado ou de diferentes 
bancos de dados da organização. Cada empresa pode priorizar as 
habilidades mais relevantes ao selecionar seu analista de BI.
Big Data aplicado no mercado
Apresentaremos, nesta seção, alguns exemplos de suces-
so de empresas que utilizam as soluções de Big Data para otimizar 
seus serviços. 
Magazine Luiza
Uma das principais iniciativas do Magazine Luiza em 2014 foi 
a criação do Luizalabs, um laboratório de tecnologia e inovação com 
o objetivo de desenvolver produtos e serviços voltados para o vare-
jo, aprimorando a experiência de compra dos clientes. Desde então, 
o Luizalabs evoluiu significativamente, tornando-se um dos maiores 
hubs de inovação tecnológica do Brasil, focando não apenas no de-
senvolvimento de novas tecnologias para e-commerce, como também 
na automação logística e na implementação de inteligência artificial 
para personalização de ofertas e atendimento ao cliente.
Outro projeto de destaque é o Magalu Ads, uma platafor-
ma de Big Data lançada em 2021, que utiliza IA e análise avança-
da de dados para recomendar produtos de forma personalizada, 
além de enviar ofertas e campanhas segmentadas por meio de 
diversos canais, como e-mail, notificações por aplicativo e redes 
sociais. Essa iniciativa substituiu o projeto Bob e se tornou uma 
peça central na estratégia de marketing digital e Big Data do 
Magazine Luiza.
31BIG DATA E CIÊNCIA DE DADOS
Amazon
A Amazon passou por uma expansão significativa ao longo 
dos anos em seu modelo de negócios, que originalmente era focado 
na venda on-line de livros. Atualmente, a empresa se transformou 
em uma das maiores varejistas globais, oferecendo uma vasta gama 
de bens físicos e virtuais, incluindo e-books, serviços de streaming de 
vídeo, produtos eletrônicos, e até mesmo serviços de computação 
em nuvem através do Amazon Web Services (AWS), que é líder no 
mercado de cloud computing. A empresa também implementou o 
Amazon Fresh e Amazon Prime Now, expandindo para o setor de 
supermercados, oferecendo produtos frescos com entregas rápidas, 
competindo diretamente com grandes redes varejistas (Marr, 2016).
Conforme Marr (2016), a Amazon utiliza Big Data para ali-
mentar seu sistema de recomendações, analisando dados sobre 
o que os usuários compram, o que visualizam, os horários de na-
vegação, o endereço de entrega para determinar dados demo-
gráficos, além de registrar comentários e opiniões no site. Mais 
recentemente, a Amazon tem aprimorado suas capacidades de 
Big Data e inteligência artificial para personalizar ainda mais a ex-
periência do cliente, integrando também algoritmos de machine 
learning para prever comportamentos de compra futuros e otimi-
zar a logística de entrega. Nos usuários do aplicativo para celular, 
a empresa continua a coletar informações de localização pelo GPS 
e dados sobre o uso de outros aplicativos, aprimorando suas ofer-
tas baseadas em localização e comportamentos específicos. 
Nordstrom
A Nordstrom é uma empresa varejista de moda de luxo 
dos Estados Unidos, reconhecida pela qualidade no atendimen-
to e serviço ao consumidor, além de seu merchandising de alto 
nível. A marca implementou um projeto de Big Data, criando um 
32 BIG DATA E CIÊNCIA DE DADOS
laboratório de inovação para gerar insights sobre as tendências 
de comportamento de compra de seus clientes. Desde então, a 
Nordstrom tem utilizado essas informações para personalizar a 
experiência do cliente, recomendando produtos específicos e ofe-
recendo campanhas de marketing altamente segmentadas em 
seus canais digitais e físicos. 
Imagem 3.6 – Marketing
Fonte: Freepik.
Atualmente, a Nordstrom extrai dados de suas platafor-
mas de e-commerce, perfis em redes sociais e estatísticas de vendas 
em lojas físicas. A empresa também aprimorou seu programa de 
fidelidade, integrando dados de comportamento de compra on-li-
ne e off-line para criar uma experiência omnichannel personalizada, 
cujos clientes recebem recomendações e ofertas específicas com 
base em seus hábitos de compra. Além disso, continua monitoran-
do o comportamento dos consumidores por meio de wi-fi em suas 
lojas físicas. Mais recentemente, a Nordstrom ampliou o uso de 
inteligência artificial e machine learning para prever tendências de 
compra, gerando recomendações ainda mais precisase otimizando 
seus estoques em tempo real para melhor atender a demanda.
33BIG DATA E CIÊNCIA DE DADOS
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos resu-
mir tudo o que vimos. Você deve ter aprendido co-
mo os produtos em abundância e as informações 
dos clientes, assim como os registros de dados e a 
massa de dados disponíveis, são usadas como so-
lução computacional de Big Data, em que se pode 
agregar valor para os modelos de negócio. Vimos 
ainda, no decorrer do capítulo, a importância e as 
contribuições geradas pela utilização do Big Data, 
como também a sua relação com BI e como estes 
recursos se complementam. Além do exposto, des-
tacamos o perfil de comportamento do analista de 
BI. Por fim, abordamos exemplos de empresas que 
adotaram o Big Data para melhorar seus negócios 
e atrair mais clientes.
34 BIG DATA E CIÊNCIA DE DADOS
Bancos de dados para Big Data
Ao término deste capítulo você será capaz de 
entender como funciona o banco de dados que 
trabalha com Big Data, a estrutura e as suas par-
ticularidades. Também iremos abordar sobre a 
importância do banco de dados e demonstrar 
exemplos de banco de dados aplicados em traba-
lhos que adotam Big Data. E então? Motivado para 
desenvolver esta competência? Vamos lá! 
Já estudamos e sabemos que a definição de Big Data trata 
de conjuntos de dados, cujo tamanho e capacidade permitem cap-
turar, armazenar, gerenciar e analisar dados. 
Imagem 3.7 – Banco de dados
Fonte: Freepik.
Conforme Amaral (2016), com as exigências de aplicações 
mais robustas, surgiram necessidades de novos meios de geren-
ciamento de dados, por causa das aplicações que agregam gran-
des volumes de dados, como prontuário eletrônico, gestão de do-
cumentos, análises de séries temporais, entre outros. 
35BIG DATA E CIÊNCIA DE DADOS
Antes, existia o modelo relacional que tinha foco em pri-
mar pela normalização, integridade e não redundância de dados, 
porém a nova aplicação tem como prioridade maior escalabilida-
de, volume e processamento. Por conseguinte, é exigido outro 
tipo de banco de dados para trabalhar com Big Data, justamente 
devido aos diferentes tipos de dados, sejam estruturados, semies-
truturados e não estruturados. Com isto, nas próximas seções ire-
mos abordar sobre essas estruturas que surgiram para ajudar a 
trabalhar com Big Data.
Banco NoSql
Diante da necessidade de estruturas de banco de dados ca-
pazes de lidar com o grande volume, variedade e velocidade dos da-
dos gerados pelo Big Data, surgiram novos modelos, como os bancos 
de dados NoSQL, desenvolvidos para processar grandes quantida-
des de dados estruturados e não estruturados (Taurion, 2013).
O termo “NoSql” originou-se em 1998, porém iniciou-se, 
de modo efetivo, em 2004, com a idealização do banco de dados 
BigTable pela empresa Google. Logo, vieram outras iniciativas pela 
empresa Amazon em 2007, e Facebook em 2008, pelos quais dis-
tribuíram, respectivamente, os BDs Dynamo e Cassandra. A partir 
daí, surgiram diversas soluções em Banco de Dados NoSql. 
É importante destacar ainda que este termo, NoSQL, não 
implica especificamente que não se pode utilizar uma linguagem 
declarativa para consultar dados em um gerenciador NoSQL, po-
rém significa que são bancos de dados que não estão somente 
com base no modelo relacional.
Nos bancos de dados NoSQL, as tabelas são conhecidas 
como tabelas de hash distribuídas. Nelas, os objetos armazena-
dos são indexados por chaves, permitindo que sejam localizados a 
partir dessas chaves. Diferente dos bancos de dados estruturados, 
36 BIG DATA E CIÊNCIA DE DADOS
os bancos NoSQL são projetados para escalar horizontalmente, 
o que significa que a indexação é realizada por meio de clusters 
distribuídos em hardware de baixo custo.
Leia sobre as diferenças de NoSQL no artigo “O que 
é NoSQL?”. Você poderá ter uma explanação geral 
sobre NoSQL e a diferença com um banco de da-
dos relacional. Acesse o QR Code. 
Podemos ressaltar também que os bancos de dados 
NoSQL trabalham usando uma variedade de modelos de dados 
para acessar e gerenciar os dados. De modo geral, esses bancos 
são aperfeiçoados designadamente para aplicativos que exigem 
modelos de grande volume de dados, menor latência e flexibilida-
de. Essas condições são consentidas mediante a flexibilização de 
algumas restrições de consistência de dados dos outros bancos. 
Características dos bancos de dados 
NoSQL
Considerando que existem diversos bancos de dados 
NoSQL, cada um projetado para resolver problemas específicos, a 
maioria deles compartilha características comuns que os definem 
como bancos de dados NoSQL. Essas características estão descri-
tas a seguir, conforme detalhado: 
 • Alta escalabilidade;
 • Alta performance;
https://aws.amazon.com/pt/nosql/
37BIG DATA E CIÊNCIA DE DADOS
 • Alta disponibilidade;
 • Processamento distribuído;
 • Ausência de esquema;
 • Manter a replicação de dados; 
 • Trabalha com armazenamento de dados estrutura-
dos e não estruturados;
 • Contém um API simples para acesso aos dados;
 • Maior flexibilidade às propriedades ACID 
(Atomicidade, Consistência, Isolamento e 
Durabilidade);
 • Não suportam a linguagem SQL;
 • São produtos novos.
Após a descrição desse banco de dados, na próxima seção 
vamos abordar sobre os tipos de bancos de dados NoSQL.
Tipos de banco de dados NoSQL
Segundo Amaral (2016), existem diversas famílias de pro-
dutos NoSQL, com cada uma delas partilhando um mesmo conjun-
to de padrão de armazenamento. A seguir, temos a descrição de 
modo geral de cada um desses tipos:
 • Chave-valor - os BDs, com base neste modelo, utili-
zam o conceito de uma chave e um valor conhecido, 
como uma tabela hash constituída dos registros e ga-
rantindo que não ocorra redundância. Esse modelo 
mais tradicional ao invés de conter uma tabela com 
um número fixo de colunas tipadas, trabalha com o 
termo chave-valor, ou KVS, acrônimo para Key-Value 
Store, de modo que, em vez de conter um conjunto 
38 BIG DATA E CIÊNCIA DE DADOS
de atributos, a operação adiciona informações nos 
bancos somente com a chave e um valor. Algumas 
implementações do tipo KVS são Couchbase, Kyoto 
Cabinet, Redis e DynamoDB da Amazon.
 • Banco de dados orientado a documentos - o mode-
lo armazena chave e valor, porém são organizados em 
conjuntos, permitindo o armazenamento de estrutu-
ras como um arquivo JSON. São exemplos de imple-
mentações deste modelo o MongoDB e o CouchDB, 
com este último também da função Apache.
 • Banco de dados orientado a grafos - esse mo-
delo utiliza a estrutura de grafos para armazenar 
informações, classificando-as como entidades e es-
tabelecendo suas relações por meio das conexões 
entre os elementos do grafo. É um modelo flexí-
vel, escalável em várias máquinas, e amplamente 
aplicado em áreas como medicina, genética, eco-
nomia e matemática. Exemplos incluem o Neo4j e 
o FlockDB, que são projetados para armazenar e 
operar de forma otimizada sobre grafos. 
Os bancos de dados NoSQL foram criados para 
resolver desafios enfrentados por aplicações que 
operam de forma distribuída e lidam com grandes 
volumes de dados. No entanto, é importante des-
tacar que o NoSQL não foi projetado para subs-
tituir os bancos de dados relacionais, mas para 
abordar questões relacionadas à escalabilidade e à 
disponibilidade dos servidores de banco de dados 
para essas aplicações. 
Portanto, o NoSql é uma opção alternativa ao modelo re-
lacional para atender determinados escopos, nos quais os bancos 
de dados relacionais apresentam lacunas.
39BIG DATA E CIÊNCIA DE DADOS
Principais mecanismos de banco 
de dados NoSQL
Diante do exposto, podemos destacar alguns dos prin-
cipais mecanismos de banco de dados NoSQL como MongoDB, 
Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j, dessa for-
ma, nas próximas seções serão apresentadas as características e 
funções de cada um.
Cassandra
O Apache Cassandra é um bancode dados NoSQL open 
source escalável, adotado para gerenciar dados estruturados, se-
miestruturados e não estruturados sobre múltiplos meios de da-
dos e na nuvem. 
O Cassandra possui características que garantem alta dis-
ponibilidade contínua, escalabilidade linear e operação simplifica-
da em múltiplos servidores, sem um único ponto de falha. Sua ar-
quitetura masterless em formato de anel elimina a necessidade de 
um nó principal, funcionando de forma integrada com um modelo 
de dados dinâmico, projetado para oferecer maior flexibilidade e 
respostas rápidas.
O Cassandra é um banco de dados descentralizado, distri-
buído e orientado a colunas, projetado para operar em clusters e 
oferecer acesso de baixa latência aos clientes. Uma das vantagens 
de sua arquitetura orientada a colunas é a facilidade em realizar 
determinados tipos de consultas, além de possibilitar maior velo-
cidade ao armazenar dados esperados de forma contínua em uma 
única linha. Vale ressaltar que grandes empresas, como Facebook, 
Twitter e Digg utilizam o Cassandra.
40 BIG DATA E CIÊNCIA DE DADOS
MongoDB
O MongoDB tem o foco em determinar modelos de dados 
apropriados para sua aplicação, contudo, as técnicas utilizadas 
são muito variadas daquelas consideradas nos bancos de dados 
relacionais. Isso se deve por se atentar com os dados que são ex-
traídos do banco diferente dos bancos de dados tradicionais no 
escopo relacional. 
No MongoDB, os dados não são tratados como registros, 
mas como documentos no formato JSON, organizados em cole-
ções. Ele oferece os recursos necessários para ambientes de pro-
dução, incluindo balanceamento de carga, replicação, indexação, 
consultas e a capacidade de operar como um sistema de arquivos 
com tolerância a falhas. Além disso, uma característica fundamen-
tal do MongoDB é sua escalabilidade, projetada para lidar com 
grandes volumes de dados.
De acordo com Queiroz et al. (2013), o MongoDB utiliza co-
leções de documentos que se assemelham ao conceito de tabelas 
e linhas das tecnologias relacionais, com a diferença de que os 
documentos não precisam seguir o mesmo esquema. O MongoDB 
é utilizado por plataformas como Foursquare e SourceForge.
Redis
O Redis tem uma implementação key-value store, a qual 
trata de ser um paradigma que atribui valores às chaves para faci-
litar a entrada e o armazenamento desses valores. Esta tecnologia 
suporta seus pares de valores-chave na memória, permitindo seu 
acesso rápido. 
Ao longo do tempo, muitas APIs foram elaboradas para 
uma variedade maior de linguagens de programação, tornando 
41BIG DATA E CIÊNCIA DE DADOS
o Redis uma boa opção para desenvolvedores. Dessa forma, te-
mos o Remote Dictionary Server (Redis) como um banco de dados 
NoSQL do tipo chave-valor e que armazena os dados em memória. 
É importante destacar também que os comandos são atômicos, 
de modo que a ordem de execução das operações é a mesma or-
dem das chamadas.
Outras características incluem a capacidade de criar cha-
ves e definir seu tempo de existência, permitindo configurar a ex-
clusão automática após um período determinado. Um exemplo 
prático disso é seu uso em sessões de usuário e carrinhos de com-
pras. Além disso, vale destacar que todas as consultas são realiza-
das por meio das chaves, que retornam um valor, e as redundân-
cias de dados não representam um problema significativo.
HBase
O HBase é um banco de dados orientado à coluna, distri-
buído em implementação gratuita e aberta do BigTable do Google. 
Este tem a característica de facilitar e encontrar de modo eficiente 
os dados dispersos e distribuídos, sendo um dos seus pontos for-
tes. O HBase possui uma série de implementações em empresas 
como LinkedIn, Facebook e Spotify.
Podemos destacar que muitos projetos relacionados do 
Apache oferecem suporte ao HBase, fornecendo uma camada SQL 
para acesso a dados, o que ajuda os administradores de banco de 
dados relacionais que buscam implementar uma solução NoSQL e 
como existe um número grande de instalações Hadoop, o HBase é 
uma importante solução de armazenamento NoSQL.
42 BIG DATA E CIÊNCIA DE DADOS
Amazon DynamoDB 
O Amazon DynamoDB é um serviço do banco de dados 
NoSQL em nuvem disponibilizado pela Amazon Web Service (AWS). 
O DynamoDB é muito veloz e flexível para todas as aplicações que 
precisam de latência constante abaixo de 10 milissegundos em 
qualquer escala. 
O serviço deste banco de dados em nuvem é todo geren-
ciável e compatível com os modelos de armazenamento de do-
cumentos e de chave-valor, propiciando dados flexíveis, desem-
penho confiável e a escalabilidade automática da capacidade de 
throughput, fazendo desse serviço uma opção apropriada para 
aplicações móveis, web, jogos, tecnologia de anúncios e internet 
das coisas (IoT), por exemplo. 
Merece destaque algumas empresas como Lyft, Airbnb e 
Redfin, bem como Samsung, Toyota, e Capital One, que dependem 
da escala e da atuação do DynamoDB para comportar seus volu-
mes de trabalho.
Neo4j
O Neo4j é o sistema de gerenciamento de banco de dados 
com base em grafos (ou Graph Database), sendo o sistema mais co-
nhecido e usado atualmente desta categoria. Esse Graph Database 
é estruturado com forma de grafo, de modo que as arestas atuam 
como relacionamentos entre os vértices, relacionando diretamen-
te com as instâncias de dados umas com as outras. Este também 
possui uma implementação de código aberto, em que os dados 
no Neo4j podem ser acessados e atualizados por meio da Cypher 
Query Language, uma linguagem semelhante à linguagem SQL. 
Podemos apresentar que uma das vantagens de banco é, 
em alguns casos de uso, como cenários de mineração de dados e 
http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/
43BIG DATA E CIÊNCIA DE DADOS
reconhecimento de padrões, as associações entre instâncias de 
dados serem explicitamente declaradas. 
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos 
resumir tudo o que vimos. Você deve ter aprendi-
do que, com o aumento da produção de dados e 
os avanços das aplicações, surgiu a necessidade 
de bancos de dados capazes de lidar com tipos 
de dados que os bancos relacionais não conse-
guem gerenciar. Nesse contexto, discutimos o sur-
gimento dos bancos de dados da família NoSQL, 
que utilizam uma variedade de modelos de dados 
para acessar e gerenciar informações. De maneira 
geral, esses bancos são especialmente projetados 
para aplicativos que demandam grandes volumes 
de dados, menor latência e maior flexibilidade. 
Também exploramos os princípios, características 
e tipos de bancos NoSQL, como os baseados em 
chave-valor, documentos e grafos. Por fim, vimos 
exemplos práticos e características de bancos de 
dados adotados por empresas de sucesso.
44 BIG DATA E CIÊNCIA DE DADOS
Recuperação de informações
Ao término deste capítulo você será capaz de 
entender como funciona a recuperação de infor-
mação, utilizando as soluções de Big Data e Data 
Science como outros recursos computacionais que 
surgiram. E então? Motivado para desenvolver esta 
competência? Vamos lá!
Atualmente, as áreas de gestão, recuperação da informa-
ção e apoio à decisão estão sendo provocadas devido ao volu-
me, variedade e velocidade de uma grande massa de dados de 
diversos tipos, semiestruturados e não estruturados, de origem 
complexa que precisam ser buscados e analisados quanto ao seu 
valor e veracidade, que também é disponibilizado às organizações 
como grandes oportunidades de terem um conhecimento profun-
do e mais preciso de seus negócios.
Imagem 3.8 – Recuperar informações
Fonte: Freepik.
Com isto, temos a recuperação da informação se tornando 
o centro de muitas pesquisas por conta da grande quantidade de 
informações que, atualmente, se encontram espalhadas pela rede. 
45BIG DATA E CIÊNCIA DE DADOS
A recuperação da informação lida com a representação, 
armazenamento, organização e acesso às informações,buscando 
fornecer ao usuário exatamente o que ele precisa de maneira sim-
plificada. Trata-se do processo de localizar documentos e itens de 
informação armazenados, com o objetivo de facilitar o acesso dos 
usuários aos componentes e objetos solicitados.
É importante que você entenda que o processo de 
recuperação da informação visa buscar um con-
junto de documentos de um sistema, os quais são 
os que suprem as necessidades informacionais do 
usuário. Deste modo, o usuário não está interes-
sado em recuperar dados, nem achar documentos 
que atendam sua expressão de busca, contudo, 
deseja encontrar a informação sobre um determi-
nado assunto. 
O processamento da informação se torna mais eficiente se 
o armazenamento tiver ocorrido com melhor qualidade e os produ-
tos resultantes deste processamento forem apresentados na lingua-
gem apropriada ao usuário. Os autores ainda afirmam que a aten-
ção com o ruído, redundância, canal de comunicação e codificação 
têm impactos positivos na etapa de interrogação e busca, devido ao 
sistema estar organizado e livre de informações desnecessárias ou 
distorcidas, contribuindo com a recuperação da informação.
Segundo a Associação Nacional de Pesquisa e Pós-
-Graduação em Ciência da Informação, os suces-
sivos avanços das tecnologias da informação têm 
favorecido novos modos de acessar, recuperar, 
armazenar, gerir e interagir com a informação. 
Assim, os objetos tradicionais para apresentar a 
informação já não são satisfatórios, bem como os 
ambientes de interação com a informação têm es-
tado em transformação, tal como o comportamen-
to das pessoas.
46 BIG DATA E CIÊNCIA DE DADOS
Big Data e a recuperação da 
informação
Como já vimos, em ambientes de Big Data, o uso de bancos 
de dados relacionais não é apropriado para a persistência, proces-
samento e recuperação dos dados em ambientes escaláveis e com 
diferentes tipos de dados. 
Estudamos que, para tentar resolver este quesito da per-
sistência da informação, foram originados novos conceitos nas 
tecnologias de banco de dados, como o NoSQL (Not Only SQL). 
Esses bancos vieram para representar soluções viáveis ao 
modelo relacional, proporcionando maior escalabilidade e veloci-
dade no armazenamento dos dados.
 Define-se Big Data como grande volume, velocidade e/ou 
alta variedade de informações que necessitam de novas formas 
de processamento para permitir a melhor tomada de decisão, 
nova descoberta do conhecimento e otimização de processos. 
Assim, no processo de busca da informação em cenários 
da Inteligência Competitiva e Big Data, são utilizados robôs de ex-
tração de dados na Internet, esses são sistemas que coletam os 
dados da web e montam uma base de dados, que é processada 
para aumentar a rapidez na recuperação de informação.
A extração de informações importantes pode classificar 
uma página seguindo um contexto de domínio e recuperar infor-
mações, estruturando-as e armazenando-as em bases de dados. 
Com o propósito de adicionar significado aos conteú-
dos buscados em domínio específico, associam-se aos robôs 
de busca na web conceitos semânticos que permitem realizar a 
procura, não mais por palavras-chave num processo de busca 
47BIG DATA E CIÊNCIA DE DADOS
textual, mas por significado e valor, extraindo das páginas e ser-
viços da web informações de real relevância, descartando aquilo 
que é desnecessário. 
Imagem 3.9 – Busca da informação
Fonte: Freepik.
A partir disso, a ontologia aparece como solução na busca 
de inserir semântica neste processo. Veja a seguir um pouco mais 
sobre ontologia.
Ontologia 
Na busca por realizar a coleta de dados referente a um 
escopo determinado de conhecimento, surge o termo ontologia. 
Aplicada à ciência da computação e à informática, a ontologia 
é uma estrutura de dados utilizada para representar um con-
junto de termos e suas relações em uma determinada área do 
conhecimento ou domínio. Nos últimos anos, o uso de ontolo-
gias tem sido cada vez mais fundamental em sistemas de inte-
ligência artificial, aprendizado de máquina e na Web Semântica, 
facilitando a comunicação entre humanos e máquinas, além de 
permitir que os sistemas entendam o contexto e o significado 
dos dados processados.
48 BIG DATA E CIÊNCIA DE DADOS
A ontologia, tradicionalmente definida como o estudo do 
ser e de seus relacionamentos, passou a ser amplamente utilizada 
na ciência da computação e na ciência da informação para supor-
tar o desenvolvimento de sistemas de busca semântica, processa-
mento de linguagem natural (PLN), e a extração de dados relevan-
tes de grandes volumes de informações. Hoje, as ontologias são 
componentes-chave em sistemas de conhecimento e são aplica-
das em áreas como a Internet das Coisas (IoT), redes inteligentes 
e até mesmo na robótica para melhorar a descoberta e integração 
de informações complexas e em tempo real, com maior precisão.
A ciência da computação utiliza a ontologia quando se tra-
ta da obtenção de conhecimentos a partir de dados semiestrutu-
rados, aplicando técnicas e métodos para processar essas infor-
mações. Atualmente, esse uso foi expandido para lidar com dados 
não estruturados, como imagens e vídeos, e tem sido fundamental 
no desenvolvimento de assistentes virtuais inteligentes e sistemas 
autônomos, que precisam interpretar e reagir ao ambiente com 
base em conhecimentos representados ontologicamente.
Data Warehouse
Um Data Warehouse é um conjunto de dados orientado a 
assuntos integrados, não voláteis, com variações no tempo e da-
dos corporativos granulares, que permitem dar suporte às deci-
sões da gestão. Nos últimos anos, os Data Warehouses evoluíram 
para armazenar volumes ainda maiores de dados, integrando-se 
com tecnologias como o Big Data e plataformas de computação 
em nuvem para aumentar a escalabilidade e a acessibilidade.
Isso implica que um Data Warehouse está orientado para 
as principais áreas de uma organização e é suportado por múltiplas 
fontes de dados, em que os dados são transformados, formata-
dos, reorganizados e integrados. Além disso, uma vez armazenada 
49BIG DATA E CIÊNCIA DE DADOS
a informação, ela não se perde, sendo mantido um histórico de 
dados. Atualmente, tecnologias como o Amazon Redshift, Google 
BigQuery e Snowflake têm permitido que Data Warehouses se tor-
nem mais dinâmicos e adaptáveis, com capacidades de processa-
mento em tempo real e análises mais avançadas. Essas soluções 
em nuvem permitem que empresas façam consultas e análises em 
dados massivos sem comprometer a performance, otimizando a 
tomada de decisões em tempo real.
O Data Warehouse é uma variante no tempo que implica 
um avanço dos dados ao longo do tempo, como também é dife-
rente de uma base de dados operacional. Enquanto estas últimas 
são transacionais, os Data Warehouses têm as características par-
ticulares de estarem direcionados a aplicações de apoio à decisão 
e de serem otimizados para a recuperação de dados e não para o 
processamento de transações rotineiras. 
Apache Lucene
A tecnologia Apache Lucene é considerada uma bibliote-
ca de software livre para indexação e recuperação de informações 
que em sua elaboração foi escrita em Java. Essa foi desenvolvida 
por Doug Cuttingol no ano 2000, foi aperfeiçoada e, logo após, 
incorporada à Fundação Apache. 
Lucene concede um nível adequado de abstração para um 
conjunto robusto de técnicas fundamentadas no modelo Vetorial 
e Booleano. A biblioteca Lucene é formada por duas partes: inde-
xação e pesquisa, com base em palavra-chave, o algoritmo pro-
cessa os dados gerando um formato que possibilita a realização 
de consultas.
Por conseguinte, temos que Lucene é utilizado para indexar 
e pesquisar dados em páginas de web, documentos armazenados 
50 BIG DATA E CIÊNCIA DE DADOS
em sistemas locais de arquivo, arquivos de texto simples, HTML 
ou qualquer outro formato por meio do qual é possível coletar 
informações textuais. 
Entretanto, é importante que você saiba que para 
pesquisar grandes quantidades de texto de modorápido em um primeiro momento, de acordo com 
Andrade (2010), Lucene indexa o texto e o trans-
forma em um formato que o permite deixá-lo mais 
veloz na busca. 
Este processo é chamado de indexação e sua saída é deno-
minada de índice. Logo, a busca ou pesquisa se trata do processo 
de buscar palavras em um índice para encontrar documentos em 
que elas aparecem. 
Já existem fundamentalmente duas funcionalidades im-
portantes: o processo de indexação, acessível por meio do co-
mando indexer, e o processo de busca, disponível por meio do 
comando searcher.
A seguir, a descrição das duas etapas:
 • Indexação - usa em seu índice a estrutura de da-
dos denominada de índice invertido, em que cada 
conceito acrescentado possui uma referência para 
o arquivo que o contém.
 • Busca - no Lucene, para cada documento atual no 
resultado de alguma busca, é aplicada uma pon-
tuação que representa a semelhança de tal docu-
mento com a consulta. O cálculo dessa pontuação 
é feito baseando-se no modelo de recuperação de 
informação escolhido.
51BIG DATA E CIÊNCIA DE DADOS
Imagem 3.10 – Indexar e buscar documento
Fonte: Freepik.
A biblioteca Lucene suporta os seguintes modelos: 
 • Modelo Booleano;
 • Modelo Espaço Vetorial;
 • Modelo Probabilístico;
 • Modelo com base em linguagem natural. 
Todavia, é bom destacar que por padrão, a busca no Lucene 
acontece por meio da combinação de duas técnicas de recuperação 
de informação: Modelo Espaço Vetorial e Modelo Booleano. 
Contudo, uma vantagem para o programador é que não 
precisa implementar algoritmos de busca e classificação, pois a 
biblioteca Lucene tem mecanismos para calcular a pontuação de 
cada documento que seja referente a uma consulta e retornar do-
cumentos relevantes conforme com essas pontuações.
52 BIG DATA E CIÊNCIA DE DADOS
Para saber mais sobre o assunto, leia o artigo “Apa-
che Lucene”, de Arthur de Lima, Jefferson José da 
Silva e Vagner Messias da Costa Junior. Acesse o 
QR Code. 
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos re-
sumir tudo o que vimos. Você deve ter aprendido 
sobre recuperação de informação, fazendo uma 
abordagem no contexto geral sobre o que ela trata 
e passando sobre seu processo. Vimos que a re-
cuperação da informação trata da representação, 
do armazenamento, da organização e do acesso 
às informações. Assim, abordamos ainda sua im-
portância para a tomada de decisão e mostramos 
como é relacionada à ciência de dados e da infor-
mação, de modo que explanamos como o Big Data, 
Data Warehouse e ontologias estão relacionadas a 
este processo. Por fim, foi apresentada a biblioteca 
Apache que trabalha no processo de recuperação 
de informação, o Lucene. 
https://www-di.inf.puc-rio.br/~casanova/Disciplinas/INF1331/Slides/26-Demo_%20Apache%20Lucene%20(Arthur%20Ozorio,%20Jefferson%20Silva,%20e%20Vagner%20Costa%20Junior).pdf
53BIG DATA E CIÊNCIA DE DADOS
AMARAL, F. Introdução à Ciência de Dados: mineração de dados 
e Big Data. Rio de Janeiro: ALTA Books, 2016.
ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de 
documentos. 2011. Monografia (Graduação em Ciência da 
Computação). Universidade Gama Filho. Piedade. 2011.
APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível 
em: https://www.tutorialspoint.com/apache_spark/apache_spark_
introduction.htm. Acesso em: 01 jun. 2020.
ARAÚJO, H. Precisão no processo de busca e recuperação da 
informação. Brasília: Thesaurus, 2007.
DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em: 
https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020.
MARR, B. Big Data in Practice. West Sussex: Wiley, 2016.
QUEIROZ, R. et al. Geographic Databases and NoSQL. 
Accomlishments and future directions. Revista Brasileira de 
Cartografia, p. 479-492, 2013.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013.
RE
FE
RÊ
N
CI
A
S
	Processamento de grandes volumes de dados 
	Produção de dados 
	Armazenamento 
	Framework para processamento de dados 
	Hadoop
	Spark
	Storm
	Inteligência de negócio para Big Data
	Big Data e sua importância no mercado de negócio
	Inteligência de negócio para 
Big Data 
	Perfil comportamental do profissional de análise de inteligência de negócios
	Big Data aplicado no mercado
	Magazine Luiza
	Amazon
	Nordstrom
	Bancos de dados para Big Data
	Banco NoSql
	Características dos bancos de dados NoSQL
	Tipos de banco de dados NoSQL
	Principais mecanismos de banco de dados NoSQL
	Cassandra
	MongoDB
	Redis
	HBase
	Amazon DynamoDB 
	Neo4j
	Recuperação de informações
	Big Data e a recuperação da informação
	Ontologia 
	Data Warehouse
	Apache Lucene

Mais conteúdos dessa disciplina