Big_Data

IFSP

Marcelo Augusto de Arruda
em 03/09/2024
Conteúdos escolhidos para você

137 pág.
BIG DATA ANALYTIC E TOMADA DE DECISÃO

UEA
127 pág.
Fluência em Dados

UFRJ
8 pág.
PROVA Pos - Universidade São Judas Thadeu- BIG DATA ANALYTICS

FATEC-SBC
9 pág.
Avaliacao da Disciplina - big data

ESTÁCIO
10 pág.
Avaliação da Disciplina

IFSC
Perguntas dessa disciplina

1) No mundo atual da engenharia, as tecnologias de software desempenham um papel crítico na eficácia da modelagem e simulação. Estes softwares não ape

UNISA
Questão 3/10 Organização e Administração na Educação Física Ler em voz alta Leia 0 fragmento de texto: "Um fenômeno característico da sociedade da inf

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O gerente de projetos, juntamente com a equipe de gerenciamento, conduz a execução das atividades, intermedia os conflitos entre as diferentes interfa

CSV
O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

Material
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Libere esse material sem enrolação!

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Conteúdos escolhidos para você

137 pág.
BIG DATA ANALYTIC E TOMADA DE DECISÃO

UEA
127 pág.
Fluência em Dados

UFRJ
8 pág.
PROVA Pos - Universidade São Judas Thadeu- BIG DATA ANALYTICS

FATEC-SBC
9 pág.
Avaliacao da Disciplina - big data

ESTÁCIO
10 pág.
Avaliação da Disciplina

IFSC
Perguntas dessa disciplina

1) No mundo atual da engenharia, as tecnologias de software desempenham um papel crítico na eficácia da modelagem e simulação. Estes softwares não ape

UNISA
Questão 3/10 Organização e Administração na Educação Física Ler em voz alta Leia 0 fragmento de texto: "Um fenômeno característico da sociedade da inf

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O gerente de projetos, juntamente com a equipe de gerenciamento, conduz a execução das atividades, intermedia os conflitos entre as diferentes interfa

CSV
O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

Prévia do material em texto
<p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>Big Data Analytic</p><p>e a Tomada de</p><p>Decisões</p><p>Prof. Fernando Gama da Mata</p><p>Anderson Emidio Macedo Golçalves</p><p>Apresentação Geral da Disciplina</p><p>Olá, aluno!</p><p>O uso de dados está se tornando cada vez mais presente no dia a dia das empresas para melhora dos seus</p><p>resultados. Isso está fazendo com que as estratégias de marketing deixem cada vez mais de serem intuitivas para</p><p>se tornarem estratégias analíticas que contribuam com mais assertividade para o crescimento da empresa.</p><p>A disciplina de Big Data Analytics Analitcs aborda algumas tecnologias e suas possibilidades para análise de dados,</p><p>para isso, a disciplina está organizada em três etapas.</p><p>Avançar</p><p>Unidade 1 Unidade 2 Unidade 3</p><p>• Capítulo 1: Compreendendo a • Capítulo 2: Compreendendo e • Capítulo 3: Fundamentos para</p><p>análise de informação no contexto explorando técnicas para análise integração analítica, tópicos</p><p>de Big Data de Big Data avançados e tendências em Big</p><p>Analytics</p><p>Bons estudos!</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/unidade-1</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 1</p><p>O surgimento de novas tecnologias tem contribuído significativamente para uma explosão de dados gerados. Não à</p><p>toa, vivemos no ápice de uma era conhecida como a Era da Informação. É conveniente pensar que grande parte</p><p>dos dados gerados podem ser consumidos para os mais diversos fins, inclusive para uma tomada de decisão mais</p><p>assertiva.</p><p>Confira o vídeo da Unidade 1:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 1</p><p>Veja no infográfico abaixo o que acontece na internet a cada 60 segundos, isso em 2019, só para termos uma</p><p>dimensão da quantidade de dados que geramos e consumimos.</p><p>As transições da Web 1.0, 2.0 e 3.0 refletem uma realidade na qual vivemos – existindo uma sobrecarga de</p><p>informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da ação humana, mas</p><p>de forma inviável. Como gerenciar essas informações?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://www.youtube.com/watch?v=MbhMvWrOYa8&feature=emb_imp_woyt</p><p>Com essa “explosão” de conteúdo, a Big Data é a área do conhecimento que estuda como tratar, analisar e obter</p><p>informações a partir de conjuntos de grande número de dados, que não seriam capazes de serem analisados por</p><p>sistemas tradicionais.</p><p>No vídeo, a importância do Big Data no mercado, Leonardo Naressi explica o que é Big Data e como esse tema é</p><p>tão importante para o mercado, principalmente para entendimento do comportamento do consumidor.</p><p>Big Data no mercado</p><p>Diante deste cenário, novas tecnologias emergiram e muitas empresas investem recursos em soluções de Análise</p><p>de Dados (Data Analytics) cada vez mais robustas, sejam proprietárias ou open sources. O processo de análise de</p><p>dados pode ser definido em quatro etapas: análise descritiva, diagnóstica, preditiva e prescritiva.</p><p>Além disso, existem a Análise avançada de dados, ou seja, processo de observação autônomo ou semiautônomo</p><p>de dados ou conteúdo por intermédio de técnicas e ferramentas sofisticadas, normalmente além daquelas de</p><p>Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, realizar previsões ou gerar</p><p>recomendações de produtos ou serviços. Vejamos algumas delas:</p><p>Os sistemas tradicionais de análise de dados muitas vezes não suportam estruturas de dados com formatos e</p><p>tamanhos diversificados. Assim, é preciso garantir que a infraestrutura seja capaz de suportar essa diversidade de</p><p>dados e se certificar de que os dados estão sendo processados em um adequado intervalo de tempo.</p><p>Quando tratamos de Big Data, devemos pensa-lo a partir dos 5Vs, vamos entender quais são?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=VYFL5EjHjGk&feature=emb_imp_woyt</p><p>No artigo, Big data: conheça os 5V´s e sua aplicação prática para PMEs , Lucas Mitsuichi trata sobre o desafio</p><p>enfrentado pelas empresas para analisar a quantidade massiva de dados gerados pela alta conectividade digital em</p><p>que vivemos. Além de explicar o conceito de Big Data o autor também apresenta como aplicar à realidade de</p><p>pequenas, médias e grandes empresas.</p><p>Antes de partirmos para a próxima etapa precisamos nos aprofundar em alguns conceitos uteis para a</p><p>compreensão do ecossistema Big Data, vamos lá?</p><p>Primeiro precisamos compreender que os dados podem ser:</p><p>1) Estruturados: esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados</p><p>Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros.</p><p>2) Semiestruturados: estão espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não</p><p>Relacionais, como o MongoDB, que possui uma estrutura semelhante a um arquivo JSON.</p><p>3) Não estruturados: arquivos textuais, vídeos, imagens, dados de sensores, mensagens em formulários ou em</p><p>campos de e-mails, posts no Facebook ou Twitter, arquivos de áudio e assim por diante.</p><p>Além da estrutura dos dados precisamos compreender o que são Banco de dados não relacionais (NoSQL).</p><p>Bancos de dados NoSQL surgiram como uma alternativa para armazenamento de dados com a finalidade de</p><p>oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados.</p><p>No vídeo NoSQL // Dicionário do Programador, a equipe do Código Fonte TV explica o que é um banco de dados</p><p>não relacionais. Assista para entender mais sobre esse assunto!</p><p>NoSQL // Dicionário do Programador</p><p>Não devemos pensar em Big Data somente em função dos tipos e estruturas de dados que manipularemos, ou</p><p>mesmo se extrairemos ou manipularemos informações de Bancos de Dados Relacionais ou não relacionais. Outro</p><p>ponto que precisamos considerar diz respeito ao volume de dados serem processados em batch (lote) ou em tempo</p><p>real.</p><p>O processamento em lote ou em batch refere-se à forma de processar transações, tendo em vista um grupo de</p><p>registros armazenados em um intervalo de tempo.</p><p>O processamento em tempo real captura um microlote de dados e disponibiliza de forma imediata para análise.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fpt.semrush.com%2Fblog%2Fbig-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes%2F&sa=D&sntz=1&usg=AOvVaw1Bz2E5v0qtDCCNyup8oiuL</p><p>https://www.youtube.com/watch?v=1B64oqE8PLs&feature=emb_imp_woyt</p><p>Uma arquitetura típica de Big Data precisa suportar o alto volume e a variedade de dados e processá-los em um</p><p>tempo hábil. O Hadoop é um framework Open-Source que permite o processamento distribuído de grandes massas</p><p>de dados por intermédio de clusters de computadores considerando modelos de programação simples.</p><p>CAPÍTULO 1 - COMPREENDENDO A</p><p>ANÁLISE DE INFORMAÇÃO NO</p><p>CONTEXTO DE BIG DATA</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Definir e esclarecer os principais conceitos relacionados ao Big Data.</p><p>Apresentar componentes que compõem a arquitetura.</p><p>Analisar e discutir, a partir dos conceitos e da compreensão dos componentes que fazem parte da</p><p>arquitetura de Big Data, a distinção entre o emprego</p><p>precisam suportar o grande volume de dados ou o fluxo</p><p>em tempo real. Além disso, ferramentas, frameworks e técnicas avançadas voltados para Big Data podem ser</p><p>utilizados para lidar com dados distribuídos. A etapa de análise de Big Data é fundamental para extrair valor</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Finfra%2FEMC-oferece-solucao-de-armazenamento-e-analise-de-Data-Lake%2F&sa=D&sntz=1&usg=AOvVaw1oZGbJXG2eNJ16WgpgoaDt</p><p>para os negócios e precisa ser bem projetada, por essa razão, precisa dar conta de toda a demanda,</p><p>fornecendo máxima transparência ao usuário final e entregando informações consistentes à próxima camada.</p><p>Alguns desses valores são essenciais para maximizar o lucro das empresas e também aprimorar o</p><p>conhecimento de seu próprio negócio e dos seus concorrentes. Com isso em mente, indústrias que trabalham</p><p>com quaisquer segmentos de fabricação (automotiva, alimentação, hospitalar etc.) visam sempre à melhoria</p><p>da sua eficiência na cadeia de produção com a otimização de recursos e redução de lucros. Não somente isso,</p><p>o conhecimento a respeito dos seus clientes, a busca pela sua fidelização e a definição de estratégias para</p><p>captura de novos clientes são atividades que representam o âmago da existência dessas companhias.</p><p>4.1.4 Camada de apresentação</p><p>A camada de apresentação pode ser chamada de camada de consumo ou front-end, diz respeito a como</p><p>publicar e apresentar os resultados obtidos pela análise. Por exemplo, na camada de armazenamento, é</p><p>importante você definir controle de acesso aos dados que serão consumidos, certificando quais áreas ou</p><p>pessoas da empresa podem interagir com os resultados e extrair os devidos insights. Os requisitos de</p><p>negócios podem exigir que se construa uma API específica ou mesmo uma ferramenta de análise, um</p><p>dashboard, um relatório ou mesmo um sistema de recomendação de produtos.</p><p>Além de usuários a camada de aplicação pode ser responsável por consumir aplicativos de diversos</p><p>segmentos, como de marketing (Myrrix) ou de mídias (Bluefin). Essa camada também pode alimentar</p><p>processos de negócio, resolvendo rapidamente problemas e respondendo a mudanças inerentes a esses</p><p>ambientes. A Figura 10 esquematiza a arquitetura de Big Data comentada nesta seção. A camada de extração</p><p>e integração é onde tudo começa e a camada de apresentação tem a ver com o consumo dos resultados</p><p>gerados pelas análises.</p><p>FIGURA 10 – UMA ARQUITETURA GENÉRICA PARA IMPLANTAÇÃO DE BIG DATA</p><p>ANALYTICS</p><p>FONTE: O autor</p><p>4.2 ECOSSISTEMA HADOOP</p><p>Uma arquitetura típica de Big Data precisa suportar o alto volume e a variedade de dados e processá-los em</p><p>um tempo hábil. O Hadoop é um framework Open-Source que permite o processamento distribuído de</p><p>grandes massas de dados por intermédio de clusters de computadores considerando modelos de</p><p>programação simples. Esses clusters são máquinas ou nós que estão distribuídos oferecendo recursos de</p><p>computação e armazenamento locais gerenciados por um servidor. Por intermédio do Apache Hadoop é</p><p>possível gerenciar um grande volume de dados dos mais variados formatos. Mais do que isso, a biblioteca</p><p>fornece mecanismos automatizados para detecção e correção de falhas e serviços com alta disponibilidade e</p><p>escalabilidade.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Conecte-se</p><p>A Apache disponibiliza uma lista de empresas que estão utilizando o Apache</p><p>Hadoop no seu Wiki: < https://wiki.apache.org/hadoop/PoweredBy >. Vale a</p><p>pena conferir.</p><p>Disponível aqui</p><p>Dentro do projeto Hadoop existem alguns módulos, dentre estes, destaca-se o Hadoop Distributed File System</p><p>(HDFS), que se preocupa com questões relacionadas ao armazenamento, enquanto que o Hadoop MapReduce</p><p>está interessado no processamento, ambos são componentes centrais do Hadoop. Nesta seção,</p><p>apresentaremos com um nível maior de detalhes os dois módulos. Entretanto, tenha em mente que existem</p><p>outros módulos core relacionados ao Hadoop, conforme mostra a Figura 11. Módulos centrais da arquitetura</p><p>Hadoop são core porque constituem como base para implementação do Hadoop.</p><p>FIGURA 11 – OUTROS MÓDULOS CORE RELACIONADOS AO HADOOP</p><p>FONTE: O autor</p><p>4.2.1 Hadoop Distributed File System (HDFS)</p><p>O Hadoop foi construído com o propósito de resistir às exigências da era Big Data, ou seja, grandes volumes</p><p>de dados podem ser processados em tempo hábil. Em uma arquitetura típica, vimos que precisamos utilizar</p><p>alguma forma de armazenamento que seja flexível e escalável para lidar com essa realidade. O HDFS é um</p><p>sistema de gestão de arquivos distribuído utilizado pelo Hadoop, que permite armazenar grandes conjuntos</p><p>de dados com diferentes tipos e formatos utilizando cluster de computadores, por intermédio de máquinas de</p><p>baixo custo (hardware commodity), ou seja, o armazenamento é distribuído entre as máquinas (nós) que</p><p>compõem o cluster.</p><p>Dessa forma, o HDFS garante uma alta capacidade de armazenamento de forma escalável segura, que inclui</p><p>replicação de dados e tolerância a falhas, como erros de leitura e escrita, que eventualmente venham a</p><p>acontecer, de maneira rápida e eficiente. Tudo realizado com máxima transparência e com módulos criados</p><p>especificamente para gerenciar operações de baixo nível, oferecendo-nos uma visão única de todo o processo</p><p>de armazenamento.</p><p>Diante disso, o HDFS possui uma arquitetura composta por dois componentes principais: o NameNode e o</p><p>DataNode. Foi projetado para lidar com casos de inclusão ou exclusão de commodities no cluster sem afetar o</p><p>andamento do processo de armazenamento.</p><p>Os NameNodes (master) serão os responsáveis por controlar o armazenamento físico dos dados nos nós,</p><p>ou seja, atuam como gerentes do HDFS. À medida que os dados chegam no HDFS eles são divididos em</p><p>blocos. O NameNode grava as informações de envio de cada bloco e os armazena nos DataNodes. Assim, os</p><p>NameNodes controlam informações centrais de acesso, leituras, gravações, criações e exclusões de blocos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwiki.apache.org%2Fhadoop%2FPoweredBy&sa=D&sntz=1&usg=AOvVaw2Iocq9fUWvvi40ezdeeXUR</p><p>https://www.google.com/url?q=https%3A%2F%2Fcwiki.apache.org%2Fconfluence%2Fdisplay%2Fhadoop%2FPoweredBy&sa=D&sntz=1&usg=AOvVaw33Qfns1pLF7EqgEOMfH3hX</p><p>de dados, criam metadados para mapear onde os dados estão armazenados. Por questões de segurança, a</p><p>replicação dos dados entre os DataNodes é algo importante, especialmente porque em caso de falha ou</p><p>pane, é possível que as informações sejam recuperadas. Ainda no que se refere a essa questão, um</p><p>segundo NameNode pode ser criado como alternativa para recuperação de falhas.</p><p>Os DataNodes (slaves) comunicam-se constantemente com o NameNode, processando e armazenando os</p><p>blocos de dados nos discos locais das máquinas destino. Essa comunicação é importante para que, em caso</p><p>de falha, o DataNode possa comunicar-se ao NameNode que executa um processo de recuperação.</p><p>4.2.2 Hadoop MapReduce</p><p>Talvez você conheça o algoritmo MapReduce , presente em algumas linguagens de programação. É um</p><p>modelo de programação simples e poderoso que processa de forma distribuída e paralela grandes conjuntos</p><p>de dados. O pressuposto do algoritmo é resolver problemas complexos, dividindo-os em pequenos conjuntos</p><p>de problemas e, em seguida, resolvendo-os de forma paralela. Isso é feito através de algumas etapas como:</p><p>Map : recebe como parâmetro um conjunto de dados de entrada, uma chave e um valor e realiza operações,</p><p>como filtragem, agrupamento e classificação. Um processo adicional que é capaz de organizar, ordenar e</p><p>transferir os dados de Map para o Reduce é conhecido como Shuffle e pode ser encontrado em alguns</p><p>esquemas que detalham o funcionamento</p><p>do MapReduce.</p><p>Reduce : é responsável por receber dados de Map no formato (chave, valor) em seguida realiza a agregação</p><p>e a redução dos dados.</p><p>Para exemplificar, considere que você está interessado em saber o total de funcionários de uma empresa por</p><p>departamento. Map receberá como input os funcionários e os departamentos que os alocam, mapeando-os</p><p>em um formato (chave, valor). Antes de serem entregues para Reduce, esses dados são organizados e</p><p>ordenados (Shuffle). Em seguida, Reduce recebe esse conjunto de valores, realiza a agregação somando o</p><p>número de funcionários por departamento e entrega o resultado final.</p><p>Conecte-se</p><p>Para conhecer mais a respeito do funcionamento do MapReduce, não deixe de</p><p>visitar o site: < https://yhoo.it/3aHIMBm >.</p><p>4.2.3 Hadoop: Common, Yarn e Ozone</p><p>A versão 2.x do Hadoop apresenta outros componentes core para arquitetura Hadoop.</p><p>Hadoop Common : projetado em linguagem Java, representa uma estrutura base que fornece suporte para</p><p>outros módulos construídos no Hadoop, por intermédio de uma coleção de bibliotecas e utilitários. É</p><p>considerado um core do Apache Hadoop, pois é um módulo que é iniciado automaticamente, tornando o</p><p>ecossistema do Hadoop “plugável”.</p><p>Hadoop YARN : consiste em um serviço central oferecido pelo Hadoop para gerenciamento global de</p><p>recursos e aplicações. É possível realizar o agendamento e o monitoramento de recursos de hardware,</p><p>como consumo de CPU, disco ou memória. Avaliar, por exemplo, se um nó dentro do cluster está</p><p>submetido a demasiadas cargas de trabalho ou apresenta algum outro problema (gargalo) que possa</p><p>comprometer o desempenho geral do cluster. De uma outra forma, o YARN deve garantir recursos</p><p>computacionais suficientes para execução de aplicações e ao mesmo tempo gerenciá-los para um bom</p><p>funcionamento em termos de armazenamento e processamento do Hadoop.</p><p>Hadoop Ozone : é um dos mais recentes módulos do Apache Hadoop. Ele propõe uma semântica para</p><p>armazenamento de dados no Hadoop. Por meio do Ozone é possível gerenciar arquivos grandes e</p><p>pequenos com uma arquitetura simples, com excelentes mecanismos de recuperação de falhas mais sérias</p><p>que possam ocorrer no cluster.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdeveloper.yahoo.com%2Fhadoop%2Ftutorial%2Fmodule4.html%23dataflow&sa=D&sntz=1&usg=AOvVaw10QqBi--nHn3eu5-PjEL62</p><p>4.2.4 Outros componentes do ecossistema Hadoop</p><p>Quando implantamos o Hadoop em nossos projetos, muitas vezes, surge a necessidade de incorporar novos</p><p>componentes que possam ser plugáveis à nossa arquitetura de modo que possamos explorar novas</p><p>possibilidades em nossas análises e atender às demandas do negócio com rapidez e eficiência. Assim,</p><p>encerramos este capítulo mostrando alguns destes componentes.</p><p>Apache Hive : se você precisa de uma camada para armazenar dados em lote, estruturados, que seja útil</p><p>para análises avançadas, o Hive pode ser a ferramenta certa. Sua sintaxe é simples, similar ao SQL, por</p><p>meio do Hive-QL (HQL), você pode manipular e gerenciar dados armazenados em um ambiente de Big Data.</p><p>Apache Pig : é um ambiente de execução interativo e mais acessível para lidar com fluxo de dados através</p><p>do Pig Latin (linguagem) e o Pig Runtime (ambiente de execução). É possível realizar pequenos testes de</p><p>execuções com uma sintaxe enxuta que suporta operações de carregamento e armazenamento de dados,</p><p>agrupamento, classificação de dados etc. Além disso, tarefas MapReduce e criação de mecanismos de</p><p>extração, transformação e carga podem ser utilizados.</p><p>Apache HBase : é um outro componente importante do ecossistema Big Data. É um Banco de Dados não</p><p>Relacional projetado para manter o alto desempenho e suportar diferentes formatos e estruturas de dados.</p><p>Apache Mahout : na camada de análise, é possível que estejamos interessados em implementar modelos</p><p>de Machine Learning. Neste caso, podemos optar pelo Mahout, que fornece uma biblioteca escalável para</p><p>trabalhar com aprendizagem de máquina e mineração de dados, sendo possível aplicar algoritmos, como</p><p>de clusterização e classificação em um ambiente preparado para garantir o alto desempenho na análise.</p><p>Apache Sqoop : é uma ferramenta robusta para extração de grandes volumes de dados, que</p><p>posteriormente serão carregados para o HDFS e vice-versa.</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Diante de tudo que foi exposto neste capítulo, é possível perceber que o surgimento de novas tecnologias,</p><p>aliado a outros fatores, corroboram para o crescimento do volume de dados digitais gerados em todo o</p><p>mundo. A dinâmica de mercado tem forçado as empresas a adotarem uma postura ofensiva para lidar com</p><p>situações adversas e a saída para isso, muitas vezes, está dentro de suas bases de dados. Assim, informações</p><p>estratégicas são fundamentais para manter a competitividade.</p><p>Os cases apresentados reforçam a tendência no aumento do volume de dados com a incorporação de novas</p><p>tecnologias em nosso cotidiano. Logo, acredita-se que a análise de dados crescerá na mesma proporção. Por</p><p>isso, é fundamental que empresas se empenhem em compreender que tipos e formatos de dados precisam</p><p>ser analisados. Dados não estruturados representam uma fonte rica para extração de insights e são alvo de</p><p>interesse das empresas especialmente nos dias de hoje. Por isso, é necessário construir uma arquitetura que</p><p>suporte o alto volume de dados e que seja flexível a variados tipos de estruturas.</p><p>Nesse cenário, o Big Data ganhou destaque para lidar com dados de grande volume, dos mais variados</p><p>formatos, tipos e tamanhos, tudo em um tempo hábil. Para que o Big Data faça sentido para o negócio, é</p><p>necessário que a arquitetura projetada realmente entregue valor para a organização, fornecendo</p><p>conhecimento útil ou não trivial. Por essa razão, construir uma arquitetura adequada e alinhada com os</p><p>objetivos do negócio é um desafio, mas perfeitamente possível. Conhecer os conceitos, os métodos e as</p><p>ferramentas disponíveis é o primeiro passo para que você possa combinar esse conhecimento com sua real</p><p>necessidade. Ao final deste capítulo apresentamos o Hadoop e alguns dos módulos que o compõem.</p><p>Recomendo fortemente que você busque informações mais detalhadas relacionadas ao Hadoop, a fim de</p><p>complementar o seu conhecimento. Não caia na tentação de explorar o Big Data na prática sem antes</p><p>compreender bem os conceitos que estão envolvidos.</p><p>Para saber mais sobre o Hadoop, assista os vídeos: O que é Hadoop? Parte 1, parte 2 e parte 3, do canal Big Data</p><p>sem mistério.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Agora que já compreendemos os principais conceitos ligados ao Big Data, vamos avançar. Na próxima etapa vamos</p><p>compreender técnicas para análise de Big data.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 2</p><p>Os gestores de negócios necessitam de respostas cada vez mais rápidas e o processo de análise precisa ser</p><p>pensado e remodelado para dar conta dessa exigência. Por isso, quando pensamos em construir uma arquitetura</p><p>de Big Data que possa resistir a essa dinâmica, precisamos criar mecanismos que otimizem todas as camadas de</p><p>análise.</p><p>Nesta etapa serão explorados conceitos, técnicas, ferramentas e aplicações no mundo Big Data, vamos começar</p><p>com o conceito de cluster, ou seja, agrupamento) em nível de dados.</p><p>A clusterização é uma técnica importante para classificar pontos de dados que não são rotulados previamente e</p><p>parte do pressuposto que, uma vez que pertençam a um mesmo grupo - de acordo com alguma métrica de</p><p>distância definida previamente</p><p>-, os pontos de dados são homogêneos entre si e assim podem ser rotulados.</p><p>A clusterização em Big Data pode ser dividida em duas principais categorias, conhecidas como: Single-Machine</p><p>clustering e Multi-Machine clustering. Vamos acompanhar os principais tópicos dessas duas categorias.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>É importante que você considere alguns fatores-chave para a seleção do melhor algoritmo:</p><p>Confira o vídeo da etapa 2:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 2</p><p>O crescimento das redes sociais reflete diretamente no consumo e na geração de conteúdo. Isso significa que</p><p>existe uma grande fonte de conhecimento que pode ser coletada, organizada e explorada por ferramentas</p><p>analíticas.</p><p>Os resultados obtidos a partir das análises de rede podem ajudar empresas a traçar estratégias para envolver o</p><p>público com a marca, analisar o sentimento do público com relação a um novo produto lançado, prever tendências</p><p>com base no comportamento social ou individual dos clientes, entre outras possibilidades.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=vDCpT8XCp9U&feature=emb_imp_woyt</p><p>No Artigo Análise de Redes Sociais, Da teoria à ação , Robson Oliveira explica as principais métricas para analisar</p><p>as redes sociais.</p><p>Além das redes sociais, existem outros dados não estruturados que são a maioria na atualidade. Analisar dados</p><p>não estruturados em tempos de Big Data parece ser um desafio. Por essa razão, diversas pesquisas têm sido</p><p>realizadas para construção de novos métodos, técnicas ou algoritmos para analisar dados textuais de grande</p><p>volume.</p><p>Em atividades de análise textual é preciso converter dados não estruturados para um formato estruturado</p><p>para que assim análises sejam aplicadas . Diante dessa situação, o Processamento de Linguagem Natural (PLN)</p><p>surge como uma alternativa do campo linguístico, que permite estudar relações entre palavras e sentenças em um</p><p>texto.</p><p>O mecanismo de busca e o tradutor do Google, bem como os corretores de texto, são alguns dos inúmeros</p><p>exemplos de aplicações do PLN.</p><p>No vídeo: Mineração de textos, Parte 1 Jones Granatyr apresenta uma introdução à área de mineração de texto. Já</p><p>no vídeo Mineração de Textos – Parte 2, Jones Granatyr apresenta tarefas e aplicações práticas da mineração de</p><p>textos.</p><p>Mineração de textos - Parte 1 Mineração de textos - Parte 2</p><p>O último assunto que abordaremos neste tópico é o Digital Analytics, ou Análise Digital. Mas o que é Digital</p><p>Analytics?</p><p>É um conjunto de atividades técnicas e de negócios que definem, criam, coletam, verificam ou transformam dados</p><p>digitais em relatórios, pesquisas, análises, recomendações, otimização, predições, que criam valor para os negócios</p><p>auxiliando empresas a criar valor, aumentando a receita ou reduzindo custos. Os dados digitais podem ser dados</p><p>comportamentais sobre como as pessoas usam e interagem com experiências digitais, dados ou metadados</p><p>relacionados a eventos, cliques e interações, é utilizada para responder perguntas de negócio e fornecer base para</p><p>decisões baseadas em fatos (PHILLIPS, 2014, p. 3-4).</p><p>Vamos verificar algumas métricas importantes que são utilizadas para monitorar sites ou lojas virtuais?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fblog.dp6.com.br%2Fan%25C3%25A1lise-de-redes-sociais-da-teoria-%25C3%25A0-a%25C3%25A7%25C3%25A3o-9dd1119c08fb&sa=D&sntz=1&usg=AOvVaw3uhwY-ld8TA4gB4IA-yfsL</p><p>https://www.youtube.com/watch?v=iIQax6NuRsg&feature=emb_imp_woyt</p><p>https://www.youtube.com/watch?v=zeDE89HtgiM&feature=emb_imp_woyt</p><p>Existem outras métricas digitais incorporadas em ferramentas voltadas para as análises digitais. O próprio Google</p><p>Analytics (ferramenta gratuita do Google) possui numerosas métricas e indicadores para auxiliar as empresas a</p><p>obterem ganho competitivo no mundo digital. No site de ajuda ao Google Analytics você pode ter uma visão ampla</p><p>da ferramenta .</p><p>CAPÍTULO 2 - COMPREENDENDO E</p><p>EXPLORANDO TÉCNICAS PARA ANÁLISE</p><p>DE BIG DATA</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Conceituar e aplicar técnicas avançadas no mundo dos negócios.</p><p>Apresentar, descrever e explorar técnicas para análise de grandes volumes de dados.</p><p>Discutir e demonstrar a aplicação de diferentes técnicas para análise de Big Data.</p><p>1 CONTEXTUALIZAÇÃO</p><p>No capítulo anterior, vimos que o massivo crescimento no volume de dados exigiu novas demandas para</p><p>análise de dados. A pergunta que surge é: como criar uma alternativa para lidar com toda essa dinâmica e</p><p>entregar respostas rápidas tendo em vista o suporte à tomada de decisão? Mais do que isso, como podemos</p><p>tornar esse processo menos custoso nas empresas? É importante pensar nesses questionamentos a fim de</p><p>fornecer soluções apropriadas para o negócio para garantir um bom custo-benefício.</p><p>Nos últimos anos, novas tecnologias (ou fontes de dados) têm surgido e são capazes de criar conteúdo ou</p><p>produzir dados em um menor intervalo de tempo. Por exemplo, drones são responsáveis por criar conteúdo</p><p>relacionado a imagens, que podem ser úteis para mapear áreas de risco na agricultura, medir grau de poluição</p><p>nos rios e monitorar áreas de preservação ambiental para combater o desmatamento. Sensores dos mais</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://support.google.com/analytics/#topic=3544906</p><p>https://support.google.com/analytics/#topic=3544906</p><p>diversos tipos e tamanhos representam uma outra rica fonte de dados que podem ser utilizados também para</p><p>fins de monitoramento, como: eficiência de máquinas na produção de peças automotivas, sensores de</p><p>imagens para detecção de materiais e peças, ou sensores magnéticos para abertura e fechamento de portas</p><p>ou portões.</p><p>Como estamos imersos em tecnologias inovadoras, sem nos dar conta disso, não precisamos ir muito longe</p><p>para ratificar. Se você pegar seu smartphone, constatará que existem algumas funcionalidades que</p><p>incorporam o uso de sensores. Quando você programa o controle de brilho na sua tela de forma automática, o</p><p>sensor fará uma leitura da luminosidade do ambiente e a adequará a sua tela. Sensores de acelerômetro</p><p>conseguem medir informações de orientação do aparelho e também determinar altitude por meio de</p><p>giroscópios. São muitos exemplos práticos em que a tecnologia está onipresente. Nesse universo tecnológico</p><p>são muitos dados sendo produzidos e estamos diante de uma realidade na qual ferramentas tradicionais de</p><p>análise de dados não fornecem o devido suporte, o Big Data emergiu a partir disso.</p><p>Nessa atual conjuntura, vimos que o Big Data pode ser definido, mesmo que de forma mais simplista, em</p><p>função do volume e variedade dos dados que são extraídos e analisados no tempo certo, ou seja, em uma</p><p>velocidade ideal de acordo com a demanda dos negócios. Os gestores de negócios, por sua vez, necessitam de</p><p>respostas cada vez mais rápidas e o processo de análise precisa ser pensado e remodelado para dar conta</p><p>dessa exigência. Por isso, quando pensamos em construir uma arquitetura de Big Data que possa resistir a</p><p>essa dinâmica, precisamos criar mecanismos que otimizem todas as camadas de análise. Desde o momento</p><p>que coletamos os dados até o instante em que apresentamos as visualizações ao usuário final. Vale frisar que</p><p>esse processo não termina quando você implanta um modelo ou apresenta visualizações. Ao contrário, todo o</p><p>processo de Big Data é iterativo,</p><p>precisando sempre ser monitorado e, quando necessário, readaptado sob</p><p>demanda. Por essa razão, a arquitetura precisa ser muito bem pensada, a fim de ser menos sensível a</p><p>eventuais modificações. Portanto, é vital que os objetivos de negócio (definido na etapa de requisitos) tenham</p><p>um escopo bem definido para que os analistas possam direcionar seus estudos em função das reais</p><p>necessidades da empresa.</p><p>Neste capítulo serão explorados conceitos, técnicas, ferramentas e aplicações no mundo Big Data. Você</p><p>conhecerá algoritmos e técnicas baseadas em cluster, assim como compreenderá a importância da análise de</p><p>dados em redes sociais. Serão abordadas técnicas para analisar dados não estruturados e, por fim, o capítulo</p><p>será encerrado com um estudo sobre o Digital Analytics, conceitos e implicações no mundo dos negócios. Faça</p><p>bom proveito e bons estudos!</p><p>2 CLUSTER: CONCEITOS E ALGORITMOS BASEADOS EM BIG DATA</p><p>Nós já comentamos sobre cluster no final do capítulo anterior, mas o cluster que abordaremos nesta seção</p><p>não se refere a um cluster físico ou hardware, embora grande parte do conhecimento obtido possa ser</p><p>reaproveitado, mas, sim, diz respeito ao clustering (agrupamento) em nível de dados, que exploraremos a</p><p>seguir.</p><p>2.1 CLUSTERING: CONCEITOS, TÉCNICAS E ALGORITMOS</p><p>Em uma análise de dados tradicional, a clusterização (ou clustering) é um método que visa classificar um</p><p>conjunto de pontos de dados semelhantes em um mesmo grupo, ou seja, são pontos que apresentam um</p><p>elevado grau de similaridade entre si. Enquanto que, por outro lado, pontos de dados que estão fora da</p><p>margem desse grupo podem formar outros clusters que possuem elevado grau de dissimilaridade entre eles.</p><p>A clusterização é uma técnica importante para classificar pontos de dados que não são rotulados previamente</p><p>e parte do pressuposto que, uma vez que pertençam a um mesmo grupo - de acordo com alguma métrica de</p><p>distância definida previamente -, os pontos de dados são homogêneos entre si e assim podem ser rotulados.</p><p>De acordo com a Figura 1, os pontos de dados foram classificados em três grandes grupos (A, B e C)</p><p>considerando alguma métrica de distância. A linha que divide o grupo de dados representa a fronteira de</p><p>decisão que segmenta os grupos. É possível utilizar algumas métricas de distância que se adéquam a</p><p>determinados tipos de dados, tais como distância Euclidiana, de Minkowski, de Manhattan, correlação, entre</p><p>outras.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Conecte-se</p><p>Você pode se aprofundar mais com relação às métricas de distância por meio</p><p>deste link: < https://bit.ly/2EbW25A >.</p><p>Disponível aqui</p><p>Quanto ao grau de dissimilaridade (ou divergência), ele é importante para garantir que os pontos de dados</p><p>que foram classificados fora da região (ou margem) de um grupo realmente não fazem parte daquele</p><p>determinado grupo. Isso oferece uma alternativa adicional para verificar o erro de classificação dos objetos.</p><p>Assim, podemos afirmar que o grau de dissimilaridade dos objetos em um cluster é dado por:</p><p>Dissimilaridade = 1 – Similaridade, onde:</p><p>Dissimilaridade ͼ [0,n]</p><p>FIGURA 1 – ANÁLISE DE DADOS BASEADA EM CLUSTER IDEAL PARA CLASSIFICAR</p><p>PONTOS DE DADOS NÃO ROTULADOS PREVIAMENTE (APRENDIZAGEM NÃO</p><p>SUPERVISIONADA), EM GRANDES GRUPOS</p><p>FONTE:</p><p>< https://www.geeksforgeeks.org ></p><p>. Acesso em: 2 fev. 2019.</p><p>Os métodos tradicionais baseados em cluster são muito utilizados em mineração de dados com diferentes</p><p>finalidades e podem ser divididos em:</p><p>Métodos de particionamento : é um método que inicialmente cria uma partição inicial definindo um</p><p>número fixo para o parâmetro K. Ao longo do processo iterativo, busca otimizar o particionamento</p><p>utilizando como parâmetro alguma medida de distância (ou similaridade) que possa ser implementada</p><p>através de algoritmos como K-means (ou c-means), CLARANS, PAN etc.</p><p>Conecte-se</p><p>Uma forma interativa de observar visualmente o funcionamento de um método</p><p>de particionamento é através desta pequena aplicação: < https://bit.ly</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.maxwell.vrac.puc-rio.br%2F7975%2F7975_3.PDF&sa=D&sntz=1&usg=AOvVaw34v2JTje5hCQkdm7LnjLHb</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EbW25A&sa=D&sntz=1&usg=AOvVaw0vKabCmh9KUZwCRkgvSlpt</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.geeksforgeeks.org%2Fclustering-in-machine-learning%2F&sa=D&sntz=1&usg=AOvVaw1BU6Ga-ukg6qvW9goBrhrJ</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>/2ErCw4D >. Você define o número de nós (N) do cluster e, em seguida, o</p><p>parâmetro K (número de clusters). Os pontos coloridos são o ponto de referência</p><p>para a formação dos grupos. Clique em “New” quantas vezes você julgar</p><p>necessário. Por fim, ao clicar em “Step” você tem a representação.</p><p>Disponível aqui</p><p>Métodos hierárquicos : este tipo de método particiona os dados no cluster de forma hierárquica e fornece</p><p>uma visualização em formato de “dendograma”, que classifica os objetos de acordo com os seus níveis,</p><p>considerando como parâmetro medidas de distância ou similaridade entre os pontos de dados. Os métodos</p><p>hierárquicos podem ser classificados como aglomerativo (abordagem bottom-up) ou divisivo (top-down),</p><p>estes, por sua vez, no que se refere a questões de interpretabilidade, necessitam de participação ativa de</p><p>um especialista do domínio para esclarecer os resultados. Exemplos de algoritmos que implementam</p><p>métodos hierárquicos são: ROCK, DIANA, BIRCH, entre outros.</p><p>Métodos baseados em densidade : são métodos que avaliam a densidade em torno dos pontos que os</p><p>cercam para definir a fronteira do cluster de acordo com um determinado raio, ou seja, o crescimento da</p><p>região de densidade pode acontecer em quaisquer direções. Regiões do cluster que apresentam baixa</p><p>densidade podem indicar a presença de outliers (anomalias). Alguns exemplos de algoritmos deste método</p><p>são: DBSCAN, DENCLUE e OPTICS.</p><p>Métodos baseados em modelos : considera que os pontos de dados estejam em função de probabilidade</p><p>multivariada, criando hipóteses para os grupos na tentativa de otimizar e encontrar um melhor modelo</p><p>que classifique os grupos com base nesses ajustes estatísticos. Expectation-Maximization (EM) e Self-</p><p>Organizing Map (SOM) são alguns exemplos de algoritmos relacionados a esse método.</p><p>Métodos baseados em grid : basicamente divide o espaço de dados em células formando uma estrutura</p><p>em grid e define os clusters considerando a elevada densidade das células adjacentes. Alguns algoritmos</p><p>que podem ser implementados são: STING, WaveCluster e GRIDCLUS.</p><p>Métodos evolutivos : inspirado em algoritmos genéticos e outras abordagens evolutivas, tem como objetivo</p><p>explorar de forma iterativa um conjunto inicial e aleatório de soluções (clustering) e verifica, dentre estas,</p><p>qual é a melhor solução. O critério de parada é determinado a priori.</p><p>O problema dos algoritmos tradicionais de agrupamento está relacionado a sua ineficiência para lidar com</p><p>grandes volumes de dados , o que acaba comprometendo todo o tempo da análise e tornando a utilização de</p><p>Big Data inviável para esse tipo de análise. Assim, a comunidade científica não mediu esforços para superar</p><p>esse desafio e, dessa maneira, foram propostas novas abordagens para enfrentar esse problema. Assim,</p><p>novos algoritmos foram propostos com a promessa de tornar esse tipo de análise adaptável à era do Big Data,</p><p>oferecendo não somente suporte a massivos volumes de dados, como também a capacidade de serem</p><p>escaláveis para atender à demanda das análises.</p><p>Diante disso, a clusterização em Big Data pode ser dividida em duas principais categorias, conhecidas como:</p><p>Single-Machine clustering e Multi-Machine clustering. A principal diferença é que a primeira utiliza</p><p>recursos</p><p>computacionais de uma única máquina para executar os dados, enquanto que a segunda pode utilizar</p><p>recursos de várias máquinas para obtenção de ganho computacional e aumento de escalabilidade.</p><p>Chen, Ludwig e Li (2017) apresentaram um resumo das técnicas de cluster voltadas para a Big Data que pode</p><p>lhe fornecer uma boa base para a compreensão do tema. A Figura 2 apresenta uma esquematização de</p><p>técnicas e de clusterização que visa atender às necessidades do Big Data.</p><p>FIGURA 2 – O BIG DATA CLUSTERING PODE SER DIVIDIDO EM DUAS GRANDES</p><p>TÉCNICAS: SINGLE E MULTI-MACHINE CLUSTERING</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>FONTE: Chen, Ludwig e Li (2017, p. 338)</p><p>Nas próximas seções, exploraremos técnicas de Single-Machine Clustering e, em seguida, abordaremos as</p><p>técnicas de Multi-Machine Clustering.</p><p>2.1.1 Técnicas de Clusterização em uma Única Máquina (Single-Machine Clustering)</p><p>Muitos dos algoritmos voltados para a análise em cluster são computacionalmente custosos e estão contidos</p><p>em classes de problemas NP-difícil , como é o caso do K-means - um dos algoritmos de particionamento mais</p><p>populares. Assim, uma das primeiras maneiras de enfrentar problemas dessa natureza foi através da criação</p><p>de técnicas e algoritmos voltados para Single-Machine Clustering com o intuito de atender e dar suporte à alta</p><p>demanda no volume de dados na era Big Data. Dessa forma, conforme mostrado por Chen, Ludwig e Li (2017),</p><p>podemos dividir as técnicas de Single-Machine clustering de duas formas: as que são baseadas em</p><p>amostragem e aquelas voltadas para a redução de dimensionalidade :</p><p>Técnicas baseadas em amostragem : tem como objetivo generalizar o conhecimento dos dados a partir de</p><p>uma pequena amostra (sample) retirada de todo o conjunto de dados. Assim, em vez de manipular todo o</p><p>volume de dados disponível, os algoritmos trabalham apenas com uma pequena parcela do conjunto, isso</p><p>significa um menor número de pontos de dados. Em razão disso, obtem-se um ganho de desempenho e os</p><p>efeitos da complexidade computacional são minimizados. A maioria das técnicas baseadas em amostragem</p><p>fazem parte da classe de algoritmos de particionamento. Em geral, os algoritmos são: BIRCH, CLARANS,</p><p>PAM e assim por diante.</p><p>Técnicas de redução de dimensionalidade : o tamanho dos dados (dimensão) diz respeito ao número total</p><p>de atributos (variáveis) em relação ao número total de instâncias em um conjunto de dados. Caso você</p><p>estiver diante de um conjunto de dados com dimensão (2000000, 500) saiba que seria algo muito mais</p><p>custoso que trabalhar com conjuntos de dimensões (4000, 200). É em função dessa problemática que as</p><p>técnicas de redução de dimensionalidade foram pensadas, isto é, reduzir a dimensionalidade do conjunto</p><p>de dados para tornar o ambiente de execução mais ágil. Desta forma, uma alternativa para resolver esse</p><p>problema seria reduzir a dimensão do conjunto de dados aplicando tarefas de pré-processamento antes</p><p>mesmo de aplicar os algoritmos de análise em cluster. O PCA (Principal Component Analysis) é um dos</p><p>métodos mais populares que você pode utilizar para a redução de dimensionalidade, ao remover atributos</p><p>desnecessários e redundantes para a análise. Métodos de projeção locais e globais também podem ser</p><p>utilizados para este fim. Essas técnicas são muito utilizadas também para extração e seleção de features</p><p>para fins de otimização quando construímos modelos de Machine Learning.</p><p>2.1.2 Técnicas de Clusterização em Múltiplas Máquinas (Multi-Machine Clustering)</p><p>Uma maneira aperfeiçoada para processar os dados em uma análise em cluster é segmentar conjuntos de</p><p>dados em partições reduzidas e carregá-los em máquinas diferentes com o objetivo de tirar vantagem do</p><p>processamento individual dessas máquinas para ganhar em escalabilidade e tempo de processamento. Em</p><p>suma, é dessa maneira que as técnicas de Multi-Machine clustering foram projetadas. Como já vimos na Figura</p><p>2, podemos dividir essas técnicas em duas grandes categorias: clusterização paralela e clusterização baseada</p><p>em MapReduce. Em ambos os casos, os dados são particionados e distribuídos em máquinas diferentes que</p><p>executam iterativamente suas operações de cluster localmente e entregam os resultados a um cluster final</p><p>que agrega os resultados locais e gera o resultado final.</p><p>Clusterização paralela : os dados são distribuídos em diferentes máquinas e precisam ser gerenciados pelo</p><p>desenvolvedor. É evidente que este é um processo que demanda mais esforço na implementação, porém,</p><p>uma vez executado, os resultados apresentam melhor desempenho em relação a abordagens tradicionais de</p><p>processamento. Pode-se citar alguns algoritmos, como ParMETIS, G-DBSCAN, K-Means, PBIRCH e DBDC.</p><p>Grande parte desses algoritmos foram reformulados para suportar a computação paralela.</p><p>ParMETIS : é um algoritmo de particionamento paralelo, derivado do METIS, que foi otimizado com a</p><p>finalidade de encontrar um bom cluster de vértices em um grafo.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>G-DBSCAN : você recorda da versão DBSCAN que citamos em métodos baseados em densidade? Foi</p><p>construído uma versão otimizada do DBSCAN, baseada em GPU, para incrementar o poder de</p><p>processamento, bem como a velocidade do algoritmo.</p><p>K-Means : também foi remodelado para atender às exigências do paralelismo. Existem diversos trabalhos</p><p>que fornecem métodos de paralelização utilizando este algoritmo.</p><p>PBIRCH : uma versão derivada do algoritmo BIRCH dos métodos hierárquicos.</p><p>DBDC : consiste em um algoritmo paralelo que constrói clusters utilizando como parâmetro a densidade dos</p><p>pontos.</p><p>Clusterização baseada em MapReduce : é verdade que a clusterização paralela trouxe melhorias</p><p>significativas em termos de desempenho no que se refere a dados de grande volume. Entretanto, como já</p><p>foi abordado, na clusterização paralela existe uma complexidade maior de gerenciamento por parte do</p><p>desenvolvedor, que precisa se preocupar com detalhes inerentes à paralelização, por exemplo, definir como</p><p>os dados serão distribuídos ou como criar mecanismos que forneçam suporte de tolerância a falhas. O</p><p>MapReduce é um modelo de programação simples que permite que o desenvolvedor se preocupe apenas</p><p>com a estratégia que será adotada, tornando as tarefas de mais baixo nível transparentes enquanto os</p><p>dados são processados. Podemos afirmar que essa é uma das principais diferenças entre esses dois tipos</p><p>de clusterização. Da mesma forma que na clusterização paralela, o K-means também foi adaptado à</p><p>abordagem MapReduce, conforme mostra a Figura 3. Algoritmos como MR-DBSCAN e DBCURE-MR, MR-</p><p>CPSO, EM e BIRCH também foram aperfeiçoados com o emprego do MapReduce. Além disso, algumas</p><p>abordagens propõem o uso de GPU (GPMR) para processar algoritmos para este fim. Dentre elas,</p><p>destacam-se:</p><p>MR-DBSCAN : a união de um método baseado em densidade e um modelo de programação MapReduce</p><p>permitiu a construção desse algoritmo.</p><p>DBCURE-MR : consiste em um modelo baseado em densidade combinado com o MapReduce, aprimorado</p><p>para encontrar eficientemente diversos clusters de forma independente, considerando as densidades que</p><p>compõem os clusters.</p><p>GPMR : é uma maneira ainda mais otimizada de conduzir a forma de processamento baseado em CPU para</p><p>GPU utilizando o MapReduce. Permite um desempenho e uma escalabilidade ainda maior.</p><p>FIGURA 3 – UMA PROPOSTA DE APLICAÇÃO DO MAPREDUCE AO ALGORITMO</p><p>K-MEANS CLUSTERING</p><p>FONTE:</p><p>< https://portal.futuresystems.org</p><p>>. Acesso em: 10 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fportal.futuresystems.org%2Ftwister-kmeans&sa=D&sntz=1&usg=AOvVaw0X8yoV1xpc1VeP0fLV25fL</p><p>Tendo em mente as técnicas e os algoritmos baseados em cluster que foram apresentados até o presente</p><p>momento, pode ser que você se pergunte: “Qual desses algoritmos é o mais indicado?”. A resposta é simples:</p><p>depende . De fato, tudo dependerá do domínio do problema que você está trabalhando. Por exemplo, se você</p><p>estiver diante de um cenário onde o volume e a variedade dos dados estejam sujeitos a poucas alterações,</p><p>talvez o mais indicado seja empregar métodos tradicionais de cluster, como particionamento ou hierárquico,</p><p>ou mesmo, de densidade. Por outro lado, se os requisitos de negócio exigirem que você trabalhe com uma</p><p>ampla variedade e volume de dados, seria bom pensar em técnicas voltadas para o processamento em</p><p>múltiplas máquinas, paralelizando o conjunto de dados para compensar a possibilidade de altas taxas de</p><p>latência devido ao processamento de dados de grande volume. Tenha sempre em mente que, se o problema é</p><p>simples, resolva-o da forma mais simplificada possível. Não agregue complexidade ao utilizar algoritmos de</p><p>múltiplas máquinas em cenários de implementação de baixa complexidade. Portanto, direcione suas análises</p><p>e decisão de escolha dos algoritmos sempre de acordo com o domínio (ou problema) que está sendo</p><p>explorado. De qualquer modo, é importante que você considere alguns fatores-chave para a seleção do</p><p>melhor algoritmo:</p><p>Volume dos dados : como já estudamos, grande parte dos algoritmos de clusterização apresenta alta</p><p>complexidade computacional, por esse motivo, métodos e técnicas tradicionais somente devem ser</p><p>empregados em conjuntos de dados pequenos.</p><p>Variedade dos dados : algoritmos de clusterização não são projetados para lidarem com tipos de dados</p><p>diferentes. Ao contrário, em geral, ou funcionam bem em dados numéricos ou em dados categóricos. A</p><p>etapa de transformação também pode se tornar custosa para lidar com a variedade dos dados obtidos da</p><p>fonte. Conhecer o tipo de dado aceito pelos algoritmos que pretendemos utilizar é uma tarefa importante.</p><p>Total de parâmetros : quanto maior a dimensão vertical (colunas) dos dados mais difícil se torna a tarefa de</p><p>clusterização. Por isso, métodos de redução de dimensionalidades podem ser úteis para minimizar os</p><p>efeitos que o excesso de parâmetros possa causar.</p><p>Dimensionalidade : está relacionado ao número de linhas e colunas que podemos exigir</p><p>consideravelmente dos algoritmos de clusterização. Remover dimensões irrelevantes é uma etapa</p><p>fundamental para melhorar o desempenho da análise.</p><p>2.2 CLUSTERING: APLICAÇÕES</p><p>Uma enquete realizada em 2017 pelo KDnuggets mostrou que, entre os métodos voltados para a ciência de</p><p>dados e aprendizagem de máquina, a clusterização foi o segundo método mais empregado (55%) pelos</p><p>usuários em cenários reais de aplicação, ficando atrás apenas dos métodos de regressão (60%). Os resultados</p><p>também apontam bons números de uso dessa técnica na indústria, que ficou em torno de 60%, e na área de</p><p>pesquisa: 56,8%.</p><p>Conecte-se</p><p>Com relação a essa enquete, acesse o site < https://www.kdnuggets.com >.</p><p>Disponível aqui</p><p>O que retrata tudo isso é a diversidade de aplicações que empregam as análises em cluster, conforme será</p><p>mostrado a seguir:</p><p>Segmentação de clientes : as empresas inclinam-se a descobrir padrões de consumo de seus clientes</p><p>dividindo-os em grupos distintos e tomando como base informações contidas em suas bases ou, em alguns</p><p>casos, fontes externas para agregar conhecimento aos seus negócios e melhorar a experiência de seus</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2017%2F12%2Ftop-data-science-machine-learning-methods.html&sa=D&sntz=1&usg=AOvVaw0c96121LJeafRRhIFlCjhK</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com&sa=D&sntz=1&usg=AOvVaw2doznPUR-3uFKtM_rOCvv3</p><p>produtos.</p><p>Detecção de anomalias : a análise em cluster também é utilizada para dividir grupos entre atividades</p><p>suspeitas (ou ações fraudulentas) e atividades normais de compras no cartão de crédito com base no</p><p>histórico de compras e renda dos clientes, por exemplo.</p><p>Mecanismos de pesquisa : visam agrupar um conjunto de documentos com base em suas similaridades.</p><p>Quando pesquisamos algo em algum buscador, este retorna um conjunto de artigos ou documentos que</p><p>possuem elevada similaridade com a palavra-chave que digitamos.</p><p>Segmentação de imagens : dados de imagens como pixels também podem ser utilizados para classificar</p><p>imagens em visão computacional. Evidentemente que a tarefa se torna mais complexa em cenários dessa</p><p>natureza e, por essa razão, técnicas paralelas de análise de cluster têm sido empregadas nesses casos.</p><p>Conecte-se</p><p>Este artigo mostra alguns casos de aplicações que utilizam o algoritmo de</p><p>clusterização K-means. Acesse: < https://bit.ly/34iE6AQ >.</p><p>Segue mais um link que pode complementar o seu aprendizado com relação a</p><p>um dos algoritmos mais conhecidos para a análise de clusters - o K-Means:</p><p>< https://bit.ly/2SCYXYC >.</p><p>Na próxima seção você aprenderá a respeito de uma análise comumente empregada, especialmente com o</p><p>advento de um novo meio de interação digital: os relacionamentos digitais. Assim, estudaremos conceitos e</p><p>componentes de análise de rede, especialmente redes sociais que ampliarão o seu leque de possibilidades de</p><p>análises mais avançadas.</p><p>3 SOCIAL NETWORK: COMPREENDENDO CONCEITOS E APLICAÇÕES PARA A ANÁLISE DE DADOS</p><p>EM REDES SOCIAIS</p><p>Um dos meios que mais retratam essa nova era digital são as redes sociais. Não há dúvidas de que muitos</p><p>dados têm sido gerados a partir de posts no Facebook, imagens no Instagram, vídeos no Youtube, entre outras</p><p>redes sociais. Enfim, uma diversidade de conteúdos sendo produzidos por usuários em todo o planeta. Um</p><p>relatório publicado em 2018 pela We Are Social revelou que o total de usuários de mídias sociais cresceu 13%</p><p>em relação ao ano anterior, totalizando 3 bilhões e 196 milhões de usuários. O mesmo relatório apontou algo</p><p>curioso: os brasileiros consomem em média 3 horas e 39 minutos por dia com redes sociais, ocupando a</p><p>segunda colocação dos países que mais gastam tempo em redes sociais, ficando atrás apenas dos filipinos,</p><p>que consomem 3 horas e 57 minutos do tempo</p><p>Conecte-se</p><p>Com relação a esse relatório, acesse o site < https://bit.ly/2CQOWTu >.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2F10-interesting-use-cases-for-the-k-means-algorithm&sa=D&sntz=1&usg=AOvVaw2l_KhLng4b_kT38cZxpCUC</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2SCYXYC&sa=D&sntz=1&usg=AOvVaw1k9GBEJEyIIfVgZaljMJ8W</p><p>https://www.google.com/url?q=https%3A%2F%2Fwearesocial.com%2Fblog%2F2018%2F01%2Fglobal-digital-report-2018&sa=D&sntz=1&usg=AOvVaw347yKnO7ytyEovc-9qft96</p><p>https://www.google.com/url?q=https%3A%2F%2Fwearesocial.com%2Fblog%2F2018%2F01%2Fglobal-digital-report-2018-4%2F&sa=D&sntz=1&usg=AOvVaw1I5raUNwHmo5RbaOY-_rCZ</p><p>Essa realidade evidencia o crescimento das redes sociais, que reflete diretamente no consumo e na geração de</p><p>conteúdo. Isso significa que existe uma grande fonte de conhecimento que pode ser coletada, organizada e</p><p>explorada por ferramentas analíticas. Os resultados obtidos a partir disso podem ajudar empresas a traçar</p><p>estratégias para envolver o público com a sua marca, analisar o sentimento do público com relação a um novo</p><p>produto lançado, prever tendências com base no comportamento social ou individual dos clientes, entre</p><p>outras possibilidades. Para que você possa tirar proveito desta seção, atente-se aos conceitos e às técnicas</p><p>que serão apresentadas.</p><p>3.1 ANÁLISE DE REDES SOCIAIS: CONCEITOS IMPORTANTES</p><p>Usualmente uma rede pode ser definida</p><p>em função da teoria dos grafos: um grafo composto por um conjunto</p><p>de vértices e arestas. No âmbito de redes sociais, os vértices representam os atores sociais (organização,</p><p>pessoas ou entidades) e as arestas o relacionamento (links) entre eles. Assim, através de uma rede social</p><p>podemos observar os relacionamentos entre pessoas compreendendo inclusive o grau de relacionamento e</p><p>interação entre elas. O foco da análise desse tipo de rede está nas relações construídas entre os atores que se</p><p>constitui em forma de amizade, confiança, interesse, parentesco, entre outros aspectos. A diagramação é</p><p>normalmente representada por grandes quantidades de vértices (nós) e arestas (laços) e retratam a</p><p>complexidade deste ambiente.</p><p>A análise de redes sociais parte do pressuposto que extrairemos, além da capacidade, meras informações</p><p>quantitativas, tais como o total de amigos que fazem parte de um círculo social de uma pessoa. A ideia é ir a</p><p>fundo e estudar aspectos relacionais no que diz respeito à influência comportamental de uma pessoa ou</p><p>um grupo de pessoas, ou mesmo, o grau de conexão em relação aos outros componentes que estão</p><p>interconectados. É por isso que esse tipo de análise é interdisciplinar e incorpora, além de análises</p><p>computacionais e matemáticas, as ciências sociais, a administração, a antropologia, a própria geografia etc. A</p><p>Figura 4 exemplifica a representação de uma rede com suas interações. Os grupos podem ser divididos por</p><p>cores e tamanhos. Os relacionamentos entre os vértices podem ser também representados pela espessura</p><p>das linhas para reforçar o grau de conexão entre estes.</p><p>Além da representação por grafos, as redes sociais podem ser definidas por intermédio de matrizes ou lista de</p><p>dados, que, por sua vez, possuem uma representação mais matemática e podem ser reveladas através de</p><p>números. O grafo da Figura 4 é considerado direcionado , uma vez que os vértices possuem uma direção</p><p>predefinida. Em contrapartida, grafos que não possuem orientação e têm como função apenas conectar os</p><p>elementos (vértices) de um grafo são conhecidos como não direcionados . Os grafos também podem ser</p><p>ponderados , isto é, as relações entre os vértices podem carregar um peso ou uma força associada. Para</p><p>determinar o grau de um vértice em um grafo não direcionado, é preciso verificar o número de arestas que</p><p>incidem sobre ele. Em grafos direcionados , o grau de um vértice é calculado por meio da contagem de</p><p>arestas que entram (grau de entrada) e saem (grau de saída) de um vértice.</p><p>Conecte-se</p><p>Você pode explorar um pouco mais a respeito da teoria dos grafos por meio</p><p>desse tutorial interativo: < https://bit.ly/2Ylf8gk >.</p><p>Disponível aqui</p><p>FIGURA 4 – UM EXEMPLO DE UMA ESTRUTURA DE ANÁLISE DE REDE SOCIAL. OS</p><p>VÉRTICES NORMALMENTE POSSUEM CARACTERÍSTICAS, TAMANHOS E CORES. OS</p><p>RELACIONAMENTOS SÃO REPRESENTADOS PELOS LAÇOS QUE INDICAM OS VÉRTICES</p><p>QUE ESTÃO INTERLIGADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fmrpandey.github.io%2Fd3graphTheory%2Funit.html&sa=D&sntz=1&usg=AOvVaw2ZdKAwkTQStSKbV1raUnwM</p><p>https://www.google.com/url?q=https%3A%2F%2Fd3gt.com%2Funit.html&sa=D&sntz=1&usg=AOvVaw0cdgMgs0xcc62pqt2YZ3RU</p><p>FONTE:</p><p>< https://www.smrfoundation.org</p><p>>. Acesso em: 10 nov. 2018.</p><p>Liu et al. (2016) destaca que a estrutura das redes sociais pode ser dividida em três substâncias básicas: o ator,</p><p>o relacionamento e a rede, conforme descritos a seguir:</p><p>Ator : os atores sociais são os vértices da rede e podem representar organização, indivíduos ou entidades.</p><p>Algumas atividades podem ser realizadas a partir dos atores, como identificar quais os atores centrais em</p><p>uma rede que possui um elevado número de conexões ou relacionamentos e qual a importância que estes</p><p>exercem dentro da rede.</p><p>Relacionamento : descreve a relação entre dois vértices. O relacionamento entre os atores pode assumir</p><p>características que consideram direção e força . Os atores podem ter relacionamentos do tipo direcionado</p><p>ou não direcionado. Quando há o direcionamento , o sentido é relevante, dizer que um carro que saiu de</p><p>uma cidade A e foi para uma cidade B, implica um relacionamento de A para B. No entanto, o caso inverso</p><p>não pode ser validado: não podemos afirmar que, uma vez que o carro fez a trajetória A para B, ele</p><p>necessariamente terá que fazer o caminho de volta (B para A), ou seja, existe uma relação entre os vértices</p><p>bem definida e direcional. Por outro lado, em um outro contexto, quando você adiciona um amigo no</p><p>Facebook, necessariamente é estabelecido uma amizade ou relação bidirecional , isto é, não importa se</p><p>você ou seu amigo solicitou amizade na rede, uma vez que a ligação se estabeleça, ela vai existir</p><p>necessariamente em ambos os lados - você será amigo da pessoa que você aceitou e vice-versa (o que se</p><p>caracteriza como uma relação não direcionada ). No Twitter, o funcionamento é diferente, se você segue</p><p>uma pessoa isso não a obriga a lhe seguir também (a direção importa, por isso é uma relação direcionada ).</p><p>Um outro ponto a considerar é a força da relação entre os vértices, ou seja, a conexão é forte ou fraca ?</p><p>Monitorar a força do relacionamento é algo importante para tentar extrair o grau de conectividade entre</p><p>os componentes da rede. Além disso, é importante destacar que existe a possibilidade de circunstâncias</p><p>externas ou sociais modificarem a força da relação. Por exemplo, uma simples postagem polêmica pode</p><p>comprometer toda a estrutura de relacionamento entre os vértices de uma rede. Por essa razão,</p><p>eventualmente, a análise compreende monitoramento constante da rede.</p><p>Rede : é um conjunto de relacionamentos que descreve como os vértices estão interconectados . Podemos</p><p>classificá-las como: rede egocentrada e rede coletiva. As redes egocentradas são construídas a partir de</p><p>um indivíduo (ego), que é o ponto de partida, enquanto que as redes coletivas estudam os</p><p>relacionamentos de todos os atores de um determinado grupo.</p><p>3.2 ANÁLISE DE REDES SOCIAIS: MÉTRICAS</p><p>Para analisar redes sociais, podemos utilizar um conjunto de métricas de acordo com o objetivo. Assim,</p><p>convém dividir ou classificar essas métricas em alguns tipos conhecidos como: métricas de conexão, de</p><p>distribuição e de segmentação. Nas próximas seções você conhecerá mais a respeito dessas métricas.</p><p>3.2.1 Métricas de Conexões</p><p>Dentre as métricas de conexões podemos destacar a homofilia, a reciprocidade, a propinquidade e a</p><p>multiplexidade, conforme descritas a seguir:</p><p>Homofilia : seleciona e conecta um conjunto de atores semelhantes com base em variáveis predefinidas,</p><p>como idade, sexo e escolaridade. A ideia é selecionar um grupo de pessoas relacionadas que</p><p>compartilham características em comum , como visão política, crenças, gostos pessoais etc. A Figura 5</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.smrfoundation.org%2F2009%2F09%2F27%2Fsocial-media-network-analysis-workshop-october-29th-in-mountain-view-ca%2F&sa=D&sntz=1&usg=AOvVaw2ejjirEFEm1lHQD-6GV4s6</p><p>exibe um exemplo dessa medida.</p><p>Reciprocidade ou mutualidade : é uma medida que avalia o quão recíproco é o relacionamento entre</p><p>vértices (atores) em um grafo direcionado , ao verificar a existência de arestas em ambas as direções .</p><p>Propinquidade : calcula a tendência de um ator criar relações com outros atores próximos</p><p>geograficamente.</p><p>Multiplexidade : diz respeito à maneira pela qual atores estão interagindo entre si de múltiplas maneiras</p><p>em diferentes contextos . Um homem e uma mulher podem trabalhar juntos em uma novela e ao mesmo</p><p>tempo namorar um ao outro, assumindo o papel de atores e namorados em seus relacionamentos</p><p>(arestas).</p><p>FIGURA 5 – UM EXEMPLO DE HOMOFILIA. A TENDÊNCIA DE CONEXÃO DOS PONTOS É</p><p>EXIBIDA ATRAVÉS DAS CORES EM TONS DE CINZA. NESTE CASO EXISTEM TRÊS</p><p>DIFERENTES TONS</p><p>DE CINZA: À DIREITA, NA PARTE SUPERIOR E NA PARTE INFERIOR</p><p>FONTE: < http://migueldelfresno.com >. Acesso em: 10 nov. 2018.</p><p>3.2.2 Métricas de Distribuição</p><p>As métricas de distribuição são compostas pelas medidas de centralidade, densidade, força de conexão, de</p><p>distância etc. A Figura 6 mostra um exemplo de medidas de centralidade, como o grau de centralidade :</p><p>embora Alice tenha maior grau de centralidade, ela não é a pessoa mais poderosa, pois precisará passar</p><p>necessariamente por Rafael se quiser chegar em outros vértices.</p><p>FIGURA 6 – DIAGRAMA DE REDE RETRATANDO O GRAU DE CENTRALIDADE</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fmigueldelfresno.com%2F2014%2F10%2Finfluencia-y-homofilia-en-los-medios-sociales.html%2F&sa=D&sntz=1&usg=AOvVaw1ay4gfyCRolI9jgr0gzDSQ</p><p>FONTE: < http://www.fmsasg.com s/>. Acesso em: 10 nov. 2018.</p><p>Centralidade : em geral quantificam a importância ou a influência de atores ou grupo de atores em uma</p><p>determinada rede. São subdivididas em:</p><p>Grau de centralidade : o grau de cada vértice diz respeito ao número de relacionamento direto com o</p><p>vértice em questão. O grau de entrada (+) e de saída (-) pode ser medido em grafos direcionados. Um alto</p><p>grau de centralidade indica que o ator é ativo dentro da rede e, por meio deste, é possível atingir</p><p>diretamente um grande número de atores.</p><p>Centralidade de betweenness : para cada vértice soma-se o total de caminhos mais curtos (menores</p><p>distâncias). Os vértices com maior grau de betweenness possuem maior frequência de caminhos mais</p><p>curtos em relação a outros vértices e possuem alta influência na rede, pois representam um (forte) elo de</p><p>comunicação entre outros vértices da rede.</p><p>Centralidade de proximidade : qual o caminho mais rápido que um determinado vértice pode alcançar</p><p>outros vértices? A centralidade baseada em proximidade é uma medida que visa extrair os caminhos mais</p><p>rápidos (ou mais curtos) ao sair de um vértice A até chegar a um vértice X. Por exemplo, você pode ter em</p><p>mãos um mapa e verificar qual o caminho (rota) mais curto para sair da cidade de Ouro Preto e chegar na</p><p>cidade de Ribeirão Preto, tendo em mente que você possa ter n rotas e deseja minimizar custos com</p><p>viagem. Assim, podemos afirmar que um vértice com alto grau de proximidade pode acessar outros vértices</p><p>através de caminhos mais curtos na rede, isso porque este vértice está em uma posição estratégica (em</p><p>termos de proximidade) dentro da rede.</p><p>Você consegue pensar em um exemplo prático relacionado à centralidade</p><p>baseada em proximidade? Dica: pense em algo do dia a dia.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.fmsasg.com%2Fsocialnetworkanalysi&sa=D&sntz=1&usg=AOvVaw1udiHzz6hnUQV7Le2jAAwI</p><p>Centralidade de Autovalor : permite medir a importância de um vértice na rede através de scores que lhe</p><p>são atribuídos por outros vértices da rede. Vértices com elevada centralidade de autovalor estão</p><p>conectados com outros vértices que também possuem valores elevados de centralidade de autovalor. Por</p><p>meio de um grafo direcionado, é possível contar o número de arestas recebidas por um vértice como votos,</p><p>formando a base para construir o score de importância do vértice em questão. No Twitter, um usuário que</p><p>é muitas vezes citado por outros usuários populares na rede, tem alto grau de centralidade de autovalor.</p><p>Densidade : é uma medida que calcula o número de relacionamentos existentes entre os vértices em</p><p>função do total de possibilidades de relacionamentos entre eles. Redes densas são aquelas que</p><p>possuem uma medida de densidade próxima de 1, caso contrário, são classificadas como redes esparsas .</p><p>Força de conexão : considera fatores que podem fortalecer ou comprometer o relacionamento entre</p><p>atores, como questões sociais, emocionais, reciprocidade etc. As arestas (que representam os</p><p>relacionamentos) são ponderadas para indicar a força da relação entre os atores envolvidos.</p><p>Distância : basicamente é uma medida que calcula o número de arestas necessárias para alcançar um</p><p>destino final desejado.</p><p>3.2.3 Métricas de Segmentação</p><p>FIGURA 7 – EXISTE UM CLIQUE ENTRE OS VÉRTICES DESTACADOS, ISTO É, TODOS OS</p><p>VÉRTICES ESTÃO CONECTADOS A TODOS OS OUTROS VÉRTICES FORMANDO UM</p><p>TRIÂNGULO</p><p>FONTE: < http://www.jsquaredanalytics.com >. Acesso em: 10 nov. 2018.</p><p>Coeficiente de agrupamento ou clusterização : é uma medida que avalia a densidade dos vértices</p><p>vizinhos de um vértice em relação a ele mesmo. Um coeficiente de clusterização elevado implica dizer que</p><p>um vértice contém vizinhos conectados entre si formando um clique.</p><p>Clique : se um determinado ator estiver diretamente conectado a todos os outros atores então temos a</p><p>formação de um grupo em uma rede.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.jsquaredanalytics.com%2Fintroduction-to-network-analytics-2%2F&sa=D&sntz=1&usg=AOvVaw1MdH7tb0MxBjXoN7xyxEjv</p><p>Coesão : qual o número mínimo de vértices que, uma vez removidos do grupo ao qual pertenciam,</p><p>desconectariam o grupo? A coesão é uma medida que revela o grau de ligação entre os vértices em um</p><p>grupo.</p><p>É importante você estar ciente de que existem outras métricas que podem ser consideradas quando</p><p>analisamos redes sociais. Mais que isso, todas as métricas mencionadas podem ser combinadas para fornecer</p><p>uma compreensão mais ampla do conjunto de dados que estamos manipulando. A seleção da métrica mais</p><p>apropriada para o seu domínio dependerá da definição-problema e do objetivo da sua análise. É claro que,</p><p>quanto mais rica forem suas análises, maior será a possibilidade de se obter insights interessantes. No</p><p>próximo tópico apresentaremos algumas ferramentas que podem ser úteis para você praticar e consolidar os</p><p>conceitos que foram exibidos nesta seção.</p><p>3.3 ANÁLISE DE REDES SOCIAIS E SUAS APLICAÇÕES</p><p>A análise de redes sociais objetiva auxiliar as organizações a compreenderem e a responderem perguntas</p><p>como: “Como podemos classificar os indivíduos mais influentes na organização?”, “Como estão segmentados</p><p>nossos clientes?”, “Como melhorar a estrutura organizacional para tentar maximizar a produção?”. Com base</p><p>nisso, por meio das redes, podemos observar o fluxo de informação, detectar falhas ou gargalos no processo</p><p>organizacional, além de considerar fatores externos para melhorar a compreensão da posição da empresa</p><p>frente aos seus clientes. As decisões não são tomadas isoladamente, mas considera a posição e o</p><p>relacionamento de um ator social em função do grupo que o compõe.</p><p>Essa realidade não é exclusividade de empresas. Pesquisadores têm investido no campo de aprendizagem</p><p>colaborativa para potencializar ações de interação entre alunos com intermediação docente (SAGAR et al.,</p><p>2018). A análise dessa rede pode contribuir para a identificação de padrões de aprendizagem em um dado</p><p>intervalo de tempo. O interesse na exploração desse campo de estudo tem conduzido a um grande número de</p><p>ferramentas que podem ser utilizadas para analisar dados obtidos de redes sociais. A seguir apresentaremos</p><p>algumas ferramentas que podem ser úteis para a análise de redes sociais:</p><p>Sentinel Visualizer : é uma ferramenta desktop que permite fazer uma análise automática de baixa</p><p>complexidade em termos de uso e sem necessidade de programação. É possível realizar cálculos</p><p>rapidamente com uma diversidade de métricas para analisar a rede.</p><p>Gephi : é uma poderosa ferramenta open-source para visualizar e analisar grafos de grande complexidade.</p><p>Por meio da ferramenta é possível explorar, agrupar, manipular e analisar grafos em tempo real.</p><p>NodeXL : se você tem familiaridade em utilizar o Excel, é possível com o modelo NodeXL explorar dados em</p><p>rede diretamente do ambiente Excel,</p><p>bem como gerar relatórios, ter acesso a dados de mídias sociais e</p><p>utilizar métricas para análise textual e de sentimento.</p><p>Pajek : é um software aberto de uso não comercial para análise de redes. O software foi projetado para</p><p>suportar redes de grande magnitude e fornece poderosas ferramentas de visualização. Possui um conjunto</p><p>de algoritmos poderosos para lidar com grandes volumes voltados para partições, operações binárias,</p><p>caminhos ótimos etc.</p><p>NetMiner : consiste em um software para exploração e visualização de grandes conjuntos de dados</p><p>voltados para as redes sociais. Essa ferramenta possui como ponto forte a riqueza de recursos visuais e a</p><p>possibilidade de analisar dados da rede extraindo informações estatísticas. Além disso, possui grande</p><p>capacidade de importação de dados (inclusive dados não estruturados).</p><p>Graphviz : é uma ferramenta open-source projetada para visualização de grafos. Possui diversos recursos</p><p>para manipulação de diagramas, como personalização de cores, fontes, formas e outros estilos.</p><p>Visone : é uma ferramenta simples para criação gráfica de redes, podendo coletar dados de uma rede,</p><p>analisá-los e criar uma visualização. Ao final do processo, você pode exportar a rede para um arquivo</p><p>externo, como uma imagem, PDF, SVG, entre outros.</p><p>Muito do que foi explorado nesta seção, reforça o grande poder analítico que analistas têm a seu favor. Na</p><p>realidade, lidar com dados de natureza baseada em grafos e extrair o máximo de conhecimento útil para</p><p>organização, requer o conhecimento de técnicas, métricas e ferramentas potencialmente necessárias para</p><p>resolver o problema. Contudo, em ambientes dessa natureza, o nível de complexidade aumenta quando se</p><p>manipula dados não estruturados. Na próxima seção, você conhecerá um pouco mais dessa outra</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>possibilidade.</p><p>Conecte-se</p><p>Você pode acessar alguns tutoriais/materiais que podem auxiliá-lo na exploração</p><p>de algumas ferramentas.</p><p>• Visone: < https://bit.ly/2CKk9rd )>.</p><p>• Graphviz: < https://graphs.grevian.org/ >.</p><p>• Pajek: < https://bit.ly/2FIVbK6 >.</p><p>• NetMiner: < https://bit.ly/3hhr3Dv >.</p><p>• NodeXL: < https://bit.ly/3lbVwFx >.</p><p>Conecte-se</p><p>Que tal explorar uma destas ferramentas? Um conjunto de datasets para</p><p>análise de redes sociais está disponível em: < https://aminer.org/data-sna >.</p><p>Basta você realizar o download, escolher a ferramenta e colocar a mão na massa.</p><p>4 TEXT MINING: CONCEITOS E TÉCNICAS DE ANÁLISE DE DADOS NÃO ESTRUTURADOS</p><p>No Capítulo 1 vimos os conceitos relacionados a dados não estruturados e você talvez recorde que na</p><p>atualidade cerca de 80% dos dados digitais gerados não possuem quaisquer estruturas. São dados de vídeos,</p><p>imagens, sensores, áudios, documentos eletrônicos, blogs, entre outros exemplos. De fato, analisar dados não</p><p>estruturados em tempos de Big Data parece ser um desafio. Por essa razão, diversas pesquisas têm sido</p><p>realizadas para construção de novos métodos, técnicas ou algoritmos para analisar dados textuais de grande</p><p>volume. Basta observar como os tradutores, como o Google Translator, evoluíram com o passar dos anos.</p><p>Nesta seção serão abordados conceitos e técnicas relacionados à análise de dados não estruturados do tipo</p><p>texto, que sem dúvida é um dos campos mais importantes para análises avançadas em Big Data.</p><p>4.1 MINERAÇÃO DE TEXTOS: CONCEITOS IMPORTANTES E VISÃO GERAL</p><p>A Análise em Mineração de Texto (ou Text Mining) consiste em uma das tarefas mais árduas quando</p><p>analisamos dados desse formato. Isso porque grande parte das informações não possui uma estrutura</p><p>definida e, consequentemente, a escrita do texto normalmente não segue um padrão específico ou</p><p>determinado. Por outro lado, em uma análise de dados estruturada, os dados estão prontos para análise, pois</p><p>seguem um padrão específico armazenado e organizado em linhas e colunas.</p><p>Na verdade, em atividades de análise textual é preciso converter dados não estruturados para um</p><p>formato estruturado para que assim análises sejam aplicadas . Consegue perceber que neste momento</p><p>existe mais uma camada de complexidade para as análises? Note que, até então, você extraía os dados de</p><p>uma ou mais fontes e, em seguida, aplicava um processo de transformação e limpeza e entregava o conjunto</p><p>de dados pronto para ser analisado, seja para um algoritmo de mineração de dados ou como input para um</p><p>modelo de aprendizagem de máquina. Agora é necessário lidar com um conjunto de informações - espalhados</p><p>em um arquivo de texto, em um post em uma rede social, ou até mesmo em um campo (coluna) textual</p><p>específico de um Banco de Dados relacional como: “observações”, “considerações”, “descrição” e que fora</p><p>escrito em uma linguagem natural - redigida por um ser humano. Como consequência disso, em um cadastro</p><p>de informações, inevitavelmente, é comum encontrar erros de ortografia, ambiguidade, vícios de linguagem e</p><p>assim por diante. Por exemplo, como fazer que a máquina compreenda que a palavra companhia significa</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fvisone.info%2Fwiki%2Findex.php%2FVisualization_and_analysis_%28tutorial&sa=D&sntz=1&usg=AOvVaw3BUkiLHn05AUTey4pei3JT</p><p>https://www.google.com/url?q=https%3A%2F%2Fgraphs.grevian.org%2F&sa=D&sntz=1&usg=AOvVaw1TSgW3Wa1-sgT009Hp-Dz4</p><p>http://www.google.com/url?q=http%3A%2F%2Fmrvar.fdv.uni-lj.si%2Fpajek%2Fportuguese%2Fportuguese.pdf&sa=D&sntz=1&usg=AOvVaw33nSdRXG2LMpdSmKAR3pm_</p><p>http://www.google.com/url?q=http%3A%2F%2Fedutechwiki.unige.ch%2Fen%2FNetMiner&sa=D&sntz=1&usg=AOvVaw1IYvPT5jEE8dduZacz9U_m</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.peteraldhous.com%2FCAR%2FNodeXL_CAR2012.pdf&sa=D&sntz=1&usg=AOvVaw3vM05hra29AQQ3gxv6xTj2</p><p>https://www.google.com/url?q=https%3A%2F%2Faminer.org%2Fdata-sna&sa=D&sntz=1&usg=AOvVaw0T9kC_gW5eUgHye8yrKt1R</p><p>‘uma empresa’ e não ‘vínculo entre pessoas’?</p><p>Diante dessa situação, o Processamento de Linguagem Natural (PLN) surge como uma alternativa do campo</p><p>linguístico, que permite estudar relações entre palavras e sentenças em um texto. Na computação, permite</p><p>que máquinas compreendam a linguagem humana analisando o contexto no qual foi empregada.</p><p>Basicamente, isso é feito por intermédio de análises léxicas - (identificar padrões em uma string), sintáticas</p><p>(observar a ligação entre os elementos textuais que formam uma frase), semânticas (extrair o significado dos</p><p>termos, frases observando as relações entre elas) etc. O mecanismo de busca e o tradutor do Google, bem</p><p>como os corretores de texto, são alguns dos inúmeros exemplos de aplicações do PLN.</p><p>Conceituando</p><p>Essas tarefas subjacentes são frequentemente utilizadas em níveis mais</p><p>complexos de PLN, tais como:</p><p>Categorização de conteúdo : um resumo do documento baseado em</p><p>linguística, que inclui pesquisa e indexação, alertas de conteúdo e detecção de</p><p>duplicações.</p><p>Descoberta e modelagem de tópicos : captura com precisão o significado e os</p><p>temas em coleções de texto, e aplica Advanced Analytics como otimização e</p><p>Forecasting.</p><p>Extração contextual : extrai automaticamente informações estruturadas de</p><p>fontes textuais.</p><p>Análise de sentimento : identifica o estado de espírito ou opiniões subjetivas</p><p>em grandes quantidades de texto, incluindo o sentimento médio e a mineração</p><p>de opinião.</p><p>Conversão fala-texto e texto-fala : transforma comandos de voz em texto</p><p>escrito e vice-versa; sumarização; gera sinopses de grandes corpos de texto</p><p>automaticamente; tradução de máquina; traduz texto ou fala de um idioma para</p><p>outro, automaticamente. Em todos esses casos, o objetivo almejado é pegar as</p><p>entradas brutas e usar linguística e algoritmos para transformar ou enriquecer o</p><p>texto de modo a obter resultados melhores.</p><p>FONTE: <https://bit.ly/3nonHBY>. Acesso em: 10 nov. 2018.</p><p>Tendo em vista a vasta quantidade de informações textuais presentes nas empresas</p><p>e armazenadas em</p><p>relatórios, atas, planilhas, arquivos de logs e outros documentos de texto (como pdf e txt), além de fontes ricas</p><p>externas (redes sociais, páginas web, e-mails etc.), a análise de dados não estruturados pode ser considerada</p><p>mais útil para criar diferencial competitivo no mundo dos negócios. Ademais, as técnicas baseadas em PLN</p><p>têm sido aplicadas para minerar textos, como extração de informação, classificação, clustering, entre outros</p><p>(CHEN; MAO; LIU, 2014).</p><p>Tipicamente, um processo para análise de texto pode ser representado conforme a Figura 8. A primeira etapa</p><p>consiste na obtenção dos textos direto da fonte. Este, por sua vez, pode estar situado em alguma tabela do</p><p>banco de dados, em um arquivo de texto local, ou em algum ambiente externo (web). Essa coleta pode ser</p><p>manual ou automática e tudo dependerá das necessidades do seu projeto. A dica é: se você precisa coletar</p><p>constantemente dados de uma mesma fonte, o ideal é automatizar o processo e criar código em alguma</p><p>linguagem de programação de sua preferência, ou utilizar uma ferramenta como o Apache Kafka para</p><p>capturar esses dados. Em seguida, aplica-se o pré-processamento dos dados textuais, que inclui tarefas como:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Stemming : o processo de Stemming consiste em reduzir uma palavra ou termo ao seu radical. Vamos</p><p>supor que em um determinado texto você tem uma coleção de documentos (que são instâncias ou</p><p>registros de uma tabela não normalizada) dos seguintes termos: planejamento, planejei, planejado,</p><p>planejar. Após a aplicação do processo de Stemming, todos os termos derivados de “planejar”, seriam</p><p>reduzidos ao seu radical “planej”, isto é, todos os termos citados no exemplo seriam unificados no texto e</p><p>não gerariam redundância .</p><p>Conecte-se</p><p>O algoritmo de Porter é um dos algoritmos que implementam o processo de</p><p>Stemming para a língua portuguesa: < https://bit.ly/3hh5DpP >.</p><p>Disponível aqui</p><p>Tokenization (Bag-of-words) : processo de quebrar em ‘tokens’, ou seja, ocorre a quebra do texto em</p><p>termos individuais. Considere a frase: “Eu sou aluno da UNIASSELVI”. O processo observa os espaços em</p><p>branco dessa sentença e determina os tokens: [“Eu”, “sou”, “aluno”, “da”, “UNIASSELVI”]. É possível definir</p><p>regras de “tokenização” de acordo com suas necessidades, sem necessariamente estarem atrelados a uma</p><p>única regra que, no caso desse exemplo, foi determinado pelo espaço em branco.</p><p>Conecte-se</p><p>Algumas linguagens de programação, como R e Python possuem bibliotecas</p><p>para este fim. Existe também uma API open-source (Lucene) que pode ser</p><p>utilizada para tarefas de mineração de texto:</p><p>R : < https://bit.ly/2EbZtcu >.</p><p>Python : < https://bit.ly/31fQMql >.</p><p>Lucene : < https://bit.ly/3geXEZd >.</p><p>Remoção de Stopwords : sabe aqueles termos que aparecem no texto que têm a função meramente de</p><p>conectar elementos de uma sentença? São Stopwords! Artigos (o, a, os, as, um, umas etc.), preposições (de,</p><p>para, entre etc.), conjunções (nem, já, mas etc.), crase (à), pronomes (ele, teu, meu etc.) são termos que não</p><p>são relevantes para análise e por isso são removidos. As Stopwords são armazenadas em uma lista</p><p>(dicionário) e estão disponíveis em vários idiomas, podendo ser consumidas por linguagens ou ferramentas</p><p>que desejam executar tarefas de mineração de texto.</p><p>Correção ortográfica : erros ortográficos são muito comuns em textos. Por isso é importante corrigi-los</p><p>para melhorar a qualidade dos nossos dados. Existem algumas abordagens para tratar esses erros (como</p><p>correção automática). É claro que a alternativa mais segura é realizar a correção manual, entretanto, o</p><p>processo se torna mais custoso à medida que o volume de dados aumenta.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Ftartarus.org%2Fmartin%2FPorterStemmer%2F&sa=D&sntz=1&usg=AOvVaw2IyWCFOBYoQCAMAsav5Fxo</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3hh5DpP&sa=D&sntz=1&usg=AOvVaw2qUfNBLwIwOKXp6gn34_zK</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.rdocumentation.org%2Fpackages%2FkoRpus%2Fversions%2F0.06-5%2Ftopics%2Ftokenize&sa=D&sntz=1&usg=AOvVaw2dDQijo7rOqAsQRl57COPN</p><p>https://www.google.com/url?q=https%3A%2F%2Fdocs.python.org%2F3%2Flibrary%2Ftokenize.html&sa=D&sntz=1&usg=AOvVaw17vAwFhhQUAkh5lOU3tkLN</p><p>http://www.google.com/url?q=http%3A%2F%2Flucene.apache.org%2Fcore%2F6_5_0%2Fanalyzers-common%2Findex.html&sa=D&sntz=1&usg=AOvVaw3YdkTpCCUAE3nvirQyNH38</p><p>Conecte-se</p><p>Você pode experimentar alguns corretores on-line, potencialmente úteis para</p><p>suas análises de texto. O Flip9 pode ser útil. Acesse: < https://bit.ly/328YT7n >.</p><p>Disponível aqui</p><p>Remoção de números, espaços e caracteres indesejados : números, espaços e caracteres especiais ou</p><p>símbolos muitas vezes não são relevantes para análise de texto e são removidos: figura solta no texto,</p><p>relacionar texto à figura.</p><p>FIGURA 8 – DE UM MODO GERAL ESTE PIPELINE É COMPOSTO POR: EXTRAÇÃO E PRÉ-</p><p>PROCESSAMENTO DO TEXTO, APLICAÇÃO DE TÉCNICAS ANALÍTICAS AVANÇADAS</p><p>(PROCESSAMENTO) E VISUALIZAÇÃO DOS RESULTADOS</p><p>FONTE:</p><p>< https://www.softwareadvice.com >.</p><p>Acesso em: 2 fev. 2019.</p><p>Ainda na Figura 8, após a etapa de pré-processamento, assume-se que os dados já possuam uma estrutura</p><p>mínima para que análises sejam aplicadas - que irão desde uma simples extração dos termos mais frequentes</p><p>até análises preditivas. Por fim, o processo encerra com a visualização dos resultados alcançados. Na próxima</p><p>seção, você conhecerá algumas técnicas que certamente o auxiliarão em suas análises textuais.</p><p>Conecte-se</p><p>Acesse o endereço <https://www.online-utility.org/text/analyzer.jsp>. Insira o</p><p>texto: “ análise de frequência é a forma mais simples de análise, você extrai</p><p>os termos dos documentos e aplica um método para realizar a contagem</p><p>dos termos. Os resultados podem ser exibidos de forma tabular, gráfico de</p><p>barras, ou em uma wordcloud (nuvem de palavras) ” no campo destacado</p><p>(“Enter Text”). Em seguida clique no botão “Process text”. Observe o resultado</p><p>apresentado em forma tabular que não somente apresenta o total de ocorrências</p><p>de cada termo, como também a porcentagem em relação ao total de ocorrências</p><p>de todos os termos no documento. Destaca-se que o pré-processamento</p><p>implementado nessa ferramenta não assegura a remoção de Stopwords,</p><p>remoção de números ou processo de Stemming. Contudo, em um cenário real,</p><p>essas tarefas de pré-processamento são necessárias.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.flip.pt%2FFLiP-On-line%2FCorrector-ortografico-e-sintactico&sa=D&sntz=1&usg=AOvVaw13SlWUNglXA9Q_1UpWX-7q</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F328YT7n&sa=D&sntz=1&usg=AOvVaw0maKNnxjZcjJo49aFZnh3h</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.softwareadvice.com%2Fresources%2Fwhat-is-text-analytics%2F&sa=D&sntz=1&usg=AOvVaw3U2Mq20AdyNuKe6NRppsvg</p><p>Você também pode experimentar a visualização de texto em uma wordcloud</p><p>por meio do endereço: < https://www.jasondavies.com/wordcloud/ ></p><p>4.2 TÉCNICAS PARA ANÁLISE DE MINERAÇÃO DE TEXTOS</p><p>Uma vez que os dados estejam prontos para análise, você pode aplicar uma ou mais técnicas para tentar</p><p>extrair informações úteis para o negócio. A seguir, algumas técnicas comuns para a análise de texto.</p><p>4.2.1 Recuperação de Informação (IR)</p><p>A recuperação de informação pode ser definida como a busca por material (normalmente documentos) de</p><p>natureza não estruturada (geralmente texto) que satisfaça uma necessidade de informação a partir de</p><p>grandes coleções (geralmente armazenadas em computadores) (MANNING; RAGHAVAN; SCHÜTZE, 2009).</p><p>A partir dessa definição, percebemos que a IR cria mecanismos para extrair informações relevantes de uma</p><p>grande massa de documentos textuais. O</p><p>da análise de dados tradicional e o Big Data.</p><p>1 CONTEXTUALIZAÇÃO</p><p>No atual século, o surgimento de novas tecnologias tem contribuído significativamente para uma explosão de</p><p>dados gerados. Não à toa, vivemos no ápice de uma era conhecida como a Era da Informação. É conveniente</p><p>pensar que grande parte dos dados gerados podem ser consumidos para os mais diversos fins.</p><p>Diante deste cenário, empresas e Institutos de Pesquisa e Desenvolvimento (P&D) têm investido cada vez mais</p><p>em infraestrutura, sejam físicas ou em nuvem, para suportar análises de dados cada vez mais robustas. No</p><p>âmbito de empresas, em geral, o intuito sempre visa no mínimo, tentar manter ou elevar suas capacidades</p><p>analíticas e assim tomar decisões que impulsionem seus negócios. No que diz respeito aos Institutos de</p><p>Pesquisa e Desenvolvimento, implementar soluções que atendam aos requisitos de alto desempenho</p><p>computacional é um grande desafio: são vídeos, imagens, textos, vozes, sons e os mais variados tipos e</p><p>estruturas de dados que precisam ser analisados na tentativa de prover novas soluções em inúmeras áreas da</p><p>ciência.</p><p>Desta forma, estão ganhando destaque nas mídias: Inteligência Artificial (IA), Aprendizagem de Máquina (ou</p><p>Machine Learning), Inteligência de Negócios (ou Business Intelligence), Ciência de Dados e Big Data. O que há</p><p>de comum entre eles? O fato de que a essência para a existência destes são os dados. Por exemplo, a</p><p>Aprendizagem de Máquina pode ser compreendida como um subcampo da IA, que tem como objetivo</p><p>automatizar processos por meio da construção de modelos analíticos que recebem como parâmetro um</p><p>conjunto de dados como entrada (input). Para isso, é fundamental que esse conjunto de dados obedeça a uma</p><p>série de requisitos para que a aprendizagem de fato ocorra.</p><p>O que acontece quando você tem um conjunto de dados bem amplo e precisa extrair de fontes de diferentes</p><p>naturezas e tipos de dados heterogêneos? Concorda que a complexidade cresce proporcionalmente?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Diante desses questionamentos, é fundamental que a priori você reflita sobre o cenário informacional que</p><p>vivemos e também mergulhe nos conceitos úteis relacionados ao Big Data, como compreender os elementos</p><p>que compõem a sua arquitetura. Todas essas questões serão abordadas neste capítulo. Bons estudos!</p><p>2 CENÁRIO ATUAL E VISÃO GERAL DO BIG DATA</p><p>Você consegue imaginar o quanto de informação tem sido gerada na internet em apenas um minuto? Um</p><p>relatório apresentado pelo grupo Domo (s.d.) destaca que a população que utiliza a internet aumentou nos</p><p>últimos anos. Em 2012, o número de usuários girava em torno dos 2,5 bilhões enquanto que, em 2017, 47% da</p><p>população mundial estava conectada, o que representa 3,8 bilhões de usuários. O mesmo relatório aponta</p><p>que a cada minuto são assistidos 4.333.560 vídeos no Youtube, 473.400 tweets são publicados no Twitter,</p><p>176.220 chamadas são realizadas pelo Skype, 49.380 fotos são postadas no Instagram, entre outros casos.</p><p>Observe a diversidade de dados que estão sendo produzidos e consumidos pelos usuários constantemente:</p><p>vídeos, fotos, textos, vozes e assim por diante. Essa realidade está diretamente relacionada ao contexto</p><p>histórico da Web, abrangendo suas transições conhecidas como Web 1.0, Web 2.0 e a mais recente Web 3.0. A</p><p>Figura 1 exibe as fases da Web ao longo do tempo. É possível constatar que as tecnologias evoluíram para</p><p>atender à demanda de cada etapa. Por exemplo, na Web 1.0, o HTML constituiu-se como uma tecnologia-</p><p>chave para o desenvolvimento de websites, enquanto que na etapa posterior, a Web 2.0, tecnologias</p><p>dinâmicas, como a linguagem PHP, emergiram para atender uma demanda de produção de conteúdo e</p><p>interação com o usuário.</p><p>FIGURA 1 – EVOLUÇÃO DA WEB E SUAS FERRAMENTAS/TECNOLOGIAS AO LONGO DO</p><p>TEMPO NESSAS ETAPAS DE TRANSIÇÃO DA WEB</p><p>FONTE: O autor</p><p>Enfatiza-se também que, na Web 1.0, os sistemas Web eram estáticos, o que significa que o objetivo era</p><p>apenas informar, produzir conteúdo dependia diretamente do administrador do sistema, que alimentava o</p><p>website e o resultado era exibido para o usuário. Por outro lado, na Web 2.0, o papel do usuário não se</p><p>restringia ao mero consumo de conteúdo, mas também na produção deste, seja através de blogues, como</p><p>também de aplicações Web dinâmicas.</p><p>A transição da Web 2.0 para Web 3.0 foi impulsionada pelo uso crescente de smartphones e tablets. Além</p><p>disso, o acesso à Web foi facilitado com o barateamento destes dispositivos e, assim, os usuários se tornaram</p><p>mais ativos na rede. Outro fator importante foi o surgimento das redes sociais, que contribuíram para uma</p><p>rápida explosão de conteúdos produzidos pelo usuário, bem como o surgimento de novas tecnologias e o</p><p>barateamento de software e hardware. O advento da computação em nuvem também é considerado</p><p>precursor nesta importante transição.</p><p>A Web 3.0, também conhecida como Web Semântica , está relacionada a uma nova forma de Web, que tem a</p><p>ver com a compreensão do significado do seu uso e apresenta como característica o fato de que o</p><p>entendimento sobre o comportamento do usuário perante a rede permite, por exemplo, que campanhas</p><p>digitais publicitárias possam atingir um público-alvo desejado de maneira mais assertiva. Atividades do</p><p>usuário, como cliques no mouse, podem ser monitoradas para diferentes propósitos. Uma outra maneira de</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>reforçar a Web 3.0 é o aumento da importância dos cookies . Quando você acessa pela primeira vez um</p><p>website, uma mensagem é exibida solicitando sua autorização para utilização de cookies . Quando concedemos</p><p>permissão estamos, na verdade, autorizando o site a enviar cookies que armazenam informações do nosso</p><p>comportamento de navegação. Assim, websites de cunho jornalístico podem reordenar as notícias publicadas</p><p>conforme nossas preferências. No caso de lojas virtuais, você já notou que um carrinho de compras continua</p><p>cheio depois de você ter encerrado a sessão e voltar naquele website? Naturalmente, para muitos, é vantajoso</p><p>e prático ter informações de login e senha armazenadas em um website.</p><p>Até que ponto podemos confiar que nossas informações confidenciais não estão</p><p>sendo armazenadas ou quão seguro é este armazenamento? Qual o limite da</p><p>nossa privacidade neste atual contexto?</p><p>Conecte-se</p><p>Acesse < https://web.archive.org/ >. Este site armazena um conjunto de arquivos</p><p>históricos de modificações salvas de mais de 300 bilhões de websites. Escolha um</p><p>website de sua preferência e experimente checar suas modificações ao longo do</p><p>tempo. Você consegue perceber algumas das diferenças que mencionamos aqui</p><p>e sentir essa transição de contextos web?</p><p>Disponível aqui</p><p>Além do mais, as transições da Web 1.0, 2.0 e 3.0 refletem uma realidade na qual vivemos - existindo uma</p><p>sobrecarga de informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da</p><p>ação humana, mas de forma inviável. Como gerenciar essas informações? De que maneira podemos extrair</p><p>aquilo que é útil para nós? Por exemplo, quando desejamos pesquisar algo na internet, a primeira coisa que</p><p>fazemos é realizar uma busca através de um site de busca, como o Google. Por que fazemos isso? Porque ao</p><p>digitar palavras-chave no buscador, este nos retornará apenas um conjunto de informações que é do nosso</p><p>interesse.</p><p>Da mesma forma ocorre quando empresas buscam alternativas para encontrar informações úteis e</p><p>alavancarem seus negócios. Neste caso, a ideia geral é filtrar informações que sejam relevantes, seja no</p><p>âmbito interno (entender e/ou otimizar seus processos), como também externos (por exemplo, informações</p><p>sobre a concorrência), com a finalidade de se tornarem cada vez mais competitivas.</p><p>A revolução dos dados tem tornado o mundo “mais inteligente”, antes, apenas conectado.</p><p>exemplo mais comum são os mecanismos de pesquisa, como</p><p>Google ou Bing que, frente a um universo de documentos, conseguem selecionar apenas um subconjunto</p><p>relevante de documentos a partir de palavras-chave (keywords) digitadas no buscador. Faça um teste: abra o</p><p>Google Acadêmico < https://scholar.google.com.br/ > e digite: recuperação de informação e observe o</p><p>conjunto de documentos Web contendo essas palavras-chave. Experimente agora digitar “recuperação de</p><p>informação” (com aspas). Notou alguma diferença no retorno dos documentos? Parece que as aspas indicam</p><p>que você deseja que a busca retorne apenas os documentos que apresentam a sentença digitada como um</p><p>todo e não Keywords separadas ( recuperação / informação ).</p><p>Conecte-se</p><p>Este site < https://bit.ly/3hk9wKP > sugere algumas outras dicas para melhorar</p><p>as pesquisas no Google.</p><p>Disponível aqui</p><p>Como avaliamos a performance de sistemas que implementam IR? Existem algumas medidas que poderemos</p><p>utilizar, a saber: Recall , Precision , F - Measure, R-Precision, Fall-out e assim por diante. As duas mais</p><p>populares são:</p><p>Recall ( Revocação ): é uma medida que qualifica a fração de documentos recuperados que foram</p><p>relevantes para a consulta.</p><p>Recall = número de documentos relevantes que foram recuperados / número total de documentos</p><p>relevantes na coleção (x 100).</p><p>Um Recall com valor 1 ou 100% aponta o melhor caso e, de fato, é o que normalmente acontece em uma</p><p>consulta, todos os documentos recuperados na coleção são relevantes. Por isso, combinamos Recall com</p><p>outras medidas para avaliar a performance do IR.</p><p>Exemplo : considere um conjunto esperado com 10 documentos D = {1,2, 3, ...,10} e que foram</p><p>recuperados um total de 6 documentos (vamos supor os documentos {3,4,9,10,12,15}). No entanto,</p><p>foram recuperados apenas 4 documentos com sucesso {3,4,9,10}. Por isso:</p><p>Recall : 4 / 10 = 40%.</p><p>Precision ( Precisão ): refere-se à fração de documentos recuperados que são relevantes para o usuário.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.jasondavies.com%2Fwordcloud%2F&sa=D&sntz=1&usg=AOvVaw2rga6F9IDxifKZ11XD2qjU</p><p>https://scholar.google.com.br/</p><p>https://www.google.com/url?q=https%3A%2F%2Ftecnologia.ig.com.br%2F2018-01-04%2Fpesquisas-no-google.html&sa=D&sntz=1&usg=AOvVaw3wd4Ja817kY_M2ZmcIbHqv</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3hk9wKP&sa=D&sntz=1&usg=AOvVaw3LTM3UdQUGpLfodb8RXhEx</p><p>Precision = número de documentos relevantes que foram recuperados / número total de documentos</p><p>que foram recuperados (x 100).</p><p>Dessa maneira, obtemos uma taxa de documentos não relevantes que foram retornados em uma</p><p>consulta.</p><p>Se utilizarmos o mesmo exemplo citado anteriormente, podemos calcular a precisão:</p><p>Precision : 4 / 6 = 66,67% (aprox.).</p><p>Conecte-se</p><p>A recuperação de informação é um amplo campo de estudo, sendo composto por</p><p>diversas técnicas ou modelos. Para complementar seu conhecimento,</p><p>recomendamos que você se aprofunde e leia o artigo proposto por Nyamisa,</p><p>Mwangi e Che (2017), disponível no seguinte endereço: < https://bit.ly/34lrcCm >.</p><p>Se desejar, você também poderá acessar este blog: < https://bit.ly/2EchWFN >.</p><p>4.2.2 Extração de Informação (IE)</p><p>Diferentemente do processo de Recuperação de Informação, o processo de Extração de Informação (IE) está</p><p>preocupado em extrair a semântica de documentos textuais. Isso significa que a IE é capaz de coletar</p><p>informações-chave de forma resumida de um documento. A ideia é pressupor a existência de um conjunto de</p><p>documentos presentes em um domínio, que descreve uma ou mais entidades ou eventos e que compartilham</p><p>semelhanças em relação a outros documentos, mas que diferem em seus respectivos detalhes (FREITAG,</p><p>2000).</p><p>O que torna o processo de IE custoso é o fato de que grande parte dos documentos contém dados não</p><p>estruturados (textuais). Como vimos, problemas inerentes à linguagem natural precisam ser tratados por</p><p>softwares que implementem tarefas dessa natureza. Imagine que você crie um software baseado em IE que</p><p>colete informações de um Call Center. Então, você pode monitorar um conjunto de informações livres em</p><p>texto e organizá-las em uma estrutura. Por exemplo, pode ser que você queira extrair para cada cliente</p><p>apenas palavras de baixo calão , armazená-las em uma estrutura e associá-las a um campo chamado “ tipo de</p><p>serviço ”. Isso possibilitaria conhecer quais tipos de serviços estão deixando os clientes insatisfeitos.</p><p>A Figura 9 exibe outro exemplo que pode ser útil para você compreender melhor como funciona a Extração</p><p>de Informação de maneira geral. Note que os textos em destaque em Text In foram estruturados em Data</p><p>Out. Se pegarmos a palavra Brazil do primeiro documento, é possível que o IE “compreenda” o texto de modo</p><p>a ranquear o país na 5ª posição entre os países mais populosos. O software precisa ser capaz de lidar com</p><p>variações na ordem do texto . Afinal, escrever que “o Brasil é o 5º país mais populoso do mundo” pode ser</p><p>escrito de diversas formas.</p><p>FIGURA 9 – TEXT IN CONTÉM UM CONJUNTO DE DOCUMENTOS TEXTUAIS E O DATA</p><p>OUT A SAÍDA CORRESPONDENTE AO PROCESSO DE IE</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Farticle.sciencepublishinggroup.com%2Fpdf%2F10.11648.j.net.20170502.12.pdf&sa=D&sntz=1&usg=AOvVaw3UcivqCcRoptzCL81qUu0m</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.analyticsvidhya.com%2Fblog%2F2015%2F04%2Finformation-retrieval-system-explained%2F&sa=D&sntz=1&usg=AOvVaw31cKYi_FeTE_SfkvwcbPlE</p><p>FONTE: < https://bit.ly/3kYr9Ch >.</p><p>Acesso em: 11 nov. 2018.</p><p>Conecte-se</p><p>Técnicas para extração de informações baseadas em PLN podem ser</p><p>aprofundadas através deste endereço: < https://bit.ly/31gsNaA >.</p><p>Conecte-se</p><p>Você pode também experimentar a ferramenta de extração IKE (Interactive</p><p>Knowledge Extraction). Neste endereço < https://bit.ly/3j4FUBL > existe uma</p><p>breve definição da ferramenta, o artigo completo e o repositório com os códigos</p><p>com o passo a passo para você experimentá-la.</p><p>Adicionalmente, você também pode testar esse analisador de redes sociais e</p><p>texto: < https://netlytic.org/home/ >.</p><p>4.2.3 Análise de Texto Baseada em Cluster</p><p>Esta técnica classifica um conjunto de termos (ou documentos) em grupos. Assume-se que os termos que</p><p>pertencem ou são classificados em um mesmo grupo possuem maior relação entre si. Essa classificação pode</p><p>ser importante para que você visualize os relacionamentos entre eles. Além disso, é possível que os resultados</p><p>obtidos por esses clusters possam ser utilizados como input para uma tarefa de mineração de dados, também</p><p>para realizar análise de sentimento (por exemplo, checar como está a reputação - positiva ou negativa -, de</p><p>uma empresa no mercado), ou outras análises avançadas.</p><p>Talvez você já tenha observado que quando acessa um site de notícias existe um grupo de notícias que está</p><p>relacionado ao que você pesquisou em destaque em algum local da página. Por exemplo, em uma busca você</p><p>digitou uma notícia sobre “cura de diabetes”. Os conteúdos em destaque (que serão retornados) serão</p><p>relacionados à categoria saúde , pois existe um nível maior de proximidade com a notícia pesquisada.</p><p>Quando falamos de clusterização baseada em texto, alguns conceitos e medidas são importantes e merecem</p><p>ser destacados:</p><p>Coleção de documentos : representada por uma matriz termo-documento (TDM) ou documento-termo</p><p>(DTM), conforme mostra a Tabela 1. Se considerarmos a frequência dos termos ( medida ) como um peso</p><p>para medir a importância de um termo no documento, poderíamos afirmar que “ Amor ” e “ Casa ” são</p><p>termos que têm um peso maior no Documento 2, pois são comumente utilizados.</p><p>TABELA 1 – EXEMPLO DE UMA MATRIZ TERMO-DOCUMENTO. O ZERO INDICA</p><p>AUSÊNCIA DO TERMO EM UM DETERMINADO DOCUMENTO</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ontotext.com%2Fknowledgehub%2Ffundamentals%2Finformation-extraction%2F&sa=D&sntz=1&usg=AOvVaw0jCo5cH9QzJgOSFABTrHZZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.searchtechnologies.com%2Fblog%2Fnatural-language-processing-techniques&sa=D&sntz=1&usg=AOvVaw1wzhmeRpYPgyCYXxmlb2DS</p><p>https://www.google.com/url?q=https%3A%2F%2Fallenai.org%2Fsoftware%2Finteractive-knowledge-extraction%2F&sa=D&sntz=1&usg=AOvVaw2bMr0heKUFm7QMXj-FD5CN</p><p>https://www.google.com/url?q=https%3A%2F%2Fnetlytic.org%2Fhome%2F&sa=D&sntz=1&usg=AOvVaw0nrEczReiATVtNChbIiygz</p><p>Frequência do termo : como foi mostrado anteriormente, você pode medir a importância do termo no</p><p>documento verificando a quantidade de vezes que ele ocorre (contagem bruta). Essa representação de</p><p>frequência do termo pode ser feita não somente pela contagem bruta que, em determinados casos possui</p><p>sérias limitações, como também de forma binária - intervalo [0,1] que indicaria meramente a presença ou a</p><p>ausência do termo no documento, também existe a medida normalizada - que considera o total de termos</p><p>presentes no documento, log de frequência - estabelece um score usando logaritmos etc.</p><p>Frequência do termo na coleção : termos frequentes não necessariamente são os mais relevantes. Ao</p><p>contrário, em grande parte dos casos, os termos menos frequentes possuem uma relevância maior em toda</p><p>coleção. A frequência do termo na coleção permite definir o peso do termo. df (Document Frequency) t</p><p>obtém o número de documentos que contém um determinado termo t. idf (Inverse Document-Frequency) t</p><p>é calculada pelo logaritmo entre a fração do total de documentos pelo total de documentos que possui o</p><p>termo. Existem outras variações para cálculo do peso que aprofundam matematicamente.</p><p>idf = log (N/df ) t t</p><p>É possível também utilizar algoritmos voltados para a análise de cluster em textos, como o próprio K-Means,</p><p>que abordamos em seções anteriores. Assim, pode-se determinar similaridades entre clusters utilizando, por</p><p>exemplo, o método cosseno, e também verificar documentos que compartilham informações em comum e</p><p>assim por diante.</p><p>Na próxima seção você conhecerá um pouco sobre o Digital Analytics e sua devida importância para o mundo</p><p>dos negócios. Antes disso, não deixe de explorar um demo do IBM Watson para processamento de linguagem</p><p>natural. Se preferir, você também pode testar essa poderosa ferramenta (Elasticsearch) para pesquisa e</p><p>análise de dados.</p><p>5 DIGITAL ANALYTICS: CONTEXTO, IMPORTÂNCIA E APLICAÇÕES NO MUNDO DOS NEGÓCIOS</p><p>Finalizaremos este capítulo explorando o Digital Analytics. Você compreenderá como a análise dos dados do</p><p>mundo digital impacta diretamente no mundo dos negócios, assim como de que maneira é possível extrair e</p><p>analisar esses dados em ambientes Big Data. Antes disso, precisamos que você conheça e assimile conceitos e</p><p>a importância do Digital Analytics, conforme será abordado a seguir.</p><p>5.1 DIGITAL ANALYTICS: CONCEITO E IMPORTÂNCIA NAS DECISÕES DE NEGÓCIO</p><p>O termo “Web Analytics” (Análise Web) era o nome utilizado antes de se empregar o “Digital Analytics” (Análise</p><p>Digital), isso significa que houve uma transição ou ampliação do termo “Web” para o “Digital”. Como assim?</p><p>Quando se falava em Web Analytics, o conceito era restrito à análise de páginas web, isto é, extraíam-se</p><p>métricas do número de visitas ou número de visualizações das páginas de um website, devido à diversificação</p><p>do número de canais “plugáveis” à web, como dispositivos móveis, televisores digitais, redes sociais, e-mails,</p><p>entre outros. A possibilidade de fazer análises aumentou para o mundo digital e passou a englobar todos os</p><p>canais que envolvem a era digital. A incorporação progressiva da Internet das Coisas (IoT) - que será abordada</p><p>no próximo capítulo - corroborou para que o termo Digital Analytics fosse consolidado.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>O Digital Analytics pode ser definido como:</p><p>Um conjunto de atividades técnicas e de negócios que definem, criam, coletam, verificam ou transformam</p><p>dados digitais em relatórios, pesquisas, análises, recomendações, otimização, predições, que criam valor para</p><p>os negócios auxiliando empresas a criar valor, aumentando a receita ou reduzindo custos. Os dados digitais</p><p>podem ser dados comportamentais sobre como as pessoas usam e interagem com experiências digitais ,</p><p>dados ou metadados relacionados a eventos, cliques e interações , é utilizada para responder perguntas de</p><p>negócio e fornecer base para decisões baseadas em fatos (PHILLIPS, 2014, p. 3-4, grifos nossos).</p><p>Observe os termos comportamento e experiências digitais citados por Phillips (2014). De fato, o Digital</p><p>Analytics incorpora ou avalia o comportamento dos usuários na rede. Dados do Internet World Stats apontam</p><p>um total de aproximadamente 4,2 bilhões de usuários conectados à web em junho de 2018. No Brasil, foram</p><p>quase 150 milhões de pessoas conectadas. Em épocas passadas, o Marketing Tradicional intensificava seus</p><p>esforços em meios de comunicação off-line, como jornais, revistas ou TV. Compreender ou conhecer o</p><p>comportamento dos usuários para compra de um determinado produto era um desafio. Não obstante, hoje</p><p>profissionais digitais (como o próprio profissional de Marketing Digital) ganham espaço para lidar com essa</p><p>nova dinâmica de mercado: o mercado digital.</p><p>Conecte-se</p><p>Conheça mais sobre a Internet World Stats, acessando o site</p><p>< https://www.internetworldstats.com/stats.htm >.</p><p>Disponível aqui</p><p>Como uma empresa pode vender melhor sua marca e/ou produto pela internet? Até que ponto conhecer o</p><p>comportamento do cliente nos meios digitais é importante para impulsionar seus negócios? A Walmart,</p><p>apontada pela Fortune (2018) como a empresa que mais faturou em 2018, emprega técnicas de mineração de</p><p>dados para descoberta de padrões de vendas.</p><p>Por isso é recomendado que se cheque quais produtos normalmente são comprados em conjunto ou que a</p><p>compra de um produto X é seguido pela compra de um produto Y. A partir desses dados, a Walmart conseguiu</p><p>identificar que seus clientes compravam sete vezes mais tortas de morango antes de um furacão. Todos os</p><p>seus clientes são rastreados e segmentados de maneira única por intermédio de inúmeros atributos -</p><p>produtos de compra do cliente, hábitos de compra pela loja (física ou pelo website), o que postam nas redes</p><p>sociais, como Twitter e assim por diante. Cada evento é capturado, analisado e processado por uma</p><p>infraestrutura de Big Data que fornece insights personalizados para a companhia (DEZYRE, 2017).</p><p>Conecte-se</p><p>Se você ficou curioso em aprender mais como a Walmart tem usufruído do Big</p><p>Data Analytics para entender o comportamento dos seus clientes, sugerimos este</p><p>link: < https://bit.ly/3aKNAGi >.</p><p>Disponível aqui</p><p>Assim como o Walmart, em menor ou maior escala, as empresas, quando analisam dados digitais, objetivam</p><p>avaliar o comportamento dos usuários na rede e assim oferecem produtos personalizados. Os famosos</p><p>cliques no mouse em um produto específico no Mercado Livre (ou outra loja virtual), poderá causar uma</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.internetworldstats.com%2Fstats.htm&sa=D&sntz=1&usg=AOvVaw2YWlyKhAQ0nE-sxBw31Ekb</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.internetworldstats.com%2Fstats.htm&sa=D&sntz=1&usg=AOvVaw2YWlyKhAQ0nE-sxBw31Ekb</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.dezyre.com%2Farticle%2Fhow-big-data-analysis-helped-increase-walmarts-sales-turnover%2F109&sa=D&sntz=1&usg=AOvVaw0eAHcEEqZeh3BwDrubv1ik</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKNAGi&sa=D&sntz=1&usg=AOvVaw1oaOsKNZSJN3WWZ12HAUym</p><p>grande “perseguição” de propagandas deste ou de produtos relacionados em outros websites ou redes sociais.</p><p>A captura deste evento (clique</p><p>do mouse), tempo de duração na página do produto, comentário para sanar</p><p>alguma dúvida de algum produto, fornece um conjunto de métricas para que as empresas ofereçam aos</p><p>usuários a recomendação do produto certo no tempo adequado por intermédio de indicadores que</p><p>fornecerão suporte adequado para a tomada de decisão do algoritmo ou do gestor da empresa.</p><p>Conceituando</p><p>O que é uma métrica? Podem ser consideradas como medidas brutas de simples</p><p>composição, são úteis para a composição de indicadores, pois fornecem base</p><p>para medir algo concreto. Por exemplo, foram vendidos 300 livros (métrica</p><p>quantidade) este mês. Um indicador ou KPI (Key Performance Indicator) é o que</p><p>direciona a performance organizacional por intermédio da composição de uma</p><p>ou mais métricas e fornece parâmetro para a tomada de decisão. Imagine que</p><p>você quer saber qual a porcentagem de livros que foram vendidos mês a mês.</p><p>Ambos, podem ser apresentados em um Dashboard (painel de visualização) e</p><p>fornecidos à gestão em intervalos variáveis, de acordo com as necessidades</p><p>organizacionais. Para ver mais, acesse: < https://bit.ly/2YngDL3 >.</p><p>5.1.1 Análise de Métricas e Indicadores para Melhoria das Decisões de Negócio</p><p>As lojas virtuais normalmente possuem alguma ferramenta de Analytics (como o Google Analytics) incorporada</p><p>a sua página web. Entretanto, quantas realmente fazem uso das informações colhidas por essas ferramentas?</p><p>As principais redes sociais possuem ferramentas específicas para Analytics: Facebook</p><p>(https://analytics.facebook.com/), Twitter (https://analytics.twitter.com/),</p><p>Pinterest ( https://analytics.pinterest.com/ ) etc. No entanto, para que as empresas realmente possam tirar total</p><p>proveito do Analytics, é necessário que compreendam as métricas existentes.</p><p>Considere as características (features) do Facebook Analytics para as páginas conforme mostra a Figura 10. Os</p><p>dados apresentados são apenas para efeitos de demonstração e a tela apresentada é uma página inicial</p><p>contendo um overview de todos os dados referentes a acessos de novos usuários, taxa de crescimento,</p><p>duração mediana de sessão (tempo que o usuário visita sua página), informações demográficas, taxa de</p><p>rejeição (porcentagem de sessões em um dia com apenas uma única visualização de página) e total de</p><p>usuários ativos por hora, estes dois últimos são classificados como métricas de envolvimento, indicando o</p><p>quão interessados os usuários estão com a sua página. Todas essas informações podem ser observadas em</p><p>diferentes níveis de granularidade (detalhamento) por mês, ano, dia, hora etc. Observe ainda que o menu</p><p>disposto à esquerda fornece uma gama de informações coletadas que são potencialmente úteis para as</p><p>empresas que comercializam pelo Facebook. Os “Funis”, por exemplo, para determinar ou mensurar a taxa de</p><p>conversão dos clientes na página, rastreando as atividades do usuário como: usuário instala o aplicativo ></p><p>adiciona um produto ao carrinho > clica em compras. Outro usuário poderia: inicializar o aplicativo > pesquisa</p><p>por “computador” > posta algum comentário na página, e assim por diante. Note que, por meio de algumas</p><p>atividades, é possível que você perceba que grande parte dos usuários que interagem com o produto em</p><p>seguida compram.</p><p>Conecte-se</p><p>Ficou curioso para saber mais sobre a taxa de conversão? Acesse: < https://bit.ly</p><p>/2EqofFG >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.opservices.com.br%2Fdiferencas-entre-metricas-e-indicadores%2F&sa=D&sntz=1&usg=AOvVaw32u5I_GK02_s2UzOi2rXkC</p><p>https://www.google.com/url?q=https%3A%2F%2Fresultadosdigitais.com.br%2Fblog%2Ftaxa-conversao-como-otimizar-seu-funil-vendas%2F&sa=D&sntz=1&usg=AOvVaw0BVIdKja2l1CzNByFlfYJn</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EqofFG&sa=D&sntz=1&usg=AOvVaw13L_QGFQXxKjhjG_p9bjOv</p><p>Disponível aqui</p><p>FIGURA 10 – PÁGINA INICIAL DOS RECURSOS ANALÍTICOS DE PÁGINAS DO FACEBOOK</p><p>FONTE:</p><p>< https://www.facebook.com</p><p>/analytics/ >. Acesso em: 12 nov.</p><p>2018.</p><p>Outras métricas são importantes para monitorar um site ou uma loja virtual. Algumas destas são comuns a</p><p>outras ferramentas de Analytics implementadas, como:</p><p>Número de visitantes : corresponde ao total de usuários que visitaram o website. Se você, João e eu,</p><p>acessamos uma única vez o site da Amazon para checar a disponibilidade de algum produto, têm-se um</p><p>total de 3 visitantes (ou visitas únicas) . No entanto, se você voltar no mesmo site para ver algum outro</p><p>produto, o número de visitantes permanece 3, porém, a visita ao site é contabilizada mais uma vez. Ao final,</p><p>teremos 3 visitantes e 4 visitas .</p><p>Origens de tráfego : é importante muitas vezes que você saiba de onde os usuários estão acessando a sua</p><p>página. É por meio do acesso direto ao link do seu site? (Tráfego Direto); ou seria através de links de</p><p>terceiros? (Tráfego de referência); talvez o usuário tenha acessado utilizando algum buscador, como Google</p><p>ou Bing (Tráfego Orgânico); ou mesmo por meio de mecanismos de anúncios que priorizam a exibição de</p><p>página, como o Google AdWords (Tráfego por Campanhas).</p><p>Páginas por visita : é uma métrica importante para inferir se o usuário está interessado ou não naquilo que</p><p>ele está visualizando. Uma média alta de acesso em uma mesma página indica que ele está interessado.</p><p>Dispositivos : é interessante muitas vezes conhecer qual o percentual de acessos por diferentes dispositivos</p><p>(smartphones, tablets ou desktop). Ao constatar uma massiva presença de dispositivos móveis, talvez seja</p><p>interessante pensar em reimplementar as páginas do site, tornando-as mais ágeis para os usuários</p><p>(observando sempre outras métricas, tais como tempo de carregamento de uma página ), ou tomar uma</p><p>ação e direcionar esforços para construção de aplicativos (apps).</p><p>Conecte-se</p><p>Caso você tenha interesse em se aprofundar no Google Analytics, o Google</p><p>disponibiliza treinamentos gratuitos no site: < https://bit.ly/3aJfGl4 >.</p><p>Você também pode experimentar a ferramenta SimilarWeb para comparar</p><p>métricas analíticas entre websites e aplicativos. A versão gratuita oferece alguns</p><p>recursos para você testar a ferramenta < https://www.similarweb.com/ >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EqofFG&sa=D&sntz=1&usg=AOvVaw13L_QGFQXxKjhjG_p9bjOv</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.facebook.com%2Fanalytics%2F&sa=D&sntz=1&usg=AOvVaw2Zu_S5osVwVWaj5ZFgh6Ze</p><p>https://analytics.google.com/analytics/academy/</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.similarweb.com%2F&sa=D&sntz=1&usg=AOvVaw1Bs0IW81U0G0CgCwLEPZm7</p><p>Evidentemente que existem outras métricas digitais incorporadas em ferramentas voltadas para as análises</p><p>digitais. As próprias features do Google Analytics são constituídas de numerosas métricas e indicadores para</p><p>auxiliar as empresas a obterem ganho competitivo no mundo digital. Em situações nas quais o volume de</p><p>dados cresce exponencialmente, é mais seguro optar por soluções Big Data que assegurem uma boa</p><p>escalabilidade e disponibilidade para que o processo de análise transcorra adequadamente. Nesse sentido, o</p><p>Apache Kafka é uma plataforma para o processamento distribuído, que pode ser uma alternativa viável para</p><p>capturar métricas digitais do Google Analytics, estabelecendo uma ponte entre a captura e a análise de</p><p>imensos volumes de dados.</p><p>Conecte-se</p><p>Este tutorial < https://bit.ly/34g6zHD > apresenta um passo a passo de como</p><p>construir um pipeline para extrair os dados do Google Analytics e em seguida</p><p>enviar para o Kafka. Esses dados podem ser entregues ao Spark para posterior</p><p>análise. No capítulo 3 você aprenderá mais sobre o Apache Spark.</p><p>Adicionalmente, você pode trabalhar com Digital Analytics em cima de ferramentas da IBM, como o IBM</p><p>Analytics, que agrupa diversos mecanismos para otimizar a</p><p>presença de uma empresa na Web, fazendo</p><p>comparativos de desempenho em relação à concorrência em diversos canais digitais, agrupando em uma</p><p>única visualização. A fidelização do cliente é algo importante para as empresas, pensando nisso, a ferramenta</p><p>organiza e segmenta os visitantes em cada canal, fornecendo métricas em função de probabilidade de</p><p>conversão do visitante para um cliente. A ferramenta também apresenta algumas features interessantes</p><p>como: análises avançadas (mobile, redes sociais e web), indicadores (KPIs), dashboards (painéis), visualização</p><p>intuitiva, entre outros pontos. Além das empresas mencionadas, Teradata, AWS e Avanade também são</p><p>opções para realizar análises de dados digitais.</p><p>O importante é que você compreenda que antes de mergulhar na ferramenta, você precisa compreender os</p><p>conceitos e os contextos envolvidos. Conhecer os pormenores de tudo que foi apresentado e sanar suas</p><p>dúvidas é algo que você deve ter em mente. Execute cada passo a passo. Todas as métricas que foram</p><p>apresentadas fazem parte apenas de um subconjunto de algo amplo e complexo do mundo digital. Não</p><p>desanime, ao contrário, a mola propulsora do seu conhecimento está em você mesmo.</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Ao longo desse capítulo, apesar de ter apresentado uma gama de técnicas, ferramentas e métricas, você talvez</p><p>tenha percebido que há muito para aprender e explorar. De fato, tudo que aqui foi mostrado representa</p><p>apenas uma parte de um amplo campo de estudo. Possivelmente, você deve ter percebido que existe a</p><p>possibilidade de fazer a intersecção entre os conhecimentos de cada técnica. Por exemplo, lembra quando</p><p>falamos sobre clusterização pela primeira vez? Quantas vezes a repetimos em seguida? A base do</p><p>conhecimento de clusterização, técnicas e algoritmos são úteis para diversas aplicações e podem ser</p><p>perfeitamente úteis no seu trabalho.</p><p>É difícil separar o Digital Analytics do Text Analytics ou das análises em Cluster quando lembramos que todos</p><p>se constituem e fazem parte do mesmo contexto. Eventualmente, você pode querer fazer uma análise de</p><p>dados em uma rede social procurando identificar quais são os principais atores (mais influentes ou relevantes)</p><p>em uma rede analisando a interatividade entre os posts produzidos por estes. Em seguida, você agrupa os</p><p>atores com base na similaridade entre eles. Note a amplitude de conceitos envolvidos ao lidar com esse tipo</p><p>de análise - um cenário de Digital Analytics para investigar em uma rede social os atores mais influentes com</p><p>base em alguma métrica. Por fim, analisar o conteúdo textual presente nos posts, estruturá-los e agrupá-los</p><p>de acordo com alguma medida de similaridade.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2Fkafka-python-and-google-analytics&sa=D&sntz=1&usg=AOvVaw20qAFK1PYjTm76y2UzO3Um</p><p>Tendo em mente tudo que foi abordado nesse capítulo, esperamos que você tenha assimilado o conteúdo e</p><p>esteja preparado para alguns aspectos mais avançados que serão abordados no Capítulo 3.</p><p>Na próxima etapa trataremos de alguns conceitos relacionados à integração para análise de Big Data, além de</p><p>abordarmos a Internet das coisas, prontos?</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 3</p><p>A competitividade dos negócios, o barateamento do hardware e de soluções baseadas em software permitiram que</p><p>as empresas ampliassem a forma de extrair e analisar dados. Dados internos e externos passaram a ser</p><p>incorporados para fornecer subsídios aos gestores de negócio, que perceberam a vantagem competitiva adquirida</p><p>com o fornecimento desses dados. Diante disso, a integração de dados (internos e externos) passou a ser uma</p><p>tarefa fundamental nos projetos de análise atuais, especialmente em Big Data.</p><p>Confira o vídeo da etapa 3:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 3</p><p>A forma tradicional de analisar dados nos negócios ficou comprometida com o aumento substancial do volume de</p><p>dados disponível e a incorporação de dados não estruturados nos projetos. Isso porque quanto mais dados chegam</p><p>à arquitetura mais requisitos de hardware são necessários para suportar a demanda. Não apenas isso, as decisões</p><p>de negócio estão exigindo respostas cada vez mais rápidas.</p><p>Uma das tecnologias que emergiram a partir do Big Data e que pode ser considerado uma abordagem do tipo ELT é</p><p>o Data Lake – que oferece uma solução para gerenciamento de grandes volumes de dados. São quatro estágios</p><p>para implementação e construção de Data Lake nas empresas:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://youtu.be/XtfI0SG7wuw</p><p>A utilização de Data Lake torna mais flexível a busca de novos insights, incluindo em fontes não estruturadas. De</p><p>modo simplificado, um Data Lake pode ser imaginado como um imenso grid contendo bilhões de linhas e colunas.</p><p>Ao contrário de uma planilha estruturada, cada célula desse grid pode conter um dado diferente (documento,</p><p>imagem, post no Facebook etc.).</p><p>Outra poderosa ferramenta é o Apache Spark, um framework open-source poderoso para processamento eficiente</p><p>e iterativo de grandes conjuntos de dados. Esse framework foi criado com o intuito de suprir algumas deficiências</p><p>de processamento do Hadoop MapReduce – como a baixa eficiência para lidar com processamento iterativo e</p><p>contínuo (streaming) de microlotes de dados. Vamos verificar quais os ingredientes que tornam o Apache Spark</p><p>uma das soluções de Big Data mais atrativas para desenvolvedores e empresas?</p><p>Tudo isso em um ambiente distribuído, escalável, tolerante a falhas e extremamente veloz. Veja alguns casos da</p><p>utilização do Apache Spark:</p><p>• Netflix: a empresa utiliza o Spark Streaming para obter insights de forma imediata (em tempo real) sobre como os</p><p>usuários estão engajados em seu site. Dessa forma, a empresa tem a possibilidade de fornecer recomendações de</p><p>filmes e/ou séries em tempo real.</p><p>• Pinterest: por meio de um pipeline de ETL, o Pinterest pode aproveitar os benefícios do Spark Streaming para</p><p>obter informações de seus usuários em tempo real ao identificar como os usuários estão interagindo com os Pins.</p><p>Leia o artigo Apache Hadoop – Casos de sucesso no uso da tecnologia , João Paulo B. Nascimento apresenta o</p><p>caso do Royal Bank of Scotland, um dos maiores bancos britânico, da companhia aérea British Airways, do Yahoo e</p><p>do Facebook. Confira o que como o Apache Hadoop ajudou essas empresas.</p><p>Outro assunto importante que devemos entender quando tratamos de Big Data é a Internet da Coisas (IoT). Na Era</p><p>da “Internet dos Computadores”, os principais atores para propagação dos dados são os seres humanos. Por outro</p><p>lado, na Internet das Coisas os principais atores são coisas que ora consomem, ora produzem dados. Isso permite</p><p>que os computadores sejam capazes de obter informações e aprender a resolver problemas do mundo real a partir</p><p>dos dados obtidos pelas coisas e assim eles serão capazes de sentir e reagir ao mundo real servindo de apoio para</p><p>decisões humanas.</p><p>A Internet das Coisas é constituída por um conjunto de objetos que estão interligados gerando massivamente</p><p>informação. Contudo, é necessário que exista algum engine (mecanismo ou software que ofereça abstração)</p><p>responsável por gerenciar toda essa gama de dispositivos, oferecendo segurança, escalabilidade, capacidade de</p><p>processamento,</p><p>entre outros adjetivos. Diante disso, existem algumas soluções no mercado que podem ser úteis</p><p>para quem planeja analisar as informações desses dispositivos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.igti.com.br%2Fblog%2Fapache-hadoop-casos-de-sucesso-no-uso-da-tecnologia%2F&sa=D&sntz=1&usg=AOvVaw1w2z1278GP4lZPTf4vUk2x</p><p>É importante que você tenha em mente que as tecnologias mudam e os profissionais precisam acompanhar as</p><p>tendências, estando preparados para lidar com novos cenários. A área de Big Data é considerada multidisciplinar,</p><p>pois engloba o Data Science, o Data Analytics, Business Intelligence, Machine Learning. Assista o webinar</p><p>Tendências para a área de Big Data em 2020, com o professor Angelo Assis.</p><p>Tendências para a área de Big Data em 2020</p><p>A evolução dessas tecnologias impõe, muitas vezes, formas diferentes para lidar com o problema e, assim,</p><p>precisamos ser profissionais flexíveis ou adaptáveis para aprender ou sugerir novas abordagens. Pois nossas</p><p>decisões de análise impactam diretamente na eficácia da tomada de decisões.</p><p>CAPÍTULO 3 - FUNDAMENTOS PARA</p><p>INTEGRAÇÃO ANALÍTICA, TÓPICOS</p><p>AVANÇADOS E TENDÊNCIAS EM BIG</p><p>DATA ANALYTICS</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Apresentar conceitos e diferenças importantes para integração analítica em Big Data.</p><p>Definir tópicos avançados para análise de dados em tempo real com Apache Spark.</p><p>Apresentar conceitos e análises de Internet das Coisas (IoT) e suas aplicações.</p><p>Relatar as principais tendências no mundo de Big Data Analytics.</p><p>1 CONTEXTUALIZAÇÃO</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://youtu.be/56rGVpGXX5w</p><p>Quando as informações eram centralizadas em sistemas legados da empresa, o poder de análise e decisão era</p><p>limitado ou restrito. Os dados eram cadastrados no sistema e a análise era realizada através de uma simples</p><p>consulta no banco de dados, sem considerar fatores externos ou até mesmo outras fontes de dados da</p><p>empresa. Além disso, era custoso você recuperar informações de dados textuais de forma automatizada.</p><p>Então, trabalhar apenas com dados estruturados de forma centralizada era a alternativa mais viável para que</p><p>o gestor pudesse tomar suas decisões.</p><p>A convergência das tecnologias tem seu papel de contribuição nesse cenário, uma vez que, nos dias atuais, as</p><p>decisões são baseadas na análise de diversas tecnologias, tanto em termos de hardware (drones, sensores,</p><p>servidores etc.) como também em software (linguagens e ferramentas de alto nível). A competitividade dos</p><p>negócios, o barateamento do hardware e de soluções baseadas em software permitiram que as empresas</p><p>ampliassem a forma de extrair e analisar dados. Dados internos e externos passaram a ser incorporados para</p><p>fornecer subsídios aos gestores de negócio, que perceberam a vantagem competitiva adquirida com o</p><p>fornecimento desses dados. Diante disso, a integração de dados (internos e externos) passou a ser uma tarefa</p><p>fundamental nos projetos de análise atuais, especialmente em Big Data.</p><p>Por intermédio da integração, os gestores podem passar a ter informações agregadas de todos os segmentos</p><p>da empresa. Assim, é possível utilizar informações de fluxos de caixa, balancete patrimonial, total de vendas e</p><p>estratégias de marketing para tomar decisões mais consistentes e embasadas. Eventualmente, são</p><p>incrementadas informações externas - como situação do mercado financeiro em um dado momento ou</p><p>avaliação de posts em uma página que a empresa possui no Facebook para aperfeiçoar ou ampliar o escopo</p><p>das análises de Big Data.</p><p>Neste capítulo mostraremos alguns conceitos relacionados à integração para análise de Big Data. Em seguida,</p><p>exploraremos o Apache Spark de uma forma mais profunda. A utilização dessa ferramenta dará a</p><p>possibilidade de se trabalhar com microlotes de dados - potencialmente útil para trabalhar com análise em</p><p>tempo real. Apresentaremos também conceitos e aplicações de Internet das Coisas e principais tendências em</p><p>Big Data Analytics.</p><p>Aproveite e bons estudos!</p><p>2 INTEGRAÇÃO DE TÉCNICAS ANALÍTICAS</p><p>Pense em uma arquitetura típica de BI (Business Intelligence). Tradicionalmente, você extrai um conjunto de</p><p>dados e os armazena em uma “zona de repouso” (Staging Area) - que, como foi mencionado no Capítulo 1,</p><p>representa um Banco de Dados intermediário que armazena temporariamente os dados obtidos da(s) fonte(s)</p><p>e; um Data Warehouse (DW) - que é um repositório que armazena informações centrais, úteis e prontas para</p><p>rápido consumo. O ETL ( Extract - Transform - Load ) é um processo que faz o meio de campo entre o processo de</p><p>coleta, a Staging Area e o DW. Como o próprio nome sugere, o processo de ETL é um conjunto de práticas que</p><p>visa extrair um conjunto de dados de uma ou mais fontes e aplicar tarefas de limpeza e transformação nos</p><p>dados, adequando-os em um formato de acordo com as regras de negócio. Por fim, define-se uma rotina de</p><p>carga (normalmente diária) para alimentar o DW.</p><p>A partir disso, vamos supor que você esteja trabalhando em um projeto de uma empresa do ramo financeiro.</p><p>Você coleta um conjunto de dados a partir de “ n ” fontes (externas e internas) e se depara com dados de</p><p>diferentes formatos e estruturas. Estes dados que serão armazenados no DW precisam ter um schema</p><p>definido. Tendo isso em mente, você realiza as limpezas necessárias - remoção de espaços em branco,</p><p>caracteres especiais, entre outras inconsistências, aplica transformação de dados - modifica unidades (dólar</p><p>para real), padronização de casas decimais, ajuste nos tipos de dados, seleção/remoção das variáveis de</p><p>interesse etc. Ainda nesta fase, presume-se quais são as variáveis de interesse que serão carregadas no DW.</p><p>Por fim, ao final do processo, os dados são armazenados no DW e representam uma informação otimizada e</p><p>condensada que serão apresentadas ao usuário final. A Figura 1 sintetiza todo esse processo. Os Data Marts</p><p>podem ser entendidos como um subconjunto do DW (dados de um setor da empresa, como</p><p>marketing/financeiro ou contábil da empresa). Os dados podem ser obtidos de diferentes fontes e</p><p>temporariamente armazenados em uma Staging Area. Um processo de ETL é aplicado antes da carga no DW,</p><p>assim os dados ficam prontos para o usuário final.</p><p>FIGURA 1 – ARQUITETURA TÍPICA DE UM PROCESSO DE BI</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE:</p><p>< https://canaltech.com.br >.</p><p>Acesso em: 19 nov. 2018.</p><p>O processo descrito anteriormente é iterativo e, portanto, é reinicializado de tempos em tempos. Como</p><p>consequência, obtém-se um conjunto de dados históricos que pode ser posteriormente analisado.</p><p>Normalmente, emprega-se uma rotina de carga em uma janela de 24h, para que o gestor possa tomar</p><p>decisões diárias. Ao final da noite até aproximadamente o início da manhã, o gestor já tem informações</p><p>atualizadas (do dia anterior). Ao longo de 30 dias, pode-se obter informações mais agregadas (semanais)</p><p>devido ao conjunto de dados históricos mantidos no DW.</p><p>No entanto, a forma tradicional de analisar dados nos negócios ficou comprometida com o aumento</p><p>substancial do volume de dados disponível e a incorporação de dados não estruturados nos projetos. Isso</p><p>porque quanto mais dados chegam à arquitetura, mais requisitos de hardware são necessários para suportar</p><p>a demanda. Não apenas isso, as decisões de negócio estão exigindo respostas cada vez mais rápidas. Por sua</p><p>vez, a arquitetura de BI tradicional não consegue suportar a rápida ingestão de dados em um intervalo</p><p>temporal mais curto, produzindo um efeito cascata: altas taxas de latência que comprometem as análises e,</p><p>consequentemente, o apoio à tomada de decisão. Aumentar o número</p><p>de servidores ou melhorar a</p><p>capacidade de hardware muitas vezes não parece ser uma boa ideia, pois elevaria os custos de</p><p>armazenamento e tornaria o problema cíclico.</p><p>Uma solução viável seria investir em tecnologias voltadas para o Big Data. Nesse caso, o Big Data poderia ser</p><p>integrado à arquitetura para dar conta dessa elevada demanda em termos de armazenamento e</p><p>processamento de dados. Você verá na próxima seção mais detalhes a respeito dessa integração.</p><p>2.1 ETL, ELT E DATA LAKE: CONCEITOS E IMPLEMENTAÇÃO</p><p>Como vimos, o processo de ETL é constituído de etapas bem definidas: extração, transformação e carga de</p><p>dados. A etapa de extração, de fato, consiste na primeira etapa do processo. Antes de realizar a carga dos</p><p>dados na Staging Area, define-se previamente um schema ( schema - on - write ) para armazenar esses dados</p><p>estruturados, a fim de que o SGBD (Sistema de Gerenciamento de Banco de Dados) faça a leitura desses</p><p>dados. É verdade que a definição prévia de um schema pode ser benéfica, especialmente em algumas</p><p>situações nas quais o conjunto de dados e a complexidade do negócio são considerados baixos. Por exemplo,</p><p>casos em que o analista sabe exatamente o que o usuário quer analisar. Contudo, na prática, em cenários</p><p>mais complexos com dados de grande volume e variedade é prudente pensar em uma alternativa mais</p><p>flexível, que possa fornecer uma solução de análise mais rica para os usuários.</p><p>Que tal você propor uma abordagem na qual não seja necessário definir previamente um schema de banco de</p><p>dados ( schema - on - read )? O ELT ( Extract-Load-Transform ) difere da abordagem tradicional de ETL. No ELT, os</p><p>dados extraídos são armazenados na sua forma mais bruta e posteriormente serão selecionados</p><p>(transformados) de acordo com as necessidades do negócio. Isso significa que não são todos os dados que</p><p>precisam ser transformados, apenas os dados que realmente fazem sentido naquele momento. Essa</p><p>abordagem ganhou destaque com o advento do Big Data, visto que para armazenar essa gama de dados com</p><p>formatos e estruturas variáveis era necessário uma infraestrutura capaz de armazenar, oferecer</p><p>processamento e escalabilidade suficiente para lidar com isso. Mais do que isso, o Big Data fornece a</p><p>possibilidade de se trabalhar com dados distribuídos em commodities hardware , ou seja, máquinas de baixo</p><p>custo. Caso haja necessidade, servidores hospedados em nuvem, tais como : Amazon S3, Microsoft Azure, IBM</p><p>Analytics também podem ser uma alternativa para armazenamento e processamento de Big Data em</p><p>ambientes de negócios.</p><p>O que você pode aprender disso? Note que algumas lacunas são preenchidas quando integramos</p><p>ferramentas ou soluções voltadas para atender as demandas de Big Data aos processos tradicionais de análise</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Fbusiness-intelligence%2Fconhecendo-a-arquitetura-de-data-warehouse-19266%2F&sa=D&sntz=1&usg=AOvVaw1mjJPjjgU3iKPkaGc83kob</p><p>de dados nos negócios - especialmente no que se refere a demandas para recursos de armazenamento e</p><p>problemas de latência (processamento). Nesse sentido, uma infraestrutura de Big Data é capaz de oferecer</p><p>recursos computacionais por meio de cluster de computadores (ou nós). Por exemplo, a família Apache</p><p>Hadoop, que vimos no Capítulo 1, apresenta um conjunto de ferramentas para auxiliar tanto no</p><p>armazenamento quanto no processamento e análise de dados não estruturados e/ou gerados em tempo real.</p><p>Conecte-se</p><p>Um case interessante de aplicação do Data Lake pode ser encontrado no site</p><p>< https://invent.ge/31fIJcX >.</p><p>Você pode consultar este artigo < https://bit.ly/3j1JHQg >, que apresenta um</p><p>hands on (algo prático) ilustrando as diferenças entre o ETL e o ELT. Assim</p><p>como são exibidas algumas vantagens e desvantagens entre as duas</p><p>tecnologias.</p><p>Uma das tecnologias que emergiram a partir do Big Data e que pode ser considerado uma abordagem do tipo</p><p>ELT é o Data Lake - que oferece uma solução para gerenciamento de grandes volumes de dados. Além disso, o</p><p>Data Lake pode ser perfeitamente integrado a processos e análises de BI, possibilitando uma maior</p><p>flexibilidade e escalabilidade dos dados que foram coletados. A Figura 2 exibe uma comparação gráfica entre o</p><p>ETL tradicional e o Data Lake (ELT). Note que no primeiro caso, após o processo de coleta dos dados, os dados</p><p>são organizados e estruturados em um schema predefinido e específico para que seja reconhecido no DW</p><p>(representado por DWH). Por outro lado, em um Data Lake, os dados que chegam são armazenados na sua</p><p>forma mais bruta e somente serão utilizados sob demanda, ou seja, a seleção de variáveis relevantes será</p><p>realizada somente conforme as necessidades do momento. A transformação, por sua vez, ocorrerá após a</p><p>etapa de carga. Uma tarefa opcional é combinar esse processo com o DW. Evidentemente que isso é algo que</p><p>dependerá das necessidades específicas da organização ou do seu projeto.</p><p>FIGURA 2 – REPRESENTAÇÃO GRÁFICA QUE COMPARA AS ABORDAGENS ETL E ELT</p><p>FONTE:</p><p><h ttps://www.xplenty.com/ >.</p><p>Acesso em: 20 nov. 2018.</p><p>O grupo McKinsey&Company aponta quatro estágios para implementação e construção de Data Lake nas</p><p>empresas, conforme mostramos a seguir:</p><p>Landing zone (zona de pouso) ou dados brutos : é o primeiro estágio de um Data Lake, uma vez que os</p><p>dados são coletados, eles podem ser armazenados em uma camada de gerenciamento presente em alguma</p><p>infraestrutura de TI, que permite que os dados sejam armazenados em uma forma bruta antes de serem</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ge.com%2Freports%2Fpost%2F94170227900%2Fangling-in-the-data-lake-ge-and-pivotal-pioneer-4%2F&sa=D&sntz=1&usg=AOvVaw191Gj0b4g13A0P9mWug_Fz</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2Fetl-vs-elt-the-difference-is-in-the-how&sa=D&sntz=1&usg=AOvVaw2J_02zxjX5Z4RgZc7cMQaa</p><p>preparados para utilização. Para que isso se concretize, as organizações precisam se empenhar para</p><p>implantar uma forte governança de dados, a fim de garantir sua consistência.</p><p>Ambiente de ciência de dados : nesse estágio, o Data Lake pode ser utilizado como plataforma de</p><p>experimentação, ou seja, os cientistas podem se concentrar em realizar experimentos e análises, coletando</p><p>informações relevantes e extraindo insights, inclusive para análises ad - hoc . Mais do que isso, podem ser</p><p>construídas ferramentas comerciais e open - sources, combinando com o Data Lake para criar os ambientes</p><p>de testes necessários.</p><p>Offload (descarga) para Data Warehouse : nesse momento, o Data Lake começa a ser integrado com o(s)</p><p>Data Warehouse(s) existente(s). As empresas podem tirar proveito do baixo custo de armazenamento de</p><p>um Data Lake e armazenar cold data (dados frios) - ou seja, aqueles dados que são raramente utilizados (ou</p><p>inativos) e que muitas vezes são mantidos para fins de conformidade nas empresas. Assim, é possível não</p><p>sobrecarregar o DW com informações que poderiam exceder suas limitações de armazenamento. Dessa</p><p>forma, as empresas podem manter as extrações nos seus Bancos de Dados relacionais em seu(s) DW(s) e</p><p>migrar tarefas de extração e transformação não suportadas no DW para o Data Lake, como dados não</p><p>estruturados.</p><p>Componentes críticos de operações de dados : esse último estágio indica que provavelmente todas as</p><p>informações que percorrem os sistemas da empresa estão passando de alguma forma pelo Data Lake. Este,</p><p>por sua vez, torna-se um componente essencial na infraestrutura de dados implementada e fornece dados</p><p>como um serviço por meio de uso intensivo de computação, que permite análise de dados mais avançada e</p><p>inclui softwares com aprendizagem de máquina. As empresas podem criar aplicações para gerenciamento</p><p>de desempenho.</p><p>Conceituando</p><p>O conceito de Data Lake é</p><p>um novo mindset, não apenas a tecnologia de um</p><p>grande repositório. Sua arquitetura é composta por um sistema de arquivos do</p><p>Hadoop - HDFS com uma gama de diretórios e arquivos que têm sido explorados</p><p>por grandes empresas, como Google, Netflix e Yahoo. Não é possível se limitar às</p><p>tecnologias como Data Warehouses e Data Minings, em que os modelos de dados</p><p>são previamente definidos e, portanto, limitam o escopo das perguntas possíveis.</p><p>Especialmente considerando que a obtenção de um insight normalmente conduz</p><p>a novas perguntas, que, por sua vez, geram novos conhecimentos. A utilização de</p><p>Data Lake torna mais flexível a busca de novos insights, incluindo em fontes não</p><p>estruturadas.</p><p>De modo simplificado, um Data Lake pode ser imaginado como um imenso</p><p>grid contendo bilhões de linhas e colunas. Ao contrário de uma planilha</p><p>estruturada, cada célula desse grid pode conter um dado diferente (documento,</p><p>imagem, post no Facebook etc).</p><p>À primeira vista, o Data Lake parece um amontoado de dados sem controle,</p><p>mas não é verdade. É necessário um processo eficaz de governança, que envolva</p><p>segurança, controle de acesso e aderência a normas de compliance. A ideia de</p><p>colocar todos os dados em um lugar e deixar que os usuários, por sua conta,</p><p>façam suas buscas e correlações, gerando eles mesmos os insights é algo que</p><p>torna o Data Lake tão atraente.</p><p>2.1.1 Integração de ETL no Hadoop</p><p>Você estudou no Capítulo 1 que o ecossistema Hadoop contém uma coleção de ferramentas que podem ser</p><p>úteis para análises sofisticadas de Big Data. Para coletar dados de fontes estruturadas, como Bancos de Dados</p><p>relacionais, você pode utilizar o Sqoop , que é uma ferramenta que utiliza comandos SQL para fazer a ingestão</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>de dados no HDFS.</p><p>Conecte-se</p><p>Por meio deste tutorial < https://bit.ly/2FBdyQW >, você pode aprender a instalar</p><p>o SQOOP e importar dados do MySQL para o HDFS. Caso não tenha configurado</p><p>o ambiente de execução, acesse este link: < https://bit.ly/2EoUDIs >.</p><p>Ainda tratando do processo de coleta e ingestão de dados em Big Data, você pode mover grandes quantidades</p><p>de dados em streaming (logs, eventos, dados de redes sociais etc.) para o HDFS ou um Banco de Dados não</p><p>relacional como o HBase. O Apache Flume possui controle de balanceamento de carga para garantir um fluxo</p><p>constante de dados, mecanismos de tolerância a falhas, escalabilidade, entre outras características.</p><p>Conceituando</p><p>Sugerimos que você tente instalar, configurar e testar o Apache Flume por meio</p><p>deste tutorial: < https://bit.ly/32g2iB8 >. Neste tutorial, você utilizará o Apache</p><p>Flume para coletar dados do Twitter e armazená-los no HDFS.</p><p>Em ambas ferramentas o processo de extração e carga são realizados. Uma vez que os dados estejam no</p><p>HDFS, já é possível construir suas análises de Big Data utilizando, por exemplo, o Spark ou Mahout e aplicar</p><p>algoritmos de Machine Learning. O Apache Mahout é um framework que permite a execução de aplicações</p><p>de Machine Learning dentro de um ambiente escalável e distribuído. Você pode implementar técnicas voltadas</p><p>para classificação, clusterização ou aplicar tarefas de mineração de dados. Enfim, você pode analisar tudo isso</p><p>dentro de um cluster de máquinas que suporta o armazenamento e o processamento de grande volume de</p><p>dados.</p><p>Conecte-se</p><p>Que tal experimentar o Mahout e assim aplicar modelos de classificação ou</p><p>clusterização em seus projetos? Por meio desse endereço < https://bit.ly</p><p>/2YnpPiq > você pode aprender a preparar ou configurar o ambiente para utilizar</p><p>o Apache Mahout. Experimente.</p><p>Disponível aqui</p><p>Como já mostramos no Capítulo 2, você pode também aplicar o Apache Kafka para criar um pipeline que</p><p>colete dados diretamente das fontes, especialmente dados de fluxo contínuo (streaming). Essa plataforma</p><p>possui mecanismos internos para tratamento de erros, além de uma arquitetura escalável que permite</p><p>processar grandes volumes de dados que estão chegando a nossa infraestrutura de Big Data.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fsqoop%2Fsqoop_import.htm&sa=D&sntz=1&usg=AOvVaw3jRaKVKqU495zRn-ycTnlu</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fsqoop%2Fsqoop_installation.htm&sa=D&sntz=1&usg=AOvVaw1e_lRF_go3dxpm-2x7kW05</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_flume%2Fapache_flume_environment.htm&sa=D&sntz=1&usg=AOvVaw2JXSs4hUwah8ZdhzqMNgmu</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fmahout%2Fmahout_environment.htm&sa=D&sntz=1&usg=AOvVaw051KzO5uCE2RZbzr7KcEzR</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fmahout%2Fmahout_environment.htm&sa=D&sntz=1&usg=AOvVaw051KzO5uCE2RZbzr7KcEzR</p><p>Conecte-se</p><p>O Kafka é uma plataforma robusta e que pode ser implementada para</p><p>processar dados em tempo real. Você pode aprender a instalar, configurar e</p><p>implementar o Kafka por meio desse tutorial: < https://bit.ly/3ghjfQX >. Pratique</p><p>Disponível aqui</p><p>Uma das grandes vantagens em integrar essas ferramentas dentro dos processos tradicionais de BI é a</p><p>questão do seu custo. Embora, eventualmente, o fator complexidade para implementação pese, se</p><p>comparado a ferramentas proprietárias que estão prontas para utilização, as ferramentas que fazem parte do</p><p>ecossistema Hadoop se destacam por serem livres de licença de uso open-source. Assim, você tem a</p><p>tranquilidade de implementar e modificar seus projetos para uso pessoal, comercial ou com objetivos de</p><p>pesquisa, entre outras finalidades. Na próxima seção, você aprenderá em mais detalhes sobre o Apache Spark.</p><p>Antes, pratique o que você aprendeu nesta seção nas atividades a seguir.</p><p>3 APACHE SPARK: CONCEITOS, COMPONENTES, ESTRUTURA E APLICAÇÕES</p><p>Nesta seção exploraremos o Apache Spark, uma poderosa ferramenta para processamento e análise de dados</p><p>de fluxo contínuo (streaming de dados). Você conhecerá um pouco sobre a arquitetura e os componentes do</p><p>Spark, assim como alguns exemplos utilizando a linguagem Python. É recomendável que você tente praticar os</p><p>exercícios ou tutoriais sugeridos para consolidar seus conhecimentos.</p><p>3.1 CONCEITOS E COMPONENTES CORE DO APACHE SPARK</p><p>O Apache Spark é um framework open-source poderoso para processamento eficiente e iterativo de grandes</p><p>conjuntos de dados. Esse framework foi criado com o intuito de suprir algumas deficiências de processamento</p><p>do Hadoop MapReduce - como a baixa eficiência para lidar com processamento iterativo e contínuo</p><p>(streaming) de microlotes de dados. Tradicionalmente as operações de leitura-escrita em MapReduce são em</p><p>disco (HFDS), apresentando altas taxas de latência em processos iterativos, ou seja, processos que são</p><p>repetidos constantemente. Por outro lado, as operações no Spark são realizadas em memória, tornando o</p><p>processamento muito mais veloz, ao mesmo tempo que herda mecanismos de tolerância a falhas e</p><p>escalabilidade do MapReduce.</p><p>Essa característica permite que o Spark seja 100 vezes mais veloz que o Hadoop MapReduce. Apesar de ter</p><p>sido desenvolvido na linguagem Java, o Spark fornece APIs para que você possa implementar aplicações de</p><p>forma paralela e transparente, utilizando Python, Scala ou R. Além disso, o Spark fornece um conjunto de</p><p>bibliotecas para construção de aplicações, conforme mostra a Figura 3.</p><p>FIGURA 3 – PILHAS (STACKS) DE BIBLIOTECAS DO APACHE SPARK</p><p>FONTE:</p><p>< https://spark.apache.org/ >.</p><p>Acesso em: 27 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_kafka%2Fapache_kafka_installation_steps.htm&sa=D&sntz=1&usg=AOvVaw368vs0dvIYX3dnyHSB9IOB</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_kafka%2Fapache_kafka_installation_steps.htm&sa=D&sntz=1&usg=AOvVaw368vs0dvIYX3dnyHSB9IOB</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2F&sa=D&sntz=1&usg=AOvVaw0SHpQmRdIKiA_ikvJk5aTE</p><p>Esse conjunto de bibliotecas é fornecido por intermédio do Spark Core, que é a plataforma-base que permite o</p><p>funcionamento dessas bibliotecas. É possível dimensionar quão poderoso é o Spark por meio dessas</p><p>bibliotecas. Por isso, é importante que você as conheça.</p><p>O primeiro componente que merece destaque é o Spark SQL . Ele permite o uso da linguagem SQL para</p><p>realizar consultas e processar dados estruturados no Spark, tudo de forma distribuída e otimizada. Além de</p><p>utilizar diretamente a linguagem SQL, você também tem a opção de usufruir das APIs projetadas nas</p><p>linguagens de programação Java, Scala, Python ou R através de uma sintaxe simples e intuitiva. Caso você</p><p>esteja habituado com consultas em HiveQL, o Spark SQL também fornece suporte. Observe um exemplo do</p><p>Spark SQL na Figura 4:</p><p>FIGURA 4 – EXEMPLO DE MANIPULAÇÃO DE DADOS COM SPARK SQL</p><p>FONTE: https://spark.apache.org</p><p>/sql/ >. Acesso em: 27 nov. 2018</p><p>Observe que os dados podem ser capturados e integrados a partir de diferentes fontes. Você pode construir</p><p>um SQL dentro do Spark para unir registros de uma tabela com dados obtidos de uma fonte em JSON</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark SQL, possibilidades de integração e conexão,</p><p>bem como alguns exemplos, acesse a documentação no site:</p><p>< https://spark.apache.org/sql/ >. Tente praticar.</p><p>Disponível aqui</p><p>Conecte-se</p><p>O Python é uma das linguagens de programação mais populares para análise</p><p>de dados e será utilizado ao longo desta seção como referência. Se você ainda</p><p>não conhece a linguagem, recomendamos que você explore os seguintes</p><p>endereços:</p><p>Python Data Science Handbook : < https://jakevdp.github.io</p><p>/PythonDataScienceHandbook/ >.</p><p>Pandas Tutorial : < https://bit.ly/3l3UJGu >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fsql%2F&sa=D&sntz=1&usg=AOvVaw3e8Ah5WA8XU_JhxLfL9Cnp</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fsql%2F&sa=D&sntz=1&usg=AOvVaw3e8Ah5WA8XU_JhxLfL9Cnp</p><p>https://www.google.com/url?q=https%3A%2F%2Fjakevdp.github.io%2FPythonDataScienceHandbook%2F&sa=D&sntz=1&usg=AOvVaw2RsXIlPVXlVxxcfg9wZZvz</p><p>https://www.google.com/url?q=https%3A%2F%2Fjakevdp.github.io%2FPythonDataScienceHandbook%2F&sa=D&sntz=1&usg=AOvVaw2RsXIlPVXlVxxcfg9wZZvz</p><p>https://www.google.com/url?q=https%3A%2F%2Fpandas.pydata.org%2Fpandas-docs%2Fstable%2Ftutorials.html&sa=D&sntz=1&usg=AOvVaw1Rno84eQRm2uYaW0Oo6Wdl</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.practicepython.org%2F&sa=D&sntz=1&usg=AOvVaw2Oc3eEgcaQ0rJy5BRPjuXU</p><p>Practice Python : < https://www.practicepython.org/ >.</p><p>Como atividade prática é recomendável que nesse primeiro momento você</p><p>realize a instalação e a configuração do Apache Spark:</p><p>< https://spark.apache.org/downloads.html >. O processo de instalação é</p><p>simples, no entanto, é necessário realizar algumas configurações adicionais que</p><p>podem variar de acordo com o seu sistema operacional. Neste tutorial</p><p>< https://bit.ly/32i42Ku >, você pode instalar e configurar o PySpark , que</p><p>permite conectar o Python ao Spark. Certifique-se de ter instalado o Java e o</p><p>Scala no seu computador. Caso não tenha instalado, siga os passos neste link:</p><p>< https://bit.ly/3aJZbFu >. Por fim, se desejar algo mais completo e avançado,</p><p>este tutorial pode ajudá-lo: < https://bit.ly/3aHnjbM >.</p><p>O Spark também contém um componente útil para processamento e análise de dados em tempo real - o</p><p>Spark Streaming . Este componente possui uma sintaxe simples e unificada tanto para implementação em</p><p>dados em tempo real como também para análise de dados históricos (dados em batch), ou seja, a maneira</p><p>que você codifica para streaming é praticamente a mesma para batch. Com o Spark Streaming, os dados</p><p>podem ser coletados de fontes, tais como: dados de bolsas de valores, redes sociais, sensores, dados</p><p>pluviométricos, dispositivos de IoT (Internet das Coisas), entre outras. Embora esse tipo de análise (em tempo</p><p>real) não exija grandes recursos de armazenamento, uma vez que o foco é a coleta, o processamento e a</p><p>análise de microlotes de dados, é possível carregar os dados tanto em memória como em disco via HDFS.</p><p>Neste último caso, é recomendável que você opte por essa alternativa quando os recursos de memória</p><p>estiverem realmente escassos. Os motivos você já deve imaginar (conforme comentamos no início desta</p><p>seção): o Spark processa os dados em memória, o que o torna mais veloz se comparado ao processamento em</p><p>disco. A Figura 5 mostra um exemplo de implementação do Spark Streaming combinando com informações</p><p>históricas.</p><p>FIGURA 5 – COMBINANDO EM UMA ÚNICA CONSULTA: STREAMING E BATCH</p><p>FONTE: < https://spark.apache.org</p><p>/streaming/ >. Acesso em: 27 nov.</p><p>2018.</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark Streaming, possibilidades de integração, bem</p><p>como alguns exemplos, acesse a documentação no site:</p><p>< https://spark.apache.org/streaming/ >.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.practicepython.org%2F&sa=D&sntz=1&usg=AOvVaw2Oc3eEgcaQ0rJy5BRPjuXU</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdownloads.html&sa=D&sntz=1&usg=AOvVaw3wPSi_JzMw4yqPfotPSi7h</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_environment_setup.htm&sa=D&sntz=1&usg=AOvVaw2Dlt41-BTblYn6_MwOyhce</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_spark%2Fapache_spark_installation.htm&sa=D&sntz=1&usg=AOvVaw2lys8akfBLioTb9C5cuDD7</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fsql-getting-started.html&sa=D&sntz=1&usg=AOvVaw27IxiTy8jDCwRGGCtpBLp_</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>Conecte-se</p><p>Antes de ir para a atividade prática, você deve se certificar que o Spark esteja</p><p>devidamente instalado na sua máquina. Recomendamos fortemente que você</p><p>utilize como referência o tutorial da Apache para o Spark Streaming:</p><p>< https://bit.ly/3aJpVG3 >.</p><p>Disponível aqui</p><p>Outro componente do Spark que merece destaque é o Spark MLlib. Enquanto o Spark SQL e o Spark</p><p>Streaming atuam mais próximos à origem (fontes de dados) coletando e processando dados, o Spark MLib</p><p>converge para análise de Big Data ao implementar de forma eficiente diversos algoritmos de Machine Learning</p><p>voltados para classificação, regressão e clusterização. Os algoritmos do Spark MLib foram projetados para</p><p>executar em memória e responder rapidamente aos requisitos de computação iterativa. Assim podemos</p><p>coletar dados de streaming do Twitter em um dado intervalo (janela) de tempo, aplicar algumas etapas de</p><p>transformação e limpeza e carregar os dados no HFDS e assim utilizar os algoritmos do MLlib para realizar as</p><p>análises desejadas. Cabe salientar que o armazenamento no HDFS é algo opcional. Por exemplo, para análises</p><p>em tempo real, o armazenamento muitas vezes não é algo requerido e a análise é realizada logo após a etapa</p><p>de transformação e limpeza dos dados e, após isso, os dados podem ser descartados, uma vez que a</p><p>informação que chega, só é importante naquele momento. Em situações nas quais desejamos manter uma</p><p>base histórica dos dados que estão fluindo pelo sistema, o armazenamento no HDFS pode ser uma alternativa.</p><p>A Figura 6 mostra um exemplo prático de uso de um algoritmo que permite construir um modelo de Machine</p><p>Learning utilizando o Spark MLlib.</p><p>FIGURA 6 – EXEMPLO DE USO DE UM ALGORITMO (KMEANS) NO</p><p>SPARK MLLIB</p><p>FONTE: < https://spark.apache.org</p><p>/mllib/ >. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark MLlib, possibilidades de integração, conhecer</p><p>os algoritmos e outras possibilidades de uso deste componente, acesse a</p><p>documentação no site: < https://spark.apache.org/mllib/ >.</p><p>Conecte-se</p><p>Você pode utilizar como um guia de referência o tutorial do Spark MLlib</p><p>< https://spark.apache.org/docs/latest/ml-guide.html >. Também</p><p>recomendamos este blog < https://bit.ly/2EaIG9 y >, que apresenta conteúdo e</p><p>exemplos práticos relacionados ao MLlib, não perca a chance de praticar.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fstreaming-programming-guide.html&sa=D&sntz=1&usg=AOvVaw2D3N8NdrkMcQiQ-VTdzPCO</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aJpVG3&sa=D&sntz=1&usg=AOvVaw3Tvk1ywNjcOj8azzhs6NHB</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fmllib%2F&sa=D&sntz=1&usg=AOvVaw1rZECPLQEemKJ_G0zqAP98</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fmllib%2F&sa=D&sntz=1&usg=AOvVaw1rZECPLQEemKJ_G0zqAP98</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fml-guide.html&sa=D&sntz=1&usg=AOvVaw3CAS8RB3ieYP5QwymypJF9</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EaIG9y&sa=D&sntz=1&usg=AOvVaw2lTV8HEXYbPn695ItklLsm</p><p>Por fim, o último componente que podemos citar é o Spark GraphX. Como o nome sugere, é uma estrutura</p><p>que processa informações de grafos de forma eficiente. Então, conforme você aprendeu no Capítulo 2, a</p><p>análise de Big Data pode se dar em forma de grafos, que são constituídos por um conjunto de vértices (atores)</p><p>e arestas (relações). Em uma estrutura de rede social, considerar essa estrutura é importante para que</p><p>possamos analisar e identificar qual o papel de um usuário na rede, referindo-se a sua importância ou</p><p>relevância, seu grau de interação ou a força do relacionamento entre os usuários. A estrutura deste tipo de</p><p>rede pode ser processada de forma eficiente e paralela por meio do Spark GraphX. A própria documentação</p><p>destaca que este componente pode ser utilizado como ETL, para análise exploratória e computação dos grafos</p><p>de forma iterativa e com uma eficiência superior a outras soluções do mercado. A Figura 7 demonstra um</p><p>rascunho de implementação utilizando o Scala, observe que a sintaxe não difere muito em relação aos outros</p><p>componentes que foram abordados.</p><p>FIGURA 7 – EXEMPLO DE UMA IMPLEMENTAÇÃO UTILIZANDO A API SCALA FORNECIDA PELO SPARK</p><p>FONTE: < https://spark.apache.org/graphx/ >. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Este tutorial < https://bit.ly/3iXq8bG > apresenta um passo a passo de</p><p>implementação do GraphX utilizando o PySpark. Além disso, para buscar</p><p>informações mais completas e avançadas, você pode acessar o guia do próprio</p><p>Spark GraphX: < https://bit.ly/3hfFibO >.</p><p>Todos esses componentes podem ser combinados em uma única solução e isso, evidentemente, varia</p><p>conforme a sua necessidade. Por exemplo, talvez você precise coletar dados em tempo real do Facebook para</p><p>prever a chance que um usuário ou grupo de usuários tem de romper amizade. Nesse caso, você pode utilizar</p><p>o Spark Streaming para conectar a API desta rede social e começar a realizar a coleta. Em seguida, aplicar um</p><p>algoritmo de Machine Learning com o Spark MLlib, tudo isso sob um rápido processamento de uma estrutura</p><p>baseada em rede utilizando o GraphX. Assim, é importante ter em mente essas possibilidades para que, de</p><p>fato, você seja capaz de usufruir amplamente da capacidade de processamento e análise do Apache Spark.</p><p>3.2 DEMAIS COMPONENTES DO APACHE SPARK</p><p>Processamento em Batch, Streaming, em grafos, manipulação de dados utilizando comandos SQL e análise</p><p>preditiva (Machine Learning). Tudo isso em um ambiente distribuído, escalável, tolerante a falhas e</p><p>extremamente veloz. Todos esses ingredientes tornam o Apache Spark uma das soluções de Big Data mais</p><p>atrativas para desenvolvedores e empresas, mas o que torna o Spark tão poderoso?</p><p>De acordo com Zaharia et al. (2010), para que o Spark suporte computação iterativa, mantendo escalabilidade</p><p>e tolerância a falhas, um dos componentes mais importantes está relacionado à construção de uma abstração</p><p>conhecida como Resilient Distributed Datasets (RDDs) ou se preferir uma tradução literal - conjunto de dados</p><p>resilientes e distribuídos. Estes mesmos autores definem o RDD como:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fgraphx%2F&sa=D&sntz=1&usg=AOvVaw23F8W4H_FyQglxZTfJJGN7</p><p>http://www.google.com/url?q=http%3A%2F%2Fpysparktutorial.blogspot.com%2F2017%2F10%2Fgraphframes-pyspark.html&sa=D&sntz=1&usg=AOvVaw1BxFn9VxWHzIfuv0MCNvJ8</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fgraphx-programming-guide.html&sa=D&sntz=1&usg=AOvVaw38HExvqoVfrx9Tyvaz8hpX</p><p>Uma coleção de objetos somente de leitura particionados através de um conjunto de máquinas que podem ser</p><p>reconstruídas caso uma partição seja perdida. Os usuários podem armazenar em cache explicitamente um</p><p>RDD na memória entre máquinas e reutilizá-lo em várias operações paralelas semelhantes a MapReduce. Os</p><p>RDDs atingem a tolerância a falhas por meio de uma noção de linhagem: se uma partição de RDD foi perdida,</p><p>o RDD terá informações suficientes a respeito de como ele foi derivado de outros RDDs para ser capaz de</p><p>recriar apenas essa partição. Embora os RDDS não sejam uma abstração geral de memória compartilhada,</p><p>eles representam um ponto ideal entre a expressividade por um lado e a escalabilidade e confiabilidade por</p><p>outro (ZAHARIA et al., 2010, grifos nossos).</p><p>A resiliência de um RDD é uma característica que garante o controle de falhas que venham a ocorrer no</p><p>sistema. Os dados em um RDD são persistidos em partições e distribuídos em diferentes nós em um cluster</p><p>para que possam ser processados, posteriormente, de uma forma mais ágil. O Dataset é uma estrutura do</p><p>RDD similar a uma tabela (por exemplo, de um Banco de Dados) que armazena dados de diferentes tipos.</p><p>Uma característica que define o RDD é a sua imutabilidade . Por exemplo, no momento em que você cria um</p><p>RDD no Spark e em seguida aplica alguma operação de transformação, um novo RDD será criado, enquanto</p><p>que as propriedades do RDD anterior permanecem intactas e por isso são consideradas imutáveis. Para criar</p><p>uma RDD, é necessário que antes você defina um objeto para se conectar ao Spark e assim usufruir dos seus</p><p>recursos, criando um Spark Context, que estabelece a conexão com o framework.</p><p>Conecte-se</p><p>Para que você conheça mais e crie um Spark Context pelo PySpark, sugerimos</p><p>que acesse este tutorial: < https://bit.ly/2ErKpqL >. Após a conexão, você pode</p><p>criar uma RDD, acessando: < https://bit.ly/34jyciX >.</p><p>As RDDs suportam dois tipos de operações: as transformações e as ações . Quando aplicamos uma operação</p><p>de transformação em um RDD, um outro RDD é criado. A etapa de transformação só é concluída quando uma</p><p>operação de ação for realizada (Lazy Evaluation), que visa modificar seu conjunto de dados, conforme</p><p>apresentado na Figura 8. O Spark Context é criado para permitir que a linguagem acesse os recursos do Spark.</p><p>Após essa etapa é criado o primeiro RDD, que faz a leitura de um arquivo por intermédio do método textfile. O</p><p>próximo passo é a criação da primeira transformação (método flatMap) sob o RDD anterior,</p><p>consequentemente um novo RDD é criado e armazenado (val AllWords). Em seguida, uma outra etapa de</p><p>transformação é executada neste RDD aplicando o método filter e resultando na criação de um novo RDD (val</p><p>words) e assim sucessivamente.</p><p>FIGURA 8 – EXEMPLO DA OPERAÇÃO DE TRANSFORMAÇÃO NA LINGUAGEM SCALA</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_sparkcontext.htm&sa=D&sntz=1&usg=AOvVaw1r1RCs2j3XnHfO7D59pyO5</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_rdd.htm&sa=D&sntz=1&usg=AOvVaw0JmbiPu9GhjBILTQlZyXe5</p><p>FONTE:</p><p>< https://jaceklaskowski.gitbooks.i</p><p>o >. Acesso em: 28 nov. 2018.</p><p>Apresentaremos a seguir um exemplo em Python para remoção de stopwords via Spark. Basicamente, o</p><p>primeiro RDD faz a leitura de um arquivo com conteúdo textual. Em seguida, é definida uma lista com algumas</p><p>stopwords da língua portuguesa. A terceira linha cria um novo RDD (second_rdd) a partir do RDD anterior</p><p>(first_rdd) e aplica uma operação de transformação (utilizando o método filter). A expressão lambda é uma</p><p>função anônima do Python, que basicamente retornará apenas um conjunto de registros nos quais não</p><p>existam as stopwords definidas na linha anterior. A penúltima linha é uma operação de ação (método take)</p><p>que recupera apenas os 20 primeiros registros do RDD (second_rdd). Caso você deseja guardar (persistir) essa</p><p>informação na memória para posterior recuperação, você pode passar ao second_rdd o método cache,</p><p>conforme mostra a última linha. Assim, é possível recuperar rapidamente a informação no cluster sem</p><p>precisar executar novamente esta operação.</p><p>first_rdd = sc.textFile(“PATH”)</p><p>stopwords = [“e”, “o”, “de”, “para”, “um”, “uma”]</p><p>second_rdd = first_rdd .filter (lambda x: x not in stopwords)</p><p>second_rdd. take (20)</p><p>second_rdd. cache ()</p><p>O Quadro 1 apresenta alguns dos métodos presentes nas operações de transformação e ação.</p><p>QUADRO 1 – LISTA DE ALGUMAS OPERAÇÕES DE TRANSFORMAÇÃO E AÇÃO</p><p>FONTE: <https://bit.ly/3ljU17c>. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Você pode consultar uma lista completa de métodos das operações de</p><p>transformação e ação, assim como conhecer o significado de cada um por meio</p><p>deste endereço: < https://bit.ly/2Yk6ejj >. Em se tratando de persistência dessas</p><p>operações, é possível guardar essas informações não somente na memória,</p><p>como também no disco. Consulte mais informações a respeito no endereço</p><p>eletrônico sugerido.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fjaceklaskowski.gitbooks.io%2Fmastering-apache-spark%2Fspark-rdd-transformations.html&sa=D&sntz=1&usg=AOvVaw2dzx4B6M-k_CcLCRHfg8cW</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Frdd-programming-guide.html%23transformations&sa=D&sntz=1&usg=AOvVaw1o76PB7WF6TuNlZZtNu_Qz</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2Yk6ejj&sa=D&sntz=1&usg=AOvVaw0ehJl_6u40eEdZqs-Ss7So</p><p>Por outro lado, a ação visa aplicar uma operação que executa uma determinada transformação. Por exemplo,</p><p>podemos aplicar um filtro (método filter ) em um determinado termo presente em um arquivo de texto, o que</p><p>gerará um novo RDD. Em seguida, aplicamos um método para executar uma operação de ação para contar o</p><p>número de elementos presentes (método count ) neste RDD, ou seja, a ação retorna o resultado (valor)</p><p>propriamente dito. Este fluxo pode ser representado genericamente como mostra a Figura 9.</p><p>FIGURA 9 – AO APLICAR UMA OPERAÇÃO DE TRANSFORMAÇÃO (MAP, FILTER...)</p><p>CRIAMOS UM NOVO RDD QUE APONTA PARA O RDD DE ORIGEM. UM RESULTADO É</p><p>RETORNADO QUANDO APLICAMOS UMA AÇÃO (SAVEASTEXTFILE, REDUCE...)</p><p>FONTE:</p><p>< http://vishnuviswanath.com</p><p>/spark_rdd.html >. Acesso em: 28</p><p>nov. 2018.</p><p>Para obter ganho de eficiência em suas aplicações Spark, pode ser que, em algumas atividades rotineiras em</p><p>uma operação de ação, seja possível “cachear” (caching) essas informações, ou seja, guardar o resultado</p><p>produzido por ela dentro da memória. Dessa maneira, quando precisarmos do resultado dessa ação, todo o</p><p>processo de cálculo não precisará ser executado novamente.</p><p>Conecte-se</p><p>O Apache Spark possui uma arquitetura robusta e transparente para o</p><p>usuário. Se você desejar se aprofundar para conhecer mais a respeito dessa</p><p>arquitetura, sugerimos que pesquise mais através deste endereço:</p><p>< https://www.edureka.co/blog/spark-architecture/ >.</p><p>Disponível aqui</p><p>3.3 CASES E APLICAÇÕES DO APACHE SPARK</p><p>As vantagens trazidas pelo framework, mostradas na seção anterior, incentivaram grandes empresas a</p><p>fazerem uso do Apache Spark. A seguir, você conhecerá alguns cases, conforme apontado por Amster (2016):</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fvishnuviswanath.com%2Fspark_rdd.html&sa=D&sntz=1&usg=AOvVaw2a7nXyvenGcEU3EtMb3LqG</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.edureka.co%2Fblog%2Fspark-architecture%2F&sa=D&sntz=1&usg=AOvVaw0oS7j3RDih5HslyhFf9L1G</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.edureka.co%2Fblog%2Fspark-architecture%2F&sa=D&sntz=1&usg=AOvVaw0oS7j3RDih5HslyhFf9L1G</p><p>Netflix : a empresa utiliza o Spark Streaming para obter insights de forma imediata (em tempo real) sobre</p><p>como os usuários estão engajados em seu site. Dessa forma, a empresa tem a possibilidade de fornecer</p><p>recomendações de filmes e/ou séries em tempo real.</p><p>Uber : o Uber também é uma outra grande empresa que utiliza o Spark Streaming para processar terabytes</p><p>de eventos de seus usuários móveis combinando com o Apache Kafka e o HDFS para construir um pipeline</p><p>de ETL de fluxo contínuo. Dessa forma, o Uber pode converter dados brutos não estruturados dos eventos</p><p>em dados estruturados logo após a etapa de extração e assim realizar análises mais complexas.</p><p>Pinterest : por meio de um pipeline de ETL, o Pinterest pode aproveitar os benefícios do Spark Streaming</p><p>para obter informações de seus usuários em tempo real ao identificar como os usuários estão interagindo</p><p>com os Pins. A partir desses dados, a empresa pode fazer recomendações mais relevantes à medida que as</p><p>pessoas vão navegando no site. Os Pins relacionados são úteis para que elas possam selecionar suas reais</p><p>preferências no que tange a receitas, produtos ou planejamento de viagens para vários destinos.</p><p>Conviva : com aproximadamente 4 milhões de feeds de vídeo por mês (perdendo apenas para o Youtube), a</p><p>Conviva utiliza o Spark para reduzir a rotatividade de seus clientes, otimizando fluxos e gerenciando o</p><p>tráfego de vídeos em tempo real e, consequentemente, mantém uma experiência de visualização desejável</p><p>e de alta qualidade.</p><p>Além desses casos de uso apresentados, o Apache Spark tem dado suporte a diversas aplicações. A página</p><p>oficial do Spark apresenta algumas destas:</p><p>Apache Mahout : originalmente construído sob o Hadoop MapReduce, o Mahout foi readaptado e</p><p>atualmente utiliza do Spark como backend para obter ganho de processamento.</p><p>Apache MRQL : utiliza o Spark para análise de dados distribuídos em larga escala, também para</p><p>processamento e otimização de consultas.</p><p>Spindle : mecanismo de consulta de análise web que faz uso do Spark para otimização.</p><p>Thunderain : um framework que combina processamento streaming e batch (dados históricos) que pode</p><p>ser pensado como uma arquitetura lambda.</p><p>Oryx : uma arquitetura lambda que mescla o Apache Spark e Apache Kafka para aprendizado de máquina</p><p>em tempo real.</p><p>ADAM : um framework capaz de carregar, transformar e analisar dados genômicos (subárea da bioquímica</p><p>que estuda o genoma de um organismo) utilizando o Spark.</p><p>Os casos de uso e aplicações apresentadas representam apenas uma pequena parcela de uma infinidade de</p><p>aplicabilidades do Apache Spark. Tudo isso é explicado devido à grande capacidade de integração e facilidade</p><p>de uso deste framework. Além disso, a abstração fornecida pelos seus componentes permite que executemos</p><p>aplicações de forma transparente, tendo uma sensação de que estamos implementando ou codificando em</p><p>uma única máquina, quando, na verdade, os dados estão sendo gerenciados, armazenados e distribuídos em</p><p>A inteligência já faz</p><p>parte dos dispositivos, como o celular, que há alguns anos, possuía recursos limitados a SMS e voz (ligação) e,</p><p>posteriormente, conexão com a internet. Atualmente, existem aplicativos inteligentes que monitoram o nosso</p><p>dia a dia e, progressivamente, conhecem mais nossos hábitos. O GPS ativo permite que aplicativos conheçam</p><p>nossa rotina diária, tais como perceber se praticamos exercícios físicos, se dormimos bem ou não nas últimas</p><p>noites, com qual contato da nossa agenda nos comunicamos mais e assim por diante. Note que tudo isso já</p><p>faz parte da nossa vida diária e estamos mergulhados nesse mar de tecnologias, ou seja, a onipresença desses</p><p>meios é algo que retrata o atual momento em que vivemos.</p><p>Não é difícil imaginar que grande parte dessa onda de dados afetará, além de outros segmentos, o esporte, a</p><p>saúde, a nossa casa e até o relacionamento com as pessoas e a nossa família. Marr (2015) destaca algumas</p><p>dessas mudanças que tornarão o mundo mais “inteligente”, no qual sistemas de GPS e microssensores terão</p><p>grande utilidade. A seguir, apresenta-se alguns segmentos que estarão (ou já estão) diante desta revolução:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fweb.archive.org%2F&sa=D&sntz=1&usg=AOvVaw2OiDtRU0BLjos-ZCoEYe2K</p><p>https://www.google.com/url?q=https%3A%2F%2Fweb.archive.org%2F&sa=D&sntz=1&usg=AOvVaw2OiDtRU0BLjos-ZCoEYe2K</p><p>Saúde : a capacidade de monitorar nossa própria saúde permitirá que a medicina atue de forma preventiva</p><p>com base nos dados disponíveis. Apps de dispositivos móveis, como também pulseiras e relógios que se</p><p>conectam à Web, podem ser considerados mecanismos de coleta de dados. É possível que, por exemplo,</p><p>esses dados fiquem armazenados em nuvem e sejam compartilhados com seu plano de saúde ou seu</p><p>médico em tempo real. Microssensores também podem ser úteis para monitorar e/ou alertar pacientes que</p><p>estão se medicando adequadamente no horário correto e até avisar membros da sua família para lembrá-lo</p><p>sobre a medicação. Além disso, scanners com alta tecnologia estão sendo utilizados para detectar lesões</p><p>cerebrais e/ou tumores e assim aumentar a precisão do diagnóstico.</p><p>Casa : quando falamos de inteligência em lares é importante destacar que isso está diretamente relacionado</p><p>à autonomia de sistemas de aquecimento, geladeiras e até objetos se tornarem capazes de “entender” o</p><p>ambiente que os cerca e tomar ações para lidar com as tarefas rotineiras. Isso significa chegarmos em casa</p><p>com nosso carro equipado com câmeras e sensores “inteligentes” capazes de detectar obstáculos, medir</p><p>temperatura ambiente, pressão barométrica, entre outros atributos, que se comunicarão com a garagem</p><p>da nossa casa por intermédio de um portão equipado com sensores, detectando se estamos próximos de</p><p>casa e, assim, com base na distância e velocidade calculará o exato momento para sua abertura. Ao mesmo</p><p>tempo, nosso chuveiro elétrico se ajustará, de acordo com a temperatura ambiente, a um banho quente,</p><p>frio ou moderado. Nossa geladeira, guiada por GPS, saberá exatamente onde estamos, medirá a</p><p>temperatura e ao acusar alta temperatura externa aumentará sua potência e diminuirá a temperatura</p><p>interna para que, assim que chegarmos, nos ofereça uma água bem gelada. A TV da nossa casa, por</p><p>intermédio do uso de reconhecimento facial, nos dará segurança como pais e garantirá que crianças não</p><p>assistam conteúdo inapropriado de acordo com sua faixa etária. Tudo isto retrata uma realidade que, quase</p><p>todo objeto que temos, se conectará à internet e ganhará “vida”, tornando-se ainda mais útil para nossa</p><p>rotina. Todo esse ambiente de comunicação produzirá mais dados. É algo real e que, progressivamente,</p><p>será inserido em nossos ambientes.</p><p>Amor mais inteligente : o relacionamento com as pessoas vem se modificando ao longo dos anos. As</p><p>pessoas estão se relacionando bastante pela internet. Possuímos mais amigos virtuais do que reais e</p><p>parece que isso será uma tendência nos próximos anos, pelo menos no que diz respeito a relacionamentos</p><p>amorosos. Sites e aplicativos de encontros combinam pessoas considerando como base variáveis referentes</p><p>aos comportamentos, às crenças, aos valores, aos traços de personalidade e às habilidades sociais.</p><p>Normalmente, esses dados são coletados no momento do cadastro por meio de um questionário. Os</p><p>matches (ou correspondências) são traçados no momento em que o modelo classifica um usuário como</p><p>match potencial em relação a outro usuário. Outro critério que pode ser utilizado é comparar os matches</p><p>em potencial com base em outros perfis similares, definindo scores em função de probabilidades que</p><p>atribuem um valor para qualificar um perfil como match ou não match.</p><p>O seguimento de relacionamento foi um dos mais afetados com a difusão da</p><p>tecnologia. Alguns aplicativos ganham destaque neste ramo, com a promessa de</p><p>fornecer um conjunto de pessoas que se aproximam do nosso perfil. Faça uma</p><p>pesquisa e cite um case de sucesso de aplicativos voltados para este fim. Observe</p><p>seu contexto histórico, suas estratégias e os resultados que alcançou</p><p>considerando parâmetros, como número de usuários ativos, lucratividade e</p><p>assim por diante.</p><p>Em muitas empresas, o Big Data já vem sendo implementado. As empresas de vendas e varejo estão</p><p>interessadas em coletar informações sobre seus clientes para compreender seus padrões de compra e assim</p><p>conhecê-los mais a fundo. Empresas de fabricação buscam reduzir custos de fabricação e maximizar sua</p><p>produção. Alguns exemplos apresentados por Marr (2015) mostram que, em 2013, uma gigante do ramo</p><p>farmacêutico utilizou análise de dados para reduzir drasticamente a quantidade de desperdício causada pela</p><p>variação das condições no ambiente de fabricação. Os dados obtidos permitiram que a empresa descobrisse</p><p>condições ótimas durante o processo de fermentação. Outro exemplo são as empresas do ramo automotivo,</p><p>que também têm explorado soluções de Big Data, especialmente em processos de fabricação para avaliar a</p><p>eficiência de cada máquina. Já na agricultura, a análise de dados tem auxiliado a indústria a enfrentar os</p><p>desafios frente à crescente produção de alimentos no mundo, pois as máquinas que operam nos campos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>estão equipadas com sensores que captam diversas informações que são utilizadas para estabelecer</p><p>condições ideais para suas culturas. Em 2014, a Cisco anunciou um investimento de 150 milhões de dólares</p><p>para financiar startups que trabalhem para melhorar a integração com o mundo físico, com o intuito de</p><p>controlar o estoque, mantendo elevada eficiência e reduzindo desperdícios.</p><p>Os exemplos citados reforçam apenas uma pequena parcela do total de empresas com real interesse em</p><p>financiar ou investir na sua capacidade de explorar dados ou as que têm proposto iniciativas em análise de</p><p>dados. Contudo, existem muitos outros cases espalhados pela internet que corroboram com o avanço da</p><p>análise dos dados, com a tendência que as empresas estão em busca de insights valiosos que possam ser</p><p>utilizados para melhorar sua cadeia de produção, conhecer melhor seus clientes e assim tornarem-se mais</p><p>competitivas.</p><p>2.1 ANÁLISE DE DADOS: POTENCIAIS E LIMITAÇÕES</p><p>Os dados que antes eram apenas armazenados em planilhas eletrônicas ou em Banco de Dados Relacionais</p><p>para fins de consulta e/ou conformidade, hoje estão prontos para uso com as mais diversas finalidades. Essa</p><p>realidade permitiu que áreas da ciência começassem a ganhar destaque, tais como a Computação, a</p><p>Estatística, a Matemática, o Processamento de Linguagem Natural e muitas outras que abrangem o</p><p>conhecimento. Além disso, novas tecnologias emergiram a partir dessa nova realidade, em que muitas</p><p>empresas investem recursos em soluções de Análise de Dados (Data Analytics) cada vez mais robustas,</p><p>diferentes nós do cluster. Não devemos considerar o Spark como uma solução oposta ou concorrente ao</p><p>Hadoop. Ao contrário, o Spark surge como uma alternativa eficiente para processamento de grandes volumes</p><p>de dados e, pode ser perfeitamente integrado ao Hadoop. Por exemplo, para dados massivos que superam a</p><p>capacidade de armazenamento em memória, você pode integrar o HDFS a sua arquitetura de Big Data e</p><p>usufruir do processamento veloz do Spark. Tudo dependerá das suas reais necessidades.</p><p>4 INTERNET DAS COISAS: VISÃO GERAL, CONCEITOS E APLICAÇÕES</p><p>Você já ouviu falar de Internet das Coisas? Certamente que sim. No Capítulo 1 você viu como a Internet das</p><p>Coisas afetará o mundo dos negócios, mas em que sentido? Como isso será de fato realizado? Nesta seção</p><p>abordaremos com mais profundidade essas questões. Esperamos que faça um bom proveito. Bons estudos.</p><p>4.1 INTERNET DAS COISAS: CONCEITOS E VISÃO GERAL</p><p>Quando falamos de Internet sob uma perspectiva de geração de dados, associamos isso a computadores, ou</p><p>melhor, pessoas produzindo e consumindo conteúdo a todo momento. Seja utilizando um dispositivo móvel,</p><p>como celulares ou tablets, seja por uma máquina pessoal (PCs ou notebooks). Na era da “Internet dos</p><p>Computadores”, os principais atores para propagação dos dados são os seres humanos . Por outro lado, na</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Internet das Coisas os principais atores são coisas que ora consomem, ora produzem dados. Isso permite que</p><p>os computadores sejam capazes de obter informações e aprender a resolver problemas do mundo real a</p><p>partir dos dados obtidos pelas coisas e assim eles serão capazes de sentir e reagir ao mundo real servindo de</p><p>apoio para decisões humanas (QIN; SHENG, 2017).</p><p>Uma outra definição interessante de Internet das Coisas é apontada por Datameer (2015): uma rede física de</p><p>objetos que está conectada e que pode ser acessada por intermédio da internet. Esses objetos conectados</p><p>contêm uma tecnologia embutida, tais como sensores, que permitem que objetos percebam e se</p><p>comuniquem. Esta capacidade é que mudará a maneira de como e onde as decisões são tomadas, quem as</p><p>tomará e quão rapidamente elas serão decididas. Algo de relevante pode ser extraído a partir dessa definição.</p><p>O termo objeto são as coisas que poderão ganhar “vida” ao perceber e se comunicar entre si dentro de um</p><p>ambiente. Podemos imaginar um lar doméstico onde a geladeira se comunica com um dispositivo móvel</p><p>alertando em tempo real sobre a ausência de algum produto. De fato, essa é uma tendência real. Ao longo</p><p>dessa comunicação, imagine a quantidade massiva de dados trafegando o tempo todo e gerando informação</p><p>com potencial relevância!</p><p>Em um cenário cada vez mais conectado, a tendência é que novos dispositivos passarão a gerar informações</p><p>que podem ser úteis, não somente em um ambiente doméstico, mas também em ambientes externos, como</p><p>nas próprias empresas. A Figura 10 evidencia o crescente número de dispositivos que serão conectados à</p><p>internet. Os dados apontam que até 2020 serão cerca de 50,1 bilhões de dispositivos gerando informação.</p><p>Para se ter uma ideia, em 2010 o número de dispositivos conectados era cerca de 10 vezes menor do que nos</p><p>dias atuais.</p><p>Conecte-se</p><p>Você pode conhecer alguns destes dispositivos navegando no menu deste site:</p><p>< http://www.iotonlinestore.com/Home-Automation/9 >. Além disso, a revista</p><p>Época apontou algumas iniciativas de Startup oferecendo soluções em Internet</p><p>das Coisas. Vale a pena conferir: < https://glo.bo/2Ec632G >.</p><p>FIGURA 10 – EVOLUÇÃO DO NÚMERO DE DISPOSITIVOS CONECTADOS À INTERNET</p><p>Imagine quão interessante seria uma rede de supermercados saber informações de estoque de sua geladeira.</p><p>A empresa, com base nessas informações, poderia coletar e analisar os dados aplicando algoritmos e assim</p><p>tomar decisões mais assertivas ao compreender a real necessidade do cliente. Ainda, nesse caso, a empresa</p><p>também poderia propor o lançamento de novos produtos ou promoções e enviar alertas ao consumidor.</p><p>Do ponto de vista interno, uma empresa de fabricação poderia monitorar seus equipamentos com a</p><p>implantação de sensores na tentativa de prever e se antecipar a falhas, aplicando algoritmos de aprendizagem</p><p>de máquina e tomando decisões, como solicitar um serviço de manutenção no momento adequado - o que</p><p>economizaria custos com reparos mais complexos, ou, dependendo do problema, a substituição do</p><p>equipamento. De fato, todo o pátio da empresa poderá ser monitorado, analisado e seus processos de</p><p>produção otimizados. Alguns dos sensores que podem ser implantados seriam: sensores de iluminação,</p><p>proximidade, temperatura, pressão, umidade, acelerômetro e assim por diante.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.iotonlinestore.com%2FHome-Automation%2F9&sa=D&sntz=1&usg=AOvVaw0PvOOFzlhisUNAZTJrC3_2</p><p>https://www.google.com/url?q=https%3A%2F%2Fepocanegocios.globo.com%2Fcolunas%2FTecneira%2Fnoticia%2F2018%2F02%2F10-iniciativas-brasileiras-de-internet-das-coisas-para-ficar-de-olho.html&sa=D&sntz=1&usg=AOvVaw1jGrXBptHo5fPtBvxghrEG</p><p>Conceituando</p><p>No entanto, qual o limite da nossa privacidade quando esses dispositivos</p><p>começarem a ganhar de vez espaço em nossos lares? Nossa privacidade pode</p><p>estar em risco se considerarmos a possibilidade de sermos “vigiados” por</p><p>entidades/pessoas externas. Sem dúvida, essa é uma discussão que realmente</p><p>está sendo levantada nos meios jornalísticos. Sugerimos que você tire um tempo</p><p>para ler a respeito nesta matéria da Época, cujo tema é: Internet das Coisas</p><p>impõe desafios de segurança, privacidade e conectividade: < https://glo.bo</p><p>/3l67Sik >. Certamente você não encontrará dificuldades em encontrar outros</p><p>materiais a respeito, haja vista que o tema faz parte de uma ampla discussão</p><p>quando o assunto envolve a privacidade dos dados.</p><p>Conecte-se</p><p>A Lei Geral de Proteção de Dados Pessoais foi sancionada no Brasil em 2018 e</p><p>trouxe uma série de reportagens a respeito. Sem dúvida, isso representa um</p><p>passo significativo que resguarda as informações dos cidadãos brasileiros.</p><p>Observe algumas matérias:</p><p>Folha de São Paulo: < https://bit.ly/3aHSUdm >.</p><p>Senado Notícias: < https://bit.ly/3iZW1jN >.</p><p>G1 Notícias: < https://glo.bo/3aHMuLv >.</p><p>Para consultar a Lei Geral de Proteção de Dados na íntegra, acesse o link:</p><p>< https://bit.ly/3hipdCn >.</p><p>Disponível aqui</p><p>Toda essa difusão de novos dispositivos que estão sendo conectados à internet gerando informação cria um</p><p>ambiente propício para análise de Big Data. Perceba que uma crescente quantidade de fontes, gerando</p><p>volumes de dados em um curto intervalo de tempo, impõe desafios cada vez maiores e um ambiente propício</p><p>para o surgimento de novas tecnologias de Big Data. Estas, por sua vez, precisam dar conta do</p><p>armazenamento e processamento dessas informações e entregar resultados para os negócios considerando</p><p>diferentes níveis de granularidade, conforme as necessidades.</p><p>4.2 INTERNET DAS COISAS: SOLUÇÕES E APLICAÇÕES</p><p>A Internet das Coisas é constituída por um conjunto de objetos que estão interligados gerando massivamente</p><p>informação. Contudo, é necessário que exista algum engine (mecanismo ou software que ofereça abstração)</p><p>responsável por gerenciar toda essa gama de dispositivos, oferecendo segurança, escalabilidade, capacidade</p><p>de processamento, entre outros adjetivos. Diante disso, existem algumas soluções no mercado que podem ser</p><p>úteis para quem planeja analisar as informações desses dispositivos.</p><p>O Bridgera é uma plataforma robusta que se baseia em tecnologias de Big Data, responsável por gerenciar a</p><p>conexão entre os dispositivos e aplicações de Internet das Coisas. O Bridgera tem como característica receber</p><p>e enviar dados, assim como armazenar grandes volumes de dados e processá-los em tempo real. Essa</p><p>plataforma</p><p>utiliza como background tecnologias, como Apache NiFi, Apache Kafka e Apache Storm para ler e</p><p>processar os dados que são ingeridos na plataforma e, dessa forma, consegue usufruir de todo o processo de</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fepoca.globo.com%2Ftecnologia%2Fexperiencias-digitais%2Fnoticia%2F2017%2F10%2Fo-risco-da-internet-das-coisas.html&sa=D&sntz=1&usg=AOvVaw1jvXmyZNHlbv4AV2owpue7</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww1.folha.uol.com.br%2Fmercado%2F2018%2F08%2Fsaiba-o-que-muda-com-a-lei-geral-de-protecao-de-dados-pessoais.shtml&sa=D&sntz=1&usg=AOvVaw0TNhmoffeQ0oOsU7JrJezl</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww12.senado.leg.br%2Fnoticias%2Fmaterias%2F2018%2F08%2F15%2Fsancionada-com-vetos-lei-geral-de-protecao-de-dados-pessoais&sa=D&sntz=1&usg=AOvVaw3xDlDoxT7u0qMndF3EsDto</p><p>https://www.google.com/url?q=https%3A%2F%2Fg1.globo.com%2Feconomia%2Ftecnologia%2Fblog%2Faltieres-rohr%2Fpost%2F2018%2F08%2F16%2Flei-de-protecao-de-dados-deve-impor-mudanca-cultural-nas-empresas-brasileiras.ghtml&sa=D&sntz=1&usg=AOvVaw2uRaFAXx_AQMrYFpFHvwIv</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.planalto.gov.br%2Fccivil_03%2F_Ato2015-2018%2F2018%2FLei%2FL13709.htm&sa=D&sntz=1&usg=AOvVaw0nGkcGi7fBW5NHMXMO323J</p><p>https://www.google.com/url?q=https%3A%2F%2Fapigame.unicesumar.edu.br%2Fqrcode%2F6628&sa=D&sntz=1&usg=AOvVaw38OddJj0_Y8CgdBxWv1zWi</p><p>tolerância a falhas e processamento distribuído por essas ferramentas de Big Data. O Bridgera fornece</p><p>soluções flexíveis para trabalhar com grandes ou pequenos conjuntos de dados. Em circunstâncias nas quais</p><p>você precise de grande capacidade de processamento, a plataforma fornece a flexibilidade necessária. Por</p><p>exemplo, em situações nas quais a demanda decrescer, os recursos alocados para elevar o processamento</p><p>são desativados (PASCUZZI, 2017).</p><p>Conecte-se</p><p>Você pode ver um breve vídeo de demonstração da plataforma Bridgera a partir</p><p>deste endereço: < https://bit.ly/2E4GErP >.</p><p>Disponível aqui</p><p>Outra solução que pode ser adotada em ambientes IoT é utilizar a nuvem da AWS. De acordo com a AWS, a</p><p>plataforma garante a possibilidade de gerenciar bilhões de dispositivos e executar análises e aplicar algoritmos</p><p>de Machine Learning de forma rápida, fácil e segura. Em seu portfólio, a AWS IoT oferece duas soluções: uma</p><p>voltada para o ramo industrial (IIoT) - com monitoramento e controle de operações e outra para ambientes</p><p>residenciais - com interconectividade e segurança. Você também pode integrar aos outros serviços da AWS</p><p>para criar aplicações completas para Internet das Coisas. Os algoritmos de aprendizagem ajudam a realizar</p><p>predições nos dispositivos e, assim, reagir antecipadamente a situações. Observe o esquema de</p><p>funcionamento da AWS IoT na Figura 11. Na primeira etapa existe uma coleção de dispositivos, tais como</p><p>sensores, lâmpadas, robôs etc., que estão conectados à nuvem e trocando mensagens. Os dados são</p><p>armazenados para que você aplique análises e algoritmos de Machine Learning para extrair os devidos</p><p>insights.</p><p>FIGURA 11 – AWS IOT: ESQUEMATIZAÇÃO DO FUNCIONAMENTO DA PLATAFORMA</p><p>FONTE: < https://aws.amazon.com/pt/iot/ >. Acesso em: 30 nov. 2018.</p><p>Em termos de aplicações, a Internet das Coisas pode ser utilizada em diversos domínios, inclusive: cidades</p><p>inteligentes, agricultura, saúde e bem-estar, varejo inteligente e logística, conforme demonstrado por</p><p>Simmhan e Perera (2016) e que será delineado a seguir:</p><p>Cidades inteligentes : há um grande interesse por parte de países em desenvolvimento e populosos de</p><p>melhorar a qualidade e a sustentabilidade urbana. As cidades inteligentes implementam a Internet das</p><p>Coisas através de um conjunto de dispositivos implantados nos mais diversos meios que as compõem,</p><p>como transporte, energia e mobilidade. Por exemplo, o transporte inteligente pode monitorar as condições</p><p>de tráfego em tempo real e tomar melhores decisões para otimizar o fluxo do trânsito. A administração do</p><p>transporte público também poderá otimizar o cronograma de ônibus e trens de acordo com a demanda dos</p><p>usuários.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=QTG_Wfcp6UQ</p><p>https://www.youtube.com/watch?v=QTG_Wfcp6UQ</p><p>https://www.google.com/url?q=https%3A%2F%2Faws.amazon.com%2Fpt%2Fiot%2F&sa=D&sntz=1&usg=AOvVaw1Q6okDZrnUSLjkW9ixruJl</p><p>Agricultura inteligente : a implantação de sensores em máquinas na agricultura permite rastrear</p><p>condições climáticas (umidade, temperatura, luz solar) que afetam diretamente o solo e a produção. O</p><p>monitoramento também pode ser realizado com dados de imagens de satélite, bem como modelos de</p><p>previsão climática e cronograma de fornecimento de energia, a fim de planejar de forma inteligente a</p><p>irrigação das culturas agrícolas.</p><p>Saúde e bem - estar : naturalmente, os esportes têm sido um dos casos de uso de aplicação de Internet das</p><p>Coisas devido à rápida imersão de tecnologia. Sensores implantados nos jogadores permitem a extração de</p><p>dados, como localização, velocidade e aceleração a partir de diferentes coordenadas (x, y, z). O fato de</p><p>extrair dados detalhados de um jogador pode trazer benefícios reais, como uma maior segurança quanto a</p><p>lesões sofridas durante o jogo ou questões relativas a seu desempenho. Além disso, existem equipamentos</p><p>para monitoramento de saúde e estilo de vida, como relógios inteligentes. Estes podem rastrear o</p><p>comportamento das pessoas e as métricas básicas de saúde. Em uma eventual discrepância, as pessoas</p><p>recebem alertas. Sensores também podem auxiliar na medicação dos pacientes, observando doses</p><p>compatíveis e apropriadas a cada um.</p><p>Varejo inteligente e logística : no varejo, a necessidade de rastrear a cadeia de suprimentos é importante -</p><p>estoques, remessas e comportamento dos clientes nas lojas. Sensores RFID podem ser úteis, pois</p><p>conseguem rastrear automaticamente os itens que entram e saem da loja, bem como sua localização. Na</p><p>logística, os parâmetros velocidade e precisão são vitais. Por isso, o rastreamento inteligente de prateleiras</p><p>e corredores pode ajudar a mapear o comportamento dos consumidores na tentativa de encontrar algum</p><p>padrão.</p><p>5 TENDÊNCIAS EM BIG DATA ANALYTICS</p><p>Para finalizar este capítulo, reservamos uma seção para discutir algumas tendências para o Big Data nos</p><p>próximos anos. É importante que você tenha em mente essas tendências e esteja preparado para lidar com</p><p>novos cenários. A construção desta seção foi inspirada nas tendências de Big Data apontadas por Carillo</p><p>(2018):</p><p>Crescimento do uso de Internet das Coisas : na seção anterior já havíamos comentado sobre a Internet</p><p>das Coisas e as possibilidades de aplicação. De fato, parece que novos dispositivos inteligentes serão</p><p>incorporados em nosso dia a dia. Os dispositivos móveis, como celulares e tablets, poderão controlar</p><p>diversos equipamentos e objetos em um ambiente doméstico ou no nosso local de trabalho. Com base</p><p>nisso, muitas empresas tenderão a lançar novos produtos e soluções voltados para atender à demanda “do</p><p>mundo das coisas” em termos de infraestrutura (para atender à demanda de comunicação entre os</p><p>dispositivos), hardware (dispositivos) e soluções comerciais (softwares). Apenas na saúde, diversas Startups</p><p>têm surgido para realizar monitoramento em tempo real de pacientes para prevenção de doenças,</p><p>conforme mostra a Figura 12.</p><p>FIGURA 12 – CATEGORIAS DE STARTUPS VOLTADAS PARA A SAÚDE</p><p>Inteligência artificial mais acessível : uma tendência é a incorporação da inteligência artificial não</p><p>somente nos grandes, como também nos pequenos negócios. Tarefas operacionais podem ser executadas</p><p>e automatizadas por máquinas enquanto humanos tenderão a focar mais nas estratégias do negócio. Essa</p><p>acessibilidade se dará de forma transparente para o usuário. No Capítulo 1, você viu um exemplo de que os</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>nossos smartphones estão dotados de apps inteligentes que monitoram os nossos passos (como o próprio</p><p>GPS), o que pode parecer uma tarefa simples e que já faz parte do nosso cotidiano. Entretanto, a</p><p>incorporação de um mecanismo de IA poderá aprender a nossa rotina e fornecer sugestões úteis de rotas.</p><p>Do mesmo modo, em pequenos negócios, apps inteligentes podem aprender a rotina ou o fluxo de</p><p>trabalho da empresa e assim fornecer apoio aos processos da empresa.</p><p>O site da revista EXAME apresentou alguns exemplos de apps que podem ser</p><p>úteis para pequenos negócios: O baixo custo (ou custo zero) desses apps é algo</p><p>que pode ser atrativo para pequenos negócios que possuem um orçamento mais</p><p>enxuto.</p><p>Análise preditiva mais presente : esse tópico não poderia ficar de fora. Como vimos no primeiro capítulo</p><p>deste livro, as empresas têm encontrado real valor em análises preditivas e de fato isso será uma tendência</p><p>acompanhada de uma perspectiva crescente do uso de IA nos negócios. Na realidade, a presença da análise</p><p>preditiva também se dará de forma na qual usuários não especialistas terão a sua disposição métodos e</p><p>processos de Machine Learning e poderão interagir com estes sem ter um conhecimento técnico</p><p>aprofundado de implementação, o que, portanto, reduz a complexidade de utilização. Isso tem a ver com</p><p>um conceito chamado de AutoML. Caso você queira conhecer mais, sugerimos que pesquise no link a</p><p>seguir.</p><p>Conecte-se</p><p>Você pode encontrar mais informações sobre AutoML diretamente em sua</p><p>página oficial: < https://www.automl.org/automl/ >. Além do conceito, são</p><p>apresentados alguns exemplos e bibliotecas que implementam o AutoML, assim</p><p>como outras informações pertinentes.</p><p>Disponível aqui</p><p>Migração de Dark Data para a nuvem : a nuvem poderá ser útil para armazenar dados que não foram</p><p>explorados, mas que por questões de conformidade ou potencial de exploração permanecem em algumas</p><p>empresas. Esses Dark Data (“dados escuros”) estão armazenados em anotações ou apresentações e são</p><p>difíceis de explorar, mas que, se convertidos para um formato digital, podem ser úteis para futuras análises</p><p>nas empresas.</p><p>Caso você ainda n</p><p>Conecte-se</p><p>Caso você ainda não esteja familiarizado com o conceito de Dark Data, sugerimos</p><p>este link: < https://bit.ly/3aKZAYn >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.automl.org%2Fautoml%2F&sa=D&sntz=1&usg=AOvVaw38FHPv1VffWbGqlSNZ8KxE</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.automl.org%2Fautoml%2F&sa=D&sntz=1&usg=AOvVaw38FHPv1VffWbGqlSNZ8KxE</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2015%2F11%2Fimportance-dark-data-big-data-world.html&sa=D&sntz=1&usg=AOvVaw1qNni5-hg-WH48a5UhHp8h</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKZAYn%253E&sa=D&sntz=1&usg=AOvVaw33GBxfDqxBD5hFOlm1Iiud</p><p>Disponível aqui</p><p>Aumento da importância do CDO (Chief Data Officer) : com uma cultura onde as decisões são cada vez</p><p>mais orientadas a dados, o CDO terá maiores responsabilidades estratégicas nas empresas, assumindo</p><p>papel central e crítico no apoio à tomada de decisões do negócio. A Figura 13 apresenta uma tendência no</p><p>que se refere ao papel de um CDO nas empresas. Perceba que o CDO terá como maior parcela de</p><p>responsabilidade (algo em torno de 90%) concentrar seus esforços em gerenciar os dados como um ativo</p><p>na empresa, conduzir inovação e promover uma cultura orientada a dados.</p><p>FIGURA 13 – PERSPECTIVAS DE RESPONSABILIDADE DE UM CDO (CHIEF DATA OFFICER)</p><p>FONTE:</p><p>< https://www.coriniumintelligenc</p><p>e.com >. Acesso em: 2 dez. 2018.</p><p>Computação Quântica : com o crescimento das tecnologias e a incorporação de novos dispositivos</p><p>impulsionando a Internet das Coisas, o volume de dados digital crescerá ainda mais nos próximos anos. Os</p><p>computadores atuais não têm a capacidade para armazenar e processar de forma eficiente esse volume de</p><p>dados. Os computadores quânticos podem agilizar sobremaneira o processo de análise e processament</p><p>Segurança cibernética mais inteligente e rigorosa : os escândalos do passado revelam uma grande</p><p>preocupação com a segurança dos dados dentro da empresa. A tendência é que com o advento da Internet</p><p>das Coisas e o aumento da complexidade da infraestrutura de rede, mais dados importantes possam ficar</p><p>suscetíveis a ataques. A guerra cibernética ou mesmo comercial entre as empresas pode motivar roubos a</p><p>dados. Assim, o Big Data pode ser útil para integrar uma estratégia para segurança cibernética ao utilizar,</p><p>por exemplo, dados históricos de logs de segurança para prever possíveis ataques, ou monitorar dados em</p><p>tempo real para identificar atividades suspeitas.</p><p>Soluções open-source em alta : as soluções open-source continuarão em alta nos próximos anos. Assim,</p><p>profissionais que dominam ferramentas voltadas para o Big Data, tendem a ser valorizados. Na verdade,</p><p>trabalhar com soluções open-source tem suas vantagens e desvantagens. Independente disso, existe um</p><p>controle maior quando você constrói sua própria arquitetura e utiliza software de código aberto. Além</p><p>disso, o que talvez seja mais atrativo para algumas empresas em apostar em soluções open-source é a</p><p>possibilidade de poupar recursos e o fato de que as ferramentas, especialmente voltadas para o Big Data,</p><p>têm se aprimorado cada vez mais, através de uma comunidade engajada que tem proposto melhorias</p><p>contínuas para otimizá-las.</p><p>Edge Computing (Computação de “borda”) : esse termo pode parecer novo para você. A ideia é processar</p><p>dados na borda da rede (próximo à fonte de dados) e filtrar a quantidade de dados que chega na nuvem e,</p><p>como consequência, agilizar o tempo de processamento do fluxo de dados, conforme ilustra a Figura 14. Os</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKZAYn%253E&sa=D&sntz=1&usg=AOvVaw33GBxfDqxBD5hFOlm1Iiud</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.coriniumintelligence.com%2Finsights%2Fthe-chief-data-officer-has-arrived.-can-they-now-lead-the-charge&sa=D&sntz=1&usg=AOvVaw22fdN70vV6JJcN2m8ambRJ</p><p>dados coletados a partir dos dispositivos são imediatamente analisados localmente, filtrados e,</p><p>posteriormente, são entregues à nuvem. Isso implica melhoria no tráfego da rede, melhorando o</p><p>processamento e filtrando dados que realmente sejam relevantes para a empresa.</p><p>FIGURA 14 – UM ESQUEMA QUE ILUSTRA A COMPUTAÇÃO DE BORDA</p><p>Conecte-se</p><p>Recomendamos que você se aprofunde mais em Edge Computing. Indicamos</p><p>esse link da GE: < https://invent.ge/32b9ONN >, que não apenas mostra a</p><p>definição como também compara com outros modelos (Fog e nuvem), exibe</p><p>alguns exemplos e cita um case da própria GE utilizando essa abordagem nos</p><p>seus negócios.</p><p>Chatbots mais inteligentes : parece que aqueles robôs de atendimento que observamos nos websites</p><p>representam uma tendência para o futuro. Os chatbots estão sendo cada vez mais aprimorados e se</p><p>tornando mais independentes. Quanto mais dados os bots possuírem, maior é a possibilidade de</p><p>compreenderem a comunicação humana e assim oferecerem serviços mais personalizados, que realmente</p><p>atendam às necessidades dos clientes.</p><p>Não há dúvida de que essas tendências apontadas por Carillo (2018) retratam em grande parte como as</p><p>tecnologias conduzirão as decisões de negócios no futuro. É importante que você, como profissional, esteja</p><p>preparado e possa acompanhar essas evoluções. A qualificação é essencial para que você esteja dentro de um</p><p>mercado cada vez mais tecnológico e competitivo. Explore todas as sugestões aqui mencionadas, pesquise e</p><p>pratique as atividades. Aliás, que tal praticar uma atividade antes do término desta seção?</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Finalmente chegamos ao final de mais um capítulo de muito aprendizado. Na primeira seção você aprendeu</p><p>sobre integração, especialmente com</p><p>foco em ETL e suas limitações quanto à abordagem tradicional de BI.</p><p>Conheceu o ELT e o Data Lake e como estes podem ser úteis para suas integrações em Big Data. Aliás, antes</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ge.com%2Fdigital%2Fblog%2Fwhat-edge-computing&sa=D&sntz=1&usg=AOvVaw0HSkg8CQt8fJJXk5lQaxIs</p><p>mesmo de terminar essa seção, mostramos a você possibilidades de integração via Hadoop e sugerimos</p><p>alguns links úteis para você praticar e ficar mais confortável com os conceitos que foram apresentados.</p><p>Em seguida, foi reservada uma seção exclusiva para o Apache Spark, em que você conheceu conceitos</p><p>importantes, bem como os componentes principais do Spark, cada um com suas particularidades, mas que</p><p>também existe a possibilidade de integrá-los em uma situação prática. Você deve ter se habituado aos códigos</p><p>que foram apresentados e experimentado alguns recursos que o Spark oferece em cada um desses</p><p>componentes. Ao final, também apresentamos alguns casos de uso e aplicações do Spark.</p><p>Ainda em tópicos avançados, você aprendeu conceitos e aplicações de Internet da Coisas e percebeu que</p><p>algumas empresas já propõem soluções de infraestrutura e software para quem deseja trabalhar com esse</p><p>tipo de ambiente. As aplicações foram importantes para que você compreendesse a proporção de alcance da</p><p>Internet das Coisas.</p><p>Por fim, finalizamos o capítulo mostrando a você as tendências de Big Data para que você se habitue, inclusive</p><p>a novas abordagens que estão surgindo, especialmente em cenários de Internet das Coisas. Recorde sempre</p><p>que a evolução dessas tecnologias impõe, muitas vezes, formas diferentes para lidar com o problema e, assim,</p><p>precisamos ser profissionais flexíveis ou adaptáveis para aprender ou sugerir novas abordagens. As nossas</p><p>decisões de análise impactam diretamente a eficácia da tomada de decisões. Ficamos felizes por você ter</p><p>chegado até aqui. Desejamos sucesso na sua carreira profissional.</p><p>Bons estudos e até a próxima!</p><p>Podcast Estudo de Caso</p><p>Para aprofundar nossos estudos escute este Podcast sobre um estudo de caso.</p><p>Disponível aqui</p><p>Encerramento da Disciplina</p><p>Foi muito bom contar com sua companhia durante nossa jornada do conhecimento. Agora, para</p><p>recordar o conteúdo desta disciplina, escute este podcast.</p><p>Disponível aqui</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fon.soundcloud.com%2FRkY6h&sa=D&sntz=1&usg=AOvVaw02zKbQ0u6nPGqfXDfJxERH</p><p>https://www.google.com/url?q=https%3A%2F%2Fon.soundcloud.com%2FX1pGE&sa=D&sntz=1&usg=AOvVaw2G9v0K_0TgNk-rsrqr0Lfd</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>AGORA É COM VOCÊ</p><p>Cite um exemplo de “casa inteligente” e explique como a análise de dados pode melhorar nossa rotina</p><p>automatizando tarefas cotidia</p><p>O processo de análise pode ser dividido em etapas. Cite e explique cada uma delas.</p><p>Descreva o conceito de Big Data.</p><p>Análise de dados tradicional e análise em Big Data são a mesma coisa? Justifique sua resposta.</p><p>Explique as principais diferenças entre processamento de dados estruturados, semiestruturados e não</p><p>estruturados.</p><p>Quais são os tipos de bancos de dados NoSQL existentes? Cite uma ferramenta indicada para cada um dos</p><p>tipos.</p><p>Qual a principal diferença entre o processamento em lote e o processamento em tempo real?</p><p>Uma arquitetura típica para projetos de Big Data é formada por quais componentes?</p><p>Descreva um Data Lake.</p><p>Dentre os métodos não supervisionados, a clusterização é uma das técnicas mais utilizadas. Descreva as</p><p>técnicas de clusterização e em quais circunstâncias podem ser aplicadas.</p><p>Disserte sobre o que representam os métodos baseados em densidade. É possível encontrar anomalias</p><p>(outliers) a partir destes métodos? Se sim, de que forma?</p><p>Descreva as principais diferenças entre as técnicas Single-Machine clustering e Multi-Machine clustering.</p><p>Apresente exemplos.</p><p>Em se tratando de análise de redes sociais, qual característica principal difere esse tipo de análise em</p><p>relação a análises baseadas em clustering? Explique.</p><p>Como as métricas de redes podem ser subdivididas? Cite e explique ao menos uma métrica de cada</p><p>categoria.</p><p>O que é Multiplexidade? Cite um exemplo.</p><p>Por que manipular dados não estruturados (textuais) constitui-se em uma tarefa mais árdua se</p><p>compararmos à análise de dados estruturados?</p><p>Qual a diferença entre as técnicas de Recuperação de Informação e Extração de Informação?</p><p>Por que o Digital Analytics é algo relevante para nossas análises?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/agora-�-com-voc�</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>No cenário digital, como você pode estabelecer uma diferença entre o que é métrica e um indicador? Cite</p><p>um exemplo.</p><p>Que tipo de limitações a arquitetura tradicional do BI tem enfrentado na era Big Data?</p><p>Aponte diferenças entre o processo de ETL vs ELT:</p><p>Cite algumas ferramentas/frameworks Hadoop que podem ser utilizados para suprir carências na ingestão</p><p>de dados no processo de ETL:</p><p>Em termos de processamento, o que credencia o Apache Spark a ser uma das soluções mais viáveis no Big</p><p>Data?</p><p>Quais são os principais componentes do Spark? Qual a função de cada um?</p><p>O que é RDD e que tipo de operações são suportadas?</p><p>O que é a Internet das Coisas? Cite um exemplo prático.</p><p>De que maneira as empresas podem se beneficiar da análise de Big Data em um cenário de Internet das</p><p>Coisas?</p><p>Cite alguns cenários de aplicações de Internet das Coisas. Tente pesquisar outros exemplos pela internet.</p><p>Observando algumas tendências de Big Data apontadas nessa seção, como você destacaria a presença mais</p><p>incisiva da aprendizagem de máquina como apoio à tomada de decisões no futuro?</p><p>Orientação de resposta</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/agora-�-com-voc�</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/refer%C3%AAncias</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>REFERÊNCIAS</p><p>AMSTER, A. Top Apache Spark Use Cases. 2016. Disponível em: <https://www. qubole.com/blog/apache-spark-use-cases/>.</p><p>Acesso em: 28 nov. 2018.</p><p>APACHE SPARK. O Apache Spark é um mecanismo de análise unificada para processamento de dados em grande escala. 2018.</p><p>Disponível em: <https://spark.apache.org/>. Acesso em: 26 nov. 2018.</p><p>AWS. AWS IoT. [s.d]. Disponível em: <https://aws.amazon.com/pt/iot/>. Acessoem: 30 nov. 2018.</p><p>CARILLO, D. 10 Big Data Trends You Should Know. 2018. Disponível em:<https://www.kdnuggets.com/2018/09/10-big-data-</p><p>trends.html>. Acesso em: 30 nov. 2018.</p><p>DATAMEER. Big Data Analytics and the Internet of Things. Internet of Things E-book, p. 1-10, 2015.</p><p>PASCUZZI, R. The IoT Platform behind Bridgera IoT. 2017. Disponível em:<https://bridgera.com/iot-platform-behind-bridgera-</p><p>iot/>. Acesso em: 30 nov. 2018.</p><p>QIN. Y., SHENG, Q. Z. Pattern Matching Over Linked Data Streams. Springer International Publishing, p. 409-427, 2017.</p><p>SIMMHAN, Y., PERERA, S. Big Data Analytics Platforms for Real-Time Applications in IoT. Big Data Analytics Springer, p. 115-135,</p><p>2016.</p><p>TAURION, C. Big Data e o Data Lake. 2014. Disponível em: <https://www.tiespecialistas.com.br/big-data-e-o-data-lake/>. Acesso</p><p>em: 21 nov. 2018.</p><p>ZAHARIA, M. et al. Spark: Cluster Computing with Working Sets. HotCloud’10</p><p>Proceedings of the 2nd USENIX conference on Hot</p><p>topics in cloud computing, p. 10, 2010.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/refer�ncias</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/editorial</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>EDITORIAL</p><p>DIREÇÃO UNICESUMAR</p><p>Reitor Wilson de Matos Silva</p><p>Vice-Reitor Wilson de Matos Silva Filho</p><p>Pró-Reitor de Administração Wilson de Matos Silva Filho</p><p>Pró-Reitor Executivo de EAD William Victor Kendrick de Matos Silva</p><p>Pró-Reitor de Ensino de EAD Janes Fidélis Tomelin</p><p>Presidente da Mantenedora Cláudio Ferdinandi</p><p>C397 CENTRO UNIVERSITÁRIO DE MARINGÁ . Núcleo de Educação a Distância.</p><p>BIG DATA ANALYTIC E A TOMADA DE DECISÕES</p><p>Fernando Gama da Mata; Anderson Emidio Macedo Golçalves</p><p>Maringá-Pr.: UniCesumar, 2021.</p><p>“Pós-graduação Universo - EaD”.</p><p>1. Big Data. 2. Analytic. 3. Interdisciplinaridade.</p><p>4. EaD. I. Título.</p><p>CDD - 22 ed. 372</p><p>CIP - NBR 12899 - AACR/2</p><p>Pró Reitoria de Ensino EAD Unicesumar</p><p>Head de pós-graduação Victor V. Biazon</p><p>Diretoria de Design Educacional</p><p>Equipe Recursos Educacionais Digitais</p><p>Fotos : Shutterstock</p><p>NEAD - Núcleo de Educação a Distância</p><p>Av. Guedner, 1610, Bloco 4 - Jardim Aclimação - Cep 87050-900</p><p>Maringá - Paraná | unicesumar.edu.br | 0800 600 6360</p><p>Retornar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/editorial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>sejam</p><p>proprietárias ou open-sources.</p><p>Com base nisso, a análise de dados tradicional tornou-se uma alternativa importante para as empresas</p><p>encontrarem valor em dados que ficavam apenas armazenados em seus sistemas legados. No entanto, para</p><p>que isso aconteça, é necessário seguir etapas importantes, como a aquisição e a exploração dos dados,</p><p>descrevê-los e minerá-los na tentativa de encontrar padrões que possam conduzir a um entendimento maior</p><p>do objeto de estudo que está sendo analisado.</p><p>Dessa forma, existe uma diversidade de conceitos, técnicas e algoritmos que permitirão extrair o que há de</p><p>melhor no conjunto de dados. Isso significa que nem sempre a tarefa é simples de ser realizada e, por isso, é</p><p>necessário que o profissional seja amplamente capacitado com um mix de conhecimentos, tais como:</p><p>habilidades para trabalhar com Bancos de Dados, especialmente tarefas de Data Manipulation Language</p><p>(DML), para realizar manipulação de dados com comandos de leitura, inserção, alteração e deleção, também</p><p>habilidades estatísticas para compreensão de como os dados estão distribuídos e relacionados entre si, testar</p><p>ou refutar hipóteses, anexar novos conjuntos de dados para enriquecer a análise, pelo menos alguma</p><p>linguagem de programação ou ferramenta para análise de dados e construção de visualizações para que o</p><p>dado seja transmitido de forma mais clara e objetiva aos tomadores de decisão.</p><p>Assim, é importante que você compreenda que a análise de dados é um processo constituído por pelo menos</p><p>quatro etapas bem definidas, conforme mostrado na Figura 2, e que serão delineadas a seguir. Apesar de</p><p>todas elas estarem dispostas em sequência, isso não significa necessariamente que todas devam ser</p><p>executadas. Isso porque tudo dependerá do escopo do projeto que você trabalhará. Por outro lado, estas</p><p>etapas são altamente dependentes, não sendo recomendado, portanto, pular etapas e/ou ignorar importantes</p><p>subprocessos que as compõem. Por exemplo, começar diretamente a etapa preditiva sem antes conhecer a</p><p>fundo os dados - como eles estão distribuídos ou se algum fenômeno causou discrepância em um intervalo de</p><p>tempo. Faria algum sentido desconsiderar isso? Se você não conhece seus dados, a máquina muito menos. Em</p><p>outras palavras, o mínimo que você fará é consultar e selecionar informações que realmente possam ser</p><p>relevantes para dar prosseguimento a sua análise. Desse modo, considere sempre explorar com profundidade</p><p>cada uma das etapas anteriores. O processo de análise de dados pode ser definido em quatro etapas: análise</p><p>descritiva, diagnóstica, preditiva e prescritiva.</p><p>FIGURA 2 – ANÁLISE DESCRITIVA, DIAGNÓSTICA, PREDITIVA E PRESCRITIVA</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>FONTE:</p><p>< http://arunkottolli.blogspot.com</p><p>>. Acesso em: 15 nov. 2018.</p><p>2.1.1 Etapa 1: análise descritiva</p><p>A análise descritiva diz respeito à primeira etapa do processo de análise de dados, é o momento em que</p><p>estamos interessados em saber “o que aconteceu” ou “o que está acontecendo”, ou seja, fatos do passado são</p><p>utilizados para que compreendamos o cenário e tomemos as decisões no presente. Dessa maneira, essa etapa</p><p>possui um alto grau de dependência humana para compreender e avaliar as variáveis em questão na tentativa</p><p>de encontrar inconsistências.</p><p>Normalmente, a utilização deste tipo de análise é feita em pequenos projetos ou alguma análise ad-hoc, um</p><p>tipo de análise que visa atender a um determinado propósito em um intervalo de tempo específico. Por</p><p>exemplo, o gestor da empresa está interessado em saber qual cliente mais comprou na loja nos últimos dois</p><p>meses. De posse dessa informação, ele poderá decidir os top-n em um grupo seleto de clientes, que passarão</p><p>a ter direito a descontos especiais em lançamentos de produtos na loja. Dependendo da modelagem do</p><p>sistema, implementando medidas estatísticas básicas, como a moda, seria o suficiente para solucionar esse</p><p>problema ou uma contagem simples de ocorrência de compras. Observe que situações que envolvam análises</p><p>descritivas, técnicas ou medidas básicas podem auxiliar gestores e o próprio analista de dados ou de negócios</p><p>a extrair insights úteis no dia a dia.</p><p>Assim, é comum que nessa etapa medidas como: médias, medianas, variância, desvio padrão, frequência</p><p>cumulativa, bem como visualizações que utilizam gráficos em barras ou em linhas, gráficos de dispersão ou de</p><p>pizza, não resumidos a estes, sejam comumente exploradas.</p><p>2.1.2 Etapa 2: análise diagnóstica</p><p>A análise diagnóstica está interessada em saber o porquê das coisas, isto é, o motivo pelo qual determinados</p><p>eventos aconteceram na tentativa de encontrar pistas que possam sinalizar tendências de ocorrência e assim</p><p>tomar medidas práticas para minimizar eventuais problemas que possam surgir. Da mesma maneira que a</p><p>etapa anterior, a análise diagnóstica está preocupada com dados do passado para que ações sejam tomadas</p><p>no presente.</p><p>Por exemplo, para alocar produtos na prateleira de um supermercado, o analista aplica técnicas de mineração</p><p>de dados para tentar encontrar padrões de consumo, eleger os produtos mais consumidos e, com base nos</p><p>resultados, propor ao gerente a alocação de produtos em prateleiras mais acessíveis ao consumidor.</p><p>Algoritmos de associação podem ser aplicados sobre os dados históricos para identificar regras e encontrar</p><p>padrões associativos entre os elementos. Além das técnicas de mineração de dados e ferramentas voltadas</p><p>para atender às demandas de negócio, também pode ser utilizada a análise multidimensional, bem explorada</p><p>em cenários de Business Intelligence. Essa análise permite que gestores obtenham insights sob diferentes</p><p>perspectivas e em altos (Drill Up) ou baixos níveis de granularidade (Drill Down).</p><p>Adicionalmente, percebe-se que nessa etapa ocorre um gradual decréscimo da ação humana e,</p><p>consequentemente, os algoritmos passam a ter mais independência para descrever o cenário da empresa</p><p>com base nos dados.</p><p>2.1.3 Etapa 3: análise preditiva</p><p>A análise preditiva representa um avanço significativo no processo de análise de dados. Nesse momento, o</p><p>cientista de dados ganha destaque, especialmente por ser o responsável por construir modelos preditivos que</p><p>possam ter autonomia para classificar conjuntos de dados com base na aprendizagem obtida a respeito</p><p>destes. Quando trabalhamos com modelos preditivos, estamos interessados em responder à pergunta: “o que</p><p>(provavelmente) acontecerá?”. De fato, isso está diretamente relacionado ao contexto de aprendizado de</p><p>máquina, o que significa que a ação humana é cada vez menor e o algoritmo progressivamente vai se</p><p>aprimorando e aprendendo mais a respeito dos padrões históricos contidos nos dados.</p><p>Por isso, é essencial que, antes de aplicar técnicas e algoritmos de Machine Learning, sejam identificados os</p><p>dados que servirão de input para o modelo que será construído. Algumas técnicas de Machine Learning se</p><p>destacam, como: Árvores de Decisão, Florestas Aleatórias (Random Forest), Redes Neurais, Support Vector</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Farunkottolli.blogspot.com%2F2018%2F08%2F4-types-of-data-analytics.html&sa=D&sntz=1&usg=AOvVaw2GP9OLlD1mYkz9tHrjl3u_</p><p>Machines (SVM), K-Nearest Neighbor (KNN), entre outras.</p><p>Por exemplo, uma empresa de crédito talvez esteja interessada em saber se houve alguma compra suspeita</p><p>com o número do cartão de crédito de seus clientes. O rastreio pode se dar em um nível no qual o resultado</p><p>obtido seja um alerta à empresa e ao cliente informando a respeito da atividade suspeita. Nesse caso, a</p><p>variável valor de compra pode ser utilizada para rastrear essa questão. Por exemplo, se o valor de compra for</p><p>extremamente maior em relação a outras atividades de compra do consumidor. É lógico que esse é um</p><p>modelo simplificado, mas didaticamente viável. Por fim,</p><p>um modelo de classificação poderia discriminar a</p><p>atividade de compra como normal ou anômala.</p><p>2.1.4 Etapa 4: análise prescritiva</p><p>A etapa de análise prescritiva é a mais complexa, porém, a que acrescenta mais valor para a organização e</p><p>fornece suporte à decisão de forma automatizada. Nesse momento, a máquina consegue aprender com as</p><p>experiências nas previsões e a ação humana é mínima ou nula. Técnicas analíticas avançadas podem ser</p><p>utilizadas para fins de otimização, sendo capazes de responder à pergunta: “o que devo fazer?” e assim</p><p>mostrar às organizações as ações necessárias na tomada de decisão.</p><p>Obviamente que, para chegar até aqui, é necessário um elevado nível de maturidade nos processos de análise</p><p>anteriores, por isso que na maioria das vezes ou quase sempre, a implementação desse tipo de análise é feita</p><p>por grandes corporações. Algumas técnicas que são utilizadas na etapa prescritiva são: simulações, redes</p><p>neurais convolucionais, heurísticas, processamento de eventos complexos, entre outras.</p><p>Um exemplo que retrata a análise prescritiva são os carros ou os caminhões autônomos (inteligentes).</p><p>Modelos construídos para esse fim apresentam um alto nível de robustez e utilizam como referência dados</p><p>históricos e previsões anteriores para decidirem a melhor rota e assim aperfeiçoar suas tarefas com base na</p><p>experiência.</p><p>2.2 ANÁLISE AVANÇADA DE DADOS</p><p>O Grupo Gartner (2017) define o conceito de Advanced Analytics como um processo de observação autônomo</p><p>ou semiautônomo de dados ou conteúdo por intermédio de técnicas e ferramentas sofisticadas, normalmente</p><p>além daquelas de Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, realizar</p><p>previsões ou gerar recomendações de produtos ou serviços. Além disso, compreende técnicas analíticas</p><p>avançadas, como mineração e dados/textos, aprendizado de máquina, correspondência de padrões,</p><p>virtualização, análise semântica, de sentimento, de rede e em cluster, estatística multivariada, análise de</p><p>gráficos, simulação, processamento de eventos complexos e redes neurais. Algumas dessas técnicas variam</p><p>em complexidade e, consequentemente, em tempo de implementação.</p><p>Modelos analíticos avançados apontam para um elevado nível de maturidade e sugerem que a empresa já</p><p>possua uma grande quantidade de dados. Mais do que isso, pode ser que o desempenho das análises esteja</p><p>sendo afetado, novas estruturas de dados vêm sendo incorporadas e quando a infraestrutura básica,</p><p>anteriormente construída para atender à demanda da análise de dados, não esteja mais suportando o fluxo. A</p><p>potencialização do seu uso está diretamente relacionada ao advento do Big Data e das necessidades atuais de</p><p>negócio.</p><p>2.3 VISÃO GERAL DO BIG DATA</p><p>Nas seções anteriores, exploramos um contexto histórico e apresentamos os tipos de análise de dados que</p><p>estão sendo aplicados em diferentes segmentos empresariais. Acontece que a abordagem tradicional de</p><p>análise de dados possui algumas limitações que merecem a nossa atenção. Antes de mais nada, é importante</p><p>frisar que o conceito de Big Data ainda não é bem definido. Entretanto, existem algumas definições que fazem</p><p>todo sentido, entre estas, cabe mencionar que:</p><p>O Big Data pode ser introduzido como uma combinação de tecnologias novas e antigas que ajudam empresas</p><p>a conseguirem ideias viáveis. Portanto, Big Data é a capacidade de administrar um volume enorme de dados</p><p>diferentes na velocidade certa e dentro do prazo certo para permitir análises e reações em tempo real</p><p>(HURWITZ et al., 2016, p. 15-16).</p><p>Adicionalmente, Gartner (2018, s.p.) define o Big Data como “um grande volume de informações, com alta</p><p>velocidade e/ou ativos de informações de alta variedade que exige formas inovadoras e econômicas de</p><p>processamento de informações que permitem uma melhor percepção na tomada de decisão e automação de</p><p>processos”.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Notamos que, em ambos conceitos, existem termos em comum que precisamos considerar: volume ,</p><p>velocidade e variedade . De fato, esses termos podem ser utilizados para compreender melhor o que de fato</p><p>é o Big Data. Considere que você esteja trabalhando em um projeto de análise consolidado. Em um</p><p>determinado momento você nota que seja viável trabalhar com informações de outros ambientes para</p><p>enriquecer sua análise, tais como: informações de redes sociais, ou blogues, ou informações não estruturadas</p><p>armazenadas em arquivos de texto, ou até de Bancos de Dados não Relacionais.</p><p>Diante disso, você extrai essas informações de diferentes fontes, mas percebe que não tem hardware</p><p>necessário para armazená-las, tampouco uma infraestrutura que possa processar toda essa informação em</p><p>tempo hábil. De fato, estamos em uma realidade que foge do escopo da análise de dados tradicionais. As</p><p>questões relativas a desempenho até podiam ser consideradas anteriormente. Entretanto, nesse atual</p><p>momento, essa questão assume um papel central , ou seja, para prosseguir com suas análises, você precisa,</p><p>necessariamente, adquirir um servidor ou um espaço de armazenamento em nuvem para suportar o volume</p><p>de dados ou considerar uma infraestrutura que suporte computação paralela.</p><p>Os sistemas tradicionais de análise de dados muitas vezes não suportam estruturas de dados com formatos e</p><p>tamanhos diversificados. Assim, você precisará também garantir que a infraestrutura seja capaz de suportar</p><p>essa diversidade de dados. Por fim, uma vez que você consiga armazenar uma grande quantidade de dados de</p><p>múltiplas fontes, é fundamental que você se certifique de que os dados estão sendo processados em um</p><p>adequado intervalo de tempo.</p><p>Observe que quando falávamos em análise de dados tradicional não comentamos os pontos mencionados</p><p>sobre os Vs de Big Data, porque estamos exatamente em uma transição entre esse tipo de análise e o Big</p><p>Data. Assim, podemos concluir que estamos diante do Big Data quando percebemos que as análises,</p><p>tradicionalmente aplicadas, não estão mais suportando o volume, a velocidade e a variedade dos dados que</p><p>estão chegando e, como consequência disso, é necessário examinar novas estratégias para suportar esse “mar</p><p>de dados”, sem comprometer nossas análises. Obviamente, a análise de dados tradicional e o Big Data estão</p><p>longe de serem abordagens antagônicas, pelo contrário, complementam-se e são fundamentais para que as</p><p>empresas mantenham elevado poder analítico e, como consequência, sejam competitivas no mercado</p><p>contemporâneo.</p><p>Erroneamente, algumas pessoas conceituam Big Data como uma ferramenta. Entretanto, como mostramos,</p><p>Big Data não se resume apenas a uma ou mais ferramentas. Big Data é um conceito , compreendido de forma</p><p>simplificada. Em função dos 3Vs mencionados - volume, velocidade e variedade -, existem abordagens que</p><p>ampliam o conceito para 4, 5, 6 e até 7Vs. Independentemente disso, é importante que você compreenda que,</p><p>nestes casos, não existe um conceito certo ou errado. Lembre-se de que o conceito de Big Data ainda está em</p><p>formação. Desta maneira, para este livro optamos pela abordagem baseada em 5Vs, conforme mostra a Figura</p><p>3. Essa abordagem é amplamente utilizada e compreende: Volume, Velocidade, Variedade, Veracidade e</p><p>Valor . Vamos delinear cada uma dessas etapas.</p><p>FIGURA 3 – 5Vs: VOLUME, VELOCIDADE, VARIEDADE, VERACIDADE E VALO</p><p>FONTE:</p><p>< https://www.omnivex.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.omnivex.com%2Fcompany%2Fblog%2Fwhat-is-big-data%2F&sa=D&sntz=1&usg=AOvVaw2xYRA66Vzb_MAd4ZFPWCC5</p><p>Volume : diz respeito à quantidade de dados - com tamanhos na ordem de peta, hepta ou exabytes sendo</p><p>gerados e que, uma vez extraídos, deverão ser suportados na arquitetura de Big Data. Isso quer dizer que o</p><p>quesito escalabilidade precisa ser pensado no início de uma implementação</p><p>do Big Data.</p><p>Variedade : dados estruturados, semiestruturados ou não estruturados estão espalhados no meio digital.</p><p>Eventualmente, desejamos incrementar em nossas análises informações obtidas de websites (neste caso,</p><p>certifique-se de ser autorizado para fazer isso). A ferramenta de coleta precisa “raspar” os dados (ou realizar</p><p>Web Scrapping) que serão obtidos em um formato de tags e texto. Talvez estejamos interessados em</p><p>informações de um Banco de Dados não transacional que armazena as informações em formato JSON, ou</p><p>dados de redes sociais, como Twitter ou Facebook. Enfim, a arquitetura de Big Data precisa ser robusta o</p><p>suficiente para lidar com essa diversidade de formatos e estruturas, tendo como desafio tornar a tarefa de</p><p>integração e extração de dados o mais transparente possível.</p><p>Velocidade : está relacionada a questões de desempenho . O processamento dos dados precisa ser</p><p>eficiente a ponto de não causar altas taxas de latência no fluxo de dados. O sucesso de uma implementação</p><p>do Big Data também está relacionado a entregar respostas em tempo hábil e, por isso, estratégias (por</p><p>exemplo, cache dos dados) podem ser adotadas para otimizar o desempenho. É importante considerar</p><p>também qual o foco da análise, isto é, se o processamento será em lote (batch) ou em tempo real, ou</p><p>ambos (arquitetura Lambda). Essa questão é um importante requisito de negócio, pois quando lidamos com</p><p>processamento em lote são alocados maiores recursos de armazenamentos em detrimento ao</p><p>processamento em tempo real.</p><p>Veracidade : precisamos confiar nos dados adquiridos e a veracidade está relacionada à inconsistência, à</p><p>ambiguidade e à incompletude desses dados. Quando anexamos fontes de dados externas à nossa</p><p>arquitetura, precisamos ter um cuidado especial, uma vez que não temos total controle desses dados, como</p><p>teríamos se estivéssemos coletando dados de sistemas legados da empresa. Por isso, devemos sempre</p><p>questionar os dados que adquirimos e garantir que a origem da nossa arquitetura não seja comprometida</p><p>com dados que possam enviesar ou distorcer nossas análises. Assim, a veracidade desempenha um papel</p><p>importante dentro do Big Data.</p><p>Valor : o verdadeiro sentido do Big Data é na geração de valor para a organização. De nada adianta</p><p>elevados investimentos em qualificações dos profissionais, aquisição de soluções proprietárias, entre</p><p>outros recursos, se os resultados obtidos não agregam valor e a organização apenas extrai informações</p><p>desconexas que não agregam novos conhecimentos. Essa frustação certamente poderia colocar em risco o</p><p>andamento de todo o processo de Big Data. Na verdade, a obtenção do real valor pode trazer para a</p><p>empresa uma consequência de todo o processo de Big Data. Contudo, quando pensamos em termos-chave</p><p>para compor o conceito de Big Data, faz todo sentido acrescentar o valor resultante que queremos obter</p><p>em um processo de Big Data.</p><p>Além destes aspectos, algumas outras keywords também podem ser incorporadas ao conceito de Big Data,</p><p>como a Variabilidade e a Visualização . A primeira está relacionada à rastreabilidade dos dados, ou seja,</p><p>verificar o quanto o significado dos dados vem se modificando ao longo do tempo, enquanto que a segunda</p><p>corresponde à etapa de apresentação dos dados em um formato amigável para o usuário, ou seja, queremos</p><p>nos certificar que os resultados das nossas análises de Big Data estão prontos para serem consumidos por</p><p>usuários com facilidade e transparência.</p><p>Antes de entrarmos em uma discussão mais profunda a respeito de Big Data, é importante que você esteja</p><p>habituado com alguns conceitos introdutórios, porém relevantes, e que também servirão de base para todo o</p><p>conteúdo deste livro. Por essa razão, reservamos a próxima seção para discutirmos um pouco isso.</p><p>3 BIG DATA: CONCEITOS ÚTEIS</p><p>Nesta seção, exploraremos alguns conceitos necessários para a compreensão das etapas seguintes do</p><p>ecossistema Big Data. Neste sentido, serão apresentados conceitos e diferenças entre dados estruturados,</p><p>semiestruturados e não estruturados, bem como comentaremos tipos de Bancos de Dados não Relacionais</p><p>existentes, apresentando as ferramentas que os compõem e que podem ser anexadas no seu projeto. Por fim,</p><p>encerraremos a seção comentando diferenças entre processamento em lote (batch) e em tempo real,</p><p>realçando suas particularidades, vantagens e desvantagens.</p><p>3.1 DADOS ESTRUTURADOS, SEMIESTRUTURADOS E NÃO ESTRUTURADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Como vimos, a disseminação de dados reflete em uma nova Era da Informação na qual vivemos. Esses dados</p><p>podem estar em um formato pronto para análise, como é o caso dos dados estruturados contidos em planilha</p><p>ou em um Banco de Dados Relacional. Contudo, na prática não é algo que sempre acontece, especialmente</p><p>em tempos de Big Data. Por conseguinte, é imprescindível que compreendamos as diferenças entre dados</p><p>estruturados, semiestruturados e não estruturados, tão presentes nos dias de hoje, conforme mostra a Figura</p><p>4. Lidar com diferentes estruturas de dados é algo comum na era Big Data.</p><p>FIGURA 4 – ESTRUTURAS DE DADOS NA ERA BIG DATA</p><p>FONTE: < https://www.building-</p><p>blocks.nl >. Acesso em: 16 nov.</p><p>2018.</p><p>Os dados estruturados compreendem apenas uma pequena parcela dos dados que estão sendo analisados</p><p>no mundo. Esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados</p><p>Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas características</p><p>dessas estruturas são a facilidade de acesso e manipulação, além de um esquema de armazenamento e</p><p>organização bem definido. Isso quer dizer que podemos obter respostas rápidas para alguns tipos de</p><p>perguntas ao realizar uma simples consulta em um banco de dados. Para exemplificar, podemos extrair a</p><p>média de idade dos alunos com sexo masculino do Ensino Médio considerando uma determinada escola com</p><p>um simples SQL e utilizando campos estruturados, como idade, sexo, escolaridade e escola.</p><p>No que se refere a dados semiestruturados , estes normalmente estão espalhados pela Web em arquivos</p><p>HTML, XML ou em Banco de Dados não Relacionais, como o MongoDB, que possui uma estrutura semelhante</p><p>a um arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos que existe uma diferença</p><p>nesses tipos de estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos possuem uma certa</p><p>organização e qualificam os documentos. Os nós apresentam uma certa flexibilidade e não contêm uma</p><p>representação fixa ou rígida como em um modelo estruturado, ao contrário, alguns campos (tags) podem</p><p>conter descrições ou informações textuais, por exemplo, páginas web (como HTML e CSS), campos de e-mail,</p><p>informações de redes sociais etc. Além disso, quando trabalhamos com projetos de Web Scraping,</p><p>normalmente nos deparamos com esse tipo de estrutura.</p><p>Cerca de 80% dos dados existentes que estão sendo difundidos não possuem estrutura bem definida, ou seja,</p><p>são não estruturados ou desestruturados . Por exemplo: arquivos textuais, vídeos, imagens, dados de</p><p>sensores, mensagens em formulários ou em campos de e-mails, posts no Facebook ou Twitter, arquivos de</p><p>áudio e assim por diante. São infinidades de fontes diferentes que contêm dados não estruturados. Uma</p><p>simples pesquisa no Google, uma conversa no WhatsApp, uma chamada de vídeo pelo Skype. A verdade é que</p><p>estamos mergulhados em uma quantidade de informação desestruturada que poderia ser perfeitamente</p><p>analisada. Entretanto, há um aumento de complexidade para analisar esse tipo de dado. Dados textuais estão</p><p>sujeitos a problemas de erros sintáticos ou semânticos provenientes da linguagem natural, isso poderia</p><p>inviabilizar todo o processo de análise. Felizmente, existem técnicas específicas para esse fim e, além de</p><p>realizar o tratamento adequado, podemos converter os dados não estruturados em um formato estruturado e</p><p>assim dar continuidade</p><p>ao processo de análise a partir de uma única visão sobre os dados.</p><p>Antigamente, incorporar informações não estruturadas ao processo de análise era algo extremamente</p><p>custoso ou muitas vezes inviável. Então, as empresas direcionavam suas decisões apenas a uma pequena</p><p>parcela das informações que possuía. Todavia, essa fronteira para integração dos dados progressivamente foi</p><p>se rompendo ao longo do tempo, especialmente com o surgimento do Big Data. Por isso, é imprescindível que</p><p>compreendamos essas diferenças e não limitemos nossas análises. O tipo de estrutura de dados que vamos</p><p>manipular precisa ser indiferente para nós, precisamos focar nas estratégias e posteriormente nas análises</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.building-blocks.nl%2Fblog%2Fdifferent-types-of-data-sources&sa=D&sntz=1&usg=AOvVaw0G1of8ZZS6t9SlAG_5SisP</p><p>para implementarmos com sucesso e extrairmos valor nas análises de Big Data.</p><p>3.2 BANCOS DE DADOS NÃO RELACIONAIS</p><p>Os Bancos de Dados não Relacionais surgiram no final do século passado, mas começaram a ganhar destaque</p><p>também com o advento do Big Data. Observe que mais uma tecnologia emergiu a partir do conceito de Big</p><p>Data. No passado, tarefas analíticas eram realizadas em cima de armazém de dados (Data Warehouse) que era</p><p>um banco, à parte de um SGBD (para não concorrer recursos), que armazenava informações estruturadas em</p><p>um formato multidimensional para agilizar consultas. Outra alternativa mais simplificada era baseada em</p><p>cubos multidimensionais que permitiam aos gestores analisar informações e extrair insights sob diferentes</p><p>perspectivas.</p><p>Com o passar dos anos, diante do expressivo aumento no volume e variedade dos dados, recursos</p><p>computacionais mais robustos eram requeridos. Neste caso, surgiam duas alternativas para resolver o</p><p>problema: uma seria alocar mais investimentos em infraestrutura física, outra seria utilizar um Banco de</p><p>Dados que pudesse armazenar dados em um formato adequado para rápida consulta e análise. Não é de se</p><p>admirar que muitas empresas optaram pelo uso de Banco de Dados não Relacional. Afinal, ele compreendia</p><p>exatamente essas vantagens mencionadas: agilidade na busca de respostas, elevada capacidade de</p><p>armazenamento e, mais além, capacidade de trabalhar com dados não estruturados.</p><p>Os Bancos de Dados não Relacionais são também conhecidos como NoSQL. Não caia na tentação de concluir</p><p>pela nomenclatura de que esses bancos surgiram como concorrentes da linguagem SQL ou não incentivam</p><p>mais o uso dessa linguagem. Ao contrário, NoSQL significa (Not Only SQL) ou não somente SQL, isto é, Bancos</p><p>de Bados NoSQL surgiram como uma alternativa para armazenamento de dados com a finalidade de</p><p>oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados.</p><p>No entanto, em Bancos de Dados não Relacionais não existe uma maneira única de armazenar um conjunto</p><p>de dados. Assim, eles podem ser classificados em quatro tipos: banco de dados chave-valor (key-value),</p><p>orientado a documentos (document store), orientado a famílias de colunas (column-family stores) e os que são</p><p>baseados em grafos (graph-databases). A Figura 5 ilustra os tipos de Bancos de Dados não Relacionais e a</p><p>seguir explicaremos cada um deles.</p><p>FIGURA 5 – À ESQUERDA SÃO APRESENTADOS FORMATOS DOS BANCOS DE DADOS</p><p>RELACIONAIS BASEADOS EM SQL. À DIREITA OS QUATRO TIPOS DE BANCOS DE DADOS</p><p>NÃO RELACIONAIS</p><p>FONTE:</p><p>< https://www.kdnuggets.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>Banco de dados chave-valor : você talvez já tenha tido algum contato com esse tipo de estrutura quando</p><p>programou em Java ou Python, por exemplo. A compreensão é simples: para toda chave existe um valor</p><p>vinculado. Para ilustrar, talvez você tenha observado que na biblioteca, há estantes numeradas que</p><p>armazenam um conjunto de livros. Se você precisar consultar alguma informação de um livro específico,</p><p>você abre a gaveta ou o localiza na estante por meio de uma chave que o identifica e captura a informação</p><p>que deseja em um determinado capítulo do livro. O conceito é simples, por isso a complexidade para</p><p>manipular os dados é baixa. Além disso, esses tipos de bancos possuem como característica a alta</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2016%2F07%2Fseven-steps-understanding-nosql-databases.html&sa=D&sntz=1&usg=AOvVaw2BwCqEJCnhAV2otZgUDT0N</p><p>escalabilidade, flexibilidade e uma boa performance. Podemos mencionar alguns exemplos de Bancos de</p><p>Dados que se encaixam nessa categoria, tais como: Redis, Riak, Oracle NoSQL. Observe um exemplo</p><p>genérico de um banco chave-valor:</p><p>Banco de dados orientado a documentos : são Bancos de Dados que armazenam dados em forma de</p><p>coleção de documentos . Cada documento é único e pode conter diversas informações com dados</p><p>aninhados, “tipados” como strings, valores numéricos, listas. É um dos tipos de Bancos de Dados não</p><p>Relacionais mais utilizado e possui uma estrutura muito semelhante a objetos JSON. Estes bancos possuem</p><p>baixa complexidade e elevada performance e escalabilidade, embora não possuam tanta flexibilidade</p><p>quanto os outros Bancos não Relacionais. Alguns exemplos de bancos orientados a documentos são</p><p>MongoDB, Apache CouchDB, Azure Cosmos DB. Observe um exemplo a seguir:</p><p>{</p><p>“id”: 12,</p><p>“nome”: “UNIASSELVI”,</p><p>“unidades”: {</p><p>“SP”: “Bragança Paulista”,</p><p>“AC”: “Cruzeiro do Sul”,</p><p>“MA”: “Bacabal”,</p><p>“GO”: “Anápolis”,</p><p>“RS”: “Bagé”</p><p>}</p><p>}</p><p>Banco de dados orientado a colunas : são úteis quando você deseja recuperar informações com eficiência</p><p>de bases de dados com poucas colunas e muitos registros, ou seja, em uma tabela você pode ter uma</p><p>família de colunas com número igual ou diferente de colunas . A estrutura desse tipo de banco pode ser</p><p>demonstrada no exemplo a seguir. Nós mostramos exemplos de uma família e, nesse caso, existem três</p><p>chaves, cada uma apontando para um conjunto de registros que possuem tamanho de colunas diferentes.</p><p>O ID = 1, por exemplo, possui uma quantidade de colunas menor que os outros dois IDS. Essa é uma</p><p>característica importante desses tipos de Bancos de Dados. Além disso, bancos colunares também possuem</p><p>elevada performance, boa flexibilidade e alta escalabilidade. Evidentemente que isso pode variar de acordo</p><p>com o domínio que você está trabalhando. É possível obter registros de mídias sociais para serem</p><p>armazenados em um banco orientado a colunas. Os seguintes bancos podem ser utilizados: Cassandra,</p><p>HBase, Vertica etc.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Banco de dados orientado a grafos : sugere um formato diferente de armazenamento dos bancos</p><p>anteriores, baseado na teoria dos gafos . Os nós são dados que queremos armazenar e as arestas exibem</p><p>o relacionamento entre um conjunto de nós. O grafo dirigido e ponderado reforça a ideia de que, para esse</p><p>tipo de banco, há necessidade de uma forte ligação entre os dados. Por esta razão, o Banco de Dados</p><p>orientado a grafos é utilizado somente em alguns casos específicos. Apesar de possuir bastante</p><p>flexibilidade, sua performance e escalabilidade variam de acordo com o domínio que está sendo trabalhado</p><p>e sua implementação não é trivial, podendo demandar tempo. O banco mais popular é o Neo4JS, mas</p><p>também é possível utilizar o OrientDB e o GraphBase. Um exemplo deste modelo de banco pode ser</p><p>mostrado através da Figura 6. Os nós centrais são pessoas que estão conectadas às cidades que visitaram</p><p>ou residiram. Por exemplo, Jonas morou em Recife e João Pessoa e visitou Belo Horizonte.</p><p>FONTE:</p><p>< https://www.researchgate.net >.</p><p>Acesso em: 15 nov. 2018.</p><p>3.3 PROCESSAMENTO EM BATCH E EM TEMPO REAL</p><p>Não devemos pensar em Big Data somente em função dos tipos e estruturas de dados que</p><p>manipularemos,</p><p>ou mesmo se extrairemos ou manipularemos informações de Bancos de Dados Relacionais ou não</p><p>Relacionais. Outro ponto que precisamos considerar diz respeito ao volume de dados serem processados em</p><p>batch (lote) ou em tempo real. Por isso, você precisa compreender e distinguir ambos, é o que faremos nesta</p><p>seção.</p><p>3.3.1 Processamento em lote</p><p>O processamento em lote ou em batch refere-se à forma de processar transações, tendo em vista um grupo</p><p>de registros armazenados em um intervalo de tempo. Quando desejamos obter os dados de vendas dos</p><p>produtos em uma grande loja de varejo considerando a última quinzena de vendas, nós já temos um conjunto</p><p>significativo de informações armazenadas em lote dentro de uma janela temporal de duas semanas, o que</p><p>pode representar um volume de petabytes de dados para processar. Por outro lado, talvez estejamos</p><p>interessados em analisar dados da próxima semana. Nesse caso, somente ao final de sete dias, quando a</p><p>janela temporal de lote estiver completa ou cheia, podemos processar todos esses dados. Isso representa uma</p><p>característica importante desse tipo de processamento: você primeiro armazena o dado em grandes lotes de</p><p>dados respeitando uma janela temporal, para posteriormente processá-los.</p><p>No entanto, trabalhar com esse tipo de processamento nem sempre é adequado. Por exemplo, ao notarmos</p><p>que precisamos trabalhar com uma janela temporal mais curta, talvez uma semana, ao invés de duas</p><p>semanas, precisaríamos reprocessar todo aquele lote de dados novamente ou mesmo criar códigos para lidar</p><p>com essas variações. Cabe considerar que o processamento em lote é utilizado há várias décadas, então,</p><p>alguns consideram um modelo ultrapassado, tendo em vista que a tomada de decisões atualmente está muito</p><p>mais dinâmica e com demandas de respostas cada vez mais ágeis.</p><p>Em compensação, você pode processar lotes de forma independente e atemporal, o que torna este modelo</p><p>mais flexível, sendo ideal para processar imensos conjuntos de dados de forma mais eficiente. A Figura 7</p><p>ilustra o fluxo de dados em um ambiente de processamento em lotes.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.researchgate.net%2Fpublication%2F268201466_NoSQL_no_desenvolvimento_de_aplicacoes_Web_colaborativas&sa=D&sntz=1&usg=AOvVaw3dPgOfVMxtaeLb8jXJuxSi</p><p>FIGURA 7 – OS DADOS SÃO COLETADOS E ARMAZENADOS E LOGO EM SEGUIDA</p><p>PROCESSADOS PARA POSTERIOR ANÁLISE</p><p>FONTE:</p><p>< http://www.irisidea.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>3.3.2 Processamento em tempo real</p><p>Com o surgimento e a redução de custo de novos dispositivos físicos, como câmeras de alta definição para</p><p>áudio, vídeo e imagens, drones para mapear informações geográficas, sensores para implantação na indústria</p><p>ou na agricultura, uma nova demanda de análise foi ganhando espaço - a análise em tempo real.</p><p>Diferentemente do processamento baseado em grandes lotes de dados, o processamento em tempo real</p><p>captura um microlote de dados e disponibiliza de forma imediata para análise. Assim, você pode capturar</p><p>informações em tempo real do Twitter e de imediato aplicar um processo de tratamento (como transformação</p><p>e limpeza) e, em seguida, aplicar um modelo de Machine Learning para realizar alguma previsão. Por exemplo,</p><p>investidores estão interessados em mitigar riscos de investimento em novos negócios, tomando como base a</p><p>Bolsa de Valores. Um sistema baseado em Machine Learning pode ser criado para mapear fontes, coletar,</p><p>tratar, analisar e prever riscos de investimento. Além disso, detectar eventos anômalos de atividades de cartão</p><p>de crédito baseados em microlotes de dados também necessitam de uma arquitetura que suporte</p><p>processamento em tempo real.</p><p>Note que o foco não é o armazenamento e sim a análise, por este motivo, frameworks de Big Data criados</p><p>para esta finalidade não possuem a mesma robustez em termos de armazenamento do que àqueles voltados</p><p>ao processamento em batch. Em uma eventual necessidade, combinações de componentes de Big Data em</p><p>uma única arquitetura, por exemplo, combinando o Hadoop e o Spark, podem ser úteis para enfrentar</p><p>situações nas quais você precise processar e armazenar grandes volumes de dados em tempo real.</p><p>O Hadoop será apresentado a você na última seção deste capítulo. Além disso,</p><p>você conhecerá o Spark em mais detalhes no Capítulo 3.</p><p>Podemos elencar algumas vantagens dessa forma de processamento, a saber: respostas ágeis, informações</p><p>atualizadas, identificação de padrões ou detecção de eventos em tempo de execução de modo a oferecer a</p><p>gestores decisões mais ágeis e assertivas em um determinado momento. Por outro lado, existe aumento de</p><p>complexidade se comparado ao modelo tradicional em lote. Como os dados, muitas vezes, são analisados e</p><p>logo após descartados, o processo de auditoria pode ser comprometido. A Figura 8 mostra um pipeline que</p><p>exemplifica o processamento em tempo real.</p><p>FIGURA 8 – OS DADOS SÃO COLETADOS, PROCESSADOS À CADA MICROLOTE, EM</p><p>SEGUIDA, ANALISADOS E POSTERIORMENTE DESCARTADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.irisidea.com%2Flambda-architecture-big-data-processing%2F&sa=D&sntz=1&usg=AOvVaw3GW4oDAcyAPqTA11el1zyS</p><p>FONTE:</p><p>< http://www.irisidea.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>4 ARQUITETURA DE BIG DATA E SEUS COMPONENTES</p><p>Agora que você possui conhecimento dos conceitos básicos, conseguirá distinguir diferenças importantes no</p><p>contexto de Big Data e assim generalizar seu aprendizado. Nesta seção, apresentaremos a arquitetura</p><p>tradicional de Big Data e seus componentes. A partir destes conhecimentos será possível que você consiga</p><p>refletir sobre as novas abordagens e enfrentar desafios em cenários reais.</p><p>4.1 ARQUITETURA TRADICIONAL DE BIG DATA</p><p>Em seções anteriores comentamos a respeito do valor que a análise de Big Data pode trazer para as</p><p>organizações. A construção de uma arquitetura que possa atender a todas as demandas e expectativas de</p><p>negócios desempenha um papel central para que a implementação de Big Data realmente apresente</p><p>resultados e forneça insights valiosos para a organização, fazendo valer a pena todo o investimento</p><p>dispensado, tais como pessoas, recursos, dinheiro e tempo. Tendo isso em mente, não podemos pular etapas</p><p>sem antes pensar em mecanismos que precisamos considerar ao implementar o Big Data.</p><p>Uma arquitetura de Big Data precisa ser robusta o suficiente para lidar com a ingestão, o processamento e a</p><p>análise dos dados com eficiência, uma sólida infraestrutura e capacidade de fornecer insights confiáveis que</p><p>gerem valor real para o usuário final. Pensando em um alto nível podemos considerar que a arquitetura típica</p><p>do Big Data não difere muito de uma arquitetura de análise de dados tradicional, visto que considera as fases</p><p>de: extração, integração, organização, análise e apresentação dos resultados. Contudo, as ferramentas, o</p><p>armazenamento e o processamento, a infraestrutura, a segurança, o hardware, a computação paralela e as</p><p>técnicas realçam a diferença entre os dois campos. De um modo geral, podemos dividir a arquitetura de Big</p><p>Data em camadas.</p><p>Para saber mais sobre o Hadoop, assista os vídeos: O que é Hadoop? Parte 1, parte 2 e parte 3, do canal Big Data</p><p>sem mistério.</p><p>Agora que já compreendemos os principais conceitos ligados ao Big Data, vamos avançar. Na próxima etapa vamos</p><p>compreender técnicas para análise de Big data.</p><p>Conecte-se</p><p>Uma proposta de arquitetura interessante pode ser encontrada em:</p><p>< https://bit.ly/3hkiW9k >. É um material adicional, porém, importante e que</p><p>pode ser utilizado para complementar seu conhecimento. Mais que isso, a</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.irisidea.com%2Flambda-architecture-big-data-processing%2F&sa=D&sntz=1&usg=AOvVaw3GW4oDAcyAPqTA11el1zyS</p><p>https://www.google.com/url?q=https%3A%2F%2Fdocs.microsoft.com%2Fen-us%2Fazure%2Farchitecture%2Fguide%2Farchitecture-styles%2Fbig-data&sa=D&sntz=1&usg=AOvVaw011K3zHhOOvdY62FOAbHTU</p><p>arquitetura proposta possui benefícios que podem auxiliá-lo em um projeto</p><p>pessoal ou em um cenário real de negócio.</p><p>Disponível aqui</p><p>4.1.1 Camada de extração e integração de dados</p><p>Esta camada representa o primeiro contato que você terá com as fontes de dados, por isso, antes de mais</p><p>nada, certifique-se de perguntar: “com base nos requisitos de negócios coletados, onde devo buscar as</p><p>informações que preciso?”. Este autoquestionamento lhe direcionará a ir em busca de informações a respeito</p><p>da disponibilidade das fontes de dados. É importante também que você considere a confiabilidade das</p><p>informações, especialmente em épocas de Fake News e robôs produzindo conteúdo. Por isso, considere</p><p>sempre dar preferência para sistemas onde a empresa possua mais controle sobre os dados e, caso precise</p><p>adicionar conteúdo externo, busque informações de empresas, entidades ou órgãos governamentais que</p><p>assegurem a integridade, a confiabilidade e a qualidade dos dados que estão sendo fornecidos.</p><p>De posse das fontes, você precisa realizar a etapa de extração dos dados e então se perguntar: “os dados</p><p>serão analisados em tempo real ou em batch?”. É importante que você se certifique dessa questão para</p><p>construir uma arquitetura apropriada de acordo com o objetivo da análise. Os dados podem vir de diferentes</p><p>fontes, com tipos e formatos diversificados: dados de sensores, tweets, informações com características</p><p>geoespaciais, sistemas ERP, entre outros, ou seja, existe um mix de fontes compostas de informações</p><p>completamente diferentes e a arquitetura de Big Data precisa fornecer uma transparência para que essa</p><p>extração exija esforço mínimo . Não é uma tarefa trivial, mas possuir uma arquitetura que possa enxergar</p><p>toda essa diversidade de forma única tanto na fase de extração quanto na fase de integração, é algo</p><p>extremamente útil. Isso porque todo processo de Big Data é iterativo e precisa de um acompanhamento</p><p>contínuo. Assim, diante de um possível colapso ou mesmo algum reparo durante o processo de uma tarefa</p><p>automatizada e transparente tenderia a agilizar bastante os ajustes que seriam realizados.</p><p>Esta etapa pode exceder consideravelmente o consumo de recursos previstos, mas isso dependerá da</p><p>variabilidade e variedade dos dados entre as fontes. Quer dizer, fontes de diferentes naturezas podem</p><p>consumir mais tempo do que àquelas que compartilham de dados mais homogêneos entre si. Ainda, fica a seu</p><p>critério realizar algum tipo de tratamento e limpeza dos dados nesses estágios iniciais, mas não é uma regra.</p><p>Novamente, tudo depende do domínio que você está lidando. Por exemplo, se estivermos trabalhando em um</p><p>banco e desejamos extrair informações da Bolsa de Valores, provavelmente realizaremos transformação e</p><p>limpeza de dados no que se refere a correções de valores e unidades na moeda (dólar para real, por exemplo).</p><p>Na prática, a tarefa de transformação e limpeza dos dados na origem é algo comum pelo fato de não existir</p><p>uma padronização em termos de armazenamento entre as fontes.</p><p>4.1.2 Camada de armazenamento ou fluxo de dados</p><p>Uma vez que extraímos os dados podemos armazená-los em um destino, em uma arquitetura tradicional de</p><p>BI. Após a extração dos dados na fonte, cria-se uma base de dados intermediária denominada Staging Area,</p><p>que constitui em uma “zona de repouso” para os dados, antes de serem carregados em uma fonte destino -</p><p>como um Data Warehouse, ou Data Mart ou mesmo em uma ferramenta OLAP (Online Analytical Processing).</p><p>Entretanto, essa abordagem possui sérias limitações quando o volume de dados aumenta demasiadamente e</p><p>lidamos com dados não estruturados. Por outro lado, podemos dispensar o uso de Stages se espalharmos</p><p>todos os nossos dados em um Data Lake (“Lago de dados”).</p><p>A Amazon (AWS, s.d.) define um Data Lake como um repositório centralizado que possibilita o armazenamento</p><p>de dados estruturados e não estruturados em suas formas brutas sem a necessidade de definir um esquema</p><p>previamente, como ocorre em bases tradicionais. Você pode construir Data Lakes em um servidor físico ou</p><p>utilizando a nuvem. Essa característica permitiu que o Data Lake emergisse em tempos de Big Data. James</p><p>Dixon (2010), fundador do Pentaho, fez a seguinte analogia: você pode imaginar um Data Mart como uma loja</p><p>de garrafas de água - limpa, embalada e estruturada para fácil consumo - o Data Lake é uma grande reserva</p><p>de água em seu estado mais natural.</p><p>Essa analogia é bem pertinente. A Figura 9 retrata o funcionamento do Data Lake: os dados de diferentes</p><p>fontes com formatos, estruturas e tamanhos diferentes chegam no reservatório (dataset) e vão sendo</p><p>armazenados no seu estado bruto. O cientista de dados vai ao reservatório e seleciona apenas uma amostra</p><p>de água (subset) que possa ser útil para sua análise. Ora, em uma análise ad-hoc, uma amostra pequena pode</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Flearn.microsoft.com%2Fen-us%2Fazure%2Farchitecture%2Fguide%2Farchitecture-styles%2Fbig-data&sa=D&sntz=1&usg=AOvVaw12eWEFWBNo40qoF97zem3b</p><p>ser o suficiente para extrair insights em um determinado momento. Com isso em mente, o cientista analisa a</p><p>amostra coletada e constrói visualizações que estarão prontas para serem consumidas pelos usuários finais.</p><p>Microsoft e Amazon já oferecem soluções para construir Data Lakes. Data Lake é um lago que armazena dados</p><p>de diferentes fontes, estruturas e tamanhos: é uma nova abordagem de armazenamento no processo de</p><p>gestão de dados.</p><p>FIGURA 9 – MODELO DE DATA LAKE</p><p>FONTE:</p><p>< https://canaltech.com.br >.</p><p>Acesso em: 15 nov. 2018.</p><p>Além disso, existem outras possibilidades de armazenamento que podem ser consideradas, tais como: Bancos</p><p>de Dados não Relacionais, como HBase, ou mesmo no próprio Hadoop por meio do seu sistema de arquivo</p><p>distribuído (HDFS) que detalharemos mais à frente.</p><p>A estratégia para persistência dos dados varia de acordo com o seu objetivo, por isso não existe uma maneira</p><p>universal ou uma solução única para Big Data. Cabe também frisar que os dados não podem ser armazenados</p><p>de qualquer modo, ao contrário, necessitam de mecanismos de controle e acesso.</p><p>Quando falamos de fluxo de dados estamos nos referindo ao processo de conduzir os dados que estão</p><p>chegando em tempo real. Nesta situação, o armazenamento precisa ser robusto o suficiente para resistir a</p><p>seguidas leituras e gravações em grandes volumes de dados. Eventualmente ocorrem falhas e, nesse caso, é</p><p>necessário implantar mecanismos que forneçam suporte de tolerância a falhas. Por exemplo, em casos de</p><p>ambiente em lote, existem muitos frameworks que oferecem suporte necessário para lidar com fluxo contínuo</p><p>de dados, como frameworks da família Apache, Apache Kafka, Apache Spark, Apache Flume e Apache Storm. A</p><p>Amazon também oferece uma solução para armazenamento de dados streaming, como o Amazon Kinesis</p><p>Firehouse (AWS, s.d.).</p><p>4.1.3 Camada de análise</p><p>A camada analítica consome os dados como foram armazenados na etapa anterior. Dessa maneira, os</p><p>objetivos de análise precisam estar definidos, algo como:</p><p>• Você fará uma análise exploratória?</p><p>• Está buscando identificar padrões nos dados ou segmentar um grupo de clientes ou produtos de</p><p>acordo com algum critério?</p><p>• Precisa fazer uma análise rápida para aquele atual momento (análise ad-hoc)?</p><p>• Talvez precise de algo mais avançado, como prever comportamento de compra de um consumidor,</p><p>com base nas suas últimas compras e/ou informações obtidas de conteúdo postado em seu blogue</p><p>pessoal, ou até mesmo baseado em preferências de seus amigos mais próximos?</p><p>Esses questionamentos são importantes para direcionar suas análises de Big Data. Técnicas de análise de</p><p>dados tradicionais podem ser empregadas, contudo,</p>
Big_Data

IFSP

Ferramentas de estudo

Conteúdos escolhidos para você

BIG DATA ANALYTIC E TOMADA DE DECISÃO

Fluência em Dados

PROVA Pos - Universidade São Judas Thadeu- BIG DATA ANALYTICS

Avaliacao da Disciplina - big data

Avaliação da Disciplina

Perguntas dessa disciplina

1) No mundo atual da engenharia, as tecnologias de software desempenham um papel crítico na eficácia da modelagem e simulação. Estes softwares não ape

Questão 3/10 Organização e Administração na Educação Física Ler em voz alta Leia 0 fragmento de texto: "Um fenômeno característico da sociedade da inf

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O gerente de projetos, juntamente com a equipe de gerenciamento, conduz a execução das atividades, intermedia os conflitos entre as diferentes interfa

O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Libere esse material sem enrolação!

Conteúdos escolhidos para você

BIG DATA ANALYTIC E TOMADA DE DECISÃO

Fluência em Dados

PROVA Pos - Universidade São Judas Thadeu- BIG DATA ANALYTICS

Avaliacao da Disciplina - big data

Avaliação da Disciplina

Perguntas dessa disciplina

1) No mundo atual da engenharia, as tecnologias de software desempenham um papel crítico na eficácia da modelagem e simulação. Estes softwares não ape

Questão 3/10 Organização e Administração na Educação Física Ler em voz alta Leia 0 fragmento de texto: "Um fenômeno característico da sociedade da inf

Texto 01: Fonte: AWS Amazon. Bancos de dados SQL (relacional) vs. NoSQL (não relacional). Disponível em: https://aws.amazon.com/pt/nosql/#:~:text=Em%2

O gerente de projetos, juntamente com a equipe de gerenciamento, conduz a execução das atividades, intermedia os conflitos entre as diferentes interfa

O texto "Alfabetização em Dados", de Carol Andrade, propõe uma redefinição do que significa estar preparado para a "Era dos Dados", utilizando metáfor

Mais conteúdos dessa disciplina