Prévia do material em texto
<p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>Big Data Analytic</p><p>e a Tomada de</p><p>Decisões</p><p>Prof. Fernando Gama da Mata</p><p>Anderson Emidio Macedo Golçalves</p><p>Apresentação Geral da Disciplina</p><p>Olá, aluno!</p><p>O uso de dados está se tornando cada vez mais presente no dia a dia das empresas para melhora dos seus</p><p>resultados. Isso está fazendo com que as estratégias de marketing deixem cada vez mais de serem intuitivas para</p><p>se tornarem estratégias analíticas que contribuam com mais assertividade para o crescimento da empresa.</p><p>A disciplina de Big Data Analytics Analitcs aborda algumas tecnologias e suas possibilidades para análise de dados,</p><p>para isso, a disciplina está organizada em três etapas.</p><p>Avançar</p><p>Unidade 1 Unidade 2 Unidade 3</p><p>• Capítulo 1: Compreendendo a • Capítulo 2: Compreendendo e • Capítulo 3: Fundamentos para</p><p>análise de informação no contexto explorando técnicas para análise integração analítica, tópicos</p><p>de Big Data de Big Data avançados e tendências em Big</p><p>Analytics</p><p>Bons estudos!</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/unidade-1</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 1</p><p>O surgimento de novas tecnologias tem contribuído significativamente para uma explosão de dados gerados. Não à</p><p>toa, vivemos no ápice de uma era conhecida como a Era da Informação. É conveniente pensar que grande parte</p><p>dos dados gerados podem ser consumidos para os mais diversos fins, inclusive para uma tomada de decisão mais</p><p>assertiva.</p><p>Confira o vídeo da Unidade 1:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 1</p><p>Veja no infográfico abaixo o que acontece na internet a cada 60 segundos, isso em 2019, só para termos uma</p><p>dimensão da quantidade de dados que geramos e consumimos.</p><p>As transições da Web 1.0, 2.0 e 3.0 refletem uma realidade na qual vivemos – existindo uma sobrecarga de</p><p>informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da ação humana, mas</p><p>de forma inviável. Como gerenciar essas informações?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://www.youtube.com/watch?v=MbhMvWrOYa8&feature=emb_imp_woyt</p><p>Com essa “explosão” de conteúdo, a Big Data é a área do conhecimento que estuda como tratar, analisar e obter</p><p>informações a partir de conjuntos de grande número de dados, que não seriam capazes de serem analisados por</p><p>sistemas tradicionais.</p><p>No vídeo, a importância do Big Data no mercado, Leonardo Naressi explica o que é Big Data e como esse tema é</p><p>tão importante para o mercado, principalmente para entendimento do comportamento do consumidor.</p><p>Big Data no mercado</p><p>Diante deste cenário, novas tecnologias emergiram e muitas empresas investem recursos em soluções de Análise</p><p>de Dados (Data Analytics) cada vez mais robustas, sejam proprietárias ou open sources. O processo de análise de</p><p>dados pode ser definido em quatro etapas: análise descritiva, diagnóstica, preditiva e prescritiva.</p><p>Além disso, existem a Análise avançada de dados, ou seja, processo de observação autônomo ou semiautônomo</p><p>de dados ou conteúdo por intermédio de técnicas e ferramentas sofisticadas, normalmente além daquelas de</p><p>Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, realizar previsões ou gerar</p><p>recomendações de produtos ou serviços. Vejamos algumas delas:</p><p>Os sistemas tradicionais de análise de dados muitas vezes não suportam estruturas de dados com formatos e</p><p>tamanhos diversificados. Assim, é preciso garantir que a infraestrutura seja capaz de suportar essa diversidade de</p><p>dados e se certificar de que os dados estão sendo processados em um adequado intervalo de tempo.</p><p>Quando tratamos de Big Data, devemos pensa-lo a partir dos 5Vs, vamos entender quais são?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=VYFL5EjHjGk&feature=emb_imp_woyt</p><p>No artigo, Big data: conheça os 5V´s e sua aplicação prática para PMEs , Lucas Mitsuichi trata sobre o desafio</p><p>enfrentado pelas empresas para analisar a quantidade massiva de dados gerados pela alta conectividade digital em</p><p>que vivemos. Além de explicar o conceito de Big Data o autor também apresenta como aplicar à realidade de</p><p>pequenas, médias e grandes empresas.</p><p>Antes de partirmos para a próxima etapa precisamos nos aprofundar em alguns conceitos uteis para a</p><p>compreensão do ecossistema Big Data, vamos lá?</p><p>Primeiro precisamos compreender que os dados podem ser:</p><p>1) Estruturados: esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados</p><p>Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros.</p><p>2) Semiestruturados: estão espalhados pela Web em arquivos HTML, XML ou em Banco de Dados não</p><p>Relacionais, como o MongoDB, que possui uma estrutura semelhante a um arquivo JSON.</p><p>3) Não estruturados: arquivos textuais, vídeos, imagens, dados de sensores, mensagens em formulários ou em</p><p>campos de e-mails, posts no Facebook ou Twitter, arquivos de áudio e assim por diante.</p><p>Além da estrutura dos dados precisamos compreender o que são Banco de dados não relacionais (NoSQL).</p><p>Bancos de dados NoSQL surgiram como uma alternativa para armazenamento de dados com a finalidade de</p><p>oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados.</p><p>No vídeo NoSQL // Dicionário do Programador, a equipe do Código Fonte TV explica o que é um banco de dados</p><p>não relacionais. Assista para entender mais sobre esse assunto!</p><p>NoSQL // Dicionário do Programador</p><p>Não devemos pensar em Big Data somente em função dos tipos e estruturas de dados que manipularemos, ou</p><p>mesmo se extrairemos ou manipularemos informações de Bancos de Dados Relacionais ou não relacionais. Outro</p><p>ponto que precisamos considerar diz respeito ao volume de dados serem processados em batch (lote) ou em tempo</p><p>real.</p><p>O processamento em lote ou em batch refere-se à forma de processar transações, tendo em vista um grupo de</p><p>registros armazenados em um intervalo de tempo.</p><p>O processamento em tempo real captura um microlote de dados e disponibiliza de forma imediata para análise.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fpt.semrush.com%2Fblog%2Fbig-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes%2F&sa=D&sntz=1&usg=AOvVaw1Bz2E5v0qtDCCNyup8oiuL</p><p>https://www.youtube.com/watch?v=1B64oqE8PLs&feature=emb_imp_woyt</p><p>Uma arquitetura típica de Big Data precisa suportar o alto volume e a variedade de dados e processá-los em um</p><p>tempo hábil. O Hadoop é um framework Open-Source que permite o processamento distribuído de grandes massas</p><p>de dados por intermédio de clusters de computadores considerando modelos de programação simples.</p><p>CAPÍTULO 1 - COMPREENDENDO A</p><p>ANÁLISE DE INFORMAÇÃO NO</p><p>CONTEXTO DE BIG DATA</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Definir e esclarecer os principais conceitos relacionados ao Big Data.</p><p>Apresentar componentes que compõem a arquitetura.</p><p>Analisar e discutir, a partir dos conceitos e da compreensão dos componentes que fazem parte da</p><p>arquitetura de Big Data, a distinção entre o emprego</p><p>precisam suportar o grande volume de dados ou o fluxo</p><p>em tempo real. Além disso, ferramentas, frameworks e técnicas avançadas voltados para Big Data podem ser</p><p>utilizados para lidar com dados distribuídos. A etapa de análise de Big Data é fundamental para extrair valor</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Finfra%2FEMC-oferece-solucao-de-armazenamento-e-analise-de-Data-Lake%2F&sa=D&sntz=1&usg=AOvVaw1oZGbJXG2eNJ16WgpgoaDt</p><p>para os negócios e precisa ser bem projetada, por essa razão, precisa dar conta de toda a demanda,</p><p>fornecendo máxima transparência ao usuário final e entregando informações consistentes à próxima camada.</p><p>Alguns desses valores são essenciais para maximizar o lucro das empresas e também aprimorar o</p><p>conhecimento de seu próprio negócio e dos seus concorrentes. Com isso em mente, indústrias que trabalham</p><p>com quaisquer segmentos de fabricação (automotiva, alimentação, hospitalar etc.) visam sempre à melhoria</p><p>da sua eficiência na cadeia de produção com a otimização de recursos e redução de lucros. Não somente isso,</p><p>o conhecimento a respeito dos seus clientes, a busca pela sua fidelização e a definição de estratégias para</p><p>captura de novos clientes são atividades que representam o âmago da existência dessas companhias.</p><p>4.1.4 Camada de apresentação</p><p>A camada de apresentação pode ser chamada de camada de consumo ou front-end, diz respeito a como</p><p>publicar e apresentar os resultados obtidos pela análise. Por exemplo, na camada de armazenamento, é</p><p>importante você definir controle de acesso aos dados que serão consumidos, certificando quais áreas ou</p><p>pessoas da empresa podem interagir com os resultados e extrair os devidos insights. Os requisitos de</p><p>negócios podem exigir que se construa uma API específica ou mesmo uma ferramenta de análise, um</p><p>dashboard, um relatório ou mesmo um sistema de recomendação de produtos.</p><p>Além de usuários a camada de aplicação pode ser responsável por consumir aplicativos de diversos</p><p>segmentos, como de marketing (Myrrix) ou de mídias (Bluefin). Essa camada também pode alimentar</p><p>processos de negócio, resolvendo rapidamente problemas e respondendo a mudanças inerentes a esses</p><p>ambientes. A Figura 10 esquematiza a arquitetura de Big Data comentada nesta seção. A camada de extração</p><p>e integração é onde tudo começa e a camada de apresentação tem a ver com o consumo dos resultados</p><p>gerados pelas análises.</p><p>FIGURA 10 – UMA ARQUITETURA GENÉRICA PARA IMPLANTAÇÃO DE BIG DATA</p><p>ANALYTICS</p><p>FONTE: O autor</p><p>4.2 ECOSSISTEMA HADOOP</p><p>Uma arquitetura típica de Big Data precisa suportar o alto volume e a variedade de dados e processá-los em</p><p>um tempo hábil. O Hadoop é um framework Open-Source que permite o processamento distribuído de</p><p>grandes massas de dados por intermédio de clusters de computadores considerando modelos de</p><p>programação simples. Esses clusters são máquinas ou nós que estão distribuídos oferecendo recursos de</p><p>computação e armazenamento locais gerenciados por um servidor. Por intermédio do Apache Hadoop é</p><p>possível gerenciar um grande volume de dados dos mais variados formatos. Mais do que isso, a biblioteca</p><p>fornece mecanismos automatizados para detecção e correção de falhas e serviços com alta disponibilidade e</p><p>escalabilidade.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Conecte-se</p><p>A Apache disponibiliza uma lista de empresas que estão utilizando o Apache</p><p>Hadoop no seu Wiki: < https://wiki.apache.org/hadoop/PoweredBy >. Vale a</p><p>pena conferir.</p><p>Disponível aqui</p><p>Dentro do projeto Hadoop existem alguns módulos, dentre estes, destaca-se o Hadoop Distributed File System</p><p>(HDFS), que se preocupa com questões relacionadas ao armazenamento, enquanto que o Hadoop MapReduce</p><p>está interessado no processamento, ambos são componentes centrais do Hadoop. Nesta seção,</p><p>apresentaremos com um nível maior de detalhes os dois módulos. Entretanto, tenha em mente que existem</p><p>outros módulos core relacionados ao Hadoop, conforme mostra a Figura 11. Módulos centrais da arquitetura</p><p>Hadoop são core porque constituem como base para implementação do Hadoop.</p><p>FIGURA 11 – OUTROS MÓDULOS CORE RELACIONADOS AO HADOOP</p><p>FONTE: O autor</p><p>4.2.1 Hadoop Distributed File System (HDFS)</p><p>O Hadoop foi construído com o propósito de resistir às exigências da era Big Data, ou seja, grandes volumes</p><p>de dados podem ser processados em tempo hábil. Em uma arquitetura típica, vimos que precisamos utilizar</p><p>alguma forma de armazenamento que seja flexível e escalável para lidar com essa realidade. O HDFS é um</p><p>sistema de gestão de arquivos distribuído utilizado pelo Hadoop, que permite armazenar grandes conjuntos</p><p>de dados com diferentes tipos e formatos utilizando cluster de computadores, por intermédio de máquinas de</p><p>baixo custo (hardware commodity), ou seja, o armazenamento é distribuído entre as máquinas (nós) que</p><p>compõem o cluster.</p><p>Dessa forma, o HDFS garante uma alta capacidade de armazenamento de forma escalável segura, que inclui</p><p>replicação de dados e tolerância a falhas, como erros de leitura e escrita, que eventualmente venham a</p><p>acontecer, de maneira rápida e eficiente. Tudo realizado com máxima transparência e com módulos criados</p><p>especificamente para gerenciar operações de baixo nível, oferecendo-nos uma visão única de todo o processo</p><p>de armazenamento.</p><p>Diante disso, o HDFS possui uma arquitetura composta por dois componentes principais: o NameNode e o</p><p>DataNode. Foi projetado para lidar com casos de inclusão ou exclusão de commodities no cluster sem afetar o</p><p>andamento do processo de armazenamento.</p><p>Os NameNodes (master) serão os responsáveis por controlar o armazenamento físico dos dados nos nós,</p><p>ou seja, atuam como gerentes do HDFS. À medida que os dados chegam no HDFS eles são divididos em</p><p>blocos. O NameNode grava as informações de envio de cada bloco e os armazena nos DataNodes. Assim, os</p><p>NameNodes controlam informações centrais de acesso, leituras, gravações, criações e exclusões de blocos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwiki.apache.org%2Fhadoop%2FPoweredBy&sa=D&sntz=1&usg=AOvVaw2Iocq9fUWvvi40ezdeeXUR</p><p>https://www.google.com/url?q=https%3A%2F%2Fcwiki.apache.org%2Fconfluence%2Fdisplay%2Fhadoop%2FPoweredBy&sa=D&sntz=1&usg=AOvVaw33Qfns1pLF7EqgEOMfH3hX</p><p>de dados, criam metadados para mapear onde os dados estão armazenados. Por questões de segurança, a</p><p>replicação dos dados entre os DataNodes é algo importante, especialmente porque em caso de falha ou</p><p>pane, é possível que as informações sejam recuperadas. Ainda no que se refere a essa questão, um</p><p>segundo NameNode pode ser criado como alternativa para recuperação de falhas.</p><p>Os DataNodes (slaves) comunicam-se constantemente com o NameNode, processando e armazenando os</p><p>blocos de dados nos discos locais das máquinas destino. Essa comunicação é importante para que, em caso</p><p>de falha, o DataNode possa comunicar-se ao NameNode que executa um processo de recuperação.</p><p>4.2.2 Hadoop MapReduce</p><p>Talvez você conheça o algoritmo MapReduce , presente em algumas linguagens de programação. É um</p><p>modelo de programação simples e poderoso que processa de forma distribuída e paralela grandes conjuntos</p><p>de dados. O pressuposto do algoritmo é resolver problemas complexos, dividindo-os em pequenos conjuntos</p><p>de problemas e, em seguida, resolvendo-os de forma paralela. Isso é feito através de algumas etapas como:</p><p>Map : recebe como parâmetro um conjunto de dados de entrada, uma chave e um valor e realiza operações,</p><p>como filtragem, agrupamento e classificação. Um processo adicional que é capaz de organizar, ordenar e</p><p>transferir os dados de Map para o Reduce é conhecido como Shuffle e pode ser encontrado em alguns</p><p>esquemas que detalham o funcionamento</p><p>do MapReduce.</p><p>Reduce : é responsável por receber dados de Map no formato (chave, valor) em seguida realiza a agregação</p><p>e a redução dos dados.</p><p>Para exemplificar, considere que você está interessado em saber o total de funcionários de uma empresa por</p><p>departamento. Map receberá como input os funcionários e os departamentos que os alocam, mapeando-os</p><p>em um formato (chave, valor). Antes de serem entregues para Reduce, esses dados são organizados e</p><p>ordenados (Shuffle). Em seguida, Reduce recebe esse conjunto de valores, realiza a agregação somando o</p><p>número de funcionários por departamento e entrega o resultado final.</p><p>Conecte-se</p><p>Para conhecer mais a respeito do funcionamento do MapReduce, não deixe de</p><p>visitar o site: < https://yhoo.it/3aHIMBm >.</p><p>4.2.3 Hadoop: Common, Yarn e Ozone</p><p>A versão 2.x do Hadoop apresenta outros componentes core para arquitetura Hadoop.</p><p>Hadoop Common : projetado em linguagem Java, representa uma estrutura base que fornece suporte para</p><p>outros módulos construídos no Hadoop, por intermédio de uma coleção de bibliotecas e utilitários. É</p><p>considerado um core do Apache Hadoop, pois é um módulo que é iniciado automaticamente, tornando o</p><p>ecossistema do Hadoop “plugável”.</p><p>Hadoop YARN : consiste em um serviço central oferecido pelo Hadoop para gerenciamento global de</p><p>recursos e aplicações. É possível realizar o agendamento e o monitoramento de recursos de hardware,</p><p>como consumo de CPU, disco ou memória. Avaliar, por exemplo, se um nó dentro do cluster está</p><p>submetido a demasiadas cargas de trabalho ou apresenta algum outro problema (gargalo) que possa</p><p>comprometer o desempenho geral do cluster. De uma outra forma, o YARN deve garantir recursos</p><p>computacionais suficientes para execução de aplicações e ao mesmo tempo gerenciá-los para um bom</p><p>funcionamento em termos de armazenamento e processamento do Hadoop.</p><p>Hadoop Ozone : é um dos mais recentes módulos do Apache Hadoop. Ele propõe uma semântica para</p><p>armazenamento de dados no Hadoop. Por meio do Ozone é possível gerenciar arquivos grandes e</p><p>pequenos com uma arquitetura simples, com excelentes mecanismos de recuperação de falhas mais sérias</p><p>que possam ocorrer no cluster.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdeveloper.yahoo.com%2Fhadoop%2Ftutorial%2Fmodule4.html%23dataflow&sa=D&sntz=1&usg=AOvVaw10QqBi--nHn3eu5-PjEL62</p><p>4.2.4 Outros componentes do ecossistema Hadoop</p><p>Quando implantamos o Hadoop em nossos projetos, muitas vezes, surge a necessidade de incorporar novos</p><p>componentes que possam ser plugáveis à nossa arquitetura de modo que possamos explorar novas</p><p>possibilidades em nossas análises e atender às demandas do negócio com rapidez e eficiência. Assim,</p><p>encerramos este capítulo mostrando alguns destes componentes.</p><p>Apache Hive : se você precisa de uma camada para armazenar dados em lote, estruturados, que seja útil</p><p>para análises avançadas, o Hive pode ser a ferramenta certa. Sua sintaxe é simples, similar ao SQL, por</p><p>meio do Hive-QL (HQL), você pode manipular e gerenciar dados armazenados em um ambiente de Big Data.</p><p>Apache Pig : é um ambiente de execução interativo e mais acessível para lidar com fluxo de dados através</p><p>do Pig Latin (linguagem) e o Pig Runtime (ambiente de execução). É possível realizar pequenos testes de</p><p>execuções com uma sintaxe enxuta que suporta operações de carregamento e armazenamento de dados,</p><p>agrupamento, classificação de dados etc. Além disso, tarefas MapReduce e criação de mecanismos de</p><p>extração, transformação e carga podem ser utilizados.</p><p>Apache HBase : é um outro componente importante do ecossistema Big Data. É um Banco de Dados não</p><p>Relacional projetado para manter o alto desempenho e suportar diferentes formatos e estruturas de dados.</p><p>Apache Mahout : na camada de análise, é possível que estejamos interessados em implementar modelos</p><p>de Machine Learning. Neste caso, podemos optar pelo Mahout, que fornece uma biblioteca escalável para</p><p>trabalhar com aprendizagem de máquina e mineração de dados, sendo possível aplicar algoritmos, como</p><p>de clusterização e classificação em um ambiente preparado para garantir o alto desempenho na análise.</p><p>Apache Sqoop : é uma ferramenta robusta para extração de grandes volumes de dados, que</p><p>posteriormente serão carregados para o HDFS e vice-versa.</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Diante de tudo que foi exposto neste capítulo, é possível perceber que o surgimento de novas tecnologias,</p><p>aliado a outros fatores, corroboram para o crescimento do volume de dados digitais gerados em todo o</p><p>mundo. A dinâmica de mercado tem forçado as empresas a adotarem uma postura ofensiva para lidar com</p><p>situações adversas e a saída para isso, muitas vezes, está dentro de suas bases de dados. Assim, informações</p><p>estratégicas são fundamentais para manter a competitividade.</p><p>Os cases apresentados reforçam a tendência no aumento do volume de dados com a incorporação de novas</p><p>tecnologias em nosso cotidiano. Logo, acredita-se que a análise de dados crescerá na mesma proporção. Por</p><p>isso, é fundamental que empresas se empenhem em compreender que tipos e formatos de dados precisam</p><p>ser analisados. Dados não estruturados representam uma fonte rica para extração de insights e são alvo de</p><p>interesse das empresas especialmente nos dias de hoje. Por isso, é necessário construir uma arquitetura que</p><p>suporte o alto volume de dados e que seja flexível a variados tipos de estruturas.</p><p>Nesse cenário, o Big Data ganhou destaque para lidar com dados de grande volume, dos mais variados</p><p>formatos, tipos e tamanhos, tudo em um tempo hábil. Para que o Big Data faça sentido para o negócio, é</p><p>necessário que a arquitetura projetada realmente entregue valor para a organização, fornecendo</p><p>conhecimento útil ou não trivial. Por essa razão, construir uma arquitetura adequada e alinhada com os</p><p>objetivos do negócio é um desafio, mas perfeitamente possível. Conhecer os conceitos, os métodos e as</p><p>ferramentas disponíveis é o primeiro passo para que você possa combinar esse conhecimento com sua real</p><p>necessidade. Ao final deste capítulo apresentamos o Hadoop e alguns dos módulos que o compõem.</p><p>Recomendo fortemente que você busque informações mais detalhadas relacionadas ao Hadoop, a fim de</p><p>complementar o seu conhecimento. Não caia na tentação de explorar o Big Data na prática sem antes</p><p>compreender bem os conceitos que estão envolvidos.</p><p>Para saber mais sobre o Hadoop, assista os vídeos: O que é Hadoop? Parte 1, parte 2 e parte 3, do canal Big Data</p><p>sem mistério.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Agora que já compreendemos os principais conceitos ligados ao Big Data, vamos avançar. Na próxima etapa vamos</p><p>compreender técnicas para análise de Big data.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 2</p><p>Os gestores de negócios necessitam de respostas cada vez mais rápidas e o processo de análise precisa ser</p><p>pensado e remodelado para dar conta dessa exigência. Por isso, quando pensamos em construir uma arquitetura</p><p>de Big Data que possa resistir a essa dinâmica, precisamos criar mecanismos que otimizem todas as camadas de</p><p>análise.</p><p>Nesta etapa serão explorados conceitos, técnicas, ferramentas e aplicações no mundo Big Data, vamos começar</p><p>com o conceito de cluster, ou seja, agrupamento) em nível de dados.</p><p>A clusterização é uma técnica importante para classificar pontos de dados que não são rotulados previamente e</p><p>parte do pressuposto que, uma vez que pertençam a um mesmo grupo - de acordo com alguma métrica de</p><p>distância definida previamente</p><p>-, os pontos de dados são homogêneos entre si e assim podem ser rotulados.</p><p>A clusterização em Big Data pode ser dividida em duas principais categorias, conhecidas como: Single-Machine</p><p>clustering e Multi-Machine clustering. Vamos acompanhar os principais tópicos dessas duas categorias.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>É importante que você considere alguns fatores-chave para a seleção do melhor algoritmo:</p><p>Confira o vídeo da etapa 2:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 2</p><p>O crescimento das redes sociais reflete diretamente no consumo e na geração de conteúdo. Isso significa que</p><p>existe uma grande fonte de conhecimento que pode ser coletada, organizada e explorada por ferramentas</p><p>analíticas.</p><p>Os resultados obtidos a partir das análises de rede podem ajudar empresas a traçar estratégias para envolver o</p><p>público com a marca, analisar o sentimento do público com relação a um novo produto lançado, prever tendências</p><p>com base no comportamento social ou individual dos clientes, entre outras possibilidades.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=vDCpT8XCp9U&feature=emb_imp_woyt</p><p>No Artigo Análise de Redes Sociais, Da teoria à ação , Robson Oliveira explica as principais métricas para analisar</p><p>as redes sociais.</p><p>Além das redes sociais, existem outros dados não estruturados que são a maioria na atualidade. Analisar dados</p><p>não estruturados em tempos de Big Data parece ser um desafio. Por essa razão, diversas pesquisas têm sido</p><p>realizadas para construção de novos métodos, técnicas ou algoritmos para analisar dados textuais de grande</p><p>volume.</p><p>Em atividades de análise textual é preciso converter dados não estruturados para um formato estruturado</p><p>para que assim análises sejam aplicadas . Diante dessa situação, o Processamento de Linguagem Natural (PLN)</p><p>surge como uma alternativa do campo linguístico, que permite estudar relações entre palavras e sentenças em um</p><p>texto.</p><p>O mecanismo de busca e o tradutor do Google, bem como os corretores de texto, são alguns dos inúmeros</p><p>exemplos de aplicações do PLN.</p><p>No vídeo: Mineração de textos, Parte 1 Jones Granatyr apresenta uma introdução à área de mineração de texto. Já</p><p>no vídeo Mineração de Textos – Parte 2, Jones Granatyr apresenta tarefas e aplicações práticas da mineração de</p><p>textos.</p><p>Mineração de textos - Parte 1 Mineração de textos - Parte 2</p><p>O último assunto que abordaremos neste tópico é o Digital Analytics, ou Análise Digital. Mas o que é Digital</p><p>Analytics?</p><p>É um conjunto de atividades técnicas e de negócios que definem, criam, coletam, verificam ou transformam dados</p><p>digitais em relatórios, pesquisas, análises, recomendações, otimização, predições, que criam valor para os negócios</p><p>auxiliando empresas a criar valor, aumentando a receita ou reduzindo custos. Os dados digitais podem ser dados</p><p>comportamentais sobre como as pessoas usam e interagem com experiências digitais, dados ou metadados</p><p>relacionados a eventos, cliques e interações, é utilizada para responder perguntas de negócio e fornecer base para</p><p>decisões baseadas em fatos (PHILLIPS, 2014, p. 3-4).</p><p>Vamos verificar algumas métricas importantes que são utilizadas para monitorar sites ou lojas virtuais?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fblog.dp6.com.br%2Fan%25C3%25A1lise-de-redes-sociais-da-teoria-%25C3%25A0-a%25C3%25A7%25C3%25A3o-9dd1119c08fb&sa=D&sntz=1&usg=AOvVaw3uhwY-ld8TA4gB4IA-yfsL</p><p>https://www.youtube.com/watch?v=iIQax6NuRsg&feature=emb_imp_woyt</p><p>https://www.youtube.com/watch?v=zeDE89HtgiM&feature=emb_imp_woyt</p><p>Existem outras métricas digitais incorporadas em ferramentas voltadas para as análises digitais. O próprio Google</p><p>Analytics (ferramenta gratuita do Google) possui numerosas métricas e indicadores para auxiliar as empresas a</p><p>obterem ganho competitivo no mundo digital. No site de ajuda ao Google Analytics você pode ter uma visão ampla</p><p>da ferramenta .</p><p>CAPÍTULO 2 - COMPREENDENDO E</p><p>EXPLORANDO TÉCNICAS PARA ANÁLISE</p><p>DE BIG DATA</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Conceituar e aplicar técnicas avançadas no mundo dos negócios.</p><p>Apresentar, descrever e explorar técnicas para análise de grandes volumes de dados.</p><p>Discutir e demonstrar a aplicação de diferentes técnicas para análise de Big Data.</p><p>1 CONTEXTUALIZAÇÃO</p><p>No capítulo anterior, vimos que o massivo crescimento no volume de dados exigiu novas demandas para</p><p>análise de dados. A pergunta que surge é: como criar uma alternativa para lidar com toda essa dinâmica e</p><p>entregar respostas rápidas tendo em vista o suporte à tomada de decisão? Mais do que isso, como podemos</p><p>tornar esse processo menos custoso nas empresas? É importante pensar nesses questionamentos a fim de</p><p>fornecer soluções apropriadas para o negócio para garantir um bom custo-benefício.</p><p>Nos últimos anos, novas tecnologias (ou fontes de dados) têm surgido e são capazes de criar conteúdo ou</p><p>produzir dados em um menor intervalo de tempo. Por exemplo, drones são responsáveis por criar conteúdo</p><p>relacionado a imagens, que podem ser úteis para mapear áreas de risco na agricultura, medir grau de poluição</p><p>nos rios e monitorar áreas de preservação ambiental para combater o desmatamento. Sensores dos mais</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://support.google.com/analytics/#topic=3544906</p><p>https://support.google.com/analytics/#topic=3544906</p><p>diversos tipos e tamanhos representam uma outra rica fonte de dados que podem ser utilizados também para</p><p>fins de monitoramento, como: eficiência de máquinas na produção de peças automotivas, sensores de</p><p>imagens para detecção de materiais e peças, ou sensores magnéticos para abertura e fechamento de portas</p><p>ou portões.</p><p>Como estamos imersos em tecnologias inovadoras, sem nos dar conta disso, não precisamos ir muito longe</p><p>para ratificar. Se você pegar seu smartphone, constatará que existem algumas funcionalidades que</p><p>incorporam o uso de sensores. Quando você programa o controle de brilho na sua tela de forma automática, o</p><p>sensor fará uma leitura da luminosidade do ambiente e a adequará a sua tela. Sensores de acelerômetro</p><p>conseguem medir informações de orientação do aparelho e também determinar altitude por meio de</p><p>giroscópios. São muitos exemplos práticos em que a tecnologia está onipresente. Nesse universo tecnológico</p><p>são muitos dados sendo produzidos e estamos diante de uma realidade na qual ferramentas tradicionais de</p><p>análise de dados não fornecem o devido suporte, o Big Data emergiu a partir disso.</p><p>Nessa atual conjuntura, vimos que o Big Data pode ser definido, mesmo que de forma mais simplista, em</p><p>função do volume e variedade dos dados que são extraídos e analisados no tempo certo, ou seja, em uma</p><p>velocidade ideal de acordo com a demanda dos negócios. Os gestores de negócios, por sua vez, necessitam de</p><p>respostas cada vez mais rápidas e o processo de análise precisa ser pensado e remodelado para dar conta</p><p>dessa exigência. Por isso, quando pensamos em construir uma arquitetura de Big Data que possa resistir a</p><p>essa dinâmica, precisamos criar mecanismos que otimizem todas as camadas de análise. Desde o momento</p><p>que coletamos os dados até o instante em que apresentamos as visualizações ao usuário final. Vale frisar que</p><p>esse processo não termina quando você implanta um modelo ou apresenta visualizações. Ao contrário, todo o</p><p>processo de Big Data é iterativo,</p><p>precisando sempre ser monitorado e, quando necessário, readaptado sob</p><p>demanda. Por essa razão, a arquitetura precisa ser muito bem pensada, a fim de ser menos sensível a</p><p>eventuais modificações. Portanto, é vital que os objetivos de negócio (definido na etapa de requisitos) tenham</p><p>um escopo bem definido para que os analistas possam direcionar seus estudos em função das reais</p><p>necessidades da empresa.</p><p>Neste capítulo serão explorados conceitos, técnicas, ferramentas e aplicações no mundo Big Data. Você</p><p>conhecerá algoritmos e técnicas baseadas em cluster, assim como compreenderá a importância da análise de</p><p>dados em redes sociais. Serão abordadas técnicas para analisar dados não estruturados e, por fim, o capítulo</p><p>será encerrado com um estudo sobre o Digital Analytics, conceitos e implicações no mundo dos negócios. Faça</p><p>bom proveito e bons estudos!</p><p>2 CLUSTER: CONCEITOS E ALGORITMOS BASEADOS EM BIG DATA</p><p>Nós já comentamos sobre cluster no final do capítulo anterior, mas o cluster que abordaremos nesta seção</p><p>não se refere a um cluster físico ou hardware, embora grande parte do conhecimento obtido possa ser</p><p>reaproveitado, mas, sim, diz respeito ao clustering (agrupamento) em nível de dados, que exploraremos a</p><p>seguir.</p><p>2.1 CLUSTERING: CONCEITOS, TÉCNICAS E ALGORITMOS</p><p>Em uma análise de dados tradicional, a clusterização (ou clustering) é um método que visa classificar um</p><p>conjunto de pontos de dados semelhantes em um mesmo grupo, ou seja, são pontos que apresentam um</p><p>elevado grau de similaridade entre si. Enquanto que, por outro lado, pontos de dados que estão fora da</p><p>margem desse grupo podem formar outros clusters que possuem elevado grau de dissimilaridade entre eles.</p><p>A clusterização é uma técnica importante para classificar pontos de dados que não são rotulados previamente</p><p>e parte do pressuposto que, uma vez que pertençam a um mesmo grupo - de acordo com alguma métrica de</p><p>distância definida previamente -, os pontos de dados são homogêneos entre si e assim podem ser rotulados.</p><p>De acordo com a Figura 1, os pontos de dados foram classificados em três grandes grupos (A, B e C)</p><p>considerando alguma métrica de distância. A linha que divide o grupo de dados representa a fronteira de</p><p>decisão que segmenta os grupos. É possível utilizar algumas métricas de distância que se adéquam a</p><p>determinados tipos de dados, tais como distância Euclidiana, de Minkowski, de Manhattan, correlação, entre</p><p>outras.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Conecte-se</p><p>Você pode se aprofundar mais com relação às métricas de distância por meio</p><p>deste link: < https://bit.ly/2EbW25A >.</p><p>Disponível aqui</p><p>Quanto ao grau de dissimilaridade (ou divergência), ele é importante para garantir que os pontos de dados</p><p>que foram classificados fora da região (ou margem) de um grupo realmente não fazem parte daquele</p><p>determinado grupo. Isso oferece uma alternativa adicional para verificar o erro de classificação dos objetos.</p><p>Assim, podemos afirmar que o grau de dissimilaridade dos objetos em um cluster é dado por:</p><p>Dissimilaridade = 1 – Similaridade, onde:</p><p>Dissimilaridade ͼ [0,n]</p><p>FIGURA 1 – ANÁLISE DE DADOS BASEADA EM CLUSTER IDEAL PARA CLASSIFICAR</p><p>PONTOS DE DADOS NÃO ROTULADOS PREVIAMENTE (APRENDIZAGEM NÃO</p><p>SUPERVISIONADA), EM GRANDES GRUPOS</p><p>FONTE:</p><p>< https://www.geeksforgeeks.org ></p><p>. Acesso em: 2 fev. 2019.</p><p>Os métodos tradicionais baseados em cluster são muito utilizados em mineração de dados com diferentes</p><p>finalidades e podem ser divididos em:</p><p>Métodos de particionamento : é um método que inicialmente cria uma partição inicial definindo um</p><p>número fixo para o parâmetro K. Ao longo do processo iterativo, busca otimizar o particionamento</p><p>utilizando como parâmetro alguma medida de distância (ou similaridade) que possa ser implementada</p><p>através de algoritmos como K-means (ou c-means), CLARANS, PAN etc.</p><p>Conecte-se</p><p>Uma forma interativa de observar visualmente o funcionamento de um método</p><p>de particionamento é através desta pequena aplicação: < https://bit.ly</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.maxwell.vrac.puc-rio.br%2F7975%2F7975_3.PDF&sa=D&sntz=1&usg=AOvVaw34v2JTje5hCQkdm7LnjLHb</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EbW25A&sa=D&sntz=1&usg=AOvVaw0vKabCmh9KUZwCRkgvSlpt</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.geeksforgeeks.org%2Fclustering-in-machine-learning%2F&sa=D&sntz=1&usg=AOvVaw1BU6Ga-ukg6qvW9goBrhrJ</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>/2ErCw4D >. Você define o número de nós (N) do cluster e, em seguida, o</p><p>parâmetro K (número de clusters). Os pontos coloridos são o ponto de referência</p><p>para a formação dos grupos. Clique em “New” quantas vezes você julgar</p><p>necessário. Por fim, ao clicar em “Step” você tem a representação.</p><p>Disponível aqui</p><p>Métodos hierárquicos : este tipo de método particiona os dados no cluster de forma hierárquica e fornece</p><p>uma visualização em formato de “dendograma”, que classifica os objetos de acordo com os seus níveis,</p><p>considerando como parâmetro medidas de distância ou similaridade entre os pontos de dados. Os métodos</p><p>hierárquicos podem ser classificados como aglomerativo (abordagem bottom-up) ou divisivo (top-down),</p><p>estes, por sua vez, no que se refere a questões de interpretabilidade, necessitam de participação ativa de</p><p>um especialista do domínio para esclarecer os resultados. Exemplos de algoritmos que implementam</p><p>métodos hierárquicos são: ROCK, DIANA, BIRCH, entre outros.</p><p>Métodos baseados em densidade : são métodos que avaliam a densidade em torno dos pontos que os</p><p>cercam para definir a fronteira do cluster de acordo com um determinado raio, ou seja, o crescimento da</p><p>região de densidade pode acontecer em quaisquer direções. Regiões do cluster que apresentam baixa</p><p>densidade podem indicar a presença de outliers (anomalias). Alguns exemplos de algoritmos deste método</p><p>são: DBSCAN, DENCLUE e OPTICS.</p><p>Métodos baseados em modelos : considera que os pontos de dados estejam em função de probabilidade</p><p>multivariada, criando hipóteses para os grupos na tentativa de otimizar e encontrar um melhor modelo</p><p>que classifique os grupos com base nesses ajustes estatísticos. Expectation-Maximization (EM) e Self-</p><p>Organizing Map (SOM) são alguns exemplos de algoritmos relacionados a esse método.</p><p>Métodos baseados em grid : basicamente divide o espaço de dados em células formando uma estrutura</p><p>em grid e define os clusters considerando a elevada densidade das células adjacentes. Alguns algoritmos</p><p>que podem ser implementados são: STING, WaveCluster e GRIDCLUS.</p><p>Métodos evolutivos : inspirado em algoritmos genéticos e outras abordagens evolutivas, tem como objetivo</p><p>explorar de forma iterativa um conjunto inicial e aleatório de soluções (clustering) e verifica, dentre estas,</p><p>qual é a melhor solução. O critério de parada é determinado a priori.</p><p>O problema dos algoritmos tradicionais de agrupamento está relacionado a sua ineficiência para lidar com</p><p>grandes volumes de dados , o que acaba comprometendo todo o tempo da análise e tornando a utilização de</p><p>Big Data inviável para esse tipo de análise. Assim, a comunidade científica não mediu esforços para superar</p><p>esse desafio e, dessa maneira, foram propostas novas abordagens para enfrentar esse problema. Assim,</p><p>novos algoritmos foram propostos com a promessa de tornar esse tipo de análise adaptável à era do Big Data,</p><p>oferecendo não somente suporte a massivos volumes de dados, como também a capacidade de serem</p><p>escaláveis para atender à demanda das análises.</p><p>Diante disso, a clusterização em Big Data pode ser dividida em duas principais categorias, conhecidas como:</p><p>Single-Machine clustering e Multi-Machine clustering. A principal diferença é que a primeira utiliza</p><p>recursos</p><p>computacionais de uma única máquina para executar os dados, enquanto que a segunda pode utilizar</p><p>recursos de várias máquinas para obtenção de ganho computacional e aumento de escalabilidade.</p><p>Chen, Ludwig e Li (2017) apresentaram um resumo das técnicas de cluster voltadas para a Big Data que pode</p><p>lhe fornecer uma boa base para a compreensão do tema. A Figura 2 apresenta uma esquematização de</p><p>técnicas e de clusterização que visa atender às necessidades do Big Data.</p><p>FIGURA 2 – O BIG DATA CLUSTERING PODE SER DIVIDIDO EM DUAS GRANDES</p><p>TÉCNICAS: SINGLE E MULTI-MACHINE CLUSTERING</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>http://www.google.com/url?q=http%3A%2F%2Ftech.nitoyon.com%2Fen%2Fblog%2F2013%2F11%2F07%2Fk-means%2F&sa=D&sntz=1&usg=AOvVaw0dYDGHZmnVIAKbVBJY-MZ3</p><p>FONTE: Chen, Ludwig e Li (2017, p. 338)</p><p>Nas próximas seções, exploraremos técnicas de Single-Machine Clustering e, em seguida, abordaremos as</p><p>técnicas de Multi-Machine Clustering.</p><p>2.1.1 Técnicas de Clusterização em uma Única Máquina (Single-Machine Clustering)</p><p>Muitos dos algoritmos voltados para a análise em cluster são computacionalmente custosos e estão contidos</p><p>em classes de problemas NP-difícil , como é o caso do K-means - um dos algoritmos de particionamento mais</p><p>populares. Assim, uma das primeiras maneiras de enfrentar problemas dessa natureza foi através da criação</p><p>de técnicas e algoritmos voltados para Single-Machine Clustering com o intuito de atender e dar suporte à alta</p><p>demanda no volume de dados na era Big Data. Dessa forma, conforme mostrado por Chen, Ludwig e Li (2017),</p><p>podemos dividir as técnicas de Single-Machine clustering de duas formas: as que são baseadas em</p><p>amostragem e aquelas voltadas para a redução de dimensionalidade :</p><p>Técnicas baseadas em amostragem : tem como objetivo generalizar o conhecimento dos dados a partir de</p><p>uma pequena amostra (sample) retirada de todo o conjunto de dados. Assim, em vez de manipular todo o</p><p>volume de dados disponível, os algoritmos trabalham apenas com uma pequena parcela do conjunto, isso</p><p>significa um menor número de pontos de dados. Em razão disso, obtem-se um ganho de desempenho e os</p><p>efeitos da complexidade computacional são minimizados. A maioria das técnicas baseadas em amostragem</p><p>fazem parte da classe de algoritmos de particionamento. Em geral, os algoritmos são: BIRCH, CLARANS,</p><p>PAM e assim por diante.</p><p>Técnicas de redução de dimensionalidade : o tamanho dos dados (dimensão) diz respeito ao número total</p><p>de atributos (variáveis) em relação ao número total de instâncias em um conjunto de dados. Caso você</p><p>estiver diante de um conjunto de dados com dimensão (2000000, 500) saiba que seria algo muito mais</p><p>custoso que trabalhar com conjuntos de dimensões (4000, 200). É em função dessa problemática que as</p><p>técnicas de redução de dimensionalidade foram pensadas, isto é, reduzir a dimensionalidade do conjunto</p><p>de dados para tornar o ambiente de execução mais ágil. Desta forma, uma alternativa para resolver esse</p><p>problema seria reduzir a dimensão do conjunto de dados aplicando tarefas de pré-processamento antes</p><p>mesmo de aplicar os algoritmos de análise em cluster. O PCA (Principal Component Analysis) é um dos</p><p>métodos mais populares que você pode utilizar para a redução de dimensionalidade, ao remover atributos</p><p>desnecessários e redundantes para a análise. Métodos de projeção locais e globais também podem ser</p><p>utilizados para este fim. Essas técnicas são muito utilizadas também para extração e seleção de features</p><p>para fins de otimização quando construímos modelos de Machine Learning.</p><p>2.1.2 Técnicas de Clusterização em Múltiplas Máquinas (Multi-Machine Clustering)</p><p>Uma maneira aperfeiçoada para processar os dados em uma análise em cluster é segmentar conjuntos de</p><p>dados em partições reduzidas e carregá-los em máquinas diferentes com o objetivo de tirar vantagem do</p><p>processamento individual dessas máquinas para ganhar em escalabilidade e tempo de processamento. Em</p><p>suma, é dessa maneira que as técnicas de Multi-Machine clustering foram projetadas. Como já vimos na Figura</p><p>2, podemos dividir essas técnicas em duas grandes categorias: clusterização paralela e clusterização baseada</p><p>em MapReduce. Em ambos os casos, os dados são particionados e distribuídos em máquinas diferentes que</p><p>executam iterativamente suas operações de cluster localmente e entregam os resultados a um cluster final</p><p>que agrega os resultados locais e gera o resultado final.</p><p>Clusterização paralela : os dados são distribuídos em diferentes máquinas e precisam ser gerenciados pelo</p><p>desenvolvedor. É evidente que este é um processo que demanda mais esforço na implementação, porém,</p><p>uma vez executado, os resultados apresentam melhor desempenho em relação a abordagens tradicionais de</p><p>processamento. Pode-se citar alguns algoritmos, como ParMETIS, G-DBSCAN, K-Means, PBIRCH e DBDC.</p><p>Grande parte desses algoritmos foram reformulados para suportar a computação paralela.</p><p>ParMETIS : é um algoritmo de particionamento paralelo, derivado do METIS, que foi otimizado com a</p><p>finalidade de encontrar um bom cluster de vértices em um grafo.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>G-DBSCAN : você recorda da versão DBSCAN que citamos em métodos baseados em densidade? Foi</p><p>construído uma versão otimizada do DBSCAN, baseada em GPU, para incrementar o poder de</p><p>processamento, bem como a velocidade do algoritmo.</p><p>K-Means : também foi remodelado para atender às exigências do paralelismo. Existem diversos trabalhos</p><p>que fornecem métodos de paralelização utilizando este algoritmo.</p><p>PBIRCH : uma versão derivada do algoritmo BIRCH dos métodos hierárquicos.</p><p>DBDC : consiste em um algoritmo paralelo que constrói clusters utilizando como parâmetro a densidade dos</p><p>pontos.</p><p>Clusterização baseada em MapReduce : é verdade que a clusterização paralela trouxe melhorias</p><p>significativas em termos de desempenho no que se refere a dados de grande volume. Entretanto, como já</p><p>foi abordado, na clusterização paralela existe uma complexidade maior de gerenciamento por parte do</p><p>desenvolvedor, que precisa se preocupar com detalhes inerentes à paralelização, por exemplo, definir como</p><p>os dados serão distribuídos ou como criar mecanismos que forneçam suporte de tolerância a falhas. O</p><p>MapReduce é um modelo de programação simples que permite que o desenvolvedor se preocupe apenas</p><p>com a estratégia que será adotada, tornando as tarefas de mais baixo nível transparentes enquanto os</p><p>dados são processados. Podemos afirmar que essa é uma das principais diferenças entre esses dois tipos</p><p>de clusterização. Da mesma forma que na clusterização paralela, o K-means também foi adaptado à</p><p>abordagem MapReduce, conforme mostra a Figura 3. Algoritmos como MR-DBSCAN e DBCURE-MR, MR-</p><p>CPSO, EM e BIRCH também foram aperfeiçoados com o emprego do MapReduce. Além disso, algumas</p><p>abordagens propõem o uso de GPU (GPMR) para processar algoritmos para este fim. Dentre elas,</p><p>destacam-se:</p><p>MR-DBSCAN : a união de um método baseado em densidade e um modelo de programação MapReduce</p><p>permitiu a construção desse algoritmo.</p><p>DBCURE-MR : consiste em um modelo baseado em densidade combinado com o MapReduce, aprimorado</p><p>para encontrar eficientemente diversos clusters de forma independente, considerando as densidades que</p><p>compõem os clusters.</p><p>GPMR : é uma maneira ainda mais otimizada de conduzir a forma de processamento baseado em CPU para</p><p>GPU utilizando o MapReduce. Permite um desempenho e uma escalabilidade ainda maior.</p><p>FIGURA 3 – UMA PROPOSTA DE APLICAÇÃO DO MAPREDUCE AO ALGORITMO</p><p>K-MEANS CLUSTERING</p><p>FONTE:</p><p>< https://portal.futuresystems.org</p><p>>. Acesso em: 10 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fportal.futuresystems.org%2Ftwister-kmeans&sa=D&sntz=1&usg=AOvVaw0X8yoV1xpc1VeP0fLV25fL</p><p>Tendo em mente as técnicas e os algoritmos baseados em cluster que foram apresentados até o presente</p><p>momento, pode ser que você se pergunte: “Qual desses algoritmos é o mais indicado?”. A resposta é simples:</p><p>depende . De fato, tudo dependerá do domínio do problema que você está trabalhando. Por exemplo, se você</p><p>estiver diante de um cenário onde o volume e a variedade dos dados estejam sujeitos a poucas alterações,</p><p>talvez o mais indicado seja empregar métodos tradicionais de cluster, como particionamento ou hierárquico,</p><p>ou mesmo, de densidade. Por outro lado, se os requisitos de negócio exigirem que você trabalhe com uma</p><p>ampla variedade e volume de dados, seria bom pensar em técnicas voltadas para o processamento em</p><p>múltiplas máquinas, paralelizando o conjunto de dados para compensar a possibilidade de altas taxas de</p><p>latência devido ao processamento de dados de grande volume. Tenha sempre em mente que, se o problema é</p><p>simples, resolva-o da forma mais simplificada possível. Não agregue complexidade ao utilizar algoritmos de</p><p>múltiplas máquinas em cenários de implementação de baixa complexidade. Portanto, direcione suas análises</p><p>e decisão de escolha dos algoritmos sempre de acordo com o domínio (ou problema) que está sendo</p><p>explorado. De qualquer modo, é importante que você considere alguns fatores-chave para a seleção do</p><p>melhor algoritmo:</p><p>Volume dos dados : como já estudamos, grande parte dos algoritmos de clusterização apresenta alta</p><p>complexidade computacional, por esse motivo, métodos e técnicas tradicionais somente devem ser</p><p>empregados em conjuntos de dados pequenos.</p><p>Variedade dos dados : algoritmos de clusterização não são projetados para lidarem com tipos de dados</p><p>diferentes. Ao contrário, em geral, ou funcionam bem em dados numéricos ou em dados categóricos. A</p><p>etapa de transformação também pode se tornar custosa para lidar com a variedade dos dados obtidos da</p><p>fonte. Conhecer o tipo de dado aceito pelos algoritmos que pretendemos utilizar é uma tarefa importante.</p><p>Total de parâmetros : quanto maior a dimensão vertical (colunas) dos dados mais difícil se torna a tarefa de</p><p>clusterização. Por isso, métodos de redução de dimensionalidades podem ser úteis para minimizar os</p><p>efeitos que o excesso de parâmetros possa causar.</p><p>Dimensionalidade : está relacionado ao número de linhas e colunas que podemos exigir</p><p>consideravelmente dos algoritmos de clusterização. Remover dimensões irrelevantes é uma etapa</p><p>fundamental para melhorar o desempenho da análise.</p><p>2.2 CLUSTERING: APLICAÇÕES</p><p>Uma enquete realizada em 2017 pelo KDnuggets mostrou que, entre os métodos voltados para a ciência de</p><p>dados e aprendizagem de máquina, a clusterização foi o segundo método mais empregado (55%) pelos</p><p>usuários em cenários reais de aplicação, ficando atrás apenas dos métodos de regressão (60%). Os resultados</p><p>também apontam bons números de uso dessa técnica na indústria, que ficou em torno de 60%, e na área de</p><p>pesquisa: 56,8%.</p><p>Conecte-se</p><p>Com relação a essa enquete, acesse o site < https://www.kdnuggets.com >.</p><p>Disponível aqui</p><p>O que retrata tudo isso é a diversidade de aplicações que empregam as análises em cluster, conforme será</p><p>mostrado a seguir:</p><p>Segmentação de clientes : as empresas inclinam-se a descobrir padrões de consumo de seus clientes</p><p>dividindo-os em grupos distintos e tomando como base informações contidas em suas bases ou, em alguns</p><p>casos, fontes externas para agregar conhecimento aos seus negócios e melhorar a experiência de seus</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2017%2F12%2Ftop-data-science-machine-learning-methods.html&sa=D&sntz=1&usg=AOvVaw0c96121LJeafRRhIFlCjhK</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com&sa=D&sntz=1&usg=AOvVaw2doznPUR-3uFKtM_rOCvv3</p><p>produtos.</p><p>Detecção de anomalias : a análise em cluster também é utilizada para dividir grupos entre atividades</p><p>suspeitas (ou ações fraudulentas) e atividades normais de compras no cartão de crédito com base no</p><p>histórico de compras e renda dos clientes, por exemplo.</p><p>Mecanismos de pesquisa : visam agrupar um conjunto de documentos com base em suas similaridades.</p><p>Quando pesquisamos algo em algum buscador, este retorna um conjunto de artigos ou documentos que</p><p>possuem elevada similaridade com a palavra-chave que digitamos.</p><p>Segmentação de imagens : dados de imagens como pixels também podem ser utilizados para classificar</p><p>imagens em visão computacional. Evidentemente que a tarefa se torna mais complexa em cenários dessa</p><p>natureza e, por essa razão, técnicas paralelas de análise de cluster têm sido empregadas nesses casos.</p><p>Conecte-se</p><p>Este artigo mostra alguns casos de aplicações que utilizam o algoritmo de</p><p>clusterização K-means. Acesse: < https://bit.ly/34iE6AQ >.</p><p>Segue mais um link que pode complementar o seu aprendizado com relação a</p><p>um dos algoritmos mais conhecidos para a análise de clusters - o K-Means:</p><p>< https://bit.ly/2SCYXYC >.</p><p>Na próxima seção você aprenderá a respeito de uma análise comumente empregada, especialmente com o</p><p>advento de um novo meio de interação digital: os relacionamentos digitais. Assim, estudaremos conceitos e</p><p>componentes de análise de rede, especialmente redes sociais que ampliarão o seu leque de possibilidades de</p><p>análises mais avançadas.</p><p>3 SOCIAL NETWORK: COMPREENDENDO CONCEITOS E APLICAÇÕES PARA A ANÁLISE DE DADOS</p><p>EM REDES SOCIAIS</p><p>Um dos meios que mais retratam essa nova era digital são as redes sociais. Não há dúvidas de que muitos</p><p>dados têm sido gerados a partir de posts no Facebook, imagens no Instagram, vídeos no Youtube, entre outras</p><p>redes sociais. Enfim, uma diversidade de conteúdos sendo produzidos por usuários em todo o planeta. Um</p><p>relatório publicado em 2018 pela We Are Social revelou que o total de usuários de mídias sociais cresceu 13%</p><p>em relação ao ano anterior, totalizando 3 bilhões e 196 milhões de usuários. O mesmo relatório apontou algo</p><p>curioso: os brasileiros consomem em média 3 horas e 39 minutos por dia com redes sociais, ocupando a</p><p>segunda colocação dos países que mais gastam tempo em redes sociais, ficando atrás apenas dos filipinos,</p><p>que consomem 3 horas e 57 minutos do tempo</p><p>Conecte-se</p><p>Com relação a esse relatório, acesse o site < https://bit.ly/2CQOWTu >.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2F10-interesting-use-cases-for-the-k-means-algorithm&sa=D&sntz=1&usg=AOvVaw2l_KhLng4b_kT38cZxpCUC</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2SCYXYC&sa=D&sntz=1&usg=AOvVaw1k9GBEJEyIIfVgZaljMJ8W</p><p>https://www.google.com/url?q=https%3A%2F%2Fwearesocial.com%2Fblog%2F2018%2F01%2Fglobal-digital-report-2018&sa=D&sntz=1&usg=AOvVaw347yKnO7ytyEovc-9qft96</p><p>https://www.google.com/url?q=https%3A%2F%2Fwearesocial.com%2Fblog%2F2018%2F01%2Fglobal-digital-report-2018-4%2F&sa=D&sntz=1&usg=AOvVaw1I5raUNwHmo5RbaOY-_rCZ</p><p>Essa realidade evidencia o crescimento das redes sociais, que reflete diretamente no consumo e na geração de</p><p>conteúdo. Isso significa que existe uma grande fonte de conhecimento que pode ser coletada, organizada e</p><p>explorada por ferramentas analíticas. Os resultados obtidos a partir disso podem ajudar empresas a traçar</p><p>estratégias para envolver o público com a sua marca, analisar o sentimento do público com relação a um novo</p><p>produto lançado, prever tendências com base no comportamento social ou individual dos clientes, entre</p><p>outras possibilidades. Para que você possa tirar proveito desta seção, atente-se aos conceitos e às técnicas</p><p>que serão apresentadas.</p><p>3.1 ANÁLISE DE REDES SOCIAIS: CONCEITOS IMPORTANTES</p><p>Usualmente uma rede pode ser definida</p><p>em função da teoria dos grafos: um grafo composto por um conjunto</p><p>de vértices e arestas. No âmbito de redes sociais, os vértices representam os atores sociais (organização,</p><p>pessoas ou entidades) e as arestas o relacionamento (links) entre eles. Assim, através de uma rede social</p><p>podemos observar os relacionamentos entre pessoas compreendendo inclusive o grau de relacionamento e</p><p>interação entre elas. O foco da análise desse tipo de rede está nas relações construídas entre os atores que se</p><p>constitui em forma de amizade, confiança, interesse, parentesco, entre outros aspectos. A diagramação é</p><p>normalmente representada por grandes quantidades de vértices (nós) e arestas (laços) e retratam a</p><p>complexidade deste ambiente.</p><p>A análise de redes sociais parte do pressuposto que extrairemos, além da capacidade, meras informações</p><p>quantitativas, tais como o total de amigos que fazem parte de um círculo social de uma pessoa. A ideia é ir a</p><p>fundo e estudar aspectos relacionais no que diz respeito à influência comportamental de uma pessoa ou</p><p>um grupo de pessoas, ou mesmo, o grau de conexão em relação aos outros componentes que estão</p><p>interconectados. É por isso que esse tipo de análise é interdisciplinar e incorpora, além de análises</p><p>computacionais e matemáticas, as ciências sociais, a administração, a antropologia, a própria geografia etc. A</p><p>Figura 4 exemplifica a representação de uma rede com suas interações. Os grupos podem ser divididos por</p><p>cores e tamanhos. Os relacionamentos entre os vértices podem ser também representados pela espessura</p><p>das linhas para reforçar o grau de conexão entre estes.</p><p>Além da representação por grafos, as redes sociais podem ser definidas por intermédio de matrizes ou lista de</p><p>dados, que, por sua vez, possuem uma representação mais matemática e podem ser reveladas através de</p><p>números. O grafo da Figura 4 é considerado direcionado , uma vez que os vértices possuem uma direção</p><p>predefinida. Em contrapartida, grafos que não possuem orientação e têm como função apenas conectar os</p><p>elementos (vértices) de um grafo são conhecidos como não direcionados . Os grafos também podem ser</p><p>ponderados , isto é, as relações entre os vértices podem carregar um peso ou uma força associada. Para</p><p>determinar o grau de um vértice em um grafo não direcionado, é preciso verificar o número de arestas que</p><p>incidem sobre ele. Em grafos direcionados , o grau de um vértice é calculado por meio da contagem de</p><p>arestas que entram (grau de entrada) e saem (grau de saída) de um vértice.</p><p>Conecte-se</p><p>Você pode explorar um pouco mais a respeito da teoria dos grafos por meio</p><p>desse tutorial interativo: < https://bit.ly/2Ylf8gk >.</p><p>Disponível aqui</p><p>FIGURA 4 – UM EXEMPLO DE UMA ESTRUTURA DE ANÁLISE DE REDE SOCIAL. OS</p><p>VÉRTICES NORMALMENTE POSSUEM CARACTERÍSTICAS, TAMANHOS E CORES. OS</p><p>RELACIONAMENTOS SÃO REPRESENTADOS PELOS LAÇOS QUE INDICAM OS VÉRTICES</p><p>QUE ESTÃO INTERLIGADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fmrpandey.github.io%2Fd3graphTheory%2Funit.html&sa=D&sntz=1&usg=AOvVaw2ZdKAwkTQStSKbV1raUnwM</p><p>https://www.google.com/url?q=https%3A%2F%2Fd3gt.com%2Funit.html&sa=D&sntz=1&usg=AOvVaw0cdgMgs0xcc62pqt2YZ3RU</p><p>FONTE:</p><p>< https://www.smrfoundation.org</p><p>>. Acesso em: 10 nov. 2018.</p><p>Liu et al. (2016) destaca que a estrutura das redes sociais pode ser dividida em três substâncias básicas: o ator,</p><p>o relacionamento e a rede, conforme descritos a seguir:</p><p>Ator : os atores sociais são os vértices da rede e podem representar organização, indivíduos ou entidades.</p><p>Algumas atividades podem ser realizadas a partir dos atores, como identificar quais os atores centrais em</p><p>uma rede que possui um elevado número de conexões ou relacionamentos e qual a importância que estes</p><p>exercem dentro da rede.</p><p>Relacionamento : descreve a relação entre dois vértices. O relacionamento entre os atores pode assumir</p><p>características que consideram direção e força . Os atores podem ter relacionamentos do tipo direcionado</p><p>ou não direcionado. Quando há o direcionamento , o sentido é relevante, dizer que um carro que saiu de</p><p>uma cidade A e foi para uma cidade B, implica um relacionamento de A para B. No entanto, o caso inverso</p><p>não pode ser validado: não podemos afirmar que, uma vez que o carro fez a trajetória A para B, ele</p><p>necessariamente terá que fazer o caminho de volta (B para A), ou seja, existe uma relação entre os vértices</p><p>bem definida e direcional. Por outro lado, em um outro contexto, quando você adiciona um amigo no</p><p>Facebook, necessariamente é estabelecido uma amizade ou relação bidirecional , isto é, não importa se</p><p>você ou seu amigo solicitou amizade na rede, uma vez que a ligação se estabeleça, ela vai existir</p><p>necessariamente em ambos os lados - você será amigo da pessoa que você aceitou e vice-versa (o que se</p><p>caracteriza como uma relação não direcionada ). No Twitter, o funcionamento é diferente, se você segue</p><p>uma pessoa isso não a obriga a lhe seguir também (a direção importa, por isso é uma relação direcionada ).</p><p>Um outro ponto a considerar é a força da relação entre os vértices, ou seja, a conexão é forte ou fraca ?</p><p>Monitorar a força do relacionamento é algo importante para tentar extrair o grau de conectividade entre</p><p>os componentes da rede. Além disso, é importante destacar que existe a possibilidade de circunstâncias</p><p>externas ou sociais modificarem a força da relação. Por exemplo, uma simples postagem polêmica pode</p><p>comprometer toda a estrutura de relacionamento entre os vértices de uma rede. Por essa razão,</p><p>eventualmente, a análise compreende monitoramento constante da rede.</p><p>Rede : é um conjunto de relacionamentos que descreve como os vértices estão interconectados . Podemos</p><p>classificá-las como: rede egocentrada e rede coletiva. As redes egocentradas são construídas a partir de</p><p>um indivíduo (ego), que é o ponto de partida, enquanto que as redes coletivas estudam os</p><p>relacionamentos de todos os atores de um determinado grupo.</p><p>3.2 ANÁLISE DE REDES SOCIAIS: MÉTRICAS</p><p>Para analisar redes sociais, podemos utilizar um conjunto de métricas de acordo com o objetivo. Assim,</p><p>convém dividir ou classificar essas métricas em alguns tipos conhecidos como: métricas de conexão, de</p><p>distribuição e de segmentação. Nas próximas seções você conhecerá mais a respeito dessas métricas.</p><p>3.2.1 Métricas de Conexões</p><p>Dentre as métricas de conexões podemos destacar a homofilia, a reciprocidade, a propinquidade e a</p><p>multiplexidade, conforme descritas a seguir:</p><p>Homofilia : seleciona e conecta um conjunto de atores semelhantes com base em variáveis predefinidas,</p><p>como idade, sexo e escolaridade. A ideia é selecionar um grupo de pessoas relacionadas que</p><p>compartilham características em comum , como visão política, crenças, gostos pessoais etc. A Figura 5</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.smrfoundation.org%2F2009%2F09%2F27%2Fsocial-media-network-analysis-workshop-october-29th-in-mountain-view-ca%2F&sa=D&sntz=1&usg=AOvVaw2ejjirEFEm1lHQD-6GV4s6</p><p>exibe um exemplo dessa medida.</p><p>Reciprocidade ou mutualidade : é uma medida que avalia o quão recíproco é o relacionamento entre</p><p>vértices (atores) em um grafo direcionado , ao verificar a existência de arestas em ambas as direções .</p><p>Propinquidade : calcula a tendência de um ator criar relações com outros atores próximos</p><p>geograficamente.</p><p>Multiplexidade : diz respeito à maneira pela qual atores estão interagindo entre si de múltiplas maneiras</p><p>em diferentes contextos . Um homem e uma mulher podem trabalhar juntos em uma novela e ao mesmo</p><p>tempo namorar um ao outro, assumindo o papel de atores e namorados em seus relacionamentos</p><p>(arestas).</p><p>FIGURA 5 – UM EXEMPLO DE HOMOFILIA. A TENDÊNCIA DE CONEXÃO DOS PONTOS É</p><p>EXIBIDA ATRAVÉS DAS CORES EM TONS DE CINZA. NESTE CASO EXISTEM TRÊS</p><p>DIFERENTES TONS</p><p>DE CINZA: À DIREITA, NA PARTE SUPERIOR E NA PARTE INFERIOR</p><p>FONTE: < http://migueldelfresno.com >. Acesso em: 10 nov. 2018.</p><p>3.2.2 Métricas de Distribuição</p><p>As métricas de distribuição são compostas pelas medidas de centralidade, densidade, força de conexão, de</p><p>distância etc. A Figura 6 mostra um exemplo de medidas de centralidade, como o grau de centralidade :</p><p>embora Alice tenha maior grau de centralidade, ela não é a pessoa mais poderosa, pois precisará passar</p><p>necessariamente por Rafael se quiser chegar em outros vértices.</p><p>FIGURA 6 – DIAGRAMA DE REDE RETRATANDO O GRAU DE CENTRALIDADE</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fmigueldelfresno.com%2F2014%2F10%2Finfluencia-y-homofilia-en-los-medios-sociales.html%2F&sa=D&sntz=1&usg=AOvVaw1ay4gfyCRolI9jgr0gzDSQ</p><p>FONTE: < http://www.fmsasg.com s/>. Acesso em: 10 nov. 2018.</p><p>Centralidade : em geral quantificam a importância ou a influência de atores ou grupo de atores em uma</p><p>determinada rede. São subdivididas em:</p><p>Grau de centralidade : o grau de cada vértice diz respeito ao número de relacionamento direto com o</p><p>vértice em questão. O grau de entrada (+) e de saída (-) pode ser medido em grafos direcionados. Um alto</p><p>grau de centralidade indica que o ator é ativo dentro da rede e, por meio deste, é possível atingir</p><p>diretamente um grande número de atores.</p><p>Centralidade de betweenness : para cada vértice soma-se o total de caminhos mais curtos (menores</p><p>distâncias). Os vértices com maior grau de betweenness possuem maior frequência de caminhos mais</p><p>curtos em relação a outros vértices e possuem alta influência na rede, pois representam um (forte) elo de</p><p>comunicação entre outros vértices da rede.</p><p>Centralidade de proximidade : qual o caminho mais rápido que um determinado vértice pode alcançar</p><p>outros vértices? A centralidade baseada em proximidade é uma medida que visa extrair os caminhos mais</p><p>rápidos (ou mais curtos) ao sair de um vértice A até chegar a um vértice X. Por exemplo, você pode ter em</p><p>mãos um mapa e verificar qual o caminho (rota) mais curto para sair da cidade de Ouro Preto e chegar na</p><p>cidade de Ribeirão Preto, tendo em mente que você possa ter n rotas e deseja minimizar custos com</p><p>viagem. Assim, podemos afirmar que um vértice com alto grau de proximidade pode acessar outros vértices</p><p>através de caminhos mais curtos na rede, isso porque este vértice está em uma posição estratégica (em</p><p>termos de proximidade) dentro da rede.</p><p>Você consegue pensar em um exemplo prático relacionado à centralidade</p><p>baseada em proximidade? Dica: pense em algo do dia a dia.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.fmsasg.com%2Fsocialnetworkanalysi&sa=D&sntz=1&usg=AOvVaw1udiHzz6hnUQV7Le2jAAwI</p><p>Centralidade de Autovalor : permite medir a importância de um vértice na rede através de scores que lhe</p><p>são atribuídos por outros vértices da rede. Vértices com elevada centralidade de autovalor estão</p><p>conectados com outros vértices que também possuem valores elevados de centralidade de autovalor. Por</p><p>meio de um grafo direcionado, é possível contar o número de arestas recebidas por um vértice como votos,</p><p>formando a base para construir o score de importância do vértice em questão. No Twitter, um usuário que</p><p>é muitas vezes citado por outros usuários populares na rede, tem alto grau de centralidade de autovalor.</p><p>Densidade : é uma medida que calcula o número de relacionamentos existentes entre os vértices em</p><p>função do total de possibilidades de relacionamentos entre eles. Redes densas são aquelas que</p><p>possuem uma medida de densidade próxima de 1, caso contrário, são classificadas como redes esparsas .</p><p>Força de conexão : considera fatores que podem fortalecer ou comprometer o relacionamento entre</p><p>atores, como questões sociais, emocionais, reciprocidade etc. As arestas (que representam os</p><p>relacionamentos) são ponderadas para indicar a força da relação entre os atores envolvidos.</p><p>Distância : basicamente é uma medida que calcula o número de arestas necessárias para alcançar um</p><p>destino final desejado.</p><p>3.2.3 Métricas de Segmentação</p><p>FIGURA 7 – EXISTE UM CLIQUE ENTRE OS VÉRTICES DESTACADOS, ISTO É, TODOS OS</p><p>VÉRTICES ESTÃO CONECTADOS A TODOS OS OUTROS VÉRTICES FORMANDO UM</p><p>TRIÂNGULO</p><p>FONTE: < http://www.jsquaredanalytics.com >. Acesso em: 10 nov. 2018.</p><p>Coeficiente de agrupamento ou clusterização : é uma medida que avalia a densidade dos vértices</p><p>vizinhos de um vértice em relação a ele mesmo. Um coeficiente de clusterização elevado implica dizer que</p><p>um vértice contém vizinhos conectados entre si formando um clique.</p><p>Clique : se um determinado ator estiver diretamente conectado a todos os outros atores então temos a</p><p>formação de um grupo em uma rede.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.jsquaredanalytics.com%2Fintroduction-to-network-analytics-2%2F&sa=D&sntz=1&usg=AOvVaw1MdH7tb0MxBjXoN7xyxEjv</p><p>Coesão : qual o número mínimo de vértices que, uma vez removidos do grupo ao qual pertenciam,</p><p>desconectariam o grupo? A coesão é uma medida que revela o grau de ligação entre os vértices em um</p><p>grupo.</p><p>É importante você estar ciente de que existem outras métricas que podem ser consideradas quando</p><p>analisamos redes sociais. Mais que isso, todas as métricas mencionadas podem ser combinadas para fornecer</p><p>uma compreensão mais ampla do conjunto de dados que estamos manipulando. A seleção da métrica mais</p><p>apropriada para o seu domínio dependerá da definição-problema e do objetivo da sua análise. É claro que,</p><p>quanto mais rica forem suas análises, maior será a possibilidade de se obter insights interessantes. No</p><p>próximo tópico apresentaremos algumas ferramentas que podem ser úteis para você praticar e consolidar os</p><p>conceitos que foram exibidos nesta seção.</p><p>3.3 ANÁLISE DE REDES SOCIAIS E SUAS APLICAÇÕES</p><p>A análise de redes sociais objetiva auxiliar as organizações a compreenderem e a responderem perguntas</p><p>como: “Como podemos classificar os indivíduos mais influentes na organização?”, “Como estão segmentados</p><p>nossos clientes?”, “Como melhorar a estrutura organizacional para tentar maximizar a produção?”. Com base</p><p>nisso, por meio das redes, podemos observar o fluxo de informação, detectar falhas ou gargalos no processo</p><p>organizacional, além de considerar fatores externos para melhorar a compreensão da posição da empresa</p><p>frente aos seus clientes. As decisões não são tomadas isoladamente, mas considera a posição e o</p><p>relacionamento de um ator social em função do grupo que o compõe.</p><p>Essa realidade não é exclusividade de empresas. Pesquisadores têm investido no campo de aprendizagem</p><p>colaborativa para potencializar ações de interação entre alunos com intermediação docente (SAGAR et al.,</p><p>2018). A análise dessa rede pode contribuir para a identificação de padrões de aprendizagem em um dado</p><p>intervalo de tempo. O interesse na exploração desse campo de estudo tem conduzido a um grande número de</p><p>ferramentas que podem ser utilizadas para analisar dados obtidos de redes sociais. A seguir apresentaremos</p><p>algumas ferramentas que podem ser úteis para a análise de redes sociais:</p><p>Sentinel Visualizer : é uma ferramenta desktop que permite fazer uma análise automática de baixa</p><p>complexidade em termos de uso e sem necessidade de programação. É possível realizar cálculos</p><p>rapidamente com uma diversidade de métricas para analisar a rede.</p><p>Gephi : é uma poderosa ferramenta open-source para visualizar e analisar grafos de grande complexidade.</p><p>Por meio da ferramenta é possível explorar, agrupar, manipular e analisar grafos em tempo real.</p><p>NodeXL : se você tem familiaridade em utilizar o Excel, é possível com o modelo NodeXL explorar dados em</p><p>rede diretamente do ambiente Excel,</p><p>bem como gerar relatórios, ter acesso a dados de mídias sociais e</p><p>utilizar métricas para análise textual e de sentimento.</p><p>Pajek : é um software aberto de uso não comercial para análise de redes. O software foi projetado para</p><p>suportar redes de grande magnitude e fornece poderosas ferramentas de visualização. Possui um conjunto</p><p>de algoritmos poderosos para lidar com grandes volumes voltados para partições, operações binárias,</p><p>caminhos ótimos etc.</p><p>NetMiner : consiste em um software para exploração e visualização de grandes conjuntos de dados</p><p>voltados para as redes sociais. Essa ferramenta possui como ponto forte a riqueza de recursos visuais e a</p><p>possibilidade de analisar dados da rede extraindo informações estatísticas. Além disso, possui grande</p><p>capacidade de importação de dados (inclusive dados não estruturados).</p><p>Graphviz : é uma ferramenta open-source projetada para visualização de grafos. Possui diversos recursos</p><p>para manipulação de diagramas, como personalização de cores, fontes, formas e outros estilos.</p><p>Visone : é uma ferramenta simples para criação gráfica de redes, podendo coletar dados de uma rede,</p><p>analisá-los e criar uma visualização. Ao final do processo, você pode exportar a rede para um arquivo</p><p>externo, como uma imagem, PDF, SVG, entre outros.</p><p>Muito do que foi explorado nesta seção, reforça o grande poder analítico que analistas têm a seu favor. Na</p><p>realidade, lidar com dados de natureza baseada em grafos e extrair o máximo de conhecimento útil para</p><p>organização, requer o conhecimento de técnicas, métricas e ferramentas potencialmente necessárias para</p><p>resolver o problema. Contudo, em ambientes dessa natureza, o nível de complexidade aumenta quando se</p><p>manipula dados não estruturados. Na próxima seção, você conhecerá um pouco mais dessa outra</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>possibilidade.</p><p>Conecte-se</p><p>Você pode acessar alguns tutoriais/materiais que podem auxiliá-lo na exploração</p><p>de algumas ferramentas.</p><p>• Visone: < https://bit.ly/2CKk9rd )>.</p><p>• Graphviz: < https://graphs.grevian.org/ >.</p><p>• Pajek: < https://bit.ly/2FIVbK6 >.</p><p>• NetMiner: < https://bit.ly/3hhr3Dv >.</p><p>• NodeXL: < https://bit.ly/3lbVwFx >.</p><p>Conecte-se</p><p>Que tal explorar uma destas ferramentas? Um conjunto de datasets para</p><p>análise de redes sociais está disponível em: < https://aminer.org/data-sna >.</p><p>Basta você realizar o download, escolher a ferramenta e colocar a mão na massa.</p><p>4 TEXT MINING: CONCEITOS E TÉCNICAS DE ANÁLISE DE DADOS NÃO ESTRUTURADOS</p><p>No Capítulo 1 vimos os conceitos relacionados a dados não estruturados e você talvez recorde que na</p><p>atualidade cerca de 80% dos dados digitais gerados não possuem quaisquer estruturas. São dados de vídeos,</p><p>imagens, sensores, áudios, documentos eletrônicos, blogs, entre outros exemplos. De fato, analisar dados não</p><p>estruturados em tempos de Big Data parece ser um desafio. Por essa razão, diversas pesquisas têm sido</p><p>realizadas para construção de novos métodos, técnicas ou algoritmos para analisar dados textuais de grande</p><p>volume. Basta observar como os tradutores, como o Google Translator, evoluíram com o passar dos anos.</p><p>Nesta seção serão abordados conceitos e técnicas relacionados à análise de dados não estruturados do tipo</p><p>texto, que sem dúvida é um dos campos mais importantes para análises avançadas em Big Data.</p><p>4.1 MINERAÇÃO DE TEXTOS: CONCEITOS IMPORTANTES E VISÃO GERAL</p><p>A Análise em Mineração de Texto (ou Text Mining) consiste em uma das tarefas mais árduas quando</p><p>analisamos dados desse formato. Isso porque grande parte das informações não possui uma estrutura</p><p>definida e, consequentemente, a escrita do texto normalmente não segue um padrão específico ou</p><p>determinado. Por outro lado, em uma análise de dados estruturada, os dados estão prontos para análise, pois</p><p>seguem um padrão específico armazenado e organizado em linhas e colunas.</p><p>Na verdade, em atividades de análise textual é preciso converter dados não estruturados para um</p><p>formato estruturado para que assim análises sejam aplicadas . Consegue perceber que neste momento</p><p>existe mais uma camada de complexidade para as análises? Note que, até então, você extraía os dados de</p><p>uma ou mais fontes e, em seguida, aplicava um processo de transformação e limpeza e entregava o conjunto</p><p>de dados pronto para ser analisado, seja para um algoritmo de mineração de dados ou como input para um</p><p>modelo de aprendizagem de máquina. Agora é necessário lidar com um conjunto de informações - espalhados</p><p>em um arquivo de texto, em um post em uma rede social, ou até mesmo em um campo (coluna) textual</p><p>específico de um Banco de Dados relacional como: “observações”, “considerações”, “descrição” e que fora</p><p>escrito em uma linguagem natural - redigida por um ser humano. Como consequência disso, em um cadastro</p><p>de informações, inevitavelmente, é comum encontrar erros de ortografia, ambiguidade, vícios de linguagem e</p><p>assim por diante. Por exemplo, como fazer que a máquina compreenda que a palavra companhia significa</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fvisone.info%2Fwiki%2Findex.php%2FVisualization_and_analysis_%28tutorial&sa=D&sntz=1&usg=AOvVaw3BUkiLHn05AUTey4pei3JT</p><p>https://www.google.com/url?q=https%3A%2F%2Fgraphs.grevian.org%2F&sa=D&sntz=1&usg=AOvVaw1TSgW3Wa1-sgT009Hp-Dz4</p><p>http://www.google.com/url?q=http%3A%2F%2Fmrvar.fdv.uni-lj.si%2Fpajek%2Fportuguese%2Fportuguese.pdf&sa=D&sntz=1&usg=AOvVaw33nSdRXG2LMpdSmKAR3pm_</p><p>http://www.google.com/url?q=http%3A%2F%2Fedutechwiki.unige.ch%2Fen%2FNetMiner&sa=D&sntz=1&usg=AOvVaw1IYvPT5jEE8dduZacz9U_m</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.peteraldhous.com%2FCAR%2FNodeXL_CAR2012.pdf&sa=D&sntz=1&usg=AOvVaw3vM05hra29AQQ3gxv6xTj2</p><p>https://www.google.com/url?q=https%3A%2F%2Faminer.org%2Fdata-sna&sa=D&sntz=1&usg=AOvVaw0T9kC_gW5eUgHye8yrKt1R</p><p>‘uma empresa’ e não ‘vínculo entre pessoas’?</p><p>Diante dessa situação, o Processamento de Linguagem Natural (PLN) surge como uma alternativa do campo</p><p>linguístico, que permite estudar relações entre palavras e sentenças em um texto. Na computação, permite</p><p>que máquinas compreendam a linguagem humana analisando o contexto no qual foi empregada.</p><p>Basicamente, isso é feito por intermédio de análises léxicas - (identificar padrões em uma string), sintáticas</p><p>(observar a ligação entre os elementos textuais que formam uma frase), semânticas (extrair o significado dos</p><p>termos, frases observando as relações entre elas) etc. O mecanismo de busca e o tradutor do Google, bem</p><p>como os corretores de texto, são alguns dos inúmeros exemplos de aplicações do PLN.</p><p>Conceituando</p><p>Essas tarefas subjacentes são frequentemente utilizadas em níveis mais</p><p>complexos de PLN, tais como:</p><p>Categorização de conteúdo : um resumo do documento baseado em</p><p>linguística, que inclui pesquisa e indexação, alertas de conteúdo e detecção de</p><p>duplicações.</p><p>Descoberta e modelagem de tópicos : captura com precisão o significado e os</p><p>temas em coleções de texto, e aplica Advanced Analytics como otimização e</p><p>Forecasting.</p><p>Extração contextual : extrai automaticamente informações estruturadas de</p><p>fontes textuais.</p><p>Análise de sentimento : identifica o estado de espírito ou opiniões subjetivas</p><p>em grandes quantidades de texto, incluindo o sentimento médio e a mineração</p><p>de opinião.</p><p>Conversão fala-texto e texto-fala : transforma comandos de voz em texto</p><p>escrito e vice-versa; sumarização; gera sinopses de grandes corpos de texto</p><p>automaticamente; tradução de máquina; traduz texto ou fala de um idioma para</p><p>outro, automaticamente. Em todos esses casos, o objetivo almejado é pegar as</p><p>entradas brutas e usar linguística e algoritmos para transformar ou enriquecer o</p><p>texto de modo a obter resultados melhores.</p><p>FONTE: <https://bit.ly/3nonHBY>. Acesso em: 10 nov. 2018.</p><p>Tendo em vista a vasta quantidade de informações textuais presentes nas empresas</p><p>e armazenadas em</p><p>relatórios, atas, planilhas, arquivos de logs e outros documentos de texto (como pdf e txt), além de fontes ricas</p><p>externas (redes sociais, páginas web, e-mails etc.), a análise de dados não estruturados pode ser considerada</p><p>mais útil para criar diferencial competitivo no mundo dos negócios. Ademais, as técnicas baseadas em PLN</p><p>têm sido aplicadas para minerar textos, como extração de informação, classificação, clustering, entre outros</p><p>(CHEN; MAO; LIU, 2014).</p><p>Tipicamente, um processo para análise de texto pode ser representado conforme a Figura 8. A primeira etapa</p><p>consiste na obtenção dos textos direto da fonte. Este, por sua vez, pode estar situado em alguma tabela do</p><p>banco de dados, em um arquivo de texto local, ou em algum ambiente externo (web). Essa coleta pode ser</p><p>manual ou automática e tudo dependerá das necessidades do seu projeto. A dica é: se você precisa coletar</p><p>constantemente dados de uma mesma fonte, o ideal é automatizar o processo e criar código em alguma</p><p>linguagem de programação de sua preferência, ou utilizar uma ferramenta como o Apache Kafka para</p><p>capturar esses dados. Em seguida, aplica-se o pré-processamento dos dados textuais, que inclui tarefas como:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>Stemming : o processo de Stemming consiste em reduzir uma palavra ou termo ao seu radical. Vamos</p><p>supor que em um determinado texto você tem uma coleção de documentos (que são instâncias ou</p><p>registros de uma tabela não normalizada) dos seguintes termos: planejamento, planejei, planejado,</p><p>planejar. Após a aplicação do processo de Stemming, todos os termos derivados de “planejar”, seriam</p><p>reduzidos ao seu radical “planej”, isto é, todos os termos citados no exemplo seriam unificados no texto e</p><p>não gerariam redundância .</p><p>Conecte-se</p><p>O algoritmo de Porter é um dos algoritmos que implementam o processo de</p><p>Stemming para a língua portuguesa: < https://bit.ly/3hh5DpP >.</p><p>Disponível aqui</p><p>Tokenization (Bag-of-words) : processo de quebrar em ‘tokens’, ou seja, ocorre a quebra do texto em</p><p>termos individuais. Considere a frase: “Eu sou aluno da UNIASSELVI”. O processo observa os espaços em</p><p>branco dessa sentença e determina os tokens: [“Eu”, “sou”, “aluno”, “da”, “UNIASSELVI”]. É possível definir</p><p>regras de “tokenização” de acordo com suas necessidades, sem necessariamente estarem atrelados a uma</p><p>única regra que, no caso desse exemplo, foi determinado pelo espaço em branco.</p><p>Conecte-se</p><p>Algumas linguagens de programação, como R e Python possuem bibliotecas</p><p>para este fim. Existe também uma API open-source (Lucene) que pode ser</p><p>utilizada para tarefas de mineração de texto:</p><p>R : < https://bit.ly/2EbZtcu >.</p><p>Python : < https://bit.ly/31fQMql >.</p><p>Lucene : < https://bit.ly/3geXEZd >.</p><p>Remoção de Stopwords : sabe aqueles termos que aparecem no texto que têm a função meramente de</p><p>conectar elementos de uma sentença? São Stopwords! Artigos (o, a, os, as, um, umas etc.), preposições (de,</p><p>para, entre etc.), conjunções (nem, já, mas etc.), crase (à), pronomes (ele, teu, meu etc.) são termos que não</p><p>são relevantes para análise e por isso são removidos. As Stopwords são armazenadas em uma lista</p><p>(dicionário) e estão disponíveis em vários idiomas, podendo ser consumidas por linguagens ou ferramentas</p><p>que desejam executar tarefas de mineração de texto.</p><p>Correção ortográfica : erros ortográficos são muito comuns em textos. Por isso é importante corrigi-los</p><p>para melhorar a qualidade dos nossos dados. Existem algumas abordagens para tratar esses erros (como</p><p>correção automática). É claro que a alternativa mais segura é realizar a correção manual, entretanto, o</p><p>processo se torna mais custoso à medida que o volume de dados aumenta.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Ftartarus.org%2Fmartin%2FPorterStemmer%2F&sa=D&sntz=1&usg=AOvVaw2IyWCFOBYoQCAMAsav5Fxo</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3hh5DpP&sa=D&sntz=1&usg=AOvVaw2qUfNBLwIwOKXp6gn34_zK</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.rdocumentation.org%2Fpackages%2FkoRpus%2Fversions%2F0.06-5%2Ftopics%2Ftokenize&sa=D&sntz=1&usg=AOvVaw2dDQijo7rOqAsQRl57COPN</p><p>https://www.google.com/url?q=https%3A%2F%2Fdocs.python.org%2F3%2Flibrary%2Ftokenize.html&sa=D&sntz=1&usg=AOvVaw17vAwFhhQUAkh5lOU3tkLN</p><p>http://www.google.com/url?q=http%3A%2F%2Flucene.apache.org%2Fcore%2F6_5_0%2Fanalyzers-common%2Findex.html&sa=D&sntz=1&usg=AOvVaw3YdkTpCCUAE3nvirQyNH38</p><p>Conecte-se</p><p>Você pode experimentar alguns corretores on-line, potencialmente úteis para</p><p>suas análises de texto. O Flip9 pode ser útil. Acesse: < https://bit.ly/328YT7n >.</p><p>Disponível aqui</p><p>Remoção de números, espaços e caracteres indesejados : números, espaços e caracteres especiais ou</p><p>símbolos muitas vezes não são relevantes para análise de texto e são removidos: figura solta no texto,</p><p>relacionar texto à figura.</p><p>FIGURA 8 – DE UM MODO GERAL ESTE PIPELINE É COMPOSTO POR: EXTRAÇÃO E PRÉ-</p><p>PROCESSAMENTO DO TEXTO, APLICAÇÃO DE TÉCNICAS ANALÍTICAS AVANÇADAS</p><p>(PROCESSAMENTO) E VISUALIZAÇÃO DOS RESULTADOS</p><p>FONTE:</p><p>< https://www.softwareadvice.com >.</p><p>Acesso em: 2 fev. 2019.</p><p>Ainda na Figura 8, após a etapa de pré-processamento, assume-se que os dados já possuam uma estrutura</p><p>mínima para que análises sejam aplicadas - que irão desde uma simples extração dos termos mais frequentes</p><p>até análises preditivas. Por fim, o processo encerra com a visualização dos resultados alcançados. Na próxima</p><p>seção, você conhecerá algumas técnicas que certamente o auxiliarão em suas análises textuais.</p><p>Conecte-se</p><p>Acesse o endereço <https://www.online-utility.org/text/analyzer.jsp>. Insira o</p><p>texto: “ análise de frequência é a forma mais simples de análise, você extrai</p><p>os termos dos documentos e aplica um método para realizar a contagem</p><p>dos termos. Os resultados podem ser exibidos de forma tabular, gráfico de</p><p>barras, ou em uma wordcloud (nuvem de palavras) ” no campo destacado</p><p>(“Enter Text”). Em seguida clique no botão “Process text”. Observe o resultado</p><p>apresentado em forma tabular que não somente apresenta o total de ocorrências</p><p>de cada termo, como também a porcentagem em relação ao total de ocorrências</p><p>de todos os termos no documento. Destaca-se que o pré-processamento</p><p>implementado nessa ferramenta não assegura a remoção de Stopwords,</p><p>remoção de números ou processo de Stemming. Contudo, em um cenário real,</p><p>essas tarefas de pré-processamento são necessárias.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.flip.pt%2FFLiP-On-line%2FCorrector-ortografico-e-sintactico&sa=D&sntz=1&usg=AOvVaw13SlWUNglXA9Q_1UpWX-7q</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F328YT7n&sa=D&sntz=1&usg=AOvVaw0maKNnxjZcjJo49aFZnh3h</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.softwareadvice.com%2Fresources%2Fwhat-is-text-analytics%2F&sa=D&sntz=1&usg=AOvVaw3U2Mq20AdyNuKe6NRppsvg</p><p>Você também pode experimentar a visualização de texto em uma wordcloud</p><p>por meio do endereço: < https://www.jasondavies.com/wordcloud/ ></p><p>4.2 TÉCNICAS PARA ANÁLISE DE MINERAÇÃO DE TEXTOS</p><p>Uma vez que os dados estejam prontos para análise, você pode aplicar uma ou mais técnicas para tentar</p><p>extrair informações úteis para o negócio. A seguir, algumas técnicas comuns para a análise de texto.</p><p>4.2.1 Recuperação de Informação (IR)</p><p>A recuperação de informação pode ser definida como a busca por material (normalmente documentos) de</p><p>natureza não estruturada (geralmente texto) que satisfaça uma necessidade de informação a partir de</p><p>grandes coleções (geralmente armazenadas em computadores) (MANNING; RAGHAVAN; SCHÜTZE, 2009).</p><p>A partir dessa definição, percebemos que a IR cria mecanismos para extrair informações relevantes de uma</p><p>grande massa de documentos textuais. O</p><p>da análise de dados tradicional e o Big Data.</p><p>1 CONTEXTUALIZAÇÃO</p><p>No atual século, o surgimento de novas tecnologias tem contribuído significativamente para uma explosão de</p><p>dados gerados. Não à toa, vivemos no ápice de uma era conhecida como a Era da Informação. É conveniente</p><p>pensar que grande parte dos dados gerados podem ser consumidos para os mais diversos fins.</p><p>Diante deste cenário, empresas e Institutos de Pesquisa e Desenvolvimento (P&D) têm investido cada vez mais</p><p>em infraestrutura, sejam físicas ou em nuvem, para suportar análises de dados cada vez mais robustas. No</p><p>âmbito de empresas, em geral, o intuito sempre visa no mínimo, tentar manter ou elevar suas capacidades</p><p>analíticas e assim tomar decisões que impulsionem seus negócios. No que diz respeito aos Institutos de</p><p>Pesquisa e Desenvolvimento, implementar soluções que atendam aos requisitos de alto desempenho</p><p>computacional é um grande desafio: são vídeos, imagens, textos, vozes, sons e os mais variados tipos e</p><p>estruturas de dados que precisam ser analisados na tentativa de prover novas soluções em inúmeras áreas da</p><p>ciência.</p><p>Desta forma, estão ganhando destaque nas mídias: Inteligência Artificial (IA), Aprendizagem de Máquina (ou</p><p>Machine Learning), Inteligência de Negócios (ou Business Intelligence), Ciência de Dados e Big Data. O que há</p><p>de comum entre eles? O fato de que a essência para a existência destes são os dados. Por exemplo, a</p><p>Aprendizagem de Máquina pode ser compreendida como um subcampo da IA, que tem como objetivo</p><p>automatizar processos por meio da construção de modelos analíticos que recebem como parâmetro um</p><p>conjunto de dados como entrada (input). Para isso, é fundamental que esse conjunto de dados obedeça a uma</p><p>série de requisitos para que a aprendizagem de fato ocorra.</p><p>O que acontece quando você tem um conjunto de dados bem amplo e precisa extrair de fontes de diferentes</p><p>naturezas e tipos de dados heterogêneos? Concorda que a complexidade cresce proporcionalmente?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Diante desses questionamentos, é fundamental que a priori você reflita sobre o cenário informacional que</p><p>vivemos e também mergulhe nos conceitos úteis relacionados ao Big Data, como compreender os elementos</p><p>que compõem a sua arquitetura. Todas essas questões serão abordadas neste capítulo. Bons estudos!</p><p>2 CENÁRIO ATUAL E VISÃO GERAL DO BIG DATA</p><p>Você consegue imaginar o quanto de informação tem sido gerada na internet em apenas um minuto? Um</p><p>relatório apresentado pelo grupo Domo (s.d.) destaca que a população que utiliza a internet aumentou nos</p><p>últimos anos. Em 2012, o número de usuários girava em torno dos 2,5 bilhões enquanto que, em 2017, 47% da</p><p>população mundial estava conectada, o que representa 3,8 bilhões de usuários. O mesmo relatório aponta</p><p>que a cada minuto são assistidos 4.333.560 vídeos no Youtube, 473.400 tweets são publicados no Twitter,</p><p>176.220 chamadas são realizadas pelo Skype, 49.380 fotos são postadas no Instagram, entre outros casos.</p><p>Observe a diversidade de dados que estão sendo produzidos e consumidos pelos usuários constantemente:</p><p>vídeos, fotos, textos, vozes e assim por diante. Essa realidade está diretamente relacionada ao contexto</p><p>histórico da Web, abrangendo suas transições conhecidas como Web 1.0, Web 2.0 e a mais recente Web 3.0. A</p><p>Figura 1 exibe as fases da Web ao longo do tempo. É possível constatar que as tecnologias evoluíram para</p><p>atender à demanda de cada etapa. Por exemplo, na Web 1.0, o HTML constituiu-se como uma tecnologia-</p><p>chave para o desenvolvimento de websites, enquanto que na etapa posterior, a Web 2.0, tecnologias</p><p>dinâmicas, como a linguagem PHP, emergiram para atender uma demanda de produção de conteúdo e</p><p>interação com o usuário.</p><p>FIGURA 1 – EVOLUÇÃO DA WEB E SUAS FERRAMENTAS/TECNOLOGIAS AO LONGO DO</p><p>TEMPO NESSAS ETAPAS DE TRANSIÇÃO DA WEB</p><p>FONTE: O autor</p><p>Enfatiza-se também que, na Web 1.0, os sistemas Web eram estáticos, o que significa que o objetivo era</p><p>apenas informar, produzir conteúdo dependia diretamente do administrador do sistema, que alimentava o</p><p>website e o resultado era exibido para o usuário. Por outro lado, na Web 2.0, o papel do usuário não se</p><p>restringia ao mero consumo de conteúdo, mas também na produção deste, seja através de blogues, como</p><p>também de aplicações Web dinâmicas.</p><p>A transição da Web 2.0 para Web 3.0 foi impulsionada pelo uso crescente de smartphones e tablets. Além</p><p>disso, o acesso à Web foi facilitado com o barateamento destes dispositivos e, assim, os usuários se tornaram</p><p>mais ativos na rede. Outro fator importante foi o surgimento das redes sociais, que contribuíram para uma</p><p>rápida explosão de conteúdos produzidos pelo usuário, bem como o surgimento de novas tecnologias e o</p><p>barateamento de software e hardware. O advento da computação em nuvem também é considerado</p><p>precursor nesta importante transição.</p><p>A Web 3.0, também conhecida como Web Semântica , está relacionada a uma nova forma de Web, que tem a</p><p>ver com a compreensão do significado do seu uso e apresenta como característica o fato de que o</p><p>entendimento sobre o comportamento do usuário perante a rede permite, por exemplo, que campanhas</p><p>digitais publicitárias possam atingir um público-alvo desejado de maneira mais assertiva. Atividades do</p><p>usuário, como cliques no mouse, podem ser monitoradas para diferentes propósitos. Uma outra maneira de</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>reforçar a Web 3.0 é o aumento da importância dos cookies . Quando você acessa pela primeira vez um</p><p>website, uma mensagem é exibida solicitando sua autorização para utilização de cookies . Quando concedemos</p><p>permissão estamos, na verdade, autorizando o site a enviar cookies que armazenam informações do nosso</p><p>comportamento de navegação. Assim, websites de cunho jornalístico podem reordenar as notícias publicadas</p><p>conforme nossas preferências. No caso de lojas virtuais, você já notou que um carrinho de compras continua</p><p>cheio depois de você ter encerrado a sessão e voltar naquele website? Naturalmente, para muitos, é vantajoso</p><p>e prático ter informações de login e senha armazenadas em um website.</p><p>Até que ponto podemos confiar que nossas informações confidenciais não estão</p><p>sendo armazenadas ou quão seguro é este armazenamento? Qual o limite da</p><p>nossa privacidade neste atual contexto?</p><p>Conecte-se</p><p>Acesse < https://web.archive.org/ >. Este site armazena um conjunto de arquivos</p><p>históricos de modificações salvas de mais de 300 bilhões de websites. Escolha um</p><p>website de sua preferência e experimente checar suas modificações ao longo do</p><p>tempo. Você consegue perceber algumas das diferenças que mencionamos aqui</p><p>e sentir essa transição de contextos web?</p><p>Disponível aqui</p><p>Além do mais, as transições da Web 1.0, 2.0 e 3.0 refletem uma realidade na qual vivemos - existindo uma</p><p>sobrecarga de informação, isto é, em uma excessiva quantidade de informação, o gerenciamento depende da</p><p>ação humana, mas de forma inviável. Como gerenciar essas informações? De que maneira podemos extrair</p><p>aquilo que é útil para nós? Por exemplo, quando desejamos pesquisar algo na internet, a primeira coisa que</p><p>fazemos é realizar uma busca através de um site de busca, como o Google. Por que fazemos isso? Porque ao</p><p>digitar palavras-chave no buscador, este nos retornará apenas um conjunto de informações que é do nosso</p><p>interesse.</p><p>Da mesma forma ocorre quando empresas buscam alternativas para encontrar informações úteis e</p><p>alavancarem seus negócios. Neste caso, a ideia geral é filtrar informações que sejam relevantes, seja no</p><p>âmbito interno (entender e/ou otimizar seus processos), como também externos (por exemplo, informações</p><p>sobre a concorrência), com a finalidade de se tornarem cada vez mais competitivas.</p><p>A revolução dos dados tem tornado o mundo “mais inteligente”, antes, apenas conectado.</p><p>exemplo mais comum são os mecanismos de pesquisa, como</p><p>Google ou Bing que, frente a um universo de documentos, conseguem selecionar apenas um subconjunto</p><p>relevante de documentos a partir de palavras-chave (keywords) digitadas no buscador. Faça um teste: abra o</p><p>Google Acadêmico < https://scholar.google.com.br/ > e digite: recuperação de informação e observe o</p><p>conjunto de documentos Web contendo essas palavras-chave. Experimente agora digitar “recuperação de</p><p>informação” (com aspas). Notou alguma diferença no retorno dos documentos? Parece que as aspas indicam</p><p>que você deseja que a busca retorne apenas os documentos que apresentam a sentença digitada como um</p><p>todo e não Keywords separadas ( recuperação / informação ).</p><p>Conecte-se</p><p>Este site < https://bit.ly/3hk9wKP > sugere algumas outras dicas para melhorar</p><p>as pesquisas no Google.</p><p>Disponível aqui</p><p>Como avaliamos a performance de sistemas que implementam IR? Existem algumas medidas que poderemos</p><p>utilizar, a saber: Recall , Precision , F - Measure, R-Precision, Fall-out e assim por diante. As duas mais</p><p>populares são:</p><p>Recall ( Revocação ): é uma medida que qualifica a fração de documentos recuperados que foram</p><p>relevantes para a consulta.</p><p>Recall = número de documentos relevantes que foram recuperados / número total de documentos</p><p>relevantes na coleção (x 100).</p><p>Um Recall com valor 1 ou 100% aponta o melhor caso e, de fato, é o que normalmente acontece em uma</p><p>consulta, todos os documentos recuperados na coleção são relevantes. Por isso, combinamos Recall com</p><p>outras medidas para avaliar a performance do IR.</p><p>Exemplo : considere um conjunto esperado com 10 documentos D = {1,2, 3, ...,10} e que foram</p><p>recuperados um total de 6 documentos (vamos supor os documentos {3,4,9,10,12,15}). No entanto,</p><p>foram recuperados apenas 4 documentos com sucesso {3,4,9,10}. Por isso:</p><p>Recall : 4 / 10 = 40%.</p><p>Precision ( Precisão ): refere-se à fração de documentos recuperados que são relevantes para o usuário.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.jasondavies.com%2Fwordcloud%2F&sa=D&sntz=1&usg=AOvVaw2rga6F9IDxifKZ11XD2qjU</p><p>https://scholar.google.com.br/</p><p>https://www.google.com/url?q=https%3A%2F%2Ftecnologia.ig.com.br%2F2018-01-04%2Fpesquisas-no-google.html&sa=D&sntz=1&usg=AOvVaw3wd4Ja817kY_M2ZmcIbHqv</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3hk9wKP&sa=D&sntz=1&usg=AOvVaw3LTM3UdQUGpLfodb8RXhEx</p><p>Precision = número de documentos relevantes que foram recuperados / número total de documentos</p><p>que foram recuperados (x 100).</p><p>Dessa maneira, obtemos uma taxa de documentos não relevantes que foram retornados em uma</p><p>consulta.</p><p>Se utilizarmos o mesmo exemplo citado anteriormente, podemos calcular a precisão:</p><p>Precision : 4 / 6 = 66,67% (aprox.).</p><p>Conecte-se</p><p>A recuperação de informação é um amplo campo de estudo, sendo composto por</p><p>diversas técnicas ou modelos. Para complementar seu conhecimento,</p><p>recomendamos que você se aprofunde e leia o artigo proposto por Nyamisa,</p><p>Mwangi e Che (2017), disponível no seguinte endereço: < https://bit.ly/34lrcCm >.</p><p>Se desejar, você também poderá acessar este blog: < https://bit.ly/2EchWFN >.</p><p>4.2.2 Extração de Informação (IE)</p><p>Diferentemente do processo de Recuperação de Informação, o processo de Extração de Informação (IE) está</p><p>preocupado em extrair a semântica de documentos textuais. Isso significa que a IE é capaz de coletar</p><p>informações-chave de forma resumida de um documento. A ideia é pressupor a existência de um conjunto de</p><p>documentos presentes em um domínio, que descreve uma ou mais entidades ou eventos e que compartilham</p><p>semelhanças em relação a outros documentos, mas que diferem em seus respectivos detalhes (FREITAG,</p><p>2000).</p><p>O que torna o processo de IE custoso é o fato de que grande parte dos documentos contém dados não</p><p>estruturados (textuais). Como vimos, problemas inerentes à linguagem natural precisam ser tratados por</p><p>softwares que implementem tarefas dessa natureza. Imagine que você crie um software baseado em IE que</p><p>colete informações de um Call Center. Então, você pode monitorar um conjunto de informações livres em</p><p>texto e organizá-las em uma estrutura. Por exemplo, pode ser que você queira extrair para cada cliente</p><p>apenas palavras de baixo calão , armazená-las em uma estrutura e associá-las a um campo chamado “ tipo de</p><p>serviço ”. Isso possibilitaria conhecer quais tipos de serviços estão deixando os clientes insatisfeitos.</p><p>A Figura 9 exibe outro exemplo que pode ser útil para você compreender melhor como funciona a Extração</p><p>de Informação de maneira geral. Note que os textos em destaque em Text In foram estruturados em Data</p><p>Out. Se pegarmos a palavra Brazil do primeiro documento, é possível que o IE “compreenda” o texto de modo</p><p>a ranquear o país na 5ª posição entre os países mais populosos. O software precisa ser capaz de lidar com</p><p>variações na ordem do texto . Afinal, escrever que “o Brasil é o 5º país mais populoso do mundo” pode ser</p><p>escrito de diversas formas.</p><p>FIGURA 9 – TEXT IN CONTÉM UM CONJUNTO DE DOCUMENTOS TEXTUAIS E O DATA</p><p>OUT A SAÍDA CORRESPONDENTE AO PROCESSO DE IE</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Farticle.sciencepublishinggroup.com%2Fpdf%2F10.11648.j.net.20170502.12.pdf&sa=D&sntz=1&usg=AOvVaw3UcivqCcRoptzCL81qUu0m</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.analyticsvidhya.com%2Fblog%2F2015%2F04%2Finformation-retrieval-system-explained%2F&sa=D&sntz=1&usg=AOvVaw31cKYi_FeTE_SfkvwcbPlE</p><p>FONTE: < https://bit.ly/3kYr9Ch >.</p><p>Acesso em: 11 nov. 2018.</p><p>Conecte-se</p><p>Técnicas para extração de informações baseadas em PLN podem ser</p><p>aprofundadas através deste endereço: < https://bit.ly/31gsNaA >.</p><p>Conecte-se</p><p>Você pode também experimentar a ferramenta de extração IKE (Interactive</p><p>Knowledge Extraction). Neste endereço < https://bit.ly/3j4FUBL > existe uma</p><p>breve definição da ferramenta, o artigo completo e o repositório com os códigos</p><p>com o passo a passo para você experimentá-la.</p><p>Adicionalmente, você também pode testar esse analisador de redes sociais e</p><p>texto: < https://netlytic.org/home/ >.</p><p>4.2.3 Análise de Texto Baseada em Cluster</p><p>Esta técnica classifica um conjunto de termos (ou documentos) em grupos. Assume-se que os termos que</p><p>pertencem ou são classificados em um mesmo grupo possuem maior relação entre si. Essa classificação pode</p><p>ser importante para que você visualize os relacionamentos entre eles. Além disso, é possível que os resultados</p><p>obtidos por esses clusters possam ser utilizados como input para uma tarefa de mineração de dados, também</p><p>para realizar análise de sentimento (por exemplo, checar como está a reputação - positiva ou negativa -, de</p><p>uma empresa no mercado), ou outras análises avançadas.</p><p>Talvez você já tenha observado que quando acessa um site de notícias existe um grupo de notícias que está</p><p>relacionado ao que você pesquisou em destaque em algum local da página. Por exemplo, em uma busca você</p><p>digitou uma notícia sobre “cura de diabetes”. Os conteúdos em destaque (que serão retornados) serão</p><p>relacionados à categoria saúde , pois existe um nível maior de proximidade com a notícia pesquisada.</p><p>Quando falamos de clusterização baseada em texto, alguns conceitos e medidas são importantes e merecem</p><p>ser destacados:</p><p>Coleção de documentos : representada por uma matriz termo-documento (TDM) ou documento-termo</p><p>(DTM), conforme mostra a Tabela 1. Se considerarmos a frequência dos termos ( medida ) como um peso</p><p>para medir a importância de um termo no documento, poderíamos afirmar que “ Amor ” e “ Casa ” são</p><p>termos que têm um peso maior no Documento 2, pois são comumente utilizados.</p><p>TABELA 1 – EXEMPLO DE UMA MATRIZ TERMO-DOCUMENTO. O ZERO INDICA</p><p>AUSÊNCIA DO TERMO EM UM DETERMINADO DOCUMENTO</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ontotext.com%2Fknowledgehub%2Ffundamentals%2Finformation-extraction%2F&sa=D&sntz=1&usg=AOvVaw0jCo5cH9QzJgOSFABTrHZZ</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.searchtechnologies.com%2Fblog%2Fnatural-language-processing-techniques&sa=D&sntz=1&usg=AOvVaw1wzhmeRpYPgyCYXxmlb2DS</p><p>https://www.google.com/url?q=https%3A%2F%2Fallenai.org%2Fsoftware%2Finteractive-knowledge-extraction%2F&sa=D&sntz=1&usg=AOvVaw2bMr0heKUFm7QMXj-FD5CN</p><p>https://www.google.com/url?q=https%3A%2F%2Fnetlytic.org%2Fhome%2F&sa=D&sntz=1&usg=AOvVaw0nrEczReiATVtNChbIiygz</p><p>Frequência do termo : como foi mostrado anteriormente, você pode medir a importância do termo no</p><p>documento verificando a quantidade de vezes que ele ocorre (contagem bruta). Essa representação de</p><p>frequência do termo pode ser feita não somente pela contagem bruta que, em determinados casos possui</p><p>sérias limitações, como também de forma binária - intervalo [0,1] que indicaria meramente a presença ou a</p><p>ausência do termo no documento, também existe a medida normalizada - que considera o total de termos</p><p>presentes no documento, log de frequência - estabelece um score usando logaritmos etc.</p><p>Frequência do termo na coleção : termos frequentes não necessariamente são os mais relevantes. Ao</p><p>contrário, em grande parte dos casos, os termos menos frequentes possuem uma relevância maior em toda</p><p>coleção. A frequência do termo na coleção permite definir o peso do termo. df (Document Frequency) t</p><p>obtém o número de documentos que contém um determinado termo t. idf (Inverse Document-Frequency) t</p><p>é calculada pelo logaritmo entre a fração do total de documentos pelo total de documentos que possui o</p><p>termo. Existem outras variações para cálculo do peso que aprofundam matematicamente.</p><p>idf = log (N/df ) t t</p><p>É possível também utilizar algoritmos voltados para a análise de cluster em textos, como o próprio K-Means,</p><p>que abordamos em seções anteriores. Assim, pode-se determinar similaridades entre clusters utilizando, por</p><p>exemplo, o método cosseno, e também verificar documentos que compartilham informações em comum e</p><p>assim por diante.</p><p>Na próxima seção você conhecerá um pouco sobre o Digital Analytics e sua devida importância para o mundo</p><p>dos negócios. Antes disso, não deixe de explorar um demo do IBM Watson para processamento de linguagem</p><p>natural. Se preferir, você também pode testar essa poderosa ferramenta (Elasticsearch) para pesquisa e</p><p>análise de dados.</p><p>5 DIGITAL ANALYTICS: CONTEXTO, IMPORTÂNCIA E APLICAÇÕES NO MUNDO DOS NEGÓCIOS</p><p>Finalizaremos este capítulo explorando o Digital Analytics. Você compreenderá como a análise dos dados do</p><p>mundo digital impacta diretamente no mundo dos negócios, assim como de que maneira é possível extrair e</p><p>analisar esses dados em ambientes Big Data. Antes disso, precisamos que você conheça e assimile conceitos e</p><p>a importância do Digital Analytics, conforme será abordado a seguir.</p><p>5.1 DIGITAL ANALYTICS: CONCEITO E IMPORTÂNCIA NAS DECISÕES DE NEGÓCIO</p><p>O termo “Web Analytics” (Análise Web) era o nome utilizado antes de se empregar o “Digital Analytics” (Análise</p><p>Digital), isso significa que houve uma transição ou ampliação do termo “Web” para o “Digital”. Como assim?</p><p>Quando se falava em Web Analytics, o conceito era restrito à análise de páginas web, isto é, extraíam-se</p><p>métricas do número de visitas ou número de visualizações das páginas de um website, devido à diversificação</p><p>do número de canais “plugáveis” à web, como dispositivos móveis, televisores digitais, redes sociais, e-mails,</p><p>entre outros. A possibilidade de fazer análises aumentou para o mundo digital e passou a englobar todos os</p><p>canais que envolvem a era digital. A incorporação progressiva da Internet das Coisas (IoT) - que será abordada</p><p>no próximo capítulo - corroborou para que o termo Digital Analytics fosse consolidado.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>O Digital Analytics pode ser definido como:</p><p>Um conjunto de atividades técnicas e de negócios que definem, criam, coletam, verificam ou transformam</p><p>dados digitais em relatórios, pesquisas, análises, recomendações, otimização, predições, que criam valor para</p><p>os negócios auxiliando empresas a criar valor, aumentando a receita ou reduzindo custos. Os dados digitais</p><p>podem ser dados comportamentais sobre como as pessoas usam e interagem com experiências digitais ,</p><p>dados ou metadados relacionados a eventos, cliques e interações , é utilizada para responder perguntas de</p><p>negócio e fornecer base para decisões baseadas em fatos (PHILLIPS, 2014, p. 3-4, grifos nossos).</p><p>Observe os termos comportamento e experiências digitais citados por Phillips (2014). De fato, o Digital</p><p>Analytics incorpora ou avalia o comportamento dos usuários na rede. Dados do Internet World Stats apontam</p><p>um total de aproximadamente 4,2 bilhões de usuários conectados à web em junho de 2018. No Brasil, foram</p><p>quase 150 milhões de pessoas conectadas. Em épocas passadas, o Marketing Tradicional intensificava seus</p><p>esforços em meios de comunicação off-line, como jornais, revistas ou TV. Compreender ou conhecer o</p><p>comportamento dos usuários para compra de um determinado produto era um desafio. Não obstante, hoje</p><p>profissionais digitais (como o próprio profissional de Marketing Digital) ganham espaço para lidar com essa</p><p>nova dinâmica de mercado: o mercado digital.</p><p>Conecte-se</p><p>Conheça mais sobre a Internet World Stats, acessando o site</p><p>< https://www.internetworldstats.com/stats.htm >.</p><p>Disponível aqui</p><p>Como uma empresa pode vender melhor sua marca e/ou produto pela internet? Até que ponto conhecer o</p><p>comportamento do cliente nos meios digitais é importante para impulsionar seus negócios? A Walmart,</p><p>apontada pela Fortune (2018) como a empresa que mais faturou em 2018, emprega técnicas de mineração de</p><p>dados para descoberta de padrões de vendas.</p><p>Por isso é recomendado que se cheque quais produtos normalmente são comprados em conjunto ou que a</p><p>compra de um produto X é seguido pela compra de um produto Y. A partir desses dados, a Walmart conseguiu</p><p>identificar que seus clientes compravam sete vezes mais tortas de morango antes de um furacão. Todos os</p><p>seus clientes são rastreados e segmentados de maneira única por intermédio de inúmeros atributos -</p><p>produtos de compra do cliente, hábitos de compra pela loja (física ou pelo website), o que postam nas redes</p><p>sociais, como Twitter e assim por diante. Cada evento é capturado, analisado e processado por uma</p><p>infraestrutura de Big Data que fornece insights personalizados para a companhia (DEZYRE, 2017).</p><p>Conecte-se</p><p>Se você ficou curioso em aprender mais como a Walmart tem usufruído do Big</p><p>Data Analytics para entender o comportamento dos seus clientes, sugerimos este</p><p>link: < https://bit.ly/3aKNAGi >.</p><p>Disponível aqui</p><p>Assim como o Walmart, em menor ou maior escala, as empresas, quando analisam dados digitais, objetivam</p><p>avaliar o comportamento dos usuários na rede e assim oferecem produtos personalizados. Os famosos</p><p>cliques no mouse em um produto específico no Mercado Livre (ou outra loja virtual), poderá causar uma</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.internetworldstats.com%2Fstats.htm&sa=D&sntz=1&usg=AOvVaw2YWlyKhAQ0nE-sxBw31Ekb</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.internetworldstats.com%2Fstats.htm&sa=D&sntz=1&usg=AOvVaw2YWlyKhAQ0nE-sxBw31Ekb</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.dezyre.com%2Farticle%2Fhow-big-data-analysis-helped-increase-walmarts-sales-turnover%2F109&sa=D&sntz=1&usg=AOvVaw0eAHcEEqZeh3BwDrubv1ik</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKNAGi&sa=D&sntz=1&usg=AOvVaw1oaOsKNZSJN3WWZ12HAUym</p><p>grande “perseguição” de propagandas deste ou de produtos relacionados em outros websites ou redes sociais.</p><p>A captura deste evento (clique</p><p>do mouse), tempo de duração na página do produto, comentário para sanar</p><p>alguma dúvida de algum produto, fornece um conjunto de métricas para que as empresas ofereçam aos</p><p>usuários a recomendação do produto certo no tempo adequado por intermédio de indicadores que</p><p>fornecerão suporte adequado para a tomada de decisão do algoritmo ou do gestor da empresa.</p><p>Conceituando</p><p>O que é uma métrica? Podem ser consideradas como medidas brutas de simples</p><p>composição, são úteis para a composição de indicadores, pois fornecem base</p><p>para medir algo concreto. Por exemplo, foram vendidos 300 livros (métrica</p><p>quantidade) este mês. Um indicador ou KPI (Key Performance Indicator) é o que</p><p>direciona a performance organizacional por intermédio da composição de uma</p><p>ou mais métricas e fornece parâmetro para a tomada de decisão. Imagine que</p><p>você quer saber qual a porcentagem de livros que foram vendidos mês a mês.</p><p>Ambos, podem ser apresentados em um Dashboard (painel de visualização) e</p><p>fornecidos à gestão em intervalos variáveis, de acordo com as necessidades</p><p>organizacionais. Para ver mais, acesse: < https://bit.ly/2YngDL3 >.</p><p>5.1.1 Análise de Métricas e Indicadores para Melhoria das Decisões de Negócio</p><p>As lojas virtuais normalmente possuem alguma ferramenta de Analytics (como o Google Analytics) incorporada</p><p>a sua página web. Entretanto, quantas realmente fazem uso das informações colhidas por essas ferramentas?</p><p>As principais redes sociais possuem ferramentas específicas para Analytics: Facebook</p><p>(https://analytics.facebook.com/), Twitter (https://analytics.twitter.com/),</p><p>Pinterest ( https://analytics.pinterest.com/ ) etc. No entanto, para que as empresas realmente possam tirar total</p><p>proveito do Analytics, é necessário que compreendam as métricas existentes.</p><p>Considere as características (features) do Facebook Analytics para as páginas conforme mostra a Figura 10. Os</p><p>dados apresentados são apenas para efeitos de demonstração e a tela apresentada é uma página inicial</p><p>contendo um overview de todos os dados referentes a acessos de novos usuários, taxa de crescimento,</p><p>duração mediana de sessão (tempo que o usuário visita sua página), informações demográficas, taxa de</p><p>rejeição (porcentagem de sessões em um dia com apenas uma única visualização de página) e total de</p><p>usuários ativos por hora, estes dois últimos são classificados como métricas de envolvimento, indicando o</p><p>quão interessados os usuários estão com a sua página. Todas essas informações podem ser observadas em</p><p>diferentes níveis de granularidade (detalhamento) por mês, ano, dia, hora etc. Observe ainda que o menu</p><p>disposto à esquerda fornece uma gama de informações coletadas que são potencialmente úteis para as</p><p>empresas que comercializam pelo Facebook. Os “Funis”, por exemplo, para determinar ou mensurar a taxa de</p><p>conversão dos clientes na página, rastreando as atividades do usuário como: usuário instala o aplicativo ></p><p>adiciona um produto ao carrinho > clica em compras. Outro usuário poderia: inicializar o aplicativo > pesquisa</p><p>por “computador” > posta algum comentário na página, e assim por diante. Note que, por meio de algumas</p><p>atividades, é possível que você perceba que grande parte dos usuários que interagem com o produto em</p><p>seguida compram.</p><p>Conecte-se</p><p>Ficou curioso para saber mais sobre a taxa de conversão? Acesse: < https://bit.ly</p><p>/2EqofFG >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.opservices.com.br%2Fdiferencas-entre-metricas-e-indicadores%2F&sa=D&sntz=1&usg=AOvVaw32u5I_GK02_s2UzOi2rXkC</p><p>https://www.google.com/url?q=https%3A%2F%2Fresultadosdigitais.com.br%2Fblog%2Ftaxa-conversao-como-otimizar-seu-funil-vendas%2F&sa=D&sntz=1&usg=AOvVaw0BVIdKja2l1CzNByFlfYJn</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EqofFG&sa=D&sntz=1&usg=AOvVaw13L_QGFQXxKjhjG_p9bjOv</p><p>Disponível aqui</p><p>FIGURA 10 – PÁGINA INICIAL DOS RECURSOS ANALÍTICOS DE PÁGINAS DO FACEBOOK</p><p>FONTE:</p><p>< https://www.facebook.com</p><p>/analytics/ >. Acesso em: 12 nov.</p><p>2018.</p><p>Outras métricas são importantes para monitorar um site ou uma loja virtual. Algumas destas são comuns a</p><p>outras ferramentas de Analytics implementadas, como:</p><p>Número de visitantes : corresponde ao total de usuários que visitaram o website. Se você, João e eu,</p><p>acessamos uma única vez o site da Amazon para checar a disponibilidade de algum produto, têm-se um</p><p>total de 3 visitantes (ou visitas únicas) . No entanto, se você voltar no mesmo site para ver algum outro</p><p>produto, o número de visitantes permanece 3, porém, a visita ao site é contabilizada mais uma vez. Ao final,</p><p>teremos 3 visitantes e 4 visitas .</p><p>Origens de tráfego : é importante muitas vezes que você saiba de onde os usuários estão acessando a sua</p><p>página. É por meio do acesso direto ao link do seu site? (Tráfego Direto); ou seria através de links de</p><p>terceiros? (Tráfego de referência); talvez o usuário tenha acessado utilizando algum buscador, como Google</p><p>ou Bing (Tráfego Orgânico); ou mesmo por meio de mecanismos de anúncios que priorizam a exibição de</p><p>página, como o Google AdWords (Tráfego por Campanhas).</p><p>Páginas por visita : é uma métrica importante para inferir se o usuário está interessado ou não naquilo que</p><p>ele está visualizando. Uma média alta de acesso em uma mesma página indica que ele está interessado.</p><p>Dispositivos : é interessante muitas vezes conhecer qual o percentual de acessos por diferentes dispositivos</p><p>(smartphones, tablets ou desktop). Ao constatar uma massiva presença de dispositivos móveis, talvez seja</p><p>interessante pensar em reimplementar as páginas do site, tornando-as mais ágeis para os usuários</p><p>(observando sempre outras métricas, tais como tempo de carregamento de uma página ), ou tomar uma</p><p>ação e direcionar esforços para construção de aplicativos (apps).</p><p>Conecte-se</p><p>Caso você tenha interesse em se aprofundar no Google Analytics, o Google</p><p>disponibiliza treinamentos gratuitos no site: < https://bit.ly/3aJfGl4 >.</p><p>Você também pode experimentar a ferramenta SimilarWeb para comparar</p><p>métricas analíticas entre websites e aplicativos. A versão gratuita oferece alguns</p><p>recursos para você testar a ferramenta < https://www.similarweb.com/ >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EqofFG&sa=D&sntz=1&usg=AOvVaw13L_QGFQXxKjhjG_p9bjOv</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.facebook.com%2Fanalytics%2F&sa=D&sntz=1&usg=AOvVaw2Zu_S5osVwVWaj5ZFgh6Ze</p><p>https://analytics.google.com/analytics/academy/</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.similarweb.com%2F&sa=D&sntz=1&usg=AOvVaw1Bs0IW81U0G0CgCwLEPZm7</p><p>Evidentemente que existem outras métricas digitais incorporadas em ferramentas voltadas para as análises</p><p>digitais. As próprias features do Google Analytics são constituídas de numerosas métricas e indicadores para</p><p>auxiliar as empresas a obterem ganho competitivo no mundo digital. Em situações nas quais o volume de</p><p>dados cresce exponencialmente, é mais seguro optar por soluções Big Data que assegurem uma boa</p><p>escalabilidade e disponibilidade para que o processo de análise transcorra adequadamente. Nesse sentido, o</p><p>Apache Kafka é uma plataforma para o processamento distribuído, que pode ser uma alternativa viável para</p><p>capturar métricas digitais do Google Analytics, estabelecendo uma ponte entre a captura e a análise de</p><p>imensos volumes de dados.</p><p>Conecte-se</p><p>Este tutorial < https://bit.ly/34g6zHD > apresenta um passo a passo de como</p><p>construir um pipeline para extrair os dados do Google Analytics e em seguida</p><p>enviar para o Kafka. Esses dados podem ser entregues ao Spark para posterior</p><p>análise. No capítulo 3 você aprenderá mais sobre o Apache Spark.</p><p>Adicionalmente, você pode trabalhar com Digital Analytics em cima de ferramentas da IBM, como o IBM</p><p>Analytics, que agrupa diversos mecanismos para otimizar a</p><p>presença de uma empresa na Web, fazendo</p><p>comparativos de desempenho em relação à concorrência em diversos canais digitais, agrupando em uma</p><p>única visualização. A fidelização do cliente é algo importante para as empresas, pensando nisso, a ferramenta</p><p>organiza e segmenta os visitantes em cada canal, fornecendo métricas em função de probabilidade de</p><p>conversão do visitante para um cliente. A ferramenta também apresenta algumas features interessantes</p><p>como: análises avançadas (mobile, redes sociais e web), indicadores (KPIs), dashboards (painéis), visualização</p><p>intuitiva, entre outros pontos. Além das empresas mencionadas, Teradata, AWS e Avanade também são</p><p>opções para realizar análises de dados digitais.</p><p>O importante é que você compreenda que antes de mergulhar na ferramenta, você precisa compreender os</p><p>conceitos e os contextos envolvidos. Conhecer os pormenores de tudo que foi apresentado e sanar suas</p><p>dúvidas é algo que você deve ter em mente. Execute cada passo a passo. Todas as métricas que foram</p><p>apresentadas fazem parte apenas de um subconjunto de algo amplo e complexo do mundo digital. Não</p><p>desanime, ao contrário, a mola propulsora do seu conhecimento está em você mesmo.</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Ao longo desse capítulo, apesar de ter apresentado uma gama de técnicas, ferramentas e métricas, você talvez</p><p>tenha percebido que há muito para aprender e explorar. De fato, tudo que aqui foi mostrado representa</p><p>apenas uma parte de um amplo campo de estudo. Possivelmente, você deve ter percebido que existe a</p><p>possibilidade de fazer a intersecção entre os conhecimentos de cada técnica. Por exemplo, lembra quando</p><p>falamos sobre clusterização pela primeira vez? Quantas vezes a repetimos em seguida? A base do</p><p>conhecimento de clusterização, técnicas e algoritmos são úteis para diversas aplicações e podem ser</p><p>perfeitamente úteis no seu trabalho.</p><p>É difícil separar o Digital Analytics do Text Analytics ou das análises em Cluster quando lembramos que todos</p><p>se constituem e fazem parte do mesmo contexto. Eventualmente, você pode querer fazer uma análise de</p><p>dados em uma rede social procurando identificar quais são os principais atores (mais influentes ou relevantes)</p><p>em uma rede analisando a interatividade entre os posts produzidos por estes. Em seguida, você agrupa os</p><p>atores com base na similaridade entre eles. Note a amplitude de conceitos envolvidos ao lidar com esse tipo</p><p>de análise - um cenário de Digital Analytics para investigar em uma rede social os atores mais influentes com</p><p>base em alguma métrica. Por fim, analisar o conteúdo textual presente nos posts, estruturá-los e agrupá-los</p><p>de acordo com alguma medida de similaridade.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2Fkafka-python-and-google-analytics&sa=D&sntz=1&usg=AOvVaw20qAFK1PYjTm76y2UzO3Um</p><p>Tendo em mente tudo que foi abordado nesse capítulo, esperamos que você tenha assimilado o conteúdo e</p><p>esteja preparado para alguns aspectos mais avançados que serão abordados no Capítulo 3.</p><p>Na próxima etapa trataremos de alguns conceitos relacionados à integração para análise de Big Data, além de</p><p>abordarmos a Internet das coisas, prontos?</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-2</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>UNIDADE 3</p><p>A competitividade dos negócios, o barateamento do hardware e de soluções baseadas em software permitiram que</p><p>as empresas ampliassem a forma de extrair e analisar dados. Dados internos e externos passaram a ser</p><p>incorporados para fornecer subsídios aos gestores de negócio, que perceberam a vantagem competitiva adquirida</p><p>com o fornecimento desses dados. Diante disso, a integração de dados (internos e externos) passou a ser uma</p><p>tarefa fundamental nos projetos de análise atuais, especialmente em Big Data.</p><p>Confira o vídeo da etapa 3:</p><p>Big Data Analytic e a Tomada de Decisões - Etapa 3</p><p>A forma tradicional de analisar dados nos negócios ficou comprometida com o aumento substancial do volume de</p><p>dados disponível e a incorporação de dados não estruturados nos projetos. Isso porque quanto mais dados chegam</p><p>à arquitetura mais requisitos de hardware são necessários para suportar a demanda. Não apenas isso, as decisões</p><p>de negócio estão exigindo respostas cada vez mais rápidas.</p><p>Uma das tecnologias que emergiram a partir do Big Data e que pode ser considerado uma abordagem do tipo ELT é</p><p>o Data Lake – que oferece uma solução para gerenciamento de grandes volumes de dados. São quatro estágios</p><p>para implementação e construção de Data Lake nas empresas:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://youtu.be/XtfI0SG7wuw</p><p>A utilização de Data Lake torna mais flexível a busca de novos insights, incluindo em fontes não estruturadas. De</p><p>modo simplificado, um Data Lake pode ser imaginado como um imenso grid contendo bilhões de linhas e colunas.</p><p>Ao contrário de uma planilha estruturada, cada célula desse grid pode conter um dado diferente (documento,</p><p>imagem, post no Facebook etc.).</p><p>Outra poderosa ferramenta é o Apache Spark, um framework open-source poderoso para processamento eficiente</p><p>e iterativo de grandes conjuntos de dados. Esse framework foi criado com o intuito de suprir algumas deficiências</p><p>de processamento do Hadoop MapReduce – como a baixa eficiência para lidar com processamento iterativo e</p><p>contínuo (streaming) de microlotes de dados. Vamos verificar quais os ingredientes que tornam o Apache Spark</p><p>uma das soluções de Big Data mais atrativas para desenvolvedores e empresas?</p><p>Tudo isso em um ambiente distribuído, escalável, tolerante a falhas e extremamente veloz. Veja alguns casos da</p><p>utilização do Apache Spark:</p><p>• Netflix: a empresa utiliza o Spark Streaming para obter insights de forma imediata (em tempo real) sobre como os</p><p>usuários estão engajados em seu site. Dessa forma, a empresa tem a possibilidade de fornecer recomendações de</p><p>filmes e/ou séries em tempo real.</p><p>• Pinterest: por meio de um pipeline de ETL, o Pinterest pode aproveitar os benefícios do Spark Streaming para</p><p>obter informações de seus usuários em tempo real ao identificar como os usuários estão interagindo com os Pins.</p><p>Leia o artigo Apache Hadoop – Casos de sucesso no uso da tecnologia , João Paulo B. Nascimento apresenta o</p><p>caso do Royal Bank of Scotland, um dos maiores bancos britânico, da companhia aérea British Airways, do Yahoo e</p><p>do Facebook. Confira o que como o Apache Hadoop ajudou essas empresas.</p><p>Outro assunto importante que devemos entender quando tratamos de Big Data é a Internet da Coisas (IoT). Na Era</p><p>da “Internet dos Computadores”, os principais atores para propagação dos dados são os seres humanos. Por outro</p><p>lado, na Internet das Coisas os principais atores são coisas que ora consomem, ora produzem dados. Isso permite</p><p>que os computadores sejam capazes de obter informações e aprender a resolver problemas do mundo real a partir</p><p>dos dados obtidos pelas coisas e assim eles serão capazes de sentir e reagir ao mundo real servindo de apoio para</p><p>decisões humanas.</p><p>A Internet das Coisas é constituída por um conjunto de objetos que estão interligados gerando massivamente</p><p>informação. Contudo, é necessário que exista algum engine (mecanismo ou software que ofereça abstração)</p><p>responsável por gerenciar toda essa gama de dispositivos, oferecendo segurança, escalabilidade, capacidade de</p><p>processamento,</p><p>entre outros adjetivos. Diante disso, existem algumas soluções no mercado que podem ser úteis</p><p>para quem planeja analisar as informações desses dispositivos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.igti.com.br%2Fblog%2Fapache-hadoop-casos-de-sucesso-no-uso-da-tecnologia%2F&sa=D&sntz=1&usg=AOvVaw1w2z1278GP4lZPTf4vUk2x</p><p>É importante que você tenha em mente que as tecnologias mudam e os profissionais precisam acompanhar as</p><p>tendências, estando preparados para lidar com novos cenários. A área de Big Data é considerada multidisciplinar,</p><p>pois engloba o Data Science, o Data Analytics, Business Intelligence, Machine Learning. Assista o webinar</p><p>Tendências para a área de Big Data em 2020, com o professor Angelo Assis.</p><p>Tendências para a área de Big Data em 2020</p><p>A evolução dessas tecnologias impõe, muitas vezes, formas diferentes para lidar com o problema e, assim,</p><p>precisamos ser profissionais flexíveis ou adaptáveis para aprender ou sugerir novas abordagens. Pois nossas</p><p>decisões de análise impactam diretamente na eficácia da tomada de decisões.</p><p>CAPÍTULO 3 - FUNDAMENTOS PARA</p><p>INTEGRAÇÃO ANALÍTICA, TÓPICOS</p><p>AVANÇADOS E TENDÊNCIAS EM BIG</p><p>DATA ANALYTICS</p><p>OBJETIVOS DE APRENDIZAGEM</p><p>A partir da perspectiva do saber-fazer, são apresentados os seguintes objetivos de aprendizagem:</p><p>Apresentar conceitos e diferenças importantes para integração analítica em Big Data.</p><p>Definir tópicos avançados para análise de dados em tempo real com Apache Spark.</p><p>Apresentar conceitos e análises de Internet das Coisas (IoT) e suas aplicações.</p><p>Relatar as principais tendências no mundo de Big Data Analytics.</p><p>1 CONTEXTUALIZAÇÃO</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://youtu.be/56rGVpGXX5w</p><p>Quando as informações eram centralizadas em sistemas legados da empresa, o poder de análise e decisão era</p><p>limitado ou restrito. Os dados eram cadastrados no sistema e a análise era realizada através de uma simples</p><p>consulta no banco de dados, sem considerar fatores externos ou até mesmo outras fontes de dados da</p><p>empresa. Além disso, era custoso você recuperar informações de dados textuais de forma automatizada.</p><p>Então, trabalhar apenas com dados estruturados de forma centralizada era a alternativa mais viável para que</p><p>o gestor pudesse tomar suas decisões.</p><p>A convergência das tecnologias tem seu papel de contribuição nesse cenário, uma vez que, nos dias atuais, as</p><p>decisões são baseadas na análise de diversas tecnologias, tanto em termos de hardware (drones, sensores,</p><p>servidores etc.) como também em software (linguagens e ferramentas de alto nível). A competitividade dos</p><p>negócios, o barateamento do hardware e de soluções baseadas em software permitiram que as empresas</p><p>ampliassem a forma de extrair e analisar dados. Dados internos e externos passaram a ser incorporados para</p><p>fornecer subsídios aos gestores de negócio, que perceberam a vantagem competitiva adquirida com o</p><p>fornecimento desses dados. Diante disso, a integração de dados (internos e externos) passou a ser uma tarefa</p><p>fundamental nos projetos de análise atuais, especialmente em Big Data.</p><p>Por intermédio da integração, os gestores podem passar a ter informações agregadas de todos os segmentos</p><p>da empresa. Assim, é possível utilizar informações de fluxos de caixa, balancete patrimonial, total de vendas e</p><p>estratégias de marketing para tomar decisões mais consistentes e embasadas. Eventualmente, são</p><p>incrementadas informações externas - como situação do mercado financeiro em um dado momento ou</p><p>avaliação de posts em uma página que a empresa possui no Facebook para aperfeiçoar ou ampliar o escopo</p><p>das análises de Big Data.</p><p>Neste capítulo mostraremos alguns conceitos relacionados à integração para análise de Big Data. Em seguida,</p><p>exploraremos o Apache Spark de uma forma mais profunda. A utilização dessa ferramenta dará a</p><p>possibilidade de se trabalhar com microlotes de dados - potencialmente útil para trabalhar com análise em</p><p>tempo real. Apresentaremos também conceitos e aplicações de Internet das Coisas e principais tendências em</p><p>Big Data Analytics.</p><p>Aproveite e bons estudos!</p><p>2 INTEGRAÇÃO DE TÉCNICAS ANALÍTICAS</p><p>Pense em uma arquitetura típica de BI (Business Intelligence). Tradicionalmente, você extrai um conjunto de</p><p>dados e os armazena em uma “zona de repouso” (Staging Area) - que, como foi mencionado no Capítulo 1,</p><p>representa um Banco de Dados intermediário que armazena temporariamente os dados obtidos da(s) fonte(s)</p><p>e; um Data Warehouse (DW) - que é um repositório que armazena informações centrais, úteis e prontas para</p><p>rápido consumo. O ETL ( Extract - Transform - Load ) é um processo que faz o meio de campo entre o processo de</p><p>coleta, a Staging Area e o DW. Como o próprio nome sugere, o processo de ETL é um conjunto de práticas que</p><p>visa extrair um conjunto de dados de uma ou mais fontes e aplicar tarefas de limpeza e transformação nos</p><p>dados, adequando-os em um formato de acordo com as regras de negócio. Por fim, define-se uma rotina de</p><p>carga (normalmente diária) para alimentar o DW.</p><p>A partir disso, vamos supor que você esteja trabalhando em um projeto de uma empresa do ramo financeiro.</p><p>Você coleta um conjunto de dados a partir de “ n ” fontes (externas e internas) e se depara com dados de</p><p>diferentes formatos e estruturas. Estes dados que serão armazenados no DW precisam ter um schema</p><p>definido. Tendo isso em mente, você realiza as limpezas necessárias - remoção de espaços em branco,</p><p>caracteres especiais, entre outras inconsistências, aplica transformação de dados - modifica unidades (dólar</p><p>para real), padronização de casas decimais, ajuste nos tipos de dados, seleção/remoção das variáveis de</p><p>interesse etc. Ainda nesta fase, presume-se quais são as variáveis de interesse que serão carregadas no DW.</p><p>Por fim, ao final do processo, os dados são armazenados no DW e representam uma informação otimizada e</p><p>condensada que serão apresentadas ao usuário final. A Figura 1 sintetiza todo esse processo. Os Data Marts</p><p>podem ser entendidos como um subconjunto do DW (dados de um setor da empresa, como</p><p>marketing/financeiro ou contábil da empresa). Os dados podem ser obtidos de diferentes fontes e</p><p>temporariamente armazenados em uma Staging Area. Um processo de ETL é aplicado antes da carga no DW,</p><p>assim os dados ficam prontos para o usuário final.</p><p>FIGURA 1 – ARQUITETURA TÍPICA DE UM PROCESSO DE BI</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>FONTE:</p><p>< https://canaltech.com.br >.</p><p>Acesso em: 19 nov. 2018.</p><p>O processo descrito anteriormente é iterativo e, portanto, é reinicializado de tempos em tempos. Como</p><p>consequência, obtém-se um conjunto de dados históricos que pode ser posteriormente analisado.</p><p>Normalmente, emprega-se uma rotina de carga em uma janela de 24h, para que o gestor possa tomar</p><p>decisões diárias. Ao final da noite até aproximadamente o início da manhã, o gestor já tem informações</p><p>atualizadas (do dia anterior). Ao longo de 30 dias, pode-se obter informações mais agregadas (semanais)</p><p>devido ao conjunto de dados históricos mantidos no DW.</p><p>No entanto, a forma tradicional de analisar dados nos negócios ficou comprometida com o aumento</p><p>substancial do volume de dados disponível e a incorporação de dados não estruturados nos projetos. Isso</p><p>porque quanto mais dados chegam à arquitetura, mais requisitos de hardware são necessários para suportar</p><p>a demanda. Não apenas isso, as decisões de negócio estão exigindo respostas cada vez mais rápidas. Por sua</p><p>vez, a arquitetura de BI tradicional não consegue suportar a rápida ingestão de dados em um intervalo</p><p>temporal mais curto, produzindo um efeito cascata: altas taxas de latência que comprometem as análises e,</p><p>consequentemente, o apoio à tomada de decisão. Aumentar o número</p><p>de servidores ou melhorar a</p><p>capacidade de hardware muitas vezes não parece ser uma boa ideia, pois elevaria os custos de</p><p>armazenamento e tornaria o problema cíclico.</p><p>Uma solução viável seria investir em tecnologias voltadas para o Big Data. Nesse caso, o Big Data poderia ser</p><p>integrado à arquitetura para dar conta dessa elevada demanda em termos de armazenamento e</p><p>processamento de dados. Você verá na próxima seção mais detalhes a respeito dessa integração.</p><p>2.1 ETL, ELT E DATA LAKE: CONCEITOS E IMPLEMENTAÇÃO</p><p>Como vimos, o processo de ETL é constituído de etapas bem definidas: extração, transformação e carga de</p><p>dados. A etapa de extração, de fato, consiste na primeira etapa do processo. Antes de realizar a carga dos</p><p>dados na Staging Area, define-se previamente um schema ( schema - on - write ) para armazenar esses dados</p><p>estruturados, a fim de que o SGBD (Sistema de Gerenciamento de Banco de Dados) faça a leitura desses</p><p>dados. É verdade que a definição prévia de um schema pode ser benéfica, especialmente em algumas</p><p>situações nas quais o conjunto de dados e a complexidade do negócio são considerados baixos. Por exemplo,</p><p>casos em que o analista sabe exatamente o que o usuário quer analisar. Contudo, na prática, em cenários</p><p>mais complexos com dados de grande volume e variedade é prudente pensar em uma alternativa mais</p><p>flexível, que possa fornecer uma solução de análise mais rica para os usuários.</p><p>Que tal você propor uma abordagem na qual não seja necessário definir previamente um schema de banco de</p><p>dados ( schema - on - read )? O ELT ( Extract-Load-Transform ) difere da abordagem tradicional de ETL. No ELT, os</p><p>dados extraídos são armazenados na sua forma mais bruta e posteriormente serão selecionados</p><p>(transformados) de acordo com as necessidades do negócio. Isso significa que não são todos os dados que</p><p>precisam ser transformados, apenas os dados que realmente fazem sentido naquele momento. Essa</p><p>abordagem ganhou destaque com o advento do Big Data, visto que para armazenar essa gama de dados com</p><p>formatos e estruturas variáveis era necessário uma infraestrutura capaz de armazenar, oferecer</p><p>processamento e escalabilidade suficiente para lidar com isso. Mais do que isso, o Big Data fornece a</p><p>possibilidade de se trabalhar com dados distribuídos em commodities hardware , ou seja, máquinas de baixo</p><p>custo. Caso haja necessidade, servidores hospedados em nuvem, tais como : Amazon S3, Microsoft Azure, IBM</p><p>Analytics também podem ser uma alternativa para armazenamento e processamento de Big Data em</p><p>ambientes de negócios.</p><p>O que você pode aprender disso? Note que algumas lacunas são preenchidas quando integramos</p><p>ferramentas ou soluções voltadas para atender as demandas de Big Data aos processos tradicionais de análise</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fcanaltech.com.br%2Fbusiness-intelligence%2Fconhecendo-a-arquitetura-de-data-warehouse-19266%2F&sa=D&sntz=1&usg=AOvVaw1mjJPjjgU3iKPkaGc83kob</p><p>de dados nos negócios - especialmente no que se refere a demandas para recursos de armazenamento e</p><p>problemas de latência (processamento). Nesse sentido, uma infraestrutura de Big Data é capaz de oferecer</p><p>recursos computacionais por meio de cluster de computadores (ou nós). Por exemplo, a família Apache</p><p>Hadoop, que vimos no Capítulo 1, apresenta um conjunto de ferramentas para auxiliar tanto no</p><p>armazenamento quanto no processamento e análise de dados não estruturados e/ou gerados em tempo real.</p><p>Conecte-se</p><p>Um case interessante de aplicação do Data Lake pode ser encontrado no site</p><p>< https://invent.ge/31fIJcX >.</p><p>Você pode consultar este artigo < https://bit.ly/3j1JHQg >, que apresenta um</p><p>hands on (algo prático) ilustrando as diferenças entre o ETL e o ELT. Assim</p><p>como são exibidas algumas vantagens e desvantagens entre as duas</p><p>tecnologias.</p><p>Uma das tecnologias que emergiram a partir do Big Data e que pode ser considerado uma abordagem do tipo</p><p>ELT é o Data Lake - que oferece uma solução para gerenciamento de grandes volumes de dados. Além disso, o</p><p>Data Lake pode ser perfeitamente integrado a processos e análises de BI, possibilitando uma maior</p><p>flexibilidade e escalabilidade dos dados que foram coletados. A Figura 2 exibe uma comparação gráfica entre o</p><p>ETL tradicional e o Data Lake (ELT). Note que no primeiro caso, após o processo de coleta dos dados, os dados</p><p>são organizados e estruturados em um schema predefinido e específico para que seja reconhecido no DW</p><p>(representado por DWH). Por outro lado, em um Data Lake, os dados que chegam são armazenados na sua</p><p>forma mais bruta e somente serão utilizados sob demanda, ou seja, a seleção de variáveis relevantes será</p><p>realizada somente conforme as necessidades do momento. A transformação, por sua vez, ocorrerá após a</p><p>etapa de carga. Uma tarefa opcional é combinar esse processo com o DW. Evidentemente que isso é algo que</p><p>dependerá das necessidades específicas da organização ou do seu projeto.</p><p>FIGURA 2 – REPRESENTAÇÃO GRÁFICA QUE COMPARA AS ABORDAGENS ETL E ELT</p><p>FONTE:</p><p><h ttps://www.xplenty.com/ >.</p><p>Acesso em: 20 nov. 2018.</p><p>O grupo McKinsey&Company aponta quatro estágios para implementação e construção de Data Lake nas</p><p>empresas, conforme mostramos a seguir:</p><p>Landing zone (zona de pouso) ou dados brutos : é o primeiro estágio de um Data Lake, uma vez que os</p><p>dados são coletados, eles podem ser armazenados em uma camada de gerenciamento presente em alguma</p><p>infraestrutura de TI, que permite que os dados sejam armazenados em uma forma bruta antes de serem</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ge.com%2Freports%2Fpost%2F94170227900%2Fangling-in-the-data-lake-ge-and-pivotal-pioneer-4%2F&sa=D&sntz=1&usg=AOvVaw191Gj0b4g13A0P9mWug_Fz</p><p>https://www.google.com/url?q=https%3A%2F%2Fdzone.com%2Farticles%2Fetl-vs-elt-the-difference-is-in-the-how&sa=D&sntz=1&usg=AOvVaw2J_02zxjX5Z4RgZc7cMQaa</p><p>preparados para utilização. Para que isso se concretize, as organizações precisam se empenhar para</p><p>implantar uma forte governança de dados, a fim de garantir sua consistência.</p><p>Ambiente de ciência de dados : nesse estágio, o Data Lake pode ser utilizado como plataforma de</p><p>experimentação, ou seja, os cientistas podem se concentrar em realizar experimentos e análises, coletando</p><p>informações relevantes e extraindo insights, inclusive para análises ad - hoc . Mais do que isso, podem ser</p><p>construídas ferramentas comerciais e open - sources, combinando com o Data Lake para criar os ambientes</p><p>de testes necessários.</p><p>Offload (descarga) para Data Warehouse : nesse momento, o Data Lake começa a ser integrado com o(s)</p><p>Data Warehouse(s) existente(s). As empresas podem tirar proveito do baixo custo de armazenamento de</p><p>um Data Lake e armazenar cold data (dados frios) - ou seja, aqueles dados que são raramente utilizados (ou</p><p>inativos) e que muitas vezes são mantidos para fins de conformidade nas empresas. Assim, é possível não</p><p>sobrecarregar o DW com informações que poderiam exceder suas limitações de armazenamento. Dessa</p><p>forma, as empresas podem manter as extrações nos seus Bancos de Dados relacionais em seu(s) DW(s) e</p><p>migrar tarefas de extração e transformação não suportadas no DW para o Data Lake, como dados não</p><p>estruturados.</p><p>Componentes críticos de operações de dados : esse último estágio indica que provavelmente todas as</p><p>informações que percorrem os sistemas da empresa estão passando de alguma forma pelo Data Lake. Este,</p><p>por sua vez, torna-se um componente essencial na infraestrutura de dados implementada e fornece dados</p><p>como um serviço por meio de uso intensivo de computação, que permite análise de dados mais avançada e</p><p>inclui softwares com aprendizagem de máquina. As empresas podem criar aplicações para gerenciamento</p><p>de desempenho.</p><p>Conceituando</p><p>O conceito de Data Lake é</p><p>um novo mindset, não apenas a tecnologia de um</p><p>grande repositório. Sua arquitetura é composta por um sistema de arquivos do</p><p>Hadoop - HDFS com uma gama de diretórios e arquivos que têm sido explorados</p><p>por grandes empresas, como Google, Netflix e Yahoo. Não é possível se limitar às</p><p>tecnologias como Data Warehouses e Data Minings, em que os modelos de dados</p><p>são previamente definidos e, portanto, limitam o escopo das perguntas possíveis.</p><p>Especialmente considerando que a obtenção de um insight normalmente conduz</p><p>a novas perguntas, que, por sua vez, geram novos conhecimentos. A utilização de</p><p>Data Lake torna mais flexível a busca de novos insights, incluindo em fontes não</p><p>estruturadas.</p><p>De modo simplificado, um Data Lake pode ser imaginado como um imenso</p><p>grid contendo bilhões de linhas e colunas. Ao contrário de uma planilha</p><p>estruturada, cada célula desse grid pode conter um dado diferente (documento,</p><p>imagem, post no Facebook etc).</p><p>À primeira vista, o Data Lake parece um amontoado de dados sem controle,</p><p>mas não é verdade. É necessário um processo eficaz de governança, que envolva</p><p>segurança, controle de acesso e aderência a normas de compliance. A ideia de</p><p>colocar todos os dados em um lugar e deixar que os usuários, por sua conta,</p><p>façam suas buscas e correlações, gerando eles mesmos os insights é algo que</p><p>torna o Data Lake tão atraente.</p><p>2.1.1 Integração de ETL no Hadoop</p><p>Você estudou no Capítulo 1 que o ecossistema Hadoop contém uma coleção de ferramentas que podem ser</p><p>úteis para análises sofisticadas de Big Data. Para coletar dados de fontes estruturadas, como Bancos de Dados</p><p>relacionais, você pode utilizar o Sqoop , que é uma ferramenta que utiliza comandos SQL para fazer a ingestão</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>de dados no HDFS.</p><p>Conecte-se</p><p>Por meio deste tutorial < https://bit.ly/2FBdyQW >, você pode aprender a instalar</p><p>o SQOOP e importar dados do MySQL para o HDFS. Caso não tenha configurado</p><p>o ambiente de execução, acesse este link: < https://bit.ly/2EoUDIs >.</p><p>Ainda tratando do processo de coleta e ingestão de dados em Big Data, você pode mover grandes quantidades</p><p>de dados em streaming (logs, eventos, dados de redes sociais etc.) para o HDFS ou um Banco de Dados não</p><p>relacional como o HBase. O Apache Flume possui controle de balanceamento de carga para garantir um fluxo</p><p>constante de dados, mecanismos de tolerância a falhas, escalabilidade, entre outras características.</p><p>Conceituando</p><p>Sugerimos que você tente instalar, configurar e testar o Apache Flume por meio</p><p>deste tutorial: < https://bit.ly/32g2iB8 >. Neste tutorial, você utilizará o Apache</p><p>Flume para coletar dados do Twitter e armazená-los no HDFS.</p><p>Em ambas ferramentas o processo de extração e carga são realizados. Uma vez que os dados estejam no</p><p>HDFS, já é possível construir suas análises de Big Data utilizando, por exemplo, o Spark ou Mahout e aplicar</p><p>algoritmos de Machine Learning. O Apache Mahout é um framework que permite a execução de aplicações</p><p>de Machine Learning dentro de um ambiente escalável e distribuído. Você pode implementar técnicas voltadas</p><p>para classificação, clusterização ou aplicar tarefas de mineração de dados. Enfim, você pode analisar tudo isso</p><p>dentro de um cluster de máquinas que suporta o armazenamento e o processamento de grande volume de</p><p>dados.</p><p>Conecte-se</p><p>Que tal experimentar o Mahout e assim aplicar modelos de classificação ou</p><p>clusterização em seus projetos? Por meio desse endereço < https://bit.ly</p><p>/2YnpPiq > você pode aprender a preparar ou configurar o ambiente para utilizar</p><p>o Apache Mahout. Experimente.</p><p>Disponível aqui</p><p>Como já mostramos no Capítulo 2, você pode também aplicar o Apache Kafka para criar um pipeline que</p><p>colete dados diretamente das fontes, especialmente dados de fluxo contínuo (streaming). Essa plataforma</p><p>possui mecanismos internos para tratamento de erros, além de uma arquitetura escalável que permite</p><p>processar grandes volumes de dados que estão chegando a nossa infraestrutura de Big Data.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fsqoop%2Fsqoop_import.htm&sa=D&sntz=1&usg=AOvVaw3jRaKVKqU495zRn-ycTnlu</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fsqoop%2Fsqoop_installation.htm&sa=D&sntz=1&usg=AOvVaw1e_lRF_go3dxpm-2x7kW05</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_flume%2Fapache_flume_environment.htm&sa=D&sntz=1&usg=AOvVaw2JXSs4hUwah8ZdhzqMNgmu</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fmahout%2Fmahout_environment.htm&sa=D&sntz=1&usg=AOvVaw051KzO5uCE2RZbzr7KcEzR</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fmahout%2Fmahout_environment.htm&sa=D&sntz=1&usg=AOvVaw051KzO5uCE2RZbzr7KcEzR</p><p>Conecte-se</p><p>O Kafka é uma plataforma robusta e que pode ser implementada para</p><p>processar dados em tempo real. Você pode aprender a instalar, configurar e</p><p>implementar o Kafka por meio desse tutorial: < https://bit.ly/3ghjfQX >. Pratique</p><p>Disponível aqui</p><p>Uma das grandes vantagens em integrar essas ferramentas dentro dos processos tradicionais de BI é a</p><p>questão do seu custo. Embora, eventualmente, o fator complexidade para implementação pese, se</p><p>comparado a ferramentas proprietárias que estão prontas para utilização, as ferramentas que fazem parte do</p><p>ecossistema Hadoop se destacam por serem livres de licença de uso open-source. Assim, você tem a</p><p>tranquilidade de implementar e modificar seus projetos para uso pessoal, comercial ou com objetivos de</p><p>pesquisa, entre outras finalidades. Na próxima seção, você aprenderá em mais detalhes sobre o Apache Spark.</p><p>Antes, pratique o que você aprendeu nesta seção nas atividades a seguir.</p><p>3 APACHE SPARK: CONCEITOS, COMPONENTES, ESTRUTURA E APLICAÇÕES</p><p>Nesta seção exploraremos o Apache Spark, uma poderosa ferramenta para processamento e análise de dados</p><p>de fluxo contínuo (streaming de dados). Você conhecerá um pouco sobre a arquitetura e os componentes do</p><p>Spark, assim como alguns exemplos utilizando a linguagem Python. É recomendável que você tente praticar os</p><p>exercícios ou tutoriais sugeridos para consolidar seus conhecimentos.</p><p>3.1 CONCEITOS E COMPONENTES CORE DO APACHE SPARK</p><p>O Apache Spark é um framework open-source poderoso para processamento eficiente e iterativo de grandes</p><p>conjuntos de dados. Esse framework foi criado com o intuito de suprir algumas deficiências de processamento</p><p>do Hadoop MapReduce - como a baixa eficiência para lidar com processamento iterativo e contínuo</p><p>(streaming) de microlotes de dados. Tradicionalmente as operações de leitura-escrita em MapReduce são em</p><p>disco (HFDS), apresentando altas taxas de latência em processos iterativos, ou seja, processos que são</p><p>repetidos constantemente. Por outro lado, as operações no Spark são realizadas em memória, tornando o</p><p>processamento muito mais veloz, ao mesmo tempo que herda mecanismos de tolerância a falhas e</p><p>escalabilidade do MapReduce.</p><p>Essa característica permite que o Spark seja 100 vezes mais veloz que o Hadoop MapReduce. Apesar de ter</p><p>sido desenvolvido na linguagem Java, o Spark fornece APIs para que você possa implementar aplicações de</p><p>forma paralela e transparente, utilizando Python, Scala ou R. Além disso, o Spark fornece um conjunto de</p><p>bibliotecas para construção de aplicações, conforme mostra a Figura 3.</p><p>FIGURA 3 – PILHAS (STACKS) DE BIBLIOTECAS DO APACHE SPARK</p><p>FONTE:</p><p>< https://spark.apache.org/ >.</p><p>Acesso em: 27 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_kafka%2Fapache_kafka_installation_steps.htm&sa=D&sntz=1&usg=AOvVaw368vs0dvIYX3dnyHSB9IOB</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_kafka%2Fapache_kafka_installation_steps.htm&sa=D&sntz=1&usg=AOvVaw368vs0dvIYX3dnyHSB9IOB</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2F&sa=D&sntz=1&usg=AOvVaw0SHpQmRdIKiA_ikvJk5aTE</p><p>Esse conjunto de bibliotecas é fornecido por intermédio do Spark Core, que é a plataforma-base que permite o</p><p>funcionamento dessas bibliotecas. É possível dimensionar quão poderoso é o Spark por meio dessas</p><p>bibliotecas. Por isso, é importante que você as conheça.</p><p>O primeiro componente que merece destaque é o Spark SQL . Ele permite o uso da linguagem SQL para</p><p>realizar consultas e processar dados estruturados no Spark, tudo de forma distribuída e otimizada. Além de</p><p>utilizar diretamente a linguagem SQL, você também tem a opção de usufruir das APIs projetadas nas</p><p>linguagens de programação Java, Scala, Python ou R através de uma sintaxe simples e intuitiva. Caso você</p><p>esteja habituado com consultas em HiveQL, o Spark SQL também fornece suporte. Observe um exemplo do</p><p>Spark SQL na Figura 4:</p><p>FIGURA 4 – EXEMPLO DE MANIPULAÇÃO DE DADOS COM SPARK SQL</p><p>FONTE: https://spark.apache.org</p><p>/sql/ >. Acesso em: 27 nov. 2018</p><p>Observe que os dados podem ser capturados e integrados a partir de diferentes fontes. Você pode construir</p><p>um SQL dentro do Spark para unir registros de uma tabela com dados obtidos de uma fonte em JSON</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark SQL, possibilidades de integração e conexão,</p><p>bem como alguns exemplos, acesse a documentação no site:</p><p>< https://spark.apache.org/sql/ >. Tente praticar.</p><p>Disponível aqui</p><p>Conecte-se</p><p>O Python é uma das linguagens de programação mais populares para análise</p><p>de dados e será utilizado ao longo desta seção como referência. Se você ainda</p><p>não conhece a linguagem, recomendamos que você explore os seguintes</p><p>endereços:</p><p>Python Data Science Handbook : < https://jakevdp.github.io</p><p>/PythonDataScienceHandbook/ >.</p><p>Pandas Tutorial : < https://bit.ly/3l3UJGu >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fsql%2F&sa=D&sntz=1&usg=AOvVaw3e8Ah5WA8XU_JhxLfL9Cnp</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fsql%2F&sa=D&sntz=1&usg=AOvVaw3e8Ah5WA8XU_JhxLfL9Cnp</p><p>https://www.google.com/url?q=https%3A%2F%2Fjakevdp.github.io%2FPythonDataScienceHandbook%2F&sa=D&sntz=1&usg=AOvVaw2RsXIlPVXlVxxcfg9wZZvz</p><p>https://www.google.com/url?q=https%3A%2F%2Fjakevdp.github.io%2FPythonDataScienceHandbook%2F&sa=D&sntz=1&usg=AOvVaw2RsXIlPVXlVxxcfg9wZZvz</p><p>https://www.google.com/url?q=https%3A%2F%2Fpandas.pydata.org%2Fpandas-docs%2Fstable%2Ftutorials.html&sa=D&sntz=1&usg=AOvVaw1Rno84eQRm2uYaW0Oo6Wdl</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.practicepython.org%2F&sa=D&sntz=1&usg=AOvVaw2Oc3eEgcaQ0rJy5BRPjuXU</p><p>Practice Python : < https://www.practicepython.org/ >.</p><p>Como atividade prática é recomendável que nesse primeiro momento você</p><p>realize a instalação e a configuração do Apache Spark:</p><p>< https://spark.apache.org/downloads.html >. O processo de instalação é</p><p>simples, no entanto, é necessário realizar algumas configurações adicionais que</p><p>podem variar de acordo com o seu sistema operacional. Neste tutorial</p><p>< https://bit.ly/32i42Ku >, você pode instalar e configurar o PySpark , que</p><p>permite conectar o Python ao Spark. Certifique-se de ter instalado o Java e o</p><p>Scala no seu computador. Caso não tenha instalado, siga os passos neste link:</p><p>< https://bit.ly/3aJZbFu >. Por fim, se desejar algo mais completo e avançado,</p><p>este tutorial pode ajudá-lo: < https://bit.ly/3aHnjbM >.</p><p>O Spark também contém um componente útil para processamento e análise de dados em tempo real - o</p><p>Spark Streaming . Este componente possui uma sintaxe simples e unificada tanto para implementação em</p><p>dados em tempo real como também para análise de dados históricos (dados em batch), ou seja, a maneira</p><p>que você codifica para streaming é praticamente a mesma para batch. Com o Spark Streaming, os dados</p><p>podem ser coletados de fontes, tais como: dados de bolsas de valores, redes sociais, sensores, dados</p><p>pluviométricos, dispositivos de IoT (Internet das Coisas), entre outras. Embora esse tipo de análise (em tempo</p><p>real) não exija grandes recursos de armazenamento, uma vez que o foco é a coleta, o processamento e a</p><p>análise de microlotes de dados, é possível carregar os dados tanto em memória como em disco via HDFS.</p><p>Neste último caso, é recomendável que você opte por essa alternativa quando os recursos de memória</p><p>estiverem realmente escassos. Os motivos você já deve imaginar (conforme comentamos no início desta</p><p>seção): o Spark processa os dados em memória, o que o torna mais veloz se comparado ao processamento em</p><p>disco. A Figura 5 mostra um exemplo de implementação do Spark Streaming combinando com informações</p><p>históricas.</p><p>FIGURA 5 – COMBINANDO EM UMA ÚNICA CONSULTA: STREAMING E BATCH</p><p>FONTE: < https://spark.apache.org</p><p>/streaming/ >. Acesso em: 27 nov.</p><p>2018.</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark Streaming, possibilidades de integração, bem</p><p>como alguns exemplos, acesse a documentação no site:</p><p>< https://spark.apache.org/streaming/ >.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.practicepython.org%2F&sa=D&sntz=1&usg=AOvVaw2Oc3eEgcaQ0rJy5BRPjuXU</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdownloads.html&sa=D&sntz=1&usg=AOvVaw3wPSi_JzMw4yqPfotPSi7h</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_environment_setup.htm&sa=D&sntz=1&usg=AOvVaw2Dlt41-BTblYn6_MwOyhce</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fapache_spark%2Fapache_spark_installation.htm&sa=D&sntz=1&usg=AOvVaw2lys8akfBLioTb9C5cuDD7</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fsql-getting-started.html&sa=D&sntz=1&usg=AOvVaw27IxiTy8jDCwRGGCtpBLp_</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fstreaming%2F&sa=D&sntz=1&usg=AOvVaw2-LvfBYAbeQD3-r9XH4L9z</p><p>Conecte-se</p><p>Antes de ir para a atividade prática, você deve se certificar que o Spark esteja</p><p>devidamente instalado na sua máquina. Recomendamos fortemente que você</p><p>utilize como referência o tutorial da Apache para o Spark Streaming:</p><p>< https://bit.ly/3aJpVG3 >.</p><p>Disponível aqui</p><p>Outro componente do Spark que merece destaque é o Spark MLlib. Enquanto o Spark SQL e o Spark</p><p>Streaming atuam mais próximos à origem (fontes de dados) coletando e processando dados, o Spark MLib</p><p>converge para análise de Big Data ao implementar de forma eficiente diversos algoritmos de Machine Learning</p><p>voltados para classificação, regressão e clusterização. Os algoritmos do Spark MLib foram projetados para</p><p>executar em memória e responder rapidamente aos requisitos de computação iterativa. Assim podemos</p><p>coletar dados de streaming do Twitter em um dado intervalo (janela) de tempo, aplicar algumas etapas de</p><p>transformação e limpeza e carregar os dados no HFDS e assim utilizar os algoritmos do MLlib para realizar as</p><p>análises desejadas. Cabe salientar que o armazenamento no HDFS é algo opcional. Por exemplo, para análises</p><p>em tempo real, o armazenamento muitas vezes não é algo requerido e a análise é realizada logo após a etapa</p><p>de transformação e limpeza dos dados e, após isso, os dados podem ser descartados, uma vez que a</p><p>informação que chega, só é importante naquele momento. Em situações nas quais desejamos manter uma</p><p>base histórica dos dados que estão fluindo pelo sistema, o armazenamento no HDFS pode ser uma alternativa.</p><p>A Figura 6 mostra um exemplo prático de uso de um algoritmo que permite construir um modelo de Machine</p><p>Learning utilizando o Spark MLlib.</p><p>FIGURA 6 – EXEMPLO DE USO DE UM ALGORITMO (KMEANS) NO</p><p>SPARK MLLIB</p><p>FONTE: < https://spark.apache.org</p><p>/mllib/ >. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Para conhecer mais sobre o Spark MLlib, possibilidades de integração, conhecer</p><p>os algoritmos e outras possibilidades de uso deste componente, acesse a</p><p>documentação no site: < https://spark.apache.org/mllib/ >.</p><p>Conecte-se</p><p>Você pode utilizar como um guia de referência o tutorial do Spark MLlib</p><p>< https://spark.apache.org/docs/latest/ml-guide.html >. Também</p><p>recomendamos este blog < https://bit.ly/2EaIG9 y >, que apresenta conteúdo e</p><p>exemplos práticos relacionados ao MLlib, não perca a chance de praticar.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fstreaming-programming-guide.html&sa=D&sntz=1&usg=AOvVaw2D3N8NdrkMcQiQ-VTdzPCO</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aJpVG3&sa=D&sntz=1&usg=AOvVaw3Tvk1ywNjcOj8azzhs6NHB</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fmllib%2F&sa=D&sntz=1&usg=AOvVaw1rZECPLQEemKJ_G0zqAP98</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fmllib%2F&sa=D&sntz=1&usg=AOvVaw1rZECPLQEemKJ_G0zqAP98</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fml-guide.html&sa=D&sntz=1&usg=AOvVaw3CAS8RB3ieYP5QwymypJF9</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2EaIG9y&sa=D&sntz=1&usg=AOvVaw2lTV8HEXYbPn695ItklLsm</p><p>Por fim, o último componente que podemos citar é o Spark GraphX. Como o nome sugere, é uma estrutura</p><p>que processa informações de grafos de forma eficiente. Então, conforme você aprendeu no Capítulo 2, a</p><p>análise de Big Data pode se dar em forma de grafos, que são constituídos por um conjunto de vértices (atores)</p><p>e arestas (relações). Em uma estrutura de rede social, considerar essa estrutura é importante para que</p><p>possamos analisar e identificar qual o papel de um usuário na rede, referindo-se a sua importância ou</p><p>relevância, seu grau de interação ou a força do relacionamento entre os usuários. A estrutura deste tipo de</p><p>rede pode ser processada de forma eficiente e paralela por meio do Spark GraphX. A própria documentação</p><p>destaca que este componente pode ser utilizado como ETL, para análise exploratória e computação dos grafos</p><p>de forma iterativa e com uma eficiência superior a outras soluções do mercado. A Figura 7 demonstra um</p><p>rascunho de implementação utilizando o Scala, observe que a sintaxe não difere muito em relação aos outros</p><p>componentes que foram abordados.</p><p>FIGURA 7 – EXEMPLO DE UMA IMPLEMENTAÇÃO UTILIZANDO A API SCALA FORNECIDA PELO SPARK</p><p>FONTE: < https://spark.apache.org/graphx/ >. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Este tutorial < https://bit.ly/3iXq8bG > apresenta um passo a passo de</p><p>implementação do GraphX utilizando o PySpark. Além disso, para buscar</p><p>informações mais completas e avançadas, você pode acessar o guia do próprio</p><p>Spark GraphX: < https://bit.ly/3hfFibO >.</p><p>Todos esses componentes podem ser combinados em uma única solução e isso, evidentemente, varia</p><p>conforme a sua necessidade. Por exemplo, talvez você precise coletar dados em tempo real do Facebook para</p><p>prever a chance que um usuário ou grupo de usuários tem de romper amizade. Nesse caso, você pode utilizar</p><p>o Spark Streaming para conectar a API desta rede social e começar a realizar a coleta. Em seguida, aplicar um</p><p>algoritmo de Machine Learning com o Spark MLlib, tudo isso sob um rápido processamento de uma estrutura</p><p>baseada em rede utilizando o GraphX. Assim, é importante ter em mente essas possibilidades para que, de</p><p>fato, você seja capaz de usufruir amplamente da capacidade de processamento e análise do Apache Spark.</p><p>3.2 DEMAIS COMPONENTES DO APACHE SPARK</p><p>Processamento em Batch, Streaming, em grafos, manipulação de dados utilizando comandos SQL e análise</p><p>preditiva (Machine Learning). Tudo isso em um ambiente distribuído, escalável, tolerante a falhas e</p><p>extremamente veloz. Todos esses ingredientes tornam o Apache Spark uma das soluções de Big Data mais</p><p>atrativas para desenvolvedores e empresas, mas o que torna o Spark tão poderoso?</p><p>De acordo com Zaharia et al. (2010), para que o Spark suporte computação iterativa, mantendo escalabilidade</p><p>e tolerância a falhas, um dos componentes mais importantes está relacionado à construção de uma abstração</p><p>conhecida como Resilient Distributed Datasets (RDDs) ou se preferir uma tradução literal - conjunto de dados</p><p>resilientes e distribuídos. Estes mesmos autores definem o RDD como:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fgraphx%2F&sa=D&sntz=1&usg=AOvVaw23F8W4H_FyQglxZTfJJGN7</p><p>http://www.google.com/url?q=http%3A%2F%2Fpysparktutorial.blogspot.com%2F2017%2F10%2Fgraphframes-pyspark.html&sa=D&sntz=1&usg=AOvVaw1BxFn9VxWHzIfuv0MCNvJ8</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Fgraphx-programming-guide.html&sa=D&sntz=1&usg=AOvVaw38HExvqoVfrx9Tyvaz8hpX</p><p>Uma coleção de objetos somente de leitura particionados através de um conjunto de máquinas que podem ser</p><p>reconstruídas caso uma partição seja perdida. Os usuários podem armazenar em cache explicitamente um</p><p>RDD na memória entre máquinas e reutilizá-lo em várias operações paralelas semelhantes a MapReduce. Os</p><p>RDDs atingem a tolerância a falhas por meio de uma noção de linhagem: se uma partição de RDD foi perdida,</p><p>o RDD terá informações suficientes a respeito de como ele foi derivado de outros RDDs para ser capaz de</p><p>recriar apenas essa partição. Embora os RDDS não sejam uma abstração geral de memória compartilhada,</p><p>eles representam um ponto ideal entre a expressividade por um lado e a escalabilidade e confiabilidade por</p><p>outro (ZAHARIA et al., 2010, grifos nossos).</p><p>A resiliência de um RDD é uma característica que garante o controle de falhas que venham a ocorrer no</p><p>sistema. Os dados em um RDD são persistidos em partições e distribuídos em diferentes nós em um cluster</p><p>para que possam ser processados, posteriormente, de uma forma mais ágil. O Dataset é uma estrutura do</p><p>RDD similar a uma tabela (por exemplo, de um Banco de Dados) que armazena dados de diferentes tipos.</p><p>Uma característica que define o RDD é a sua imutabilidade . Por exemplo, no momento em que você cria um</p><p>RDD no Spark e em seguida aplica alguma operação de transformação, um novo RDD será criado, enquanto</p><p>que as propriedades do RDD anterior permanecem intactas e por isso são consideradas imutáveis. Para criar</p><p>uma RDD, é necessário que antes você defina um objeto para se conectar ao Spark e assim usufruir dos seus</p><p>recursos, criando um Spark Context, que estabelece a conexão com o framework.</p><p>Conecte-se</p><p>Para que você conheça mais e crie um Spark Context pelo PySpark, sugerimos</p><p>que acesse este tutorial: < https://bit.ly/2ErKpqL >. Após a conexão, você pode</p><p>criar uma RDD, acessando: < https://bit.ly/34jyciX >.</p><p>As RDDs suportam dois tipos de operações: as transformações e as ações . Quando aplicamos uma operação</p><p>de transformação em um RDD, um outro RDD é criado. A etapa de transformação só é concluída quando uma</p><p>operação de ação for realizada (Lazy Evaluation), que visa modificar seu conjunto de dados, conforme</p><p>apresentado na Figura 8. O Spark Context é criado para permitir que a linguagem acesse os recursos do Spark.</p><p>Após essa etapa é criado o primeiro RDD, que faz a leitura de um arquivo por intermédio do método textfile. O</p><p>próximo passo é a criação da primeira transformação (método flatMap) sob o RDD anterior,</p><p>consequentemente um novo RDD é criado e armazenado (val AllWords). Em seguida, uma outra etapa de</p><p>transformação é executada neste RDD aplicando o método filter e resultando na criação de um novo RDD (val</p><p>words) e assim sucessivamente.</p><p>FIGURA 8 – EXEMPLO DA OPERAÇÃO DE TRANSFORMAÇÃO NA LINGUAGEM SCALA</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_sparkcontext.htm&sa=D&sntz=1&usg=AOvVaw1r1RCs2j3XnHfO7D59pyO5</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.tutorialspoint.com%2Fpyspark%2Fpyspark_rdd.htm&sa=D&sntz=1&usg=AOvVaw0JmbiPu9GhjBILTQlZyXe5</p><p>FONTE:</p><p>< https://jaceklaskowski.gitbooks.i</p><p>o >. Acesso em: 28 nov. 2018.</p><p>Apresentaremos a seguir um exemplo em Python para remoção de stopwords via Spark. Basicamente, o</p><p>primeiro RDD faz a leitura de um arquivo com conteúdo textual. Em seguida, é definida uma lista com algumas</p><p>stopwords da língua portuguesa. A terceira linha cria um novo RDD (second_rdd) a partir do RDD anterior</p><p>(first_rdd) e aplica uma operação de transformação (utilizando o método filter). A expressão lambda é uma</p><p>função anônima do Python, que basicamente retornará apenas um conjunto de registros nos quais não</p><p>existam as stopwords definidas na linha anterior. A penúltima linha é uma operação de ação (método take)</p><p>que recupera apenas os 20 primeiros registros do RDD (second_rdd). Caso você deseja guardar (persistir) essa</p><p>informação na memória para posterior recuperação, você pode passar ao second_rdd o método cache,</p><p>conforme mostra a última linha. Assim, é possível recuperar rapidamente a informação no cluster sem</p><p>precisar executar novamente esta operação.</p><p>first_rdd = sc.textFile(“PATH”)</p><p>stopwords = [“e”, “o”, “de”, “para”, “um”, “uma”]</p><p>second_rdd = first_rdd .filter (lambda x: x not in stopwords)</p><p>second_rdd. take (20)</p><p>second_rdd. cache ()</p><p>O Quadro 1 apresenta alguns dos métodos presentes nas operações de transformação e ação.</p><p>QUADRO 1 – LISTA DE ALGUMAS OPERAÇÕES DE TRANSFORMAÇÃO E AÇÃO</p><p>FONTE: <https://bit.ly/3ljU17c>. Acesso em: 27 nov. 2018.</p><p>Conecte-se</p><p>Você pode consultar uma lista completa de métodos das operações de</p><p>transformação e ação, assim como conhecer o significado de cada um por meio</p><p>deste endereço: < https://bit.ly/2Yk6ejj >. Em se tratando de persistência dessas</p><p>operações, é possível guardar essas informações não somente na memória,</p><p>como também no disco. Consulte mais informações a respeito no endereço</p><p>eletrônico sugerido.</p><p>Disponível aqui</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fjaceklaskowski.gitbooks.io%2Fmastering-apache-spark%2Fspark-rdd-transformations.html&sa=D&sntz=1&usg=AOvVaw2dzx4B6M-k_CcLCRHfg8cW</p><p>https://www.google.com/url?q=https%3A%2F%2Fspark.apache.org%2Fdocs%2Flatest%2Frdd-programming-guide.html%23transformations&sa=D&sntz=1&usg=AOvVaw1o76PB7WF6TuNlZZtNu_Qz</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F2Yk6ejj&sa=D&sntz=1&usg=AOvVaw0ehJl_6u40eEdZqs-Ss7So</p><p>Por outro lado, a ação visa aplicar uma operação que executa uma determinada transformação. Por exemplo,</p><p>podemos aplicar um filtro (método filter ) em um determinado termo presente em um arquivo de texto, o que</p><p>gerará um novo RDD. Em seguida, aplicamos um método para executar uma operação de ação para contar o</p><p>número de elementos presentes (método count ) neste RDD, ou seja, a ação retorna o resultado (valor)</p><p>propriamente dito. Este fluxo pode ser representado genericamente como mostra a Figura 9.</p><p>FIGURA 9 – AO APLICAR UMA OPERAÇÃO DE TRANSFORMAÇÃO (MAP, FILTER...)</p><p>CRIAMOS UM NOVO RDD QUE APONTA PARA O RDD DE ORIGEM. UM RESULTADO É</p><p>RETORNADO QUANDO APLICAMOS UMA AÇÃO (SAVEASTEXTFILE, REDUCE...)</p><p>FONTE:</p><p>< http://vishnuviswanath.com</p><p>/spark_rdd.html >. Acesso em: 28</p><p>nov. 2018.</p><p>Para obter ganho de eficiência em suas aplicações Spark, pode ser que, em algumas atividades rotineiras em</p><p>uma operação de ação, seja possível “cachear” (caching) essas informações, ou seja, guardar o resultado</p><p>produzido por ela dentro da memória. Dessa maneira, quando precisarmos do resultado dessa ação, todo o</p><p>processo de cálculo não precisará ser executado novamente.</p><p>Conecte-se</p><p>O Apache Spark possui uma arquitetura robusta e transparente para o</p><p>usuário. Se você desejar se aprofundar para conhecer mais a respeito dessa</p><p>arquitetura, sugerimos que pesquise mais através deste endereço:</p><p>< https://www.edureka.co/blog/spark-architecture/ >.</p><p>Disponível aqui</p><p>3.3 CASES E APLICAÇÕES DO APACHE SPARK</p><p>As vantagens trazidas pelo framework, mostradas na seção anterior, incentivaram grandes empresas a</p><p>fazerem uso do Apache Spark. A seguir, você conhecerá alguns cases, conforme apontado por Amster (2016):</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fvishnuviswanath.com%2Fspark_rdd.html&sa=D&sntz=1&usg=AOvVaw2a7nXyvenGcEU3EtMb3LqG</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.edureka.co%2Fblog%2Fspark-architecture%2F&sa=D&sntz=1&usg=AOvVaw0oS7j3RDih5HslyhFf9L1G</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.edureka.co%2Fblog%2Fspark-architecture%2F&sa=D&sntz=1&usg=AOvVaw0oS7j3RDih5HslyhFf9L1G</p><p>Netflix : a empresa utiliza o Spark Streaming para obter insights de forma imediata (em tempo real) sobre</p><p>como os usuários estão engajados em seu site. Dessa forma, a empresa tem a possibilidade de fornecer</p><p>recomendações de filmes e/ou séries em tempo real.</p><p>Uber : o Uber também é uma outra grande empresa que utiliza o Spark Streaming para processar terabytes</p><p>de eventos de seus usuários móveis combinando com o Apache Kafka e o HDFS para construir um pipeline</p><p>de ETL de fluxo contínuo. Dessa forma, o Uber pode converter dados brutos não estruturados dos eventos</p><p>em dados estruturados logo após a etapa de extração e assim realizar análises mais complexas.</p><p>Pinterest : por meio de um pipeline de ETL, o Pinterest pode aproveitar os benefícios do Spark Streaming</p><p>para obter informações de seus usuários em tempo real ao identificar como os usuários estão interagindo</p><p>com os Pins. A partir desses dados, a empresa pode fazer recomendações mais relevantes à medida que as</p><p>pessoas vão navegando no site. Os Pins relacionados são úteis para que elas possam selecionar suas reais</p><p>preferências no que tange a receitas, produtos ou planejamento de viagens para vários destinos.</p><p>Conviva : com aproximadamente 4 milhões de feeds de vídeo por mês (perdendo apenas para o Youtube), a</p><p>Conviva utiliza o Spark para reduzir a rotatividade de seus clientes, otimizando fluxos e gerenciando o</p><p>tráfego de vídeos em tempo real e, consequentemente, mantém uma experiência de visualização desejável</p><p>e de alta qualidade.</p><p>Além desses casos de uso apresentados, o Apache Spark tem dado suporte a diversas aplicações. A página</p><p>oficial do Spark apresenta algumas destas:</p><p>Apache Mahout : originalmente construído sob o Hadoop MapReduce, o Mahout foi readaptado e</p><p>atualmente utiliza do Spark como backend para obter ganho de processamento.</p><p>Apache MRQL : utiliza o Spark para análise de dados distribuídos em larga escala, também para</p><p>processamento e otimização de consultas.</p><p>Spindle : mecanismo de consulta de análise web que faz uso do Spark para otimização.</p><p>Thunderain : um framework que combina processamento streaming e batch (dados históricos) que pode</p><p>ser pensado como uma arquitetura lambda.</p><p>Oryx : uma arquitetura lambda que mescla o Apache Spark e Apache Kafka para aprendizado de máquina</p><p>em tempo real.</p><p>ADAM : um framework capaz de carregar, transformar e analisar dados genômicos (subárea da bioquímica</p><p>que estuda o genoma de um organismo) utilizando o Spark.</p><p>Os casos de uso e aplicações apresentadas representam apenas uma pequena parcela de uma infinidade de</p><p>aplicabilidades do Apache Spark. Tudo isso é explicado devido à grande capacidade de integração e facilidade</p><p>de uso deste framework. Além disso, a abstração fornecida pelos seus componentes permite que executemos</p><p>aplicações de forma transparente, tendo uma sensação de que estamos implementando ou codificando em</p><p>uma única máquina, quando, na verdade, os dados estão sendo gerenciados, armazenados e distribuídos em</p><p>A inteligência já faz</p><p>parte dos dispositivos, como o celular, que há alguns anos, possuía recursos limitados a SMS e voz (ligação) e,</p><p>posteriormente, conexão com a internet. Atualmente, existem aplicativos inteligentes que monitoram o nosso</p><p>dia a dia e, progressivamente, conhecem mais nossos hábitos. O GPS ativo permite que aplicativos conheçam</p><p>nossa rotina diária, tais como perceber se praticamos exercícios físicos, se dormimos bem ou não nas últimas</p><p>noites, com qual contato da nossa agenda nos comunicamos mais e assim por diante. Note que tudo isso já</p><p>faz parte da nossa vida diária e estamos mergulhados nesse mar de tecnologias, ou seja, a onipresença desses</p><p>meios é algo que retrata o atual momento em que vivemos.</p><p>Não é difícil imaginar que grande parte dessa onda de dados afetará, além de outros segmentos, o esporte, a</p><p>saúde, a nossa casa e até o relacionamento com as pessoas e a nossa família. Marr (2015) destaca algumas</p><p>dessas mudanças que tornarão o mundo mais “inteligente”, no qual sistemas de GPS e microssensores terão</p><p>grande utilidade. A seguir, apresenta-se alguns segmentos que estarão (ou já estão) diante desta revolução:</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fweb.archive.org%2F&sa=D&sntz=1&usg=AOvVaw2OiDtRU0BLjos-ZCoEYe2K</p><p>https://www.google.com/url?q=https%3A%2F%2Fweb.archive.org%2F&sa=D&sntz=1&usg=AOvVaw2OiDtRU0BLjos-ZCoEYe2K</p><p>Saúde : a capacidade de monitorar nossa própria saúde permitirá que a medicina atue de forma preventiva</p><p>com base nos dados disponíveis. Apps de dispositivos móveis, como também pulseiras e relógios que se</p><p>conectam à Web, podem ser considerados mecanismos de coleta de dados. É possível que, por exemplo,</p><p>esses dados fiquem armazenados em nuvem e sejam compartilhados com seu plano de saúde ou seu</p><p>médico em tempo real. Microssensores também podem ser úteis para monitorar e/ou alertar pacientes que</p><p>estão se medicando adequadamente no horário correto e até avisar membros da sua família para lembrá-lo</p><p>sobre a medicação. Além disso, scanners com alta tecnologia estão sendo utilizados para detectar lesões</p><p>cerebrais e/ou tumores e assim aumentar a precisão do diagnóstico.</p><p>Casa : quando falamos de inteligência em lares é importante destacar que isso está diretamente relacionado</p><p>à autonomia de sistemas de aquecimento, geladeiras e até objetos se tornarem capazes de “entender” o</p><p>ambiente que os cerca e tomar ações para lidar com as tarefas rotineiras. Isso significa chegarmos em casa</p><p>com nosso carro equipado com câmeras e sensores “inteligentes” capazes de detectar obstáculos, medir</p><p>temperatura ambiente, pressão barométrica, entre outros atributos, que se comunicarão com a garagem</p><p>da nossa casa por intermédio de um portão equipado com sensores, detectando se estamos próximos de</p><p>casa e, assim, com base na distância e velocidade calculará o exato momento para sua abertura. Ao mesmo</p><p>tempo, nosso chuveiro elétrico se ajustará, de acordo com a temperatura ambiente, a um banho quente,</p><p>frio ou moderado. Nossa geladeira, guiada por GPS, saberá exatamente onde estamos, medirá a</p><p>temperatura e ao acusar alta temperatura externa aumentará sua potência e diminuirá a temperatura</p><p>interna para que, assim que chegarmos, nos ofereça uma água bem gelada. A TV da nossa casa, por</p><p>intermédio do uso de reconhecimento facial, nos dará segurança como pais e garantirá que crianças não</p><p>assistam conteúdo inapropriado de acordo com sua faixa etária. Tudo isto retrata uma realidade que, quase</p><p>todo objeto que temos, se conectará à internet e ganhará “vida”, tornando-se ainda mais útil para nossa</p><p>rotina. Todo esse ambiente de comunicação produzirá mais dados. É algo real e que, progressivamente,</p><p>será inserido em nossos ambientes.</p><p>Amor mais inteligente : o relacionamento com as pessoas vem se modificando ao longo dos anos. As</p><p>pessoas estão se relacionando bastante pela internet. Possuímos mais amigos virtuais do que reais e</p><p>parece que isso será uma tendência nos próximos anos, pelo menos no que diz respeito a relacionamentos</p><p>amorosos. Sites e aplicativos de encontros combinam pessoas considerando como base variáveis referentes</p><p>aos comportamentos, às crenças, aos valores, aos traços de personalidade e às habilidades sociais.</p><p>Normalmente, esses dados são coletados no momento do cadastro por meio de um questionário. Os</p><p>matches (ou correspondências) são traçados no momento em que o modelo classifica um usuário como</p><p>match potencial em relação a outro usuário. Outro critério que pode ser utilizado é comparar os matches</p><p>em potencial com base em outros perfis similares, definindo scores em função de probabilidades que</p><p>atribuem um valor para qualificar um perfil como match ou não match.</p><p>O seguimento de relacionamento foi um dos mais afetados com a difusão da</p><p>tecnologia. Alguns aplicativos ganham destaque neste ramo, com a promessa de</p><p>fornecer um conjunto de pessoas que se aproximam do nosso perfil. Faça uma</p><p>pesquisa e cite um case de sucesso de aplicativos voltados para este fim. Observe</p><p>seu contexto histórico, suas estratégias e os resultados que alcançou</p><p>considerando parâmetros, como número de usuários ativos, lucratividade e</p><p>assim por diante.</p><p>Em muitas empresas, o Big Data já vem sendo implementado. As empresas de vendas e varejo estão</p><p>interessadas em coletar informações sobre seus clientes para compreender seus padrões de compra e assim</p><p>conhecê-los mais a fundo. Empresas de fabricação buscam reduzir custos de fabricação e maximizar sua</p><p>produção. Alguns exemplos apresentados por Marr (2015) mostram que, em 2013, uma gigante do ramo</p><p>farmacêutico utilizou análise de dados para reduzir drasticamente a quantidade de desperdício causada pela</p><p>variação das condições no ambiente de fabricação. Os dados obtidos permitiram que a empresa descobrisse</p><p>condições ótimas durante o processo de fermentação. Outro exemplo são as empresas do ramo automotivo,</p><p>que também têm explorado soluções de Big Data, especialmente em processos de fabricação para avaliar a</p><p>eficiência de cada máquina. Já na agricultura, a análise de dados tem auxiliado a indústria a enfrentar os</p><p>desafios frente à crescente produção de alimentos no mundo, pois as máquinas que operam nos campos</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>estão equipadas com sensores que captam diversas informações que são utilizadas para estabelecer</p><p>condições ideais para suas culturas. Em 2014, a Cisco anunciou um investimento de 150 milhões de dólares</p><p>para financiar startups que trabalhem para melhorar a integração com o mundo físico, com o intuito de</p><p>controlar o estoque, mantendo elevada eficiência e reduzindo desperdícios.</p><p>Os exemplos citados reforçam apenas uma pequena parcela do total de empresas com real interesse em</p><p>financiar ou investir na sua capacidade de explorar dados ou as que têm proposto iniciativas em análise de</p><p>dados. Contudo, existem muitos outros cases espalhados pela internet que corroboram com o avanço da</p><p>análise dos dados, com a tendência que as empresas estão em busca de insights valiosos que possam ser</p><p>utilizados para melhorar sua cadeia de produção, conhecer melhor seus clientes e assim tornarem-se mais</p><p>competitivas.</p><p>2.1 ANÁLISE DE DADOS: POTENCIAIS E LIMITAÇÕES</p><p>Os dados que antes eram apenas armazenados em planilhas eletrônicas ou em Banco de Dados Relacionais</p><p>para fins de consulta e/ou conformidade, hoje estão prontos para uso com as mais diversas finalidades. Essa</p><p>realidade permitiu que áreas da ciência começassem a ganhar destaque, tais como a Computação, a</p><p>Estatística, a Matemática, o Processamento de Linguagem Natural e muitas outras que abrangem o</p><p>conhecimento. Além disso, novas tecnologias emergiram a partir dessa nova realidade, em que muitas</p><p>empresas investem recursos em soluções de Análise de Dados (Data Analytics) cada vez mais robustas,</p><p>diferentes nós do cluster. Não devemos considerar o Spark como uma solução oposta ou concorrente ao</p><p>Hadoop. Ao contrário, o Spark surge como uma alternativa eficiente para processamento de grandes volumes</p><p>de dados e, pode ser perfeitamente integrado ao Hadoop. Por exemplo, para dados massivos que superam a</p><p>capacidade de armazenamento em memória, você pode integrar o HDFS a sua arquitetura de Big Data e</p><p>usufruir do processamento veloz do Spark. Tudo dependerá das suas reais necessidades.</p><p>4 INTERNET DAS COISAS: VISÃO GERAL, CONCEITOS E APLICAÇÕES</p><p>Você já ouviu falar de Internet das Coisas? Certamente que sim. No Capítulo 1 você viu como a Internet das</p><p>Coisas afetará o mundo dos negócios, mas em que sentido? Como isso será de fato realizado? Nesta seção</p><p>abordaremos com mais profundidade essas questões. Esperamos que faça um bom proveito. Bons estudos.</p><p>4.1 INTERNET DAS COISAS: CONCEITOS E VISÃO GERAL</p><p>Quando falamos de Internet sob uma perspectiva de geração de dados, associamos isso a computadores, ou</p><p>melhor, pessoas produzindo e consumindo conteúdo a todo momento. Seja utilizando um dispositivo móvel,</p><p>como celulares ou tablets, seja por uma máquina pessoal (PCs ou notebooks). Na era da “Internet dos</p><p>Computadores”, os principais atores para propagação dos dados são os seres humanos . Por outro lado, na</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>Internet das Coisas os principais atores são coisas que ora consomem, ora produzem dados. Isso permite que</p><p>os computadores sejam capazes de obter informações e aprender a resolver problemas do mundo real a</p><p>partir dos dados obtidos pelas coisas e assim eles serão capazes de sentir e reagir ao mundo real servindo de</p><p>apoio para decisões humanas (QIN; SHENG, 2017).</p><p>Uma outra definição interessante de Internet das Coisas é apontada por Datameer (2015): uma rede física de</p><p>objetos que está conectada e que pode ser acessada por intermédio da internet. Esses objetos conectados</p><p>contêm uma tecnologia embutida, tais como sensores, que permitem que objetos percebam e se</p><p>comuniquem. Esta capacidade é que mudará a maneira de como e onde as decisões são tomadas, quem as</p><p>tomará e quão rapidamente elas serão decididas. Algo de relevante pode ser extraído a partir dessa definição.</p><p>O termo objeto são as coisas que poderão ganhar “vida” ao perceber e se comunicar entre si dentro de um</p><p>ambiente. Podemos imaginar um lar doméstico onde a geladeira se comunica com um dispositivo móvel</p><p>alertando em tempo real sobre a ausência de algum produto. De fato, essa é uma tendência real. Ao longo</p><p>dessa comunicação, imagine a quantidade massiva de dados trafegando o tempo todo e gerando informação</p><p>com potencial relevância!</p><p>Em um cenário cada vez mais conectado, a tendência é que novos dispositivos passarão a gerar informações</p><p>que podem ser úteis, não somente em um ambiente doméstico, mas também em ambientes externos, como</p><p>nas próprias empresas. A Figura 10 evidencia o crescente número de dispositivos que serão conectados à</p><p>internet. Os dados apontam que até 2020 serão cerca de 50,1 bilhões de dispositivos gerando informação.</p><p>Para se ter uma ideia, em 2010 o número de dispositivos conectados era cerca de 10 vezes menor do que nos</p><p>dias atuais.</p><p>Conecte-se</p><p>Você pode conhecer alguns destes dispositivos navegando no menu deste site:</p><p>< http://www.iotonlinestore.com/Home-Automation/9 >. Além disso, a revista</p><p>Época apontou algumas iniciativas de Startup oferecendo soluções em Internet</p><p>das Coisas. Vale a pena conferir: < https://glo.bo/2Ec632G >.</p><p>FIGURA 10 – EVOLUÇÃO DO NÚMERO DE DISPOSITIVOS CONECTADOS À INTERNET</p><p>Imagine quão interessante seria uma rede de supermercados saber informações de estoque de sua geladeira.</p><p>A empresa, com base nessas informações, poderia coletar e analisar os dados aplicando algoritmos e assim</p><p>tomar decisões mais assertivas ao compreender a real necessidade do cliente. Ainda, nesse caso, a empresa</p><p>também poderia propor o lançamento de novos produtos ou promoções e enviar alertas ao consumidor.</p><p>Do ponto de vista interno, uma empresa de fabricação poderia monitorar seus equipamentos com a</p><p>implantação de sensores na tentativa de prever e se antecipar a falhas, aplicando algoritmos de aprendizagem</p><p>de máquina e tomando decisões, como solicitar um serviço de manutenção no momento adequado - o que</p><p>economizaria custos com reparos mais complexos, ou, dependendo do problema, a substituição do</p><p>equipamento. De fato, todo o pátio da empresa poderá ser monitorado, analisado e seus processos de</p><p>produção otimizados. Alguns dos sensores que podem ser implantados seriam: sensores de iluminação,</p><p>proximidade, temperatura, pressão, umidade, acelerômetro e assim por diante.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.iotonlinestore.com%2FHome-Automation%2F9&sa=D&sntz=1&usg=AOvVaw0PvOOFzlhisUNAZTJrC3_2</p><p>https://www.google.com/url?q=https%3A%2F%2Fepocanegocios.globo.com%2Fcolunas%2FTecneira%2Fnoticia%2F2018%2F02%2F10-iniciativas-brasileiras-de-internet-das-coisas-para-ficar-de-olho.html&sa=D&sntz=1&usg=AOvVaw1jGrXBptHo5fPtBvxghrEG</p><p>Conceituando</p><p>No entanto, qual o limite da nossa privacidade quando esses dispositivos</p><p>começarem a ganhar de vez espaço em nossos lares? Nossa privacidade pode</p><p>estar em risco se considerarmos a possibilidade de sermos “vigiados” por</p><p>entidades/pessoas externas. Sem dúvida, essa é uma discussão que realmente</p><p>está sendo levantada nos meios jornalísticos. Sugerimos que você tire um tempo</p><p>para ler a respeito nesta matéria da Época, cujo tema é: Internet das Coisas</p><p>impõe desafios de segurança, privacidade e conectividade: < https://glo.bo</p><p>/3l67Sik >. Certamente você não encontrará dificuldades em encontrar outros</p><p>materiais a respeito, haja vista que o tema faz parte de uma ampla discussão</p><p>quando o assunto envolve a privacidade dos dados.</p><p>Conecte-se</p><p>A Lei Geral de Proteção de Dados Pessoais foi sancionada no Brasil em 2018 e</p><p>trouxe uma série de reportagens a respeito. Sem dúvida, isso representa um</p><p>passo significativo que resguarda as informações dos cidadãos brasileiros.</p><p>Observe algumas matérias:</p><p>Folha de São Paulo: < https://bit.ly/3aHSUdm >.</p><p>Senado Notícias: < https://bit.ly/3iZW1jN >.</p><p>G1 Notícias: < https://glo.bo/3aHMuLv >.</p><p>Para consultar a Lei Geral de Proteção de Dados na íntegra, acesse o link:</p><p>< https://bit.ly/3hipdCn >.</p><p>Disponível aqui</p><p>Toda essa difusão de novos dispositivos que estão sendo conectados à internet gerando informação cria um</p><p>ambiente propício para análise de Big Data. Perceba que uma crescente quantidade de fontes, gerando</p><p>volumes de dados em um curto intervalo de tempo, impõe desafios cada vez maiores e um ambiente propício</p><p>para o surgimento de novas tecnologias de Big Data. Estas, por sua vez, precisam dar conta do</p><p>armazenamento e processamento dessas informações e entregar resultados para os negócios considerando</p><p>diferentes níveis de granularidade, conforme as necessidades.</p><p>4.2 INTERNET DAS COISAS: SOLUÇÕES E APLICAÇÕES</p><p>A Internet das Coisas é constituída por um conjunto de objetos que estão interligados gerando massivamente</p><p>informação. Contudo, é necessário que exista algum engine (mecanismo ou software que ofereça abstração)</p><p>responsável por gerenciar toda essa gama de dispositivos, oferecendo segurança, escalabilidade, capacidade</p><p>de processamento, entre outros adjetivos. Diante disso, existem algumas soluções no mercado que podem ser</p><p>úteis para quem planeja analisar as informações desses dispositivos.</p><p>O Bridgera é uma plataforma robusta que se baseia em tecnologias de Big Data, responsável por gerenciar a</p><p>conexão entre os dispositivos e aplicações de Internet das Coisas. O Bridgera tem como característica receber</p><p>e enviar dados, assim como armazenar grandes volumes de dados e processá-los em tempo real. Essa</p><p>plataforma</p><p>utiliza como background tecnologias, como Apache NiFi, Apache Kafka e Apache Storm para ler e</p><p>processar os dados que são ingeridos na plataforma e, dessa forma, consegue usufruir de todo o processo de</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fepoca.globo.com%2Ftecnologia%2Fexperiencias-digitais%2Fnoticia%2F2017%2F10%2Fo-risco-da-internet-das-coisas.html&sa=D&sntz=1&usg=AOvVaw1jvXmyZNHlbv4AV2owpue7</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww1.folha.uol.com.br%2Fmercado%2F2018%2F08%2Fsaiba-o-que-muda-com-a-lei-geral-de-protecao-de-dados-pessoais.shtml&sa=D&sntz=1&usg=AOvVaw0TNhmoffeQ0oOsU7JrJezl</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww12.senado.leg.br%2Fnoticias%2Fmaterias%2F2018%2F08%2F15%2Fsancionada-com-vetos-lei-geral-de-protecao-de-dados-pessoais&sa=D&sntz=1&usg=AOvVaw3xDlDoxT7u0qMndF3EsDto</p><p>https://www.google.com/url?q=https%3A%2F%2Fg1.globo.com%2Feconomia%2Ftecnologia%2Fblog%2Faltieres-rohr%2Fpost%2F2018%2F08%2F16%2Flei-de-protecao-de-dados-deve-impor-mudanca-cultural-nas-empresas-brasileiras.ghtml&sa=D&sntz=1&usg=AOvVaw2uRaFAXx_AQMrYFpFHvwIv</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.planalto.gov.br%2Fccivil_03%2F_Ato2015-2018%2F2018%2FLei%2FL13709.htm&sa=D&sntz=1&usg=AOvVaw0nGkcGi7fBW5NHMXMO323J</p><p>https://www.google.com/url?q=https%3A%2F%2Fapigame.unicesumar.edu.br%2Fqrcode%2F6628&sa=D&sntz=1&usg=AOvVaw38OddJj0_Y8CgdBxWv1zWi</p><p>tolerância a falhas e processamento distribuído por essas ferramentas de Big Data. O Bridgera fornece</p><p>soluções flexíveis para trabalhar com grandes ou pequenos conjuntos de dados. Em circunstâncias nas quais</p><p>você precise de grande capacidade de processamento, a plataforma fornece a flexibilidade necessária. Por</p><p>exemplo, em situações nas quais a demanda decrescer, os recursos alocados para elevar o processamento</p><p>são desativados (PASCUZZI, 2017).</p><p>Conecte-se</p><p>Você pode ver um breve vídeo de demonstração da plataforma Bridgera a partir</p><p>deste endereço: < https://bit.ly/2E4GErP >.</p><p>Disponível aqui</p><p>Outra solução que pode ser adotada em ambientes IoT é utilizar a nuvem da AWS. De acordo com a AWS, a</p><p>plataforma garante a possibilidade de gerenciar bilhões de dispositivos e executar análises e aplicar algoritmos</p><p>de Machine Learning de forma rápida, fácil e segura. Em seu portfólio, a AWS IoT oferece duas soluções: uma</p><p>voltada para o ramo industrial (IIoT) - com monitoramento e controle de operações e outra para ambientes</p><p>residenciais - com interconectividade e segurança. Você também pode integrar aos outros serviços da AWS</p><p>para criar aplicações completas para Internet das Coisas. Os algoritmos de aprendizagem ajudam a realizar</p><p>predições nos dispositivos e, assim, reagir antecipadamente a situações. Observe o esquema de</p><p>funcionamento da AWS IoT na Figura 11. Na primeira etapa existe uma coleção de dispositivos, tais como</p><p>sensores, lâmpadas, robôs etc., que estão conectados à nuvem e trocando mensagens. Os dados são</p><p>armazenados para que você aplique análises e algoritmos de Machine Learning para extrair os devidos</p><p>insights.</p><p>FIGURA 11 – AWS IOT: ESQUEMATIZAÇÃO DO FUNCIONAMENTO DA PLATAFORMA</p><p>FONTE: < https://aws.amazon.com/pt/iot/ >. Acesso em: 30 nov. 2018.</p><p>Em termos de aplicações, a Internet das Coisas pode ser utilizada em diversos domínios, inclusive: cidades</p><p>inteligentes, agricultura, saúde e bem-estar, varejo inteligente e logística, conforme demonstrado por</p><p>Simmhan e Perera (2016) e que será delineado a seguir:</p><p>Cidades inteligentes : há um grande interesse por parte de países em desenvolvimento e populosos de</p><p>melhorar a qualidade e a sustentabilidade urbana. As cidades inteligentes implementam a Internet das</p><p>Coisas através de um conjunto de dispositivos implantados nos mais diversos meios que as compõem,</p><p>como transporte, energia e mobilidade. Por exemplo, o transporte inteligente pode monitorar as condições</p><p>de tráfego em tempo real e tomar melhores decisões para otimizar o fluxo do trânsito. A administração do</p><p>transporte público também poderá otimizar o cronograma de ônibus e trens de acordo com a demanda dos</p><p>usuários.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.youtube.com/watch?v=QTG_Wfcp6UQ</p><p>https://www.youtube.com/watch?v=QTG_Wfcp6UQ</p><p>https://www.google.com/url?q=https%3A%2F%2Faws.amazon.com%2Fpt%2Fiot%2F&sa=D&sntz=1&usg=AOvVaw1Q6okDZrnUSLjkW9ixruJl</p><p>Agricultura inteligente : a implantação de sensores em máquinas na agricultura permite rastrear</p><p>condições climáticas (umidade, temperatura, luz solar) que afetam diretamente o solo e a produção. O</p><p>monitoramento também pode ser realizado com dados de imagens de satélite, bem como modelos de</p><p>previsão climática e cronograma de fornecimento de energia, a fim de planejar de forma inteligente a</p><p>irrigação das culturas agrícolas.</p><p>Saúde e bem - estar : naturalmente, os esportes têm sido um dos casos de uso de aplicação de Internet das</p><p>Coisas devido à rápida imersão de tecnologia. Sensores implantados nos jogadores permitem a extração de</p><p>dados, como localização, velocidade e aceleração a partir de diferentes coordenadas (x, y, z). O fato de</p><p>extrair dados detalhados de um jogador pode trazer benefícios reais, como uma maior segurança quanto a</p><p>lesões sofridas durante o jogo ou questões relativas a seu desempenho. Além disso, existem equipamentos</p><p>para monitoramento de saúde e estilo de vida, como relógios inteligentes. Estes podem rastrear o</p><p>comportamento das pessoas e as métricas básicas de saúde. Em uma eventual discrepância, as pessoas</p><p>recebem alertas. Sensores também podem auxiliar na medicação dos pacientes, observando doses</p><p>compatíveis e apropriadas a cada um.</p><p>Varejo inteligente e logística : no varejo, a necessidade de rastrear a cadeia de suprimentos é importante -</p><p>estoques, remessas e comportamento dos clientes nas lojas. Sensores RFID podem ser úteis, pois</p><p>conseguem rastrear automaticamente os itens que entram e saem da loja, bem como sua localização. Na</p><p>logística, os parâmetros velocidade e precisão são vitais. Por isso, o rastreamento inteligente de prateleiras</p><p>e corredores pode ajudar a mapear o comportamento dos consumidores na tentativa de encontrar algum</p><p>padrão.</p><p>5 TENDÊNCIAS EM BIG DATA ANALYTICS</p><p>Para finalizar este capítulo, reservamos uma seção para discutir algumas tendências para o Big Data nos</p><p>próximos anos. É importante que você tenha em mente essas tendências e esteja preparado para lidar com</p><p>novos cenários. A construção desta seção foi inspirada nas tendências de Big Data apontadas por Carillo</p><p>(2018):</p><p>Crescimento do uso de Internet das Coisas : na seção anterior já havíamos comentado sobre a Internet</p><p>das Coisas e as possibilidades de aplicação. De fato, parece que novos dispositivos inteligentes serão</p><p>incorporados em nosso dia a dia. Os dispositivos móveis, como celulares e tablets, poderão controlar</p><p>diversos equipamentos e objetos em um ambiente doméstico ou no nosso local de trabalho. Com base</p><p>nisso, muitas empresas tenderão a lançar novos produtos e soluções voltados para atender à demanda “do</p><p>mundo das coisas” em termos de infraestrutura (para atender à demanda de comunicação entre os</p><p>dispositivos), hardware (dispositivos) e soluções comerciais (softwares). Apenas na saúde, diversas Startups</p><p>têm surgido para realizar monitoramento em tempo real de pacientes para prevenção de doenças,</p><p>conforme mostra a Figura 12.</p><p>FIGURA 12 – CATEGORIAS DE STARTUPS VOLTADAS PARA A SAÚDE</p><p>Inteligência artificial mais acessível : uma tendência é a incorporação da inteligência artificial não</p><p>somente nos grandes, como também nos pequenos negócios. Tarefas operacionais podem ser executadas</p><p>e automatizadas por máquinas enquanto humanos tenderão a focar mais nas estratégias do negócio. Essa</p><p>acessibilidade se dará de forma transparente para o usuário. No Capítulo 1, você viu um exemplo de que os</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>nossos smartphones estão dotados de apps inteligentes que monitoram os nossos passos (como o próprio</p><p>GPS), o que pode parecer uma tarefa simples e que já faz parte do nosso cotidiano. Entretanto, a</p><p>incorporação de um mecanismo de IA poderá aprender a nossa rotina e fornecer sugestões úteis de rotas.</p><p>Do mesmo modo, em pequenos negócios, apps inteligentes podem aprender a rotina ou o fluxo de</p><p>trabalho da empresa e assim fornecer apoio aos processos da empresa.</p><p>O site da revista EXAME apresentou alguns exemplos de apps que podem ser</p><p>úteis para pequenos negócios: O baixo custo (ou custo zero) desses apps é algo</p><p>que pode ser atrativo para pequenos negócios que possuem um orçamento mais</p><p>enxuto.</p><p>Análise preditiva mais presente : esse tópico não poderia ficar de fora. Como vimos no primeiro capítulo</p><p>deste livro, as empresas têm encontrado real valor em análises preditivas e de fato isso será uma tendência</p><p>acompanhada de uma perspectiva crescente do uso de IA nos negócios. Na realidade, a presença da análise</p><p>preditiva também se dará de forma na qual usuários não especialistas terão a sua disposição métodos e</p><p>processos de Machine Learning e poderão interagir com estes sem ter um conhecimento técnico</p><p>aprofundado de implementação, o que, portanto, reduz a complexidade de utilização. Isso tem a ver com</p><p>um conceito chamado de AutoML. Caso você queira conhecer mais, sugerimos que pesquise no link a</p><p>seguir.</p><p>Conecte-se</p><p>Você pode encontrar mais informações sobre AutoML diretamente em sua</p><p>página oficial: < https://www.automl.org/automl/ >. Além do conceito, são</p><p>apresentados alguns exemplos e bibliotecas que implementam o AutoML, assim</p><p>como outras informações pertinentes.</p><p>Disponível aqui</p><p>Migração de Dark Data para a nuvem : a nuvem poderá ser útil para armazenar dados que não foram</p><p>explorados, mas que por questões de conformidade ou potencial de exploração permanecem em algumas</p><p>empresas. Esses Dark Data (“dados escuros”) estão armazenados em anotações ou apresentações e são</p><p>difíceis de explorar, mas que, se convertidos para um formato digital, podem ser úteis para futuras análises</p><p>nas empresas.</p><p>Caso você ainda n</p><p>Conecte-se</p><p>Caso você ainda não esteja familiarizado com o conceito de Dark Data, sugerimos</p><p>este link: < https://bit.ly/3aKZAYn >.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.automl.org%2Fautoml%2F&sa=D&sntz=1&usg=AOvVaw38FHPv1VffWbGqlSNZ8KxE</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.automl.org%2Fautoml%2F&sa=D&sntz=1&usg=AOvVaw38FHPv1VffWbGqlSNZ8KxE</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2015%2F11%2Fimportance-dark-data-big-data-world.html&sa=D&sntz=1&usg=AOvVaw1qNni5-hg-WH48a5UhHp8h</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKZAYn%253E&sa=D&sntz=1&usg=AOvVaw33GBxfDqxBD5hFOlm1Iiud</p><p>Disponível aqui</p><p>Aumento da importância do CDO (Chief Data Officer) : com uma cultura onde as decisões são cada vez</p><p>mais orientadas a dados, o CDO terá maiores responsabilidades estratégicas nas empresas, assumindo</p><p>papel central e crítico no apoio à tomada de decisões do negócio. A Figura 13 apresenta uma tendência no</p><p>que se refere ao papel de um CDO nas empresas. Perceba que o CDO terá como maior parcela de</p><p>responsabilidade (algo em torno de 90%) concentrar seus esforços em gerenciar os dados como um ativo</p><p>na empresa, conduzir inovação e promover uma cultura orientada a dados.</p><p>FIGURA 13 – PERSPECTIVAS DE RESPONSABILIDADE DE UM CDO (CHIEF DATA OFFICER)</p><p>FONTE:</p><p>< https://www.coriniumintelligenc</p><p>e.com >. Acesso em: 2 dez. 2018.</p><p>Computação Quântica : com o crescimento das tecnologias e a incorporação de novos dispositivos</p><p>impulsionando a Internet das Coisas, o volume de dados digital crescerá ainda mais nos próximos anos. Os</p><p>computadores atuais não têm a capacidade para armazenar e processar de forma eficiente esse volume de</p><p>dados. Os computadores quânticos podem agilizar sobremaneira o processo de análise e processament</p><p>Segurança cibernética mais inteligente e rigorosa : os escândalos do passado revelam uma grande</p><p>preocupação com a segurança dos dados dentro da empresa. A tendência é que com o advento da Internet</p><p>das Coisas e o aumento da complexidade da infraestrutura de rede, mais dados importantes possam ficar</p><p>suscetíveis a ataques. A guerra cibernética ou mesmo comercial entre as empresas pode motivar roubos a</p><p>dados. Assim, o Big Data pode ser útil para integrar uma estratégia para segurança cibernética ao utilizar,</p><p>por exemplo, dados históricos de logs de segurança para prever possíveis ataques, ou monitorar dados em</p><p>tempo real para identificar atividades suspeitas.</p><p>Soluções open-source em alta : as soluções open-source continuarão em alta nos próximos anos. Assim,</p><p>profissionais que dominam ferramentas voltadas para o Big Data, tendem a ser valorizados. Na verdade,</p><p>trabalhar com soluções open-source tem suas vantagens e desvantagens. Independente disso, existe um</p><p>controle maior quando você constrói sua própria arquitetura e utiliza software de código aberto. Além</p><p>disso, o que talvez seja mais atrativo para algumas empresas em apostar em soluções open-source é a</p><p>possibilidade de poupar recursos e o fato de que as ferramentas, especialmente voltadas para o Big Data,</p><p>têm se aprimorado cada vez mais, através de uma comunidade engajada que tem proposto melhorias</p><p>contínuas para otimizá-las.</p><p>Edge Computing (Computação de “borda”) : esse termo pode parecer novo para você. A ideia é processar</p><p>dados na borda da rede (próximo à fonte de dados) e filtrar a quantidade de dados que chega na nuvem e,</p><p>como consequência, agilizar o tempo de processamento do fluxo de dados, conforme ilustra a Figura 14. Os</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fbit.ly%2F3aKZAYn%253E&sa=D&sntz=1&usg=AOvVaw33GBxfDqxBD5hFOlm1Iiud</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.coriniumintelligence.com%2Finsights%2Fthe-chief-data-officer-has-arrived.-can-they-now-lead-the-charge&sa=D&sntz=1&usg=AOvVaw22fdN70vV6JJcN2m8ambRJ</p><p>dados coletados a partir dos dispositivos são imediatamente analisados localmente, filtrados e,</p><p>posteriormente, são entregues à nuvem. Isso implica melhoria no tráfego da rede, melhorando o</p><p>processamento e filtrando dados que realmente sejam relevantes para a empresa.</p><p>FIGURA 14 – UM ESQUEMA QUE ILUSTRA A COMPUTAÇÃO DE BORDA</p><p>Conecte-se</p><p>Recomendamos que você se aprofunde mais em Edge Computing. Indicamos</p><p>esse link da GE: < https://invent.ge/32b9ONN >, que não apenas mostra a</p><p>definição como também compara com outros modelos (Fog e nuvem), exibe</p><p>alguns exemplos e cita um case da própria GE utilizando essa abordagem nos</p><p>seus negócios.</p><p>Chatbots mais inteligentes : parece que aqueles robôs de atendimento que observamos nos websites</p><p>representam uma tendência para o futuro. Os chatbots estão sendo cada vez mais aprimorados e se</p><p>tornando mais independentes. Quanto mais dados os bots possuírem, maior é a possibilidade de</p><p>compreenderem a comunicação humana e assim oferecerem serviços mais personalizados, que realmente</p><p>atendam às necessidades dos clientes.</p><p>Não há dúvida de que essas tendências apontadas por Carillo (2018) retratam em grande parte como as</p><p>tecnologias conduzirão as decisões de negócios no futuro. É importante que você, como profissional, esteja</p><p>preparado e possa acompanhar essas evoluções. A qualificação é essencial para que você esteja dentro de um</p><p>mercado cada vez mais tecnológico e competitivo. Explore todas as sugestões aqui mencionadas, pesquise e</p><p>pratique as atividades. Aliás, que tal praticar uma atividade antes do término desta seção?</p><p>ALGUMAS CONSIDERAÇÕES</p><p>Finalmente chegamos ao final de mais um capítulo de muito aprendizado. Na primeira seção você aprendeu</p><p>sobre integração, especialmente com</p><p>foco em ETL e suas limitações quanto à abordagem tradicional de BI.</p><p>Conheceu o ELT e o Data Lake e como estes podem ser úteis para suas integrações em Big Data. Aliás, antes</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.ge.com%2Fdigital%2Fblog%2Fwhat-edge-computing&sa=D&sntz=1&usg=AOvVaw0HSkg8CQt8fJJXk5lQaxIs</p><p>mesmo de terminar essa seção, mostramos a você possibilidades de integração via Hadoop e sugerimos</p><p>alguns links úteis para você praticar e ficar mais confortável com os conceitos que foram apresentados.</p><p>Em seguida, foi reservada uma seção exclusiva para o Apache Spark, em que você conheceu conceitos</p><p>importantes, bem como os componentes principais do Spark, cada um com suas particularidades, mas que</p><p>também existe a possibilidade de integrá-los em uma situação prática. Você deve ter se habituado aos códigos</p><p>que foram apresentados e experimentado alguns recursos que o Spark oferece em cada um desses</p><p>componentes. Ao final, também apresentamos alguns casos de uso e aplicações do Spark.</p><p>Ainda em tópicos avançados, você aprendeu conceitos e aplicações de Internet da Coisas e percebeu que</p><p>algumas empresas já propõem soluções de infraestrutura e software para quem deseja trabalhar com esse</p><p>tipo de ambiente. As aplicações foram importantes para que você compreendesse a proporção de alcance da</p><p>Internet das Coisas.</p><p>Por fim, finalizamos o capítulo mostrando a você as tendências de Big Data para que você se habitue, inclusive</p><p>a novas abordagens que estão surgindo, especialmente em cenários de Internet das Coisas. Recorde sempre</p><p>que a evolução dessas tecnologias impõe, muitas vezes, formas diferentes para lidar com o problema e, assim,</p><p>precisamos ser profissionais flexíveis ou adaptáveis para aprender ou sugerir novas abordagens. As nossas</p><p>decisões de análise impactam diretamente a eficácia da tomada de decisões. Ficamos felizes por você ter</p><p>chegado até aqui. Desejamos sucesso na sua carreira profissional.</p><p>Bons estudos e até a próxima!</p><p>Podcast Estudo de Caso</p><p>Para aprofundar nossos estudos escute este Podcast sobre um estudo de caso.</p><p>Disponível aqui</p><p>Encerramento da Disciplina</p><p>Foi muito bom contar com sua companhia durante nossa jornada do conhecimento. Agora, para</p><p>recordar o conteúdo desta disciplina, escute este podcast.</p><p>Disponível aqui</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-3</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fon.soundcloud.com%2FRkY6h&sa=D&sntz=1&usg=AOvVaw02zKbQ0u6nPGqfXDfJxERH</p><p>https://www.google.com/url?q=https%3A%2F%2Fon.soundcloud.com%2FX1pGE&sa=D&sntz=1&usg=AOvVaw2G9v0K_0TgNk-rsrqr0Lfd</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/agora-%C3%A9-com-voc%C3%AA</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>AGORA É COM VOCÊ</p><p>Cite um exemplo de “casa inteligente” e explique como a análise de dados pode melhorar nossa rotina</p><p>automatizando tarefas cotidia</p><p>O processo de análise pode ser dividido em etapas. Cite e explique cada uma delas.</p><p>Descreva o conceito de Big Data.</p><p>Análise de dados tradicional e análise em Big Data são a mesma coisa? Justifique sua resposta.</p><p>Explique as principais diferenças entre processamento de dados estruturados, semiestruturados e não</p><p>estruturados.</p><p>Quais são os tipos de bancos de dados NoSQL existentes? Cite uma ferramenta indicada para cada um dos</p><p>tipos.</p><p>Qual a principal diferença entre o processamento em lote e o processamento em tempo real?</p><p>Uma arquitetura típica para projetos de Big Data é formada por quais componentes?</p><p>Descreva um Data Lake.</p><p>Dentre os métodos não supervisionados, a clusterização é uma das técnicas mais utilizadas. Descreva as</p><p>técnicas de clusterização e em quais circunstâncias podem ser aplicadas.</p><p>Disserte sobre o que representam os métodos baseados em densidade. É possível encontrar anomalias</p><p>(outliers) a partir destes métodos? Se sim, de que forma?</p><p>Descreva as principais diferenças entre as técnicas Single-Machine clustering e Multi-Machine clustering.</p><p>Apresente exemplos.</p><p>Em se tratando de análise de redes sociais, qual característica principal difere esse tipo de análise em</p><p>relação a análises baseadas em clustering? Explique.</p><p>Como as métricas de redes podem ser subdivididas? Cite e explique ao menos uma métrica de cada</p><p>categoria.</p><p>O que é Multiplexidade? Cite um exemplo.</p><p>Por que manipular dados não estruturados (textuais) constitui-se em uma tarefa mais árdua se</p><p>compararmos à análise de dados estruturados?</p><p>Qual a diferença entre as técnicas de Recuperação de Informação e Extração de Informação?</p><p>Por que o Digital Analytics é algo relevante para nossas análises?</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/agora-�-com-voc�</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>No cenário digital, como você pode estabelecer uma diferença entre o que é métrica e um indicador? Cite</p><p>um exemplo.</p><p>Que tipo de limitações a arquitetura tradicional do BI tem enfrentado na era Big Data?</p><p>Aponte diferenças entre o processo de ETL vs ELT:</p><p>Cite algumas ferramentas/frameworks Hadoop que podem ser utilizados para suprir carências na ingestão</p><p>de dados no processo de ETL:</p><p>Em termos de processamento, o que credencia o Apache Spark a ser uma das soluções mais viáveis no Big</p><p>Data?</p><p>Quais são os principais componentes do Spark? Qual a função de cada um?</p><p>O que é RDD e que tipo de operações são suportadas?</p><p>O que é a Internet das Coisas? Cite um exemplo prático.</p><p>De que maneira as empresas podem se beneficiar da análise de Big Data em um cenário de Internet das</p><p>Coisas?</p><p>Cite alguns cenários de aplicações de Internet das Coisas. Tente pesquisar outros exemplos pela internet.</p><p>Observando algumas tendências de Big Data apontadas nessa seção, como você destacaria a presença mais</p><p>incisiva da aprendizagem de máquina como apoio à tomada de decisões no futuro?</p><p>Orientação de resposta</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/agora-�-com-voc�</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/refer%C3%AAncias</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>REFERÊNCIAS</p><p>AMSTER, A. Top Apache Spark Use Cases. 2016. Disponível em: <https://www. qubole.com/blog/apache-spark-use-cases/>.</p><p>Acesso em: 28 nov. 2018.</p><p>APACHE SPARK. O Apache Spark é um mecanismo de análise unificada para processamento de dados em grande escala. 2018.</p><p>Disponível em: <https://spark.apache.org/>. Acesso em: 26 nov. 2018.</p><p>AWS. AWS IoT. [s.d]. Disponível em: <https://aws.amazon.com/pt/iot/>. Acessoem: 30 nov. 2018.</p><p>CARILLO, D. 10 Big Data Trends You Should Know. 2018. Disponível em:<https://www.kdnuggets.com/2018/09/10-big-data-</p><p>trends.html>. Acesso em: 30 nov. 2018.</p><p>DATAMEER. Big Data Analytics and the Internet of Things. Internet of Things E-book, p. 1-10, 2015.</p><p>PASCUZZI, R. The IoT Platform behind Bridgera IoT. 2017. Disponível em:<https://bridgera.com/iot-platform-behind-bridgera-</p><p>iot/>. Acesso em: 30 nov. 2018.</p><p>QIN. Y., SHENG, Q. Z. Pattern Matching Over Linked Data Streams. Springer International Publishing, p. 409-427, 2017.</p><p>SIMMHAN, Y., PERERA, S. Big Data Analytics Platforms for Real-Time Applications in IoT. Big Data Analytics Springer, p. 115-135,</p><p>2016.</p><p>TAURION, C. Big Data e o Data Lake. 2014. Disponível em: <https://www.tiespecialistas.com.br/big-data-e-o-data-lake/>. Acesso</p><p>em: 21 nov. 2018.</p><p>ZAHARIA, M. et al. Spark: Cluster Computing with Working Sets. HotCloud’10</p><p>Proceedings of the 2nd USENIX conference on Hot</p><p>topics in cloud computing, p. 10, 2010.</p><p>Avançar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/refer�ncias</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial/editorial</p><p>Página inicial</p><p>Pular para o conteúdo principal Pular para a navegação</p><p>EDITORIAL</p><p>DIREÇÃO UNICESUMAR</p><p>Reitor Wilson de Matos Silva</p><p>Vice-Reitor Wilson de Matos Silva Filho</p><p>Pró-Reitor de Administração Wilson de Matos Silva Filho</p><p>Pró-Reitor Executivo de EAD William Victor Kendrick de Matos Silva</p><p>Pró-Reitor de Ensino de EAD Janes Fidélis Tomelin</p><p>Presidente da Mantenedora Cláudio Ferdinandi</p><p>C397 CENTRO UNIVERSITÁRIO DE MARINGÁ . Núcleo de Educação a Distância.</p><p>BIG DATA ANALYTIC E A TOMADA DE DECISÕES</p><p>Fernando Gama da Mata; Anderson Emidio Macedo Golçalves</p><p>Maringá-Pr.: UniCesumar, 2021.</p><p>“Pós-graduação Universo - EaD”.</p><p>1. Big Data. 2. Analytic. 3. Interdisciplinaridade.</p><p>4. EaD. I. Título.</p><p>CDD - 22 ed. 372</p><p>CIP - NBR 12899 - AACR/2</p><p>Pró Reitoria de Ensino EAD Unicesumar</p><p>Head de pós-graduação Victor V. Biazon</p><p>Diretoria de Design Educacional</p><p>Equipe Recursos Educacionais Digitais</p><p>Fotos : Shutterstock</p><p>NEAD - Núcleo de Educação a Distância</p><p>Av. Guedner, 1610, Bloco 4 - Jardim Aclimação - Cep 87050-900</p><p>Maringá - Paraná | unicesumar.edu.br | 0800 600 6360</p><p>Retornar</p><p>UNICESUMAR | UNIVERSO EAD</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/editorial</p><p>https://getfireshot.com</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p%C3%A1gina-inicial</p><p>sejam</p><p>proprietárias ou open-sources.</p><p>Com base nisso, a análise de dados tradicional tornou-se uma alternativa importante para as empresas</p><p>encontrarem valor em dados que ficavam apenas armazenados em seus sistemas legados. No entanto, para</p><p>que isso aconteça, é necessário seguir etapas importantes, como a aquisição e a exploração dos dados,</p><p>descrevê-los e minerá-los na tentativa de encontrar padrões que possam conduzir a um entendimento maior</p><p>do objeto de estudo que está sendo analisado.</p><p>Dessa forma, existe uma diversidade de conceitos, técnicas e algoritmos que permitirão extrair o que há de</p><p>melhor no conjunto de dados. Isso significa que nem sempre a tarefa é simples de ser realizada e, por isso, é</p><p>necessário que o profissional seja amplamente capacitado com um mix de conhecimentos, tais como:</p><p>habilidades para trabalhar com Bancos de Dados, especialmente tarefas de Data Manipulation Language</p><p>(DML), para realizar manipulação de dados com comandos de leitura, inserção, alteração e deleção, também</p><p>habilidades estatísticas para compreensão de como os dados estão distribuídos e relacionados entre si, testar</p><p>ou refutar hipóteses, anexar novos conjuntos de dados para enriquecer a análise, pelo menos alguma</p><p>linguagem de programação ou ferramenta para análise de dados e construção de visualizações para que o</p><p>dado seja transmitido de forma mais clara e objetiva aos tomadores de decisão.</p><p>Assim, é importante que você compreenda que a análise de dados é um processo constituído por pelo menos</p><p>quatro etapas bem definidas, conforme mostrado na Figura 2, e que serão delineadas a seguir. Apesar de</p><p>todas elas estarem dispostas em sequência, isso não significa necessariamente que todas devam ser</p><p>executadas. Isso porque tudo dependerá do escopo do projeto que você trabalhará. Por outro lado, estas</p><p>etapas são altamente dependentes, não sendo recomendado, portanto, pular etapas e/ou ignorar importantes</p><p>subprocessos que as compõem. Por exemplo, começar diretamente a etapa preditiva sem antes conhecer a</p><p>fundo os dados - como eles estão distribuídos ou se algum fenômeno causou discrepância em um intervalo de</p><p>tempo. Faria algum sentido desconsiderar isso? Se você não conhece seus dados, a máquina muito menos. Em</p><p>outras palavras, o mínimo que você fará é consultar e selecionar informações que realmente possam ser</p><p>relevantes para dar prosseguimento a sua análise. Desse modo, considere sempre explorar com profundidade</p><p>cada uma das etapas anteriores. O processo de análise de dados pode ser definido em quatro etapas: análise</p><p>descritiva, diagnóstica, preditiva e prescritiva.</p><p>FIGURA 2 – ANÁLISE DESCRITIVA, DIAGNÓSTICA, PREDITIVA E PRESCRITIVA</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>FONTE:</p><p>< http://arunkottolli.blogspot.com</p><p>>. Acesso em: 15 nov. 2018.</p><p>2.1.1 Etapa 1: análise descritiva</p><p>A análise descritiva diz respeito à primeira etapa do processo de análise de dados, é o momento em que</p><p>estamos interessados em saber “o que aconteceu” ou “o que está acontecendo”, ou seja, fatos do passado são</p><p>utilizados para que compreendamos o cenário e tomemos as decisões no presente. Dessa maneira, essa etapa</p><p>possui um alto grau de dependência humana para compreender e avaliar as variáveis em questão na tentativa</p><p>de encontrar inconsistências.</p><p>Normalmente, a utilização deste tipo de análise é feita em pequenos projetos ou alguma análise ad-hoc, um</p><p>tipo de análise que visa atender a um determinado propósito em um intervalo de tempo específico. Por</p><p>exemplo, o gestor da empresa está interessado em saber qual cliente mais comprou na loja nos últimos dois</p><p>meses. De posse dessa informação, ele poderá decidir os top-n em um grupo seleto de clientes, que passarão</p><p>a ter direito a descontos especiais em lançamentos de produtos na loja. Dependendo da modelagem do</p><p>sistema, implementando medidas estatísticas básicas, como a moda, seria o suficiente para solucionar esse</p><p>problema ou uma contagem simples de ocorrência de compras. Observe que situações que envolvam análises</p><p>descritivas, técnicas ou medidas básicas podem auxiliar gestores e o próprio analista de dados ou de negócios</p><p>a extrair insights úteis no dia a dia.</p><p>Assim, é comum que nessa etapa medidas como: médias, medianas, variância, desvio padrão, frequência</p><p>cumulativa, bem como visualizações que utilizam gráficos em barras ou em linhas, gráficos de dispersão ou de</p><p>pizza, não resumidos a estes, sejam comumente exploradas.</p><p>2.1.2 Etapa 2: análise diagnóstica</p><p>A análise diagnóstica está interessada em saber o porquê das coisas, isto é, o motivo pelo qual determinados</p><p>eventos aconteceram na tentativa de encontrar pistas que possam sinalizar tendências de ocorrência e assim</p><p>tomar medidas práticas para minimizar eventuais problemas que possam surgir. Da mesma maneira que a</p><p>etapa anterior, a análise diagnóstica está preocupada com dados do passado para que ações sejam tomadas</p><p>no presente.</p><p>Por exemplo, para alocar produtos na prateleira de um supermercado, o analista aplica técnicas de mineração</p><p>de dados para tentar encontrar padrões de consumo, eleger os produtos mais consumidos e, com base nos</p><p>resultados, propor ao gerente a alocação de produtos em prateleiras mais acessíveis ao consumidor.</p><p>Algoritmos de associação podem ser aplicados sobre os dados históricos para identificar regras e encontrar</p><p>padrões associativos entre os elementos. Além das técnicas de mineração de dados e ferramentas voltadas</p><p>para atender às demandas de negócio, também pode ser utilizada a análise multidimensional, bem explorada</p><p>em cenários de Business Intelligence. Essa análise permite que gestores obtenham insights sob diferentes</p><p>perspectivas e em altos (Drill Up) ou baixos níveis de granularidade (Drill Down).</p><p>Adicionalmente, percebe-se que nessa etapa ocorre um gradual decréscimo da ação humana e,</p><p>consequentemente, os algoritmos passam a ter mais independência para descrever o cenário da empresa</p><p>com base nos dados.</p><p>2.1.3 Etapa 3: análise preditiva</p><p>A análise preditiva representa um avanço significativo no processo de análise de dados. Nesse momento, o</p><p>cientista de dados ganha destaque, especialmente por ser o responsável por construir modelos preditivos que</p><p>possam ter autonomia para classificar conjuntos de dados com base na aprendizagem obtida a respeito</p><p>destes. Quando trabalhamos com modelos preditivos, estamos interessados em responder à pergunta: “o que</p><p>(provavelmente) acontecerá?”. De fato, isso está diretamente relacionado ao contexto de aprendizado de</p><p>máquina, o que significa que a ação humana é cada vez menor e o algoritmo progressivamente vai se</p><p>aprimorando e aprendendo mais a respeito dos padrões históricos contidos nos dados.</p><p>Por isso, é essencial que, antes de aplicar técnicas e algoritmos de Machine Learning, sejam identificados os</p><p>dados que servirão de input para o modelo que será construído. Algumas técnicas de Machine Learning se</p><p>destacam, como: Árvores de Decisão, Florestas Aleatórias (Random Forest), Redes Neurais, Support Vector</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Farunkottolli.blogspot.com%2F2018%2F08%2F4-types-of-data-analytics.html&sa=D&sntz=1&usg=AOvVaw2GP9OLlD1mYkz9tHrjl3u_</p><p>Machines (SVM), K-Nearest Neighbor (KNN), entre outras.</p><p>Por exemplo, uma empresa de crédito talvez esteja interessada em saber se houve alguma compra suspeita</p><p>com o número do cartão de crédito de seus clientes. O rastreio pode se dar em um nível no qual o resultado</p><p>obtido seja um alerta à empresa e ao cliente informando a respeito da atividade suspeita. Nesse caso, a</p><p>variável valor de compra pode ser utilizada para rastrear essa questão. Por exemplo, se o valor de compra for</p><p>extremamente maior em relação a outras atividades de compra do consumidor. É lógico que esse é um</p><p>modelo simplificado, mas didaticamente viável. Por fim,</p><p>um modelo de classificação poderia discriminar a</p><p>atividade de compra como normal ou anômala.</p><p>2.1.4 Etapa 4: análise prescritiva</p><p>A etapa de análise prescritiva é a mais complexa, porém, a que acrescenta mais valor para a organização e</p><p>fornece suporte à decisão de forma automatizada. Nesse momento, a máquina consegue aprender com as</p><p>experiências nas previsões e a ação humana é mínima ou nula. Técnicas analíticas avançadas podem ser</p><p>utilizadas para fins de otimização, sendo capazes de responder à pergunta: “o que devo fazer?” e assim</p><p>mostrar às organizações as ações necessárias na tomada de decisão.</p><p>Obviamente que, para chegar até aqui, é necessário um elevado nível de maturidade nos processos de análise</p><p>anteriores, por isso que na maioria das vezes ou quase sempre, a implementação desse tipo de análise é feita</p><p>por grandes corporações. Algumas técnicas que são utilizadas na etapa prescritiva são: simulações, redes</p><p>neurais convolucionais, heurísticas, processamento de eventos complexos, entre outras.</p><p>Um exemplo que retrata a análise prescritiva são os carros ou os caminhões autônomos (inteligentes).</p><p>Modelos construídos para esse fim apresentam um alto nível de robustez e utilizam como referência dados</p><p>históricos e previsões anteriores para decidirem a melhor rota e assim aperfeiçoar suas tarefas com base na</p><p>experiência.</p><p>2.2 ANÁLISE AVANÇADA DE DADOS</p><p>O Grupo Gartner (2017) define o conceito de Advanced Analytics como um processo de observação autônomo</p><p>ou semiautônomo de dados ou conteúdo por intermédio de técnicas e ferramentas sofisticadas, normalmente</p><p>além daquelas de Inteligência de Negócios (BI) tradicional para descobrir insights mais profundos, realizar</p><p>previsões ou gerar recomendações de produtos ou serviços. Além disso, compreende técnicas analíticas</p><p>avançadas, como mineração e dados/textos, aprendizado de máquina, correspondência de padrões,</p><p>virtualização, análise semântica, de sentimento, de rede e em cluster, estatística multivariada, análise de</p><p>gráficos, simulação, processamento de eventos complexos e redes neurais. Algumas dessas técnicas variam</p><p>em complexidade e, consequentemente, em tempo de implementação.</p><p>Modelos analíticos avançados apontam para um elevado nível de maturidade e sugerem que a empresa já</p><p>possua uma grande quantidade de dados. Mais do que isso, pode ser que o desempenho das análises esteja</p><p>sendo afetado, novas estruturas de dados vêm sendo incorporadas e quando a infraestrutura básica,</p><p>anteriormente construída para atender à demanda da análise de dados, não esteja mais suportando o fluxo. A</p><p>potencialização do seu uso está diretamente relacionada ao advento do Big Data e das necessidades atuais de</p><p>negócio.</p><p>2.3 VISÃO GERAL DO BIG DATA</p><p>Nas seções anteriores, exploramos um contexto histórico e apresentamos os tipos de análise de dados que</p><p>estão sendo aplicados em diferentes segmentos empresariais. Acontece que a abordagem tradicional de</p><p>análise de dados possui algumas limitações que merecem a nossa atenção. Antes de mais nada, é importante</p><p>frisar que o conceito de Big Data ainda não é bem definido. Entretanto, existem algumas definições que fazem</p><p>todo sentido, entre estas, cabe mencionar que:</p><p>O Big Data pode ser introduzido como uma combinação de tecnologias novas e antigas que ajudam empresas</p><p>a conseguirem ideias viáveis. Portanto, Big Data é a capacidade de administrar um volume enorme de dados</p><p>diferentes na velocidade certa e dentro do prazo certo para permitir análises e reações em tempo real</p><p>(HURWITZ et al., 2016, p. 15-16).</p><p>Adicionalmente, Gartner (2018, s.p.) define o Big Data como “um grande volume de informações, com alta</p><p>velocidade e/ou ativos de informações de alta variedade que exige formas inovadoras e econômicas de</p><p>processamento de informações que permitem uma melhor percepção na tomada de decisão e automação de</p><p>processos”.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Notamos que, em ambos conceitos, existem termos em comum que precisamos considerar: volume ,</p><p>velocidade e variedade . De fato, esses termos podem ser utilizados para compreender melhor o que de fato</p><p>é o Big Data. Considere que você esteja trabalhando em um projeto de análise consolidado. Em um</p><p>determinado momento você nota que seja viável trabalhar com informações de outros ambientes para</p><p>enriquecer sua análise, tais como: informações de redes sociais, ou blogues, ou informações não estruturadas</p><p>armazenadas em arquivos de texto, ou até de Bancos de Dados não Relacionais.</p><p>Diante disso, você extrai essas informações de diferentes fontes, mas percebe que não tem hardware</p><p>necessário para armazená-las, tampouco uma infraestrutura que possa processar toda essa informação em</p><p>tempo hábil. De fato, estamos em uma realidade que foge do escopo da análise de dados tradicionais. As</p><p>questões relativas a desempenho até podiam ser consideradas anteriormente. Entretanto, nesse atual</p><p>momento, essa questão assume um papel central , ou seja, para prosseguir com suas análises, você precisa,</p><p>necessariamente, adquirir um servidor ou um espaço de armazenamento em nuvem para suportar o volume</p><p>de dados ou considerar uma infraestrutura que suporte computação paralela.</p><p>Os sistemas tradicionais de análise de dados muitas vezes não suportam estruturas de dados com formatos e</p><p>tamanhos diversificados. Assim, você precisará também garantir que a infraestrutura seja capaz de suportar</p><p>essa diversidade de dados. Por fim, uma vez que você consiga armazenar uma grande quantidade de dados de</p><p>múltiplas fontes, é fundamental que você se certifique de que os dados estão sendo processados em um</p><p>adequado intervalo de tempo.</p><p>Observe que quando falávamos em análise de dados tradicional não comentamos os pontos mencionados</p><p>sobre os Vs de Big Data, porque estamos exatamente em uma transição entre esse tipo de análise e o Big</p><p>Data. Assim, podemos concluir que estamos diante do Big Data quando percebemos que as análises,</p><p>tradicionalmente aplicadas, não estão mais suportando o volume, a velocidade e a variedade dos dados que</p><p>estão chegando e, como consequência disso, é necessário examinar novas estratégias para suportar esse “mar</p><p>de dados”, sem comprometer nossas análises. Obviamente, a análise de dados tradicional e o Big Data estão</p><p>longe de serem abordagens antagônicas, pelo contrário, complementam-se e são fundamentais para que as</p><p>empresas mantenham elevado poder analítico e, como consequência, sejam competitivas no mercado</p><p>contemporâneo.</p><p>Erroneamente, algumas pessoas conceituam Big Data como uma ferramenta. Entretanto, como mostramos,</p><p>Big Data não se resume apenas a uma ou mais ferramentas. Big Data é um conceito , compreendido de forma</p><p>simplificada. Em função dos 3Vs mencionados - volume, velocidade e variedade -, existem abordagens que</p><p>ampliam o conceito para 4, 5, 6 e até 7Vs. Independentemente disso, é importante que você compreenda que,</p><p>nestes casos, não existe um conceito certo ou errado. Lembre-se de que o conceito de Big Data ainda está em</p><p>formação. Desta maneira, para este livro optamos pela abordagem baseada em 5Vs, conforme mostra a Figura</p><p>3. Essa abordagem é amplamente utilizada e compreende: Volume, Velocidade, Variedade, Veracidade e</p><p>Valor . Vamos delinear cada uma dessas etapas.</p><p>FIGURA 3 – 5Vs: VOLUME, VELOCIDADE, VARIEDADE, VERACIDADE E VALO</p><p>FONTE:</p><p>< https://www.omnivex.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.omnivex.com%2Fcompany%2Fblog%2Fwhat-is-big-data%2F&sa=D&sntz=1&usg=AOvVaw2xYRA66Vzb_MAd4ZFPWCC5</p><p>Volume : diz respeito à quantidade de dados - com tamanhos na ordem de peta, hepta ou exabytes sendo</p><p>gerados e que, uma vez extraídos, deverão ser suportados na arquitetura de Big Data. Isso quer dizer que o</p><p>quesito escalabilidade precisa ser pensado no início de uma implementação</p><p>do Big Data.</p><p>Variedade : dados estruturados, semiestruturados ou não estruturados estão espalhados no meio digital.</p><p>Eventualmente, desejamos incrementar em nossas análises informações obtidas de websites (neste caso,</p><p>certifique-se de ser autorizado para fazer isso). A ferramenta de coleta precisa “raspar” os dados (ou realizar</p><p>Web Scrapping) que serão obtidos em um formato de tags e texto. Talvez estejamos interessados em</p><p>informações de um Banco de Dados não transacional que armazena as informações em formato JSON, ou</p><p>dados de redes sociais, como Twitter ou Facebook. Enfim, a arquitetura de Big Data precisa ser robusta o</p><p>suficiente para lidar com essa diversidade de formatos e estruturas, tendo como desafio tornar a tarefa de</p><p>integração e extração de dados o mais transparente possível.</p><p>Velocidade : está relacionada a questões de desempenho . O processamento dos dados precisa ser</p><p>eficiente a ponto de não causar altas taxas de latência no fluxo de dados. O sucesso de uma implementação</p><p>do Big Data também está relacionado a entregar respostas em tempo hábil e, por isso, estratégias (por</p><p>exemplo, cache dos dados) podem ser adotadas para otimizar o desempenho. É importante considerar</p><p>também qual o foco da análise, isto é, se o processamento será em lote (batch) ou em tempo real, ou</p><p>ambos (arquitetura Lambda). Essa questão é um importante requisito de negócio, pois quando lidamos com</p><p>processamento em lote são alocados maiores recursos de armazenamentos em detrimento ao</p><p>processamento em tempo real.</p><p>Veracidade : precisamos confiar nos dados adquiridos e a veracidade está relacionada à inconsistência, à</p><p>ambiguidade e à incompletude desses dados. Quando anexamos fontes de dados externas à nossa</p><p>arquitetura, precisamos ter um cuidado especial, uma vez que não temos total controle desses dados, como</p><p>teríamos se estivéssemos coletando dados de sistemas legados da empresa. Por isso, devemos sempre</p><p>questionar os dados que adquirimos e garantir que a origem da nossa arquitetura não seja comprometida</p><p>com dados que possam enviesar ou distorcer nossas análises. Assim, a veracidade desempenha um papel</p><p>importante dentro do Big Data.</p><p>Valor : o verdadeiro sentido do Big Data é na geração de valor para a organização. De nada adianta</p><p>elevados investimentos em qualificações dos profissionais, aquisição de soluções proprietárias, entre</p><p>outros recursos, se os resultados obtidos não agregam valor e a organização apenas extrai informações</p><p>desconexas que não agregam novos conhecimentos. Essa frustação certamente poderia colocar em risco o</p><p>andamento de todo o processo de Big Data. Na verdade, a obtenção do real valor pode trazer para a</p><p>empresa uma consequência de todo o processo de Big Data. Contudo, quando pensamos em termos-chave</p><p>para compor o conceito de Big Data, faz todo sentido acrescentar o valor resultante que queremos obter</p><p>em um processo de Big Data.</p><p>Além destes aspectos, algumas outras keywords também podem ser incorporadas ao conceito de Big Data,</p><p>como a Variabilidade e a Visualização . A primeira está relacionada à rastreabilidade dos dados, ou seja,</p><p>verificar o quanto o significado dos dados vem se modificando ao longo do tempo, enquanto que a segunda</p><p>corresponde à etapa de apresentação dos dados em um formato amigável para o usuário, ou seja, queremos</p><p>nos certificar que os resultados das nossas análises de Big Data estão prontos para serem consumidos por</p><p>usuários com facilidade e transparência.</p><p>Antes de entrarmos em uma discussão mais profunda a respeito de Big Data, é importante que você esteja</p><p>habituado com alguns conceitos introdutórios, porém relevantes, e que também servirão de base para todo o</p><p>conteúdo deste livro. Por essa razão, reservamos a próxima seção para discutirmos um pouco isso.</p><p>3 BIG DATA: CONCEITOS ÚTEIS</p><p>Nesta seção, exploraremos alguns conceitos necessários para a compreensão das etapas seguintes do</p><p>ecossistema Big Data. Neste sentido, serão apresentados conceitos e diferenças entre dados estruturados,</p><p>semiestruturados e não estruturados, bem como comentaremos tipos de Bancos de Dados não Relacionais</p><p>existentes, apresentando as ferramentas que os compõem e que podem ser anexadas no seu projeto. Por fim,</p><p>encerraremos a seção comentando diferenças entre processamento em lote (batch) e em tempo real,</p><p>realçando suas particularidades, vantagens e desvantagens.</p><p>3.1 DADOS ESTRUTURADOS, SEMIESTRUTURADOS E NÃO ESTRUTURADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Como vimos, a disseminação de dados reflete em uma nova Era da Informação na qual vivemos. Esses dados</p><p>podem estar em um formato pronto para análise, como é o caso dos dados estruturados contidos em planilha</p><p>ou em um Banco de Dados Relacional. Contudo, na prática não é algo que sempre acontece, especialmente</p><p>em tempos de Big Data. Por conseguinte, é imprescindível que compreendamos as diferenças entre dados</p><p>estruturados, semiestruturados e não estruturados, tão presentes nos dias de hoje, conforme mostra a Figura</p><p>4. Lidar com diferentes estruturas de dados é algo comum na era Big Data.</p><p>FIGURA 4 – ESTRUTURAS DE DADOS NA ERA BIG DATA</p><p>FONTE: < https://www.building-</p><p>blocks.nl >. Acesso em: 16 nov.</p><p>2018.</p><p>Os dados estruturados compreendem apenas uma pequena parcela dos dados que estão sendo analisados</p><p>no mundo. Esse formato é representado por linhas e colunas e estão armazenados em Bancos de Dados</p><p>Relacionais ou planilhas eletrônicas, tais como: Oracle, Excel, MySQL, entre outros. Algumas características</p><p>dessas estruturas são a facilidade de acesso e manipulação, além de um esquema de armazenamento e</p><p>organização bem definido. Isso quer dizer que podemos obter respostas rápidas para alguns tipos de</p><p>perguntas ao realizar uma simples consulta em um banco de dados. Para exemplificar, podemos extrair a</p><p>média de idade dos alunos com sexo masculino do Ensino Médio considerando uma determinada escola com</p><p>um simples SQL e utilizando campos estruturados, como idade, sexo, escolaridade e escola.</p><p>No que se refere a dados semiestruturados , estes normalmente estão espalhados pela Web em arquivos</p><p>HTML, XML ou em Banco de Dados não Relacionais, como o MongoDB, que possui uma estrutura semelhante</p><p>a um arquivo JSON. Se pensarmos em um arquivo XML ou HTML, perceberemos que existe uma diferença</p><p>nesses tipos de estruturas: a hierarquia ou a estrutura em árvore. As tags ou elementos possuem uma certa</p><p>organização e qualificam os documentos. Os nós apresentam uma certa flexibilidade e não contêm uma</p><p>representação fixa ou rígida como em um modelo estruturado, ao contrário, alguns campos (tags) podem</p><p>conter descrições ou informações textuais, por exemplo, páginas web (como HTML e CSS), campos de e-mail,</p><p>informações de redes sociais etc. Além disso, quando trabalhamos com projetos de Web Scraping,</p><p>normalmente nos deparamos com esse tipo de estrutura.</p><p>Cerca de 80% dos dados existentes que estão sendo difundidos não possuem estrutura bem definida, ou seja,</p><p>são não estruturados ou desestruturados . Por exemplo: arquivos textuais, vídeos, imagens, dados de</p><p>sensores, mensagens em formulários ou em campos de e-mails, posts no Facebook ou Twitter, arquivos de</p><p>áudio e assim por diante. São infinidades de fontes diferentes que contêm dados não estruturados. Uma</p><p>simples pesquisa no Google, uma conversa no WhatsApp, uma chamada de vídeo pelo Skype. A verdade é que</p><p>estamos mergulhados em uma quantidade de informação desestruturada que poderia ser perfeitamente</p><p>analisada. Entretanto, há um aumento de complexidade para analisar esse tipo de dado. Dados textuais estão</p><p>sujeitos a problemas de erros sintáticos ou semânticos provenientes da linguagem natural, isso poderia</p><p>inviabilizar todo o processo de análise. Felizmente, existem técnicas específicas para esse fim e, além de</p><p>realizar o tratamento adequado, podemos converter os dados não estruturados em um formato estruturado e</p><p>assim dar continuidade</p><p>ao processo de análise a partir de uma única visão sobre os dados.</p><p>Antigamente, incorporar informações não estruturadas ao processo de análise era algo extremamente</p><p>custoso ou muitas vezes inviável. Então, as empresas direcionavam suas decisões apenas a uma pequena</p><p>parcela das informações que possuía. Todavia, essa fronteira para integração dos dados progressivamente foi</p><p>se rompendo ao longo do tempo, especialmente com o surgimento do Big Data. Por isso, é imprescindível que</p><p>compreendamos essas diferenças e não limitemos nossas análises. O tipo de estrutura de dados que vamos</p><p>manipular precisa ser indiferente para nós, precisamos focar nas estratégias e posteriormente nas análises</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.building-blocks.nl%2Fblog%2Fdifferent-types-of-data-sources&sa=D&sntz=1&usg=AOvVaw0G1of8ZZS6t9SlAG_5SisP</p><p>para implementarmos com sucesso e extrairmos valor nas análises de Big Data.</p><p>3.2 BANCOS DE DADOS NÃO RELACIONAIS</p><p>Os Bancos de Dados não Relacionais surgiram no final do século passado, mas começaram a ganhar destaque</p><p>também com o advento do Big Data. Observe que mais uma tecnologia emergiu a partir do conceito de Big</p><p>Data. No passado, tarefas analíticas eram realizadas em cima de armazém de dados (Data Warehouse) que era</p><p>um banco, à parte de um SGBD (para não concorrer recursos), que armazenava informações estruturadas em</p><p>um formato multidimensional para agilizar consultas. Outra alternativa mais simplificada era baseada em</p><p>cubos multidimensionais que permitiam aos gestores analisar informações e extrair insights sob diferentes</p><p>perspectivas.</p><p>Com o passar dos anos, diante do expressivo aumento no volume e variedade dos dados, recursos</p><p>computacionais mais robustos eram requeridos. Neste caso, surgiam duas alternativas para resolver o</p><p>problema: uma seria alocar mais investimentos em infraestrutura física, outra seria utilizar um Banco de</p><p>Dados que pudesse armazenar dados em um formato adequado para rápida consulta e análise. Não é de se</p><p>admirar que muitas empresas optaram pelo uso de Banco de Dados não Relacional. Afinal, ele compreendia</p><p>exatamente essas vantagens mencionadas: agilidade na busca de respostas, elevada capacidade de</p><p>armazenamento e, mais além, capacidade de trabalhar com dados não estruturados.</p><p>Os Bancos de Dados não Relacionais são também conhecidos como NoSQL. Não caia na tentação de concluir</p><p>pela nomenclatura de que esses bancos surgiram como concorrentes da linguagem SQL ou não incentivam</p><p>mais o uso dessa linguagem. Ao contrário, NoSQL significa (Not Only SQL) ou não somente SQL, isto é, Bancos</p><p>de Bados NoSQL surgiram como uma alternativa para armazenamento de dados com a finalidade de</p><p>oferecer uma solução mais robusta e escalável para suportar grandes volumes de dados.</p><p>No entanto, em Bancos de Dados não Relacionais não existe uma maneira única de armazenar um conjunto</p><p>de dados. Assim, eles podem ser classificados em quatro tipos: banco de dados chave-valor (key-value),</p><p>orientado a documentos (document store), orientado a famílias de colunas (column-family stores) e os que são</p><p>baseados em grafos (graph-databases). A Figura 5 ilustra os tipos de Bancos de Dados não Relacionais e a</p><p>seguir explicaremos cada um deles.</p><p>FIGURA 5 – À ESQUERDA SÃO APRESENTADOS FORMATOS DOS BANCOS DE DADOS</p><p>RELACIONAIS BASEADOS EM SQL. À DIREITA OS QUATRO TIPOS DE BANCOS DE DADOS</p><p>NÃO RELACIONAIS</p><p>FONTE:</p><p>< https://www.kdnuggets.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>Banco de dados chave-valor : você talvez já tenha tido algum contato com esse tipo de estrutura quando</p><p>programou em Java ou Python, por exemplo. A compreensão é simples: para toda chave existe um valor</p><p>vinculado. Para ilustrar, talvez você tenha observado que na biblioteca, há estantes numeradas que</p><p>armazenam um conjunto de livros. Se você precisar consultar alguma informação de um livro específico,</p><p>você abre a gaveta ou o localiza na estante por meio de uma chave que o identifica e captura a informação</p><p>que deseja em um determinado capítulo do livro. O conceito é simples, por isso a complexidade para</p><p>manipular os dados é baixa. Além disso, esses tipos de bancos possuem como característica a alta</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.kdnuggets.com%2F2016%2F07%2Fseven-steps-understanding-nosql-databases.html&sa=D&sntz=1&usg=AOvVaw2BwCqEJCnhAV2otZgUDT0N</p><p>escalabilidade, flexibilidade e uma boa performance. Podemos mencionar alguns exemplos de Bancos de</p><p>Dados que se encaixam nessa categoria, tais como: Redis, Riak, Oracle NoSQL. Observe um exemplo</p><p>genérico de um banco chave-valor:</p><p>Banco de dados orientado a documentos : são Bancos de Dados que armazenam dados em forma de</p><p>coleção de documentos . Cada documento é único e pode conter diversas informações com dados</p><p>aninhados, “tipados” como strings, valores numéricos, listas. É um dos tipos de Bancos de Dados não</p><p>Relacionais mais utilizado e possui uma estrutura muito semelhante a objetos JSON. Estes bancos possuem</p><p>baixa complexidade e elevada performance e escalabilidade, embora não possuam tanta flexibilidade</p><p>quanto os outros Bancos não Relacionais. Alguns exemplos de bancos orientados a documentos são</p><p>MongoDB, Apache CouchDB, Azure Cosmos DB. Observe um exemplo a seguir:</p><p>{</p><p>“id”: 12,</p><p>“nome”: “UNIASSELVI”,</p><p>“unidades”: {</p><p>“SP”: “Bragança Paulista”,</p><p>“AC”: “Cruzeiro do Sul”,</p><p>“MA”: “Bacabal”,</p><p>“GO”: “Anápolis”,</p><p>“RS”: “Bagé”</p><p>}</p><p>}</p><p>Banco de dados orientado a colunas : são úteis quando você deseja recuperar informações com eficiência</p><p>de bases de dados com poucas colunas e muitos registros, ou seja, em uma tabela você pode ter uma</p><p>família de colunas com número igual ou diferente de colunas . A estrutura desse tipo de banco pode ser</p><p>demonstrada no exemplo a seguir. Nós mostramos exemplos de uma família e, nesse caso, existem três</p><p>chaves, cada uma apontando para um conjunto de registros que possuem tamanho de colunas diferentes.</p><p>O ID = 1, por exemplo, possui uma quantidade de colunas menor que os outros dois IDS. Essa é uma</p><p>característica importante desses tipos de Bancos de Dados. Além disso, bancos colunares também possuem</p><p>elevada performance, boa flexibilidade e alta escalabilidade. Evidentemente que isso pode variar de acordo</p><p>com o domínio que você está trabalhando. É possível obter registros de mídias sociais para serem</p><p>armazenados em um banco orientado a colunas. Os seguintes bancos podem ser utilizados: Cassandra,</p><p>HBase, Vertica etc.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>Banco de dados orientado a grafos : sugere um formato diferente de armazenamento dos bancos</p><p>anteriores, baseado na teoria dos gafos . Os nós são dados que queremos armazenar e as arestas exibem</p><p>o relacionamento entre um conjunto de nós. O grafo dirigido e ponderado reforça a ideia de que, para esse</p><p>tipo de banco, há necessidade de uma forte ligação entre os dados. Por esta razão, o Banco de Dados</p><p>orientado a grafos é utilizado somente em alguns casos específicos. Apesar de possuir bastante</p><p>flexibilidade, sua performance e escalabilidade variam de acordo com o domínio que está sendo trabalhado</p><p>e sua implementação não é trivial, podendo demandar tempo. O banco mais popular é o Neo4JS, mas</p><p>também é possível utilizar o OrientDB e o GraphBase. Um exemplo deste modelo de banco pode ser</p><p>mostrado através da Figura 6. Os nós centrais são pessoas que estão conectadas às cidades que visitaram</p><p>ou residiram. Por exemplo, Jonas morou em Recife e João Pessoa e visitou Belo Horizonte.</p><p>FONTE:</p><p>< https://www.researchgate.net >.</p><p>Acesso em: 15 nov. 2018.</p><p>3.3 PROCESSAMENTO EM BATCH E EM TEMPO REAL</p><p>Não devemos pensar em Big Data somente em função dos tipos e estruturas de dados que</p><p>manipularemos,</p><p>ou mesmo se extrairemos ou manipularemos informações de Bancos de Dados Relacionais ou não</p><p>Relacionais. Outro ponto que precisamos considerar diz respeito ao volume de dados serem processados em</p><p>batch (lote) ou em tempo real. Por isso, você precisa compreender e distinguir ambos, é o que faremos nesta</p><p>seção.</p><p>3.3.1 Processamento em lote</p><p>O processamento em lote ou em batch refere-se à forma de processar transações, tendo em vista um grupo</p><p>de registros armazenados em um intervalo de tempo. Quando desejamos obter os dados de vendas dos</p><p>produtos em uma grande loja de varejo considerando a última quinzena de vendas, nós já temos um conjunto</p><p>significativo de informações armazenadas em lote dentro de uma janela temporal de duas semanas, o que</p><p>pode representar um volume de petabytes de dados para processar. Por outro lado, talvez estejamos</p><p>interessados em analisar dados da próxima semana. Nesse caso, somente ao final de sete dias, quando a</p><p>janela temporal de lote estiver completa ou cheia, podemos processar todos esses dados. Isso representa uma</p><p>característica importante desse tipo de processamento: você primeiro armazena o dado em grandes lotes de</p><p>dados respeitando uma janela temporal, para posteriormente processá-los.</p><p>No entanto, trabalhar com esse tipo de processamento nem sempre é adequado. Por exemplo, ao notarmos</p><p>que precisamos trabalhar com uma janela temporal mais curta, talvez uma semana, ao invés de duas</p><p>semanas, precisaríamos reprocessar todo aquele lote de dados novamente ou mesmo criar códigos para lidar</p><p>com essas variações. Cabe considerar que o processamento em lote é utilizado há várias décadas, então,</p><p>alguns consideram um modelo ultrapassado, tendo em vista que a tomada de decisões atualmente está muito</p><p>mais dinâmica e com demandas de respostas cada vez mais ágeis.</p><p>Em compensação, você pode processar lotes de forma independente e atemporal, o que torna este modelo</p><p>mais flexível, sendo ideal para processar imensos conjuntos de dados de forma mais eficiente. A Figura 7</p><p>ilustra o fluxo de dados em um ambiente de processamento em lotes.</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Fwww.researchgate.net%2Fpublication%2F268201466_NoSQL_no_desenvolvimento_de_aplicacoes_Web_colaborativas&sa=D&sntz=1&usg=AOvVaw3dPgOfVMxtaeLb8jXJuxSi</p><p>FIGURA 7 – OS DADOS SÃO COLETADOS E ARMAZENADOS E LOGO EM SEGUIDA</p><p>PROCESSADOS PARA POSTERIOR ANÁLISE</p><p>FONTE:</p><p>< http://www.irisidea.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>3.3.2 Processamento em tempo real</p><p>Com o surgimento e a redução de custo de novos dispositivos físicos, como câmeras de alta definição para</p><p>áudio, vídeo e imagens, drones para mapear informações geográficas, sensores para implantação na indústria</p><p>ou na agricultura, uma nova demanda de análise foi ganhando espaço - a análise em tempo real.</p><p>Diferentemente do processamento baseado em grandes lotes de dados, o processamento em tempo real</p><p>captura um microlote de dados e disponibiliza de forma imediata para análise. Assim, você pode capturar</p><p>informações em tempo real do Twitter e de imediato aplicar um processo de tratamento (como transformação</p><p>e limpeza) e, em seguida, aplicar um modelo de Machine Learning para realizar alguma previsão. Por exemplo,</p><p>investidores estão interessados em mitigar riscos de investimento em novos negócios, tomando como base a</p><p>Bolsa de Valores. Um sistema baseado em Machine Learning pode ser criado para mapear fontes, coletar,</p><p>tratar, analisar e prever riscos de investimento. Além disso, detectar eventos anômalos de atividades de cartão</p><p>de crédito baseados em microlotes de dados também necessitam de uma arquitetura que suporte</p><p>processamento em tempo real.</p><p>Note que o foco não é o armazenamento e sim a análise, por este motivo, frameworks de Big Data criados</p><p>para esta finalidade não possuem a mesma robustez em termos de armazenamento do que àqueles voltados</p><p>ao processamento em batch. Em uma eventual necessidade, combinações de componentes de Big Data em</p><p>uma única arquitetura, por exemplo, combinando o Hadoop e o Spark, podem ser úteis para enfrentar</p><p>situações nas quais você precise processar e armazenar grandes volumes de dados em tempo real.</p><p>O Hadoop será apresentado a você na última seção deste capítulo. Além disso,</p><p>você conhecerá o Spark em mais detalhes no Capítulo 3.</p><p>Podemos elencar algumas vantagens dessa forma de processamento, a saber: respostas ágeis, informações</p><p>atualizadas, identificação de padrões ou detecção de eventos em tempo de execução de modo a oferecer a</p><p>gestores decisões mais ágeis e assertivas em um determinado momento. Por outro lado, existe aumento de</p><p>complexidade se comparado ao modelo tradicional em lote. Como os dados, muitas vezes, são analisados e</p><p>logo após descartados, o processo de auditoria pode ser comprometido. A Figura 8 mostra um pipeline que</p><p>exemplifica o processamento em tempo real.</p><p>FIGURA 8 – OS DADOS SÃO COLETADOS, PROCESSADOS À CADA MICROLOTE, EM</p><p>SEGUIDA, ANALISADOS E POSTERIORMENTE DESCARTADOS</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.irisidea.com%2Flambda-architecture-big-data-processing%2F&sa=D&sntz=1&usg=AOvVaw3GW4oDAcyAPqTA11el1zyS</p><p>FONTE:</p><p>< http://www.irisidea.com >.</p><p>Acesso em: 15 nov. 2018.</p><p>4 ARQUITETURA DE BIG DATA E SEUS COMPONENTES</p><p>Agora que você possui conhecimento dos conceitos básicos, conseguirá distinguir diferenças importantes no</p><p>contexto de Big Data e assim generalizar seu aprendizado. Nesta seção, apresentaremos a arquitetura</p><p>tradicional de Big Data e seus componentes. A partir destes conhecimentos será possível que você consiga</p><p>refletir sobre as novas abordagens e enfrentar desafios em cenários reais.</p><p>4.1 ARQUITETURA TRADICIONAL DE BIG DATA</p><p>Em seções anteriores comentamos a respeito do valor que a análise de Big Data pode trazer para as</p><p>organizações. A construção de uma arquitetura que possa atender a todas as demandas e expectativas de</p><p>negócios desempenha um papel central para que a implementação de Big Data realmente apresente</p><p>resultados e forneça insights valiosos para a organização, fazendo valer a pena todo o investimento</p><p>dispensado, tais como pessoas, recursos, dinheiro e tempo. Tendo isso em mente, não podemos pular etapas</p><p>sem antes pensar em mecanismos que precisamos considerar ao implementar o Big Data.</p><p>Uma arquitetura de Big Data precisa ser robusta o suficiente para lidar com a ingestão, o processamento e a</p><p>análise dos dados com eficiência, uma sólida infraestrutura e capacidade de fornecer insights confiáveis que</p><p>gerem valor real para o usuário final. Pensando em um alto nível podemos considerar que a arquitetura típica</p><p>do Big Data não difere muito de uma arquitetura de análise de dados tradicional, visto que considera as fases</p><p>de: extração, integração, organização, análise e apresentação dos resultados. Contudo, as ferramentas, o</p><p>armazenamento e o processamento, a infraestrutura, a segurança, o hardware, a computação paralela e as</p><p>técnicas realçam a diferença entre os dois campos. De um modo geral, podemos dividir a arquitetura de Big</p><p>Data em camadas.</p><p>Para saber mais sobre o Hadoop, assista os vídeos: O que é Hadoop? Parte 1, parte 2 e parte 3, do canal Big Data</p><p>sem mistério.</p><p>Agora que já compreendemos os principais conceitos ligados ao Big Data, vamos avançar. Na próxima etapa vamos</p><p>compreender técnicas para análise de Big data.</p><p>Conecte-se</p><p>Uma proposta de arquitetura interessante pode ser encontrada em:</p><p>< https://bit.ly/3hkiW9k >. É um material adicional, porém, importante e que</p><p>pode ser utilizado para complementar seu conhecimento. Mais que isso, a</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>http://www.google.com/url?q=http%3A%2F%2Fwww.irisidea.com%2Flambda-architecture-big-data-processing%2F&sa=D&sntz=1&usg=AOvVaw3GW4oDAcyAPqTA11el1zyS</p><p>https://www.google.com/url?q=https%3A%2F%2Fdocs.microsoft.com%2Fen-us%2Fazure%2Farchitecture%2Fguide%2Farchitecture-styles%2Fbig-data&sa=D&sntz=1&usg=AOvVaw011K3zHhOOvdY62FOAbHTU</p><p>arquitetura proposta possui benefícios que podem auxiliá-lo em um projeto</p><p>pessoal ou em um cenário real de negócio.</p><p>Disponível aqui</p><p>4.1.1 Camada de extração e integração de dados</p><p>Esta camada representa o primeiro contato que você terá com as fontes de dados, por isso, antes de mais</p><p>nada, certifique-se de perguntar: “com base nos requisitos de negócios coletados, onde devo buscar as</p><p>informações que preciso?”. Este autoquestionamento lhe direcionará a ir em busca de informações a respeito</p><p>da disponibilidade das fontes de dados. É importante também que você considere a confiabilidade das</p><p>informações, especialmente em épocas de Fake News e robôs produzindo conteúdo. Por isso, considere</p><p>sempre dar preferência para sistemas onde a empresa possua mais controle sobre os dados e, caso precise</p><p>adicionar conteúdo externo, busque informações de empresas, entidades ou órgãos governamentais que</p><p>assegurem a integridade, a confiabilidade e a qualidade dos dados que estão sendo fornecidos.</p><p>De posse das fontes, você precisa realizar a etapa de extração dos dados e então se perguntar: “os dados</p><p>serão analisados em tempo real ou em batch?”. É importante que você se certifique dessa questão para</p><p>construir uma arquitetura apropriada de acordo com o objetivo da análise. Os dados podem vir de diferentes</p><p>fontes, com tipos e formatos diversificados: dados de sensores, tweets, informações com características</p><p>geoespaciais, sistemas ERP, entre outros, ou seja, existe um mix de fontes compostas de informações</p><p>completamente diferentes e a arquitetura de Big Data precisa fornecer uma transparência para que essa</p><p>extração exija esforço mínimo . Não é uma tarefa trivial, mas possuir uma arquitetura que possa enxergar</p><p>toda essa diversidade de forma única tanto na fase de extração quanto na fase de integração, é algo</p><p>extremamente útil. Isso porque todo processo de Big Data é iterativo e precisa de um acompanhamento</p><p>contínuo. Assim, diante de um possível colapso ou mesmo algum reparo durante o processo de uma tarefa</p><p>automatizada e transparente tenderia a agilizar bastante os ajustes que seriam realizados.</p><p>Esta etapa pode exceder consideravelmente o consumo de recursos previstos, mas isso dependerá da</p><p>variabilidade e variedade dos dados entre as fontes. Quer dizer, fontes de diferentes naturezas podem</p><p>consumir mais tempo do que àquelas que compartilham de dados mais homogêneos entre si. Ainda, fica a seu</p><p>critério realizar algum tipo de tratamento e limpeza dos dados nesses estágios iniciais, mas não é uma regra.</p><p>Novamente, tudo depende do domínio que você está lidando. Por exemplo, se estivermos trabalhando em um</p><p>banco e desejamos extrair informações da Bolsa de Valores, provavelmente realizaremos transformação e</p><p>limpeza de dados no que se refere a correções de valores e unidades na moeda (dólar para real, por exemplo).</p><p>Na prática, a tarefa de transformação e limpeza dos dados na origem é algo comum pelo fato de não existir</p><p>uma padronização em termos de armazenamento entre as fontes.</p><p>4.1.2 Camada de armazenamento ou fluxo de dados</p><p>Uma vez que extraímos os dados podemos armazená-los em um destino, em uma arquitetura tradicional de</p><p>BI. Após a extração dos dados na fonte, cria-se uma base de dados intermediária denominada Staging Area,</p><p>que constitui em uma “zona de repouso” para os dados, antes de serem carregados em uma fonte destino -</p><p>como um Data Warehouse, ou Data Mart ou mesmo em uma ferramenta OLAP (Online Analytical Processing).</p><p>Entretanto, essa abordagem possui sérias limitações quando o volume de dados aumenta demasiadamente e</p><p>lidamos com dados não estruturados. Por outro lado, podemos dispensar o uso de Stages se espalharmos</p><p>todos os nossos dados em um Data Lake (“Lago de dados”).</p><p>A Amazon (AWS, s.d.) define um Data Lake como um repositório centralizado que possibilita o armazenamento</p><p>de dados estruturados e não estruturados em suas formas brutas sem a necessidade de definir um esquema</p><p>previamente, como ocorre em bases tradicionais. Você pode construir Data Lakes em um servidor físico ou</p><p>utilizando a nuvem. Essa característica permitiu que o Data Lake emergisse em tempos de Big Data. James</p><p>Dixon (2010), fundador do Pentaho, fez a seguinte analogia: você pode imaginar um Data Mart como uma loja</p><p>de garrafas de água - limpa, embalada e estruturada para fácil consumo - o Data Lake é uma grande reserva</p><p>de água em seu estado mais natural.</p><p>Essa analogia é bem pertinente. A Figura 9 retrata o funcionamento do Data Lake: os dados de diferentes</p><p>fontes com formatos, estruturas e tamanhos diferentes chegam no reservatório (dataset) e vão sendo</p><p>armazenados no seu estado bruto. O cientista de dados vai ao reservatório e seleciona apenas uma amostra</p><p>de água (subset) que possa ser útil para sua análise. Ora, em uma análise ad-hoc, uma amostra pequena pode</p><p>https://sites.google.com/unicesumar.com.br/bigdataanalyticeatomadadedecis/p�gina-inicial/unidade-1</p><p>https://getfireshot.com</p><p>https://www.google.com/url?q=https%3A%2F%2Flearn.microsoft.com%2Fen-us%2Fazure%2Farchitecture%2Fguide%2Farchitecture-styles%2Fbig-data&sa=D&sntz=1&usg=AOvVaw12eWEFWBNo40qoF97zem3b</p><p>ser o suficiente para extrair insights em um determinado momento. Com isso em mente, o cientista analisa a</p><p>amostra coletada e constrói visualizações que estarão prontas para serem consumidas pelos usuários finais.</p><p>Microsoft e Amazon já oferecem soluções para construir Data Lakes. Data Lake é um lago que armazena dados</p><p>de diferentes fontes, estruturas e tamanhos: é uma nova abordagem de armazenamento no processo de</p><p>gestão de dados.</p><p>FIGURA 9 – MODELO DE DATA LAKE</p><p>FONTE:</p><p>< https://canaltech.com.br >.</p><p>Acesso em: 15 nov. 2018.</p><p>Além disso, existem outras possibilidades de armazenamento que podem ser consideradas, tais como: Bancos</p><p>de Dados não Relacionais, como HBase, ou mesmo no próprio Hadoop por meio do seu sistema de arquivo</p><p>distribuído (HDFS) que detalharemos mais à frente.</p><p>A estratégia para persistência dos dados varia de acordo com o seu objetivo, por isso não existe uma maneira</p><p>universal ou uma solução única para Big Data. Cabe também frisar que os dados não podem ser armazenados</p><p>de qualquer modo, ao contrário, necessitam de mecanismos de controle e acesso.</p><p>Quando falamos de fluxo de dados estamos nos referindo ao processo de conduzir os dados que estão</p><p>chegando em tempo real. Nesta situação, o armazenamento precisa ser robusto o suficiente para resistir a</p><p>seguidas leituras e gravações em grandes volumes de dados. Eventualmente ocorrem falhas e, nesse caso, é</p><p>necessário implantar mecanismos que forneçam suporte de tolerância a falhas. Por exemplo, em casos de</p><p>ambiente em lote, existem muitos frameworks que oferecem suporte necessário para lidar com fluxo contínuo</p><p>de dados, como frameworks da família Apache, Apache Kafka, Apache Spark, Apache Flume e Apache Storm. A</p><p>Amazon também oferece uma solução para armazenamento de dados streaming, como o Amazon Kinesis</p><p>Firehouse (AWS, s.d.).</p><p>4.1.3 Camada de análise</p><p>A camada analítica consome os dados como foram armazenados na etapa anterior. Dessa maneira, os</p><p>objetivos de análise precisam estar definidos, algo como:</p><p>• Você fará uma análise exploratória?</p><p>• Está buscando identificar padrões nos dados ou segmentar um grupo de clientes ou produtos de</p><p>acordo com algum critério?</p><p>• Precisa fazer uma análise rápida para aquele atual momento (análise ad-hoc)?</p><p>• Talvez precise de algo mais avançado, como prever comportamento de compra de um consumidor,</p><p>com base nas suas últimas compras e/ou informações obtidas de conteúdo postado em seu blogue</p><p>pessoal, ou até mesmo baseado em preferências de seus amigos mais próximos?</p><p>Esses questionamentos são importantes para direcionar suas análises de Big Data. Técnicas de análise de</p><p>dados tradicionais podem ser empregadas, contudo,</p>