Prévia do material em texto
BIG DATA E CIÊNCIA DE DADOS A estrutura e organização do Big Data CEO DAVID LIRA STEPHEN BARROS Gerente de Produção Editorial LAURA KRISTINA FRANCO DOS SANTOS Projeto Gráfico RAMONIQUE DESIRRE TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA E ALAN DE OLIVEIRA SANTANA 4 BIG DATA E CIÊNCIA DE DADOS A U TO RI A Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mes- tre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e ava- liação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu de- senvolvimento intelectual e profissional. Bons estudos! 5BIG DATA E CIÊNCIA DE DADOS ÍC O N ES Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos: OBJETIVO No início do desenvolvimento de uma nova competência. DEFINIÇÃO Caso haja a necessidade de apresentar um novo conceito. NOTA Quando são necessárias observações ou complementações. IMPORTANTE Se as observações escritas tiverem que ser priorizadas. EXPLICANDO MELHOR Se algo precisar ser melhor explicado ou detalhado. VOCÊ SABIA? Se existirem curiosidades e indagações lúdicas sobre o tema em estudo. SAIBA MAIS Existência de textos, referências bibliográficas e links para aprofundar seu conhecimento. ACESSE Se for preciso acessar sites para fazer downloads, assistir vídeos, ler textos ou ouvir podcasts. REFLITA Se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido. RESUMINDO Quando for preciso fazer um resumo cumulativo das últimas abordagens. ATIVIDADES Quando alguma atividade de autoaprendizagem for aplicada. TESTANDO Quando uma competência é concluída e questões são explicadas. 6 BIG DATA E CIÊNCIA DE DADOS Processamento de grandes volumes de dados .................... 10 Produção de dados ..........................................................................................12 Armazenamento ...............................................................................................14 Framework para processamento de dados .................................................. 16 Hadoop .................................................................................................18 Spark ......................................................................................................19 Storm .....................................................................................................20 Inteligência de negócio para Big Data ................................... 22 Big Data e sua importância no mercado de negócio .................................. 22 Inteligência de negócio para Big Data ........................................................... 26 Perfil comportamental do profissional de análise de inteligência de negócios ..........................................................................................29 Big Data aplicado no mercado ........................................................................30 Magazine Luiza ....................................................................................30 Amazon .................................................................................................31 Nordstrom ............................................................................................31 Bancos de dados para Big Data .............................................. 34 Banco NoSql .......................................................................................................35 Características dos bancos de dados NoSQL ................................ 36 Tipos de banco de dados NoSQL ..................................................... 37 Principais mecanismos de banco de dados NoSQL .................................... 39 Cassandra .............................................................................................39 MongoDB ..............................................................................................40 Redis ......................................................................................................40 HBase ....................................................................................................41 SU M Á RI O 7BIG DATA E CIÊNCIA DE DADOS Amazon DynamoDB ...........................................................................42 Neo4j .....................................................................................................42 Recuperação de informações ................................................. 44 Big Data e a recuperação da informação ....................................... 46 Ontologia .............................................................................................47 Data Warehouse ..................................................................................48 Apache Lucene ...................................................................................................49 8 BIG DATA E CIÊNCIA DE DADOS A PR ES EN TA ÇÃ O Estudamos, anteriormente, como a quantidade de dados é grande hoje e como é importante a utilização de soluções compu- tacionais como Big Data e ciência de dados. Assim, nesta unidade vamos nos deter a estudar como processar grandes massas de dados. Abordaremos sobre ferramentas e recursos importantes que ajudam a processar a enorme quantidade de informação. Veremos ainda sobre inteligência de negócio e como a uti- lização de Big Data pode favorecer neste ambiente. Além disso, entenderemos o tipo de banco de dados adotado em aplicações de Big Data, bem como a sua estrutura e tecnologias envolvidas. Estudaremos ainda, nesta unidade, sobre o banco de dado utilizado em aplicações em Big Data, como também a estrutura e as particularidades destes. Também iremos abordar sobre a im- portância do banco de dados e apresentar exemplos de banco de dados aplicados em trabalhos que adotam Big Data. Por fim, abordaremos sobre a recuperação de informação utilizando as soluções de Big Data e Data Science como outros re- cursos computacionais que surgiram. 9BIG DATA E CIÊNCIA DE DADOS O BJ ET IV O SOlá. Seja muito bem-vindo! Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Conhecer o processamento de grandes volumes de dados. 2. Entender a inteligência de negócio para Big Data. 3. Conhecer os bancos de dados para Big Data. 4. Conhecer o processo de recuperação de informação. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! 10 BIG DATA E CIÊNCIA DE DADOS Processamento de grandes volumes de dados Ao término deste capítulo, você será capaz de sa- ber como funciona o processamento de grande vo- lume de dados a partir da explanação de como os grandes volumes de dados são produzidos e arma- zenados. Logo após, exploraremos os frameworks que realizam este processamento. E então? Moti- vado para desenvolver esta competência? Então, vamos lá! É importante relembrar que o Big Data está relacionado e aplicado à análise, ao processamento e armazenamento de grandes volumes de dados e que as suas soluções computacionais e seus métodos são usualmente precisos quandoas tecnologias e técnicas clássicas já não são suficientes para a execução destas atividades. Ainda sobre o conceito de Big Data que já estudamos, preci- samos recordar também as características dos “Vs” que o compõe, representado por esta fórmula apresentada por (Taurion, 2013): Big Data = volume + variedade + velocidade + veracidade gerando + valor Deste modo, o volume representa a quantidade de peta- bytes de dados produzidas a cada dia, a qual se estima que esse volume dobre a cada dezoito meses. Segundo Taurion (2013), cada um desses Vs, conforme apresentado a seguir, está relacionado com a produção de dados: • Variedade: caracteriza os dados oriundos de siste- mas estruturados e não estruturados, originados por e-mails, redes sociais como Facebook, Twitter, YouTube, entre outras, documentos eletrônicos, apresentações 11BIG DATA E CIÊNCIA DE DADOS estilo Powerpoint, mensagens instantâneas, sensores, etiquetas RFID, câmeras de vídeo, entre outros. Imagem 3.1 – Redes sociais Fonte: Freepik. • Velocidade: característica relacionada às práticas em tempo real sobre o grande volume de dados. A velocidade representa um critério que se torna muito importante por causa da crescente agilidade com que as empresas precisam reagir às modifica- ções no cenário de negócios, bem como a necessi- dade de dados em tempo real, interferindo na exe- cução do próprio processo de negócios. • Veracidade: essa característica implica em garantir a integridade dos dados, verificando se fazem sen- tido e são autênticos (Taurion, 2013). • Valor: representando a junção das demais caracte- rísticas (Taurion, 2013). Podemos citar ainda que, em 2022, a IDC (International Data Corporation) estimou que o volume global de dados gera- dos atingirá 175 zettabytes até 2025, refletindo um crescimento exponencial em comparação aos anos anteriores. O conceito de Big Data continua a se referir a conjuntos de dados com volumes massivos, variedade e velocidade que ultrapassam a capacida- de de sistemas tradicionais de gerenciamento e processamento. 12 BIG DATA E CIÊNCIA DE DADOS Atualmente, com o uso de ferramentas mais avançadas, como Hadoop, Spark, e soluções baseadas em inteligência artificial e machine learning, as empresas estão cada vez mais preparadas para processar e analisar esses dados em tempo real, gerando insights valiosos para a tomada de decisão. Dessa forma, a partir desta revisão, entendemos que o Big Data é justamente uma solução computacional que trabalha como esses grandes volumes de dados. Na próxima sessão, teremos a explanação de onde vem todos esses dados. Produção de dados A produção de dados continua a crescer exponencialmen- te. De acordo com um estudo da International Data Corporation (IDC), o volume global de dados digitais gerados atingiu 64.2 zet- tabytes em 2020 e deve chegar a 175 zettabytes até 2025. Esse crescimento acelerado é impulsionado pelo aumento no uso de dispositivos conectados à Internet, Internet das Coisas (IoT), inteli- gência artificial, e o crescente uso de serviços em nuvem. A expec- tativa é que, em 2025, mais de 75% da população mundial interaja diariamente com dados, e grande parte desses dados seja gerada e processada em tempo real (IDC, 2021). Imagem 3.2 – Escala de dados Fonte: Elaborada pela autoria (2020). 13BIG DATA E CIÊNCIA DE DADOS Amaral (2016) entende que a produção de dados não está somente relacionada pela entrada de algum dispositivo, mas tam- bém pela análise ou para execução de procedimentos operacio- nais, podendo ser responsáveis por produzir volumes significati- vos de dados. Ainda abordando sobre os grandes volumes de dados, vale ressaltar que estes são processados pelas soluções de Big Data, o qual crescem e atribuem exigências diferentes de armazenamen- to e processamento, expondo um grande desafio às organizações de TI clássicas, visto como os grandes volumes de dados, neces- sitam de armazenamento escalonável e um enfoque distribuído para permitir a consulta deles. Os dados estão sendo produzidos cada vez mais e vem de todas as partes. Segundo Amaral (2016), dados podem ser com- prados, produzidos ou simplesmente coletados. Segue a descrição de cada um dos tipos de dados: • Dados comprados - podem derivar de empresas es- pecializadas em vender dados, conhecidas como “data brokers”. Os data brokers permitem o entendimento de como se dá a coleta de informações sobre os consumi- dores de diferentes e abundantes fontes comerciais. • Dados produzidos - são originados por sistemas transacionais, operações de processamento exem- plificando o fechamento da folha de pagamento, os processos de transformação de dados e o ELT (ex- tração, carregamento, transformação). • Dados coletados - podem ser originados de outros sis- temas, pesquisas, históricos, arquivos ou até de um data warehouse. Um data warehouse refere-se a um sistema de gerenciamento de dados projetados para ativar e for- nece suporte às tarefas de business intelligence (BI). https://www.oracle.com/br/database/what-is-data-management/ 14 BIG DATA E CIÊNCIA DE DADOS Por outro lado, é importante destacar os dados gerados pelos sensores. Nos smartphones, por exemplo, as câmeras são responsáveis pela maior parte do volume de dados, seguidas pe- los sensores de touchscreen, GPS e os voltados para comunicação, como Bluetooth, Wi-Fi, WiDi, NFC, entre outros. Cada vez mais, aumenta-se a tendência de utilização de carros, bússola, GPS, rádio, TV, câmera fotográfica, filmadora, vi- deogame e carros, e consequentemente a produção de dados ge- rados por eles. O artigo “Volume de dados exigirá velocidade para sobreviver ao Big Data” aborda as grandes massas de dados produzidas pelos diversos equipamen- tos. Nele, são citados alguns exemplos atuais de equipamentos que estão produzindo grandes vo- lumes de dados e sobre a necessidade da velocida- de exigida para o processamento e análise destes. Acesse o QR Code. Armazenamento Os dados estão sendo gerados continuamente e de for- ma exponencial, o que exige novos meios de armazenamento, já que os recursos tradicionais não conseguem suportar o grande volume de informações produzidas. Além disso, as capacidades de transferência das redes de comunicação são frequentemente excedidas, evidenciando a necessidade urgente de revolucionar as tecnologias de armazenamento e comunicação. https://itforum.com.br/volume-de-dados-exigira-velocidade-para-sobreviver-ao-big-data/amp/ 15BIG DATA E CIÊNCIA DE DADOS Imagem 3.3 – Armazenamento de dados Fonte: Freepik. Conforme Amaral (2016), o armazenamento viabiliza que posteriormente os dados possam ser readquiridos facilmente para se fazer uma cópia ou para replicar o processo ocorrido, bem como para produzir informação ou conhecimento. É importante ressaltar que o armazenamento deve primar por segurança da informação, integridade, minimização de redun- dância, concorrência, otimização de espaço etc. Vale salientar ain- da que o armazenamento pode ser realizado em um dispositivo volátil ou não volátil. Atualmente, muitas empresas utilizam aplicações de Big Data integradas ao ambiente de cloud computing, ou computação em nuvem, não apenas para armazenamento, mas também para processamento em grande escala e análises avançadas. Desde 2022, o uso de serviços em nuvem, como Amazon Web Services (AWS), Microsoft Azure e Google Cloud, expandiu-se significativa- mente devido à crescente demanda por escalabilidade, flexibilida- de e redução de custos operacionais. A computação em nuvem permite que empresas alu- guem capacidade de computação e armazenamento conforme 16 BIG DATA E CIÊNCIA DE DADOS a demanda, com um modelo de pagamento baseado na utiliza- ção, sem a necessidade de investimentos iniciais elevados em infraestrutura física. Atualmente, tecnologias como containers, Kubernetes e serverless computing permitem uma gestão mais efi- ciente e automatizada dos recursos na nuvem, otimizando ainda mais os custose a agilidade operacional. Assim, a computação em nuvem continua sendo uma tec- nologia essencial para a viabilidade do Big Data. Por meio dela, as organizações podem processar e analisar grandes volumes de dados em tempo real, além de escalar suas operações rapidamen- te conforme as necessidades de mercado, sem a necessidade de grandes investimentos em instalações físicas de armazenamento e processamento de dados. Vale ressaltar que em muitas circunstâncias o pro- cesso de análise dos dados deve ser eficiente e quase em tempo real, assim, o armazenamento de todos os dados capturados é quase inviável. Ao mesmo tempo, a computação em nuvem oferece am- bientes com ampla capacidade de armazenamento, escaláveis, fle- xíveis, com alto desempenho e disponibilidade, tornando-se um importante recurso que serve como uma opção para viabilizar a construção de aplicações de gestão e análise de grandes volumes de dados. Podemos destacar a computação em nuvens com um grande aliado na utilização de ferramentas de Big Data. Framework para processamento de dados Já é sabido que o Big Data pode ser conceituado como grandes volumes de dados, com diversos níveis de complexidade e muitas vezes desestruturados, os quais necessitam de outros 17BIG DATA E CIÊNCIA DE DADOS tipos de ferramentas e procedimentos para serem processados ou analisados. Para processar grandes volumes de dados de for- ma eficiente, é necessário implementar proces- samento paralelo em larga escala e desenvolver novos algoritmos de análise, permitindo obter e fornecer informações adequadas no momento certo para a tomada de decisão. Isso ocorre por- que grandes quantidades de dados demandam muito tempo, tornando essencial a criação de no- vas estruturas que reduzam significativamente o tempo de processamento. Por seguinte, há algumas tecnologias orientadas a tratar volumes muito grandes como Hadoop e sistemas de bancos de da- dos específicos, como o Cassandra, utilizado hoje pelo Facebook, Twitter e Reddit, os quais necessitam trabalhar com muita veloci- dade com grandes volumes de dados de modo distribuído. É importante saber que no contexto de processamento de dados, pode-se ter três tipos: • Processamento em batch - versa para processar da- dos em lotes, de modo que, neste tipo de processa- mento, um conjunto de dados é instruído da fonte de dados, sendo posteriormente processado e ano- tado na fonte de destino. É importante ressaltar que, historicamente, a grande maioria das tecnologias de processamento de dados foram projetadas para este tipo de processamento. • Processamento em tempo real - refere-se a pro- cessar os dados e conseguir os resultados quase imediatamente. • Processamento em stream - versa em processar dados consecutivamente e atuar sobre os dados em 18 BIG DATA E CIÊNCIA DE DADOS live stream para se obter os resultados. Os dados são processados como artefatos individuais, ao invés de serem processados como um lote gradativamente. A seguir, seguem as sessões apresentando alguns exem- plos de frameworks que trabalham com processamento de gran- des massas de dados. Hadoop O Hadoop, como estudado anteriormente, é uma platafor- ma de software open source desenvolvida pela Apache Software Foundation e escrita em Java. Ele permite o processamento de grandes volumes de dados em clusters de computadores. Embora seja amplamente reconhecido por sua capacidade de armaze- namento, o Hadoop também se destaca como uma ferramenta de processamento, utilizando o MapReduce. Seus dois principais componentes são o HDFS, estrutura de armazenamento, e o pró- prio MapReduce, ambos estreitamente interligados. A seguir, apresentamos uma descrição detalhada desses componentes: • Hadoop Distributed File System (HDFS) - trata-se de um sistema de arquivos distribuído, idealizado para armazenar grandes massas de dados de modo confiável e realizar a transmissão para os usuários. O HDFS tem características de tolerância a falhas e pode ser expandido de um único servidor para milhares de máquinas, cada uma proporcionando armazenamento local. Ele ainda trabalha em dois tipos de nós: o “Mestre”, que gerencia a hierarquia de sistemas; e vários “Escravos”, os nós de dados. • MapReduce - é um modelo de programação para processar e gerar grandes conjuntos de dados úteis 19BIG DATA E CIÊNCIA DE DADOS para atividades no mundo real. Ele tem as funções map (mapeamento) e reduce (redução), de modo que a função map atende o par chave/valor (cha- ve trata o identificador do registro, e valor, o seu conteúdo) como entrada, e gera pares chave/valor intermediários. Por sua vez, a função reduce mescla todos os pares associados à mesma chave (inter- mediários), permitindo a geração de uma saída. Spark O Spark é um framework para processamento de Big Data idealizado com foco em velocidade, facilidade de utilização e aná- lises aprimoradas. Ele foi projetado para garantir uma vasta gama de cargas de tarefas, como aplicativos em lote, algoritmos intera- tivos, consultas interativas e streaming, permitindo a tolerância a toda essa carga de trabalho e minimizando a carga de gerencia- mento da manutenção de ferramentas separadas. O principal diferencial do Spark é sua capacidade de com- putação em cluster na memória, o que acelera significativamente o processamento de aplicativos. Ele oferece um framework pa- dronizado e de fácil entendimento para gerenciar e processar Big Data, abrangendo uma ampla variedade de conjuntos de dados, sejam em lotes (batch) sejam em streaming em tempo real. O framework também suporta as linguagens Python, Java e Scala, ainda possuindo outros módulos para aprendizado de má- quina e inteligência artificial. O conceito principal desse framework é o Resilient Distributed Datasets (RDD), pelo qual funciona como uma tabela do banco de dados que pode arquivar qualquer tipo de dado. Outras características do Spark são: • Dar um suporte adicional além das funções de map e reduce; https://spark.apache.org/ https://blog.geekhunter.com.br/o-java-ainda-faz-historia/ https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/ https://blog.geekhunter.com.br/aprendizagem-de-maquina-supervisionada-ou-nao-supervisionada/ 20 BIG DATA E CIÊNCIA DE DADOS • Otimização da utilização de operadores de grafos arbitrários; • Avaliação sob demanda de consultas de Big Data, favorecendo a otimização do fluxo global do pro- cessamento de dados; • Apresenta shell interativo para Scala e Python. O Spark armazena os dados do RDD em distintas partições, o que auxilia a reorganização computacional e a questão de otimi- zar o processamento dos dados. Storm O Apache Storm é um sistema de computação em tempo real distribuído e de código aberto que trabalha no processamen- to de fluxos de dados ilimitados, fazendo para o processamento em tempo real, o que o Hadoop fez no processamento em lote. O Storm trabalha com modelos de streaming para proces- samento por meio de sua camada principal. O Storm apresenta vantagens como facilidade de uso, fun- cionamento compatível com diversas linguagens de programação, estabilidade e tolerância a falhas. No entanto, também possui al- gumas desvantagens como limitações em confiabilidade, desem- penho, eficiência e gerenciamento. E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente en- tendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter apren- dido que, quando abordamos grandes massas de dados, lidamos com Big Data e seu ambiente de 21BIG DATA E CIÊNCIA DE DADOS trabalho. Podemos perceber as diversas fontes de dados atuais e como aumentam a quantidade de dados, contribuindo para esta grande massa exis- tente e que necessita ser processada. Estudamos um pouco sobre os tipos de armazenamento quan- do se trata de dados e chegamos ao final abordan- do os tipos de processamento existentes. Ainda estudando sobre o processamentoem batch, tem- po real e stream, apresentamos alguns frameworks que trabalham com o processamento de grandes massas de dados. 22 BIG DATA E CIÊNCIA DE DADOS Inteligência de negócio para Big Data Ao término deste capítulo você será capaz de en- tender sobre inteligência de negócio e como a uti- lização de Big Data pode favorecer neste ambiente. Apresentaremos, também, a relação do Big Data e Business Intelligence e como ambos trabalham. Abordaremos ainda os ganhos e exemplos de co- mo se dá suas aplicações. E então? Motivado para desenvolver esta competência? Vamos lá! Big Data e sua importância no mercado de negócio Com a grande produção de dados por meio das análises de Big Data, são possibilitadas inovações em tecnologias, produ- tos, gestão e estratégias organizacionais. Atualmente, o uso de Big Data é fundamental para o desenvolvimento de soluções basea- das em inteligência artificial (IA), aprendizado de máquina (machi- ne learning) e automação, que estão transformando diversos seto- res, desde a saúde até as finanças e a manufatura. Vale ressaltar que, desde 2022, o Big Data continua a ser apontado como uma das principais tendências tecnológicas estra- tégicas. De acordo com o relatório anual do Gartner sobre ten- dências tecnológicas, o Big Data e a análise avançada de dados permanecem no centro das transformações digitais nas empre- sas, especialmente quando combinados com IA e edge computing, permitindo decisões mais rápidas e eficazes. Essas tecnologias são essenciais para otimizar processos, personalizar experiências de consumidores e prever demandas futuras, o que as torna indis- pensáveis na estratégia das organizações. 23BIG DATA E CIÊNCIA DE DADOS Imagem 3.4 – Mercado de negócio Fonte: Freepik. Tendo em vista os produtos em abundância e as informa- ções dos clientes, bem como registros e a massa de dados dis- poníveis para ampliar constantemente novas tecnologias, vê-se o aperfeiçoamento dos serviços existentes, pois tendem a melhorar a eficiência da produção, diminuir custos, criar inovações e trazer a satisfação as necessidades dos clientes. A análise do Big Data pode impactar positivamente no mercado de negócio, nos seguintes processos: • Desenvolvimento de produto; • Desenvolvimento do mercado; • Eficiência nas operações; • Experiência e fidelidade do cliente; • Prever a demanda de mercado. No entanto, muitos executivos só buscam por recursos de Big Data quando precisam urgentemente responder a uma amea- ça ou para encontrar uma oportunidade em um determinado es- copo de mercado. 24 BIG DATA E CIÊNCIA DE DADOS Uma organização de telecomunicações europeia, após au- mentar sua parte de participação no mercado, decidiu criar um sistema que possibilite identificar as causas que levariam seus clientes a selecionarem uma ou outra empresa. Isso foi possível por meio da análise de grandes massas de dados e o aumento de informações disponibilizadas pelos próprios usuários em redes sociais e portais das empresas. Para saber mais sobre a importância e as perspec- tivas do Big Data nas empresas, leia o artigo “Inova- ção nos negócios por meio da Análise de Big Data”. Acesse o QR Code. É importante entender que o Big Data gera modificação na organização do modelo de negócios devido a trazer consigo as três características de dados estruturados e não estruturados, em que necessita de novas capacidades e conhecimentos para que cada setor realizar o tratamento de dados de modo mais eficiente. O uso do Big Data nas organizações é impulsionado pela ne- cessidade de um planejamento adequado e da definição de estra- tégias que viabilizem o alcance das metas e objetivos estabelecidos. Nesse contexto, a adoção do Big Data pode auxiliar no desenvolvi- mento do planejamento estratégico das empresas, promovendo a conquista de objetivos e a criação de vantagens competitivas. O Big Data transformou significativamente a forma como conduzimos negócios, gestão e pesquisas. Assim, as ciências orien- tadas por dados, especialmente em computação intensiva, estão https://singep.org.br/6singep/resultado/333.pdf 25BIG DATA E CIÊNCIA DE DADOS se consolidando em um cenário que busca oferecer ferramentas para enfrentar os desafios associados ao Big Data. Portanto, fica evidente que o Big Data pode gerar resulta- dos extraordinários para as organizações. Contudo, a visão e as decisões dos executivos continuam sendo fundamentais, agora fortalecidas pela análise de dados, tornando o processo de deci- são mais embasado e estratégico. Conforme mencionado anteriormente, podemos destacar o exemplo apresentado por Vivek Ranadive, CEO da Tibco e reno- mado autor de livros sobre o tema. Ele relata que, em uma loja varejista de produtos de jardinagem, sabe-se que compradores de sementes têm 90% de probabilidade de adquirir fertilizantes e 40% de chance de comprar móveis de jardim. Partindo para uma primeira análise, pode-se imaginar que a melhor estratégia seja estimular a compra de fertilizante ou ex- por este próximo das sementes. Entretanto, analisando com mais detalhe, pode-se verificar que a melhor estratégia é desenvolver ações que impulsionem a venda dos móveis, afinal, existe uma margem maior de crescimento para estes produtos. O Big Data motiva a inovação nos modelos de negócios por meio da análise dos ambientes, desenvolvendo novos produtos e serviços com a análise de dados originados pelos consumidores, permitindo cooperações estratégicas ao compartilhar a grande massa de informações com outras empresas. Uma grande contribuição no contexto da aplicação do Big Data nas empresas é o crescente aumento das fontes de informações às empresas extraídas das redes sociais, recursos informatizados de coo- peração, bem como os sensores em vários produ- tos ou registros de tráfego de internet, entre outros. 26 BIG DATA E CIÊNCIA DE DADOS Outras fontes de informações geradas a partir de equipa- mentos que originam grandes quantidades de dados e que possi- bilitam ter relevância para as empresas são: telefones celulares, vendas na internet, redes sociais, comunicação eletrônica, GPS e maquinário computadorizado. Dessa forma, analisamos as contribuições que o uso do Big Data proporciona às empresas e aos executivos no contexto geral de mercado e negócios. Na próxima sessão, exploraremos com mais detalhes a aplicação do Business Intelligence em conjunto com o Big Data. Inteligência de negócio para Big Data Com o aumento da produção de dados e a busca das em- presas por melhorias em seus negócios e vantagens competitivas, destaca-se a inteligência de negócios, ou Business Intelligence (BI). Esse recurso engloba tecnologias, aplicativos e métodos voltados à coleta, integração, análise e apresentação de informações no contexto empresarial. Em resumo, o Business Intelligence (BI) oferece aos executi- vos e tomadores de decisão os recursos necessários para aprimo- rar suas escolhas. O BI utiliza dados estruturados e concentra-se exclusivamente no que já ocorreu, sem exigir a participação de cientistas de dados para criar boas aplicações. Os painéis de BI, que apresentam métricas e indicadores importantes, ganham relevância ao integrar dados internos das empresas, sendo exibidos de maneira visual e simplificada. No en- tanto, esses painéis operam dentro dos limites da empresa, sem explorar contextos externos. 27BIG DATA E CIÊNCIA DE DADOS A partir daqui surge a necessidade de utilizar soluções mais robustas com o Big Data, apropriadas para fazer análises sobre dados não estruturados e, com isso, enriquecendo a per- cepção do negócio por meio das correlações de dados e análises preditivas e prescritivas. A análise de Big Data, além de ajudar a lidar com esses dados complexos, também amplia a finalida- de do BI, o qual, na maioria das vezes, tem o foco nos bancos de dados internos das empresas, bus- cando extrair valor de dados externo. Assim, o Big Data favorece trabalhar com grandes volumes de dadosde bancos externos, enriquecendo o processo de toma- da de decisão e consequentemente os negócios. Imagem 3.5 – Inteligência de mercado Fonte: Pexels. O trabalho com Big Data corresponde a uma preocupação para a inteligência de negócios, visto que se caracterizam por alto volume, variedade e velocidade, requerendo competências tecnoló- gicas avançadas, muitas vezes, ainda não desenvolvidas ou consoli- dadas para manipular e gerar conhecimento antecipado aos fatos. Vale ressaltar que a solução de Big Data não permite de- finir as causas das correlações encontradas, porém, por meio de 28 BIG DATA E CIÊNCIA DE DADOS análises multivariadas, é possível controlar as variáveis e seus efei- tos em outras variáveis. Isso implica uma exigência maior na escolha de profissio- nais em projetos de Big Data devido à complexidade e habilidades específicas exigidas. Já com relação ao Business Intelligence, podemos entender, de modo geral, como um recurso ou etapa a ser seguida após o Big Data extrair e utilizar os dados para compreender o negócio, ensi- na os profissionais envolvidos a tomarem ações de modo melhor. Desta forma, o BI será adotado como uma solução que proporciona o filtro e ordena as informações, possibilitando com que elas se compartilhem entre si avaliando e as direcionando estrategicamente. No artigo “Business Intelligence: Inteligência nos Negócios”, você poderá ver uma explanação dos recursos tecnológicos e algumas de suas caracte- rísticas. Para lê-lo, acesse o QR Code. Podemos afirmar que o BI serve como base para o Big Data. Empresas com sistemas de Business Intelligence robustos têm maior probabilidade de iniciar projetos em Big Data, pois as descobertas podem ser rapidamente testadas e monitoradas por meio do sistema de BI. http://mtc-m16c.sid.inpe.br/col/lac.inpe.br/worcap/2003/10.31.15.48/doc/ArtigoWorkap3.pdf 29BIG DATA E CIÊNCIA DE DADOS Perfil comportamental do profissional de análise de inteligência de negócios Eis algumas habilidades necessárias de perfis comporta- mentais dos profissionais analistas de BI para vencer os desafios da área, segue a lista: • Comunicação - ter a habilidade de se expressar e se fazer entender são pontos importantes. Transmitir com clareza as premissas para realizar as tarefas, de- liberar escopos e riscos procurando oferecer as solu- ções de Inteligência em uma linguagem clara e prática. • Pacificador - é importante o analista de BI fazer a ponte entre os envolvidos, apresentando a capacidade de tra- duzir a regra de negócio para o ambiente técnico. • Liderança - é de extrema importância que o ana- lista de BI tenha o perfil de liderança para delegar as soluções e definir os papéis dos envolvidos. A liderança necessitará também de uma postura apropriada e segura de suas definições, bem como nortear a equipe e as áreas interessadas. • Conhecimento técnico - é de crucial importância que o analista de BI tenha conhecimento técnico profundo, e não apenas saber o desenho da solu- ção. O conhecimento técnico também é responsá- vel por dar garantias que a solução seja elaborada com a tecnologia adequada e no melhor ambiente. • Atitude - o analista de BI deve entender que é o principal responsável por fazer as coisas acontece- rem, pois é quem aplica o raciocínio lógico, define processos, projeta modelos de solução e possui o conhecimento técnico e do negócio. Sem a sua atuação, nada funciona adequadamente. 30 BIG DATA E CIÊNCIA DE DADOS Em resumo, é fundamental compreender que os analistas de BI geralmente trabalham com a análise e o desenvolvimento de projetos de modelagem de dados, utilizando informações co- letadas de um armazém de dados centralizado ou de diferentes bancos de dados da organização. Cada empresa pode priorizar as habilidades mais relevantes ao selecionar seu analista de BI. Big Data aplicado no mercado Apresentaremos, nesta seção, alguns exemplos de suces- so de empresas que utilizam as soluções de Big Data para otimizar seus serviços. Magazine Luiza Uma das principais iniciativas do Magazine Luiza em 2014 foi a criação do Luizalabs, um laboratório de tecnologia e inovação com o objetivo de desenvolver produtos e serviços voltados para o vare- jo, aprimorando a experiência de compra dos clientes. Desde então, o Luizalabs evoluiu significativamente, tornando-se um dos maiores hubs de inovação tecnológica do Brasil, focando não apenas no de- senvolvimento de novas tecnologias para e-commerce, como também na automação logística e na implementação de inteligência artificial para personalização de ofertas e atendimento ao cliente. Outro projeto de destaque é o Magalu Ads, uma platafor- ma de Big Data lançada em 2021, que utiliza IA e análise avança- da de dados para recomendar produtos de forma personalizada, além de enviar ofertas e campanhas segmentadas por meio de diversos canais, como e-mail, notificações por aplicativo e redes sociais. Essa iniciativa substituiu o projeto Bob e se tornou uma peça central na estratégia de marketing digital e Big Data do Magazine Luiza. 31BIG DATA E CIÊNCIA DE DADOS Amazon A Amazon passou por uma expansão significativa ao longo dos anos em seu modelo de negócios, que originalmente era focado na venda on-line de livros. Atualmente, a empresa se transformou em uma das maiores varejistas globais, oferecendo uma vasta gama de bens físicos e virtuais, incluindo e-books, serviços de streaming de vídeo, produtos eletrônicos, e até mesmo serviços de computação em nuvem através do Amazon Web Services (AWS), que é líder no mercado de cloud computing. A empresa também implementou o Amazon Fresh e Amazon Prime Now, expandindo para o setor de supermercados, oferecendo produtos frescos com entregas rápidas, competindo diretamente com grandes redes varejistas (Marr, 2016). Conforme Marr (2016), a Amazon utiliza Big Data para ali- mentar seu sistema de recomendações, analisando dados sobre o que os usuários compram, o que visualizam, os horários de na- vegação, o endereço de entrega para determinar dados demo- gráficos, além de registrar comentários e opiniões no site. Mais recentemente, a Amazon tem aprimorado suas capacidades de Big Data e inteligência artificial para personalizar ainda mais a ex- periência do cliente, integrando também algoritmos de machine learning para prever comportamentos de compra futuros e otimi- zar a logística de entrega. Nos usuários do aplicativo para celular, a empresa continua a coletar informações de localização pelo GPS e dados sobre o uso de outros aplicativos, aprimorando suas ofer- tas baseadas em localização e comportamentos específicos. Nordstrom A Nordstrom é uma empresa varejista de moda de luxo dos Estados Unidos, reconhecida pela qualidade no atendimen- to e serviço ao consumidor, além de seu merchandising de alto nível. A marca implementou um projeto de Big Data, criando um 32 BIG DATA E CIÊNCIA DE DADOS laboratório de inovação para gerar insights sobre as tendências de comportamento de compra de seus clientes. Desde então, a Nordstrom tem utilizado essas informações para personalizar a experiência do cliente, recomendando produtos específicos e ofe- recendo campanhas de marketing altamente segmentadas em seus canais digitais e físicos. Imagem 3.6 – Marketing Fonte: Freepik. Atualmente, a Nordstrom extrai dados de suas platafor- mas de e-commerce, perfis em redes sociais e estatísticas de vendas em lojas físicas. A empresa também aprimorou seu programa de fidelidade, integrando dados de comportamento de compra on-li- ne e off-line para criar uma experiência omnichannel personalizada, cujos clientes recebem recomendações e ofertas específicas com base em seus hábitos de compra. Além disso, continua monitoran- do o comportamento dos consumidores por meio de wi-fi em suas lojas físicas. Mais recentemente, a Nordstrom ampliou o uso de inteligência artificial e machine learning para prever tendências de compra, gerando recomendações ainda mais precisase otimizando seus estoques em tempo real para melhor atender a demanda. 33BIG DATA E CIÊNCIA DE DADOS E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente enten- deu o tema de estudo deste capítulo, vamos resu- mir tudo o que vimos. Você deve ter aprendido co- mo os produtos em abundância e as informações dos clientes, assim como os registros de dados e a massa de dados disponíveis, são usadas como so- lução computacional de Big Data, em que se pode agregar valor para os modelos de negócio. Vimos ainda, no decorrer do capítulo, a importância e as contribuições geradas pela utilização do Big Data, como também a sua relação com BI e como estes recursos se complementam. Além do exposto, des- tacamos o perfil de comportamento do analista de BI. Por fim, abordamos exemplos de empresas que adotaram o Big Data para melhorar seus negócios e atrair mais clientes. 34 BIG DATA E CIÊNCIA DE DADOS Bancos de dados para Big Data Ao término deste capítulo você será capaz de entender como funciona o banco de dados que trabalha com Big Data, a estrutura e as suas par- ticularidades. Também iremos abordar sobre a importância do banco de dados e demonstrar exemplos de banco de dados aplicados em traba- lhos que adotam Big Data. E então? Motivado para desenvolver esta competência? Vamos lá! Já estudamos e sabemos que a definição de Big Data trata de conjuntos de dados, cujo tamanho e capacidade permitem cap- turar, armazenar, gerenciar e analisar dados. Imagem 3.7 – Banco de dados Fonte: Freepik. Conforme Amaral (2016), com as exigências de aplicações mais robustas, surgiram necessidades de novos meios de geren- ciamento de dados, por causa das aplicações que agregam gran- des volumes de dados, como prontuário eletrônico, gestão de do- cumentos, análises de séries temporais, entre outros. 35BIG DATA E CIÊNCIA DE DADOS Antes, existia o modelo relacional que tinha foco em pri- mar pela normalização, integridade e não redundância de dados, porém a nova aplicação tem como prioridade maior escalabilida- de, volume e processamento. Por conseguinte, é exigido outro tipo de banco de dados para trabalhar com Big Data, justamente devido aos diferentes tipos de dados, sejam estruturados, semies- truturados e não estruturados. Com isto, nas próximas seções ire- mos abordar sobre essas estruturas que surgiram para ajudar a trabalhar com Big Data. Banco NoSql Diante da necessidade de estruturas de banco de dados ca- pazes de lidar com o grande volume, variedade e velocidade dos da- dos gerados pelo Big Data, surgiram novos modelos, como os bancos de dados NoSQL, desenvolvidos para processar grandes quantida- des de dados estruturados e não estruturados (Taurion, 2013). O termo “NoSql” originou-se em 1998, porém iniciou-se, de modo efetivo, em 2004, com a idealização do banco de dados BigTable pela empresa Google. Logo, vieram outras iniciativas pela empresa Amazon em 2007, e Facebook em 2008, pelos quais dis- tribuíram, respectivamente, os BDs Dynamo e Cassandra. A partir daí, surgiram diversas soluções em Banco de Dados NoSql. É importante destacar ainda que este termo, NoSQL, não implica especificamente que não se pode utilizar uma linguagem declarativa para consultar dados em um gerenciador NoSQL, po- rém significa que são bancos de dados que não estão somente com base no modelo relacional. Nos bancos de dados NoSQL, as tabelas são conhecidas como tabelas de hash distribuídas. Nelas, os objetos armazena- dos são indexados por chaves, permitindo que sejam localizados a partir dessas chaves. Diferente dos bancos de dados estruturados, 36 BIG DATA E CIÊNCIA DE DADOS os bancos NoSQL são projetados para escalar horizontalmente, o que significa que a indexação é realizada por meio de clusters distribuídos em hardware de baixo custo. Leia sobre as diferenças de NoSQL no artigo “O que é NoSQL?”. Você poderá ter uma explanação geral sobre NoSQL e a diferença com um banco de da- dos relacional. Acesse o QR Code. Podemos ressaltar também que os bancos de dados NoSQL trabalham usando uma variedade de modelos de dados para acessar e gerenciar os dados. De modo geral, esses bancos são aperfeiçoados designadamente para aplicativos que exigem modelos de grande volume de dados, menor latência e flexibilida- de. Essas condições são consentidas mediante a flexibilização de algumas restrições de consistência de dados dos outros bancos. Características dos bancos de dados NoSQL Considerando que existem diversos bancos de dados NoSQL, cada um projetado para resolver problemas específicos, a maioria deles compartilha características comuns que os definem como bancos de dados NoSQL. Essas características estão descri- tas a seguir, conforme detalhado: • Alta escalabilidade; • Alta performance; https://aws.amazon.com/pt/nosql/ 37BIG DATA E CIÊNCIA DE DADOS • Alta disponibilidade; • Processamento distribuído; • Ausência de esquema; • Manter a replicação de dados; • Trabalha com armazenamento de dados estrutura- dos e não estruturados; • Contém um API simples para acesso aos dados; • Maior flexibilidade às propriedades ACID (Atomicidade, Consistência, Isolamento e Durabilidade); • Não suportam a linguagem SQL; • São produtos novos. Após a descrição desse banco de dados, na próxima seção vamos abordar sobre os tipos de bancos de dados NoSQL. Tipos de banco de dados NoSQL Segundo Amaral (2016), existem diversas famílias de pro- dutos NoSQL, com cada uma delas partilhando um mesmo conjun- to de padrão de armazenamento. A seguir, temos a descrição de modo geral de cada um desses tipos: • Chave-valor - os BDs, com base neste modelo, utili- zam o conceito de uma chave e um valor conhecido, como uma tabela hash constituída dos registros e ga- rantindo que não ocorra redundância. Esse modelo mais tradicional ao invés de conter uma tabela com um número fixo de colunas tipadas, trabalha com o termo chave-valor, ou KVS, acrônimo para Key-Value Store, de modo que, em vez de conter um conjunto 38 BIG DATA E CIÊNCIA DE DADOS de atributos, a operação adiciona informações nos bancos somente com a chave e um valor. Algumas implementações do tipo KVS são Couchbase, Kyoto Cabinet, Redis e DynamoDB da Amazon. • Banco de dados orientado a documentos - o mode- lo armazena chave e valor, porém são organizados em conjuntos, permitindo o armazenamento de estrutu- ras como um arquivo JSON. São exemplos de imple- mentações deste modelo o MongoDB e o CouchDB, com este último também da função Apache. • Banco de dados orientado a grafos - esse mo- delo utiliza a estrutura de grafos para armazenar informações, classificando-as como entidades e es- tabelecendo suas relações por meio das conexões entre os elementos do grafo. É um modelo flexí- vel, escalável em várias máquinas, e amplamente aplicado em áreas como medicina, genética, eco- nomia e matemática. Exemplos incluem o Neo4j e o FlockDB, que são projetados para armazenar e operar de forma otimizada sobre grafos. Os bancos de dados NoSQL foram criados para resolver desafios enfrentados por aplicações que operam de forma distribuída e lidam com grandes volumes de dados. No entanto, é importante des- tacar que o NoSQL não foi projetado para subs- tituir os bancos de dados relacionais, mas para abordar questões relacionadas à escalabilidade e à disponibilidade dos servidores de banco de dados para essas aplicações. Portanto, o NoSql é uma opção alternativa ao modelo re- lacional para atender determinados escopos, nos quais os bancos de dados relacionais apresentam lacunas. 39BIG DATA E CIÊNCIA DE DADOS Principais mecanismos de banco de dados NoSQL Diante do exposto, podemos destacar alguns dos prin- cipais mecanismos de banco de dados NoSQL como MongoDB, Redis, Cassandra, HBase, Amazon DynamoDB e Neo4j, dessa for- ma, nas próximas seções serão apresentadas as características e funções de cada um. Cassandra O Apache Cassandra é um bancode dados NoSQL open source escalável, adotado para gerenciar dados estruturados, se- miestruturados e não estruturados sobre múltiplos meios de da- dos e na nuvem. O Cassandra possui características que garantem alta dis- ponibilidade contínua, escalabilidade linear e operação simplifica- da em múltiplos servidores, sem um único ponto de falha. Sua ar- quitetura masterless em formato de anel elimina a necessidade de um nó principal, funcionando de forma integrada com um modelo de dados dinâmico, projetado para oferecer maior flexibilidade e respostas rápidas. O Cassandra é um banco de dados descentralizado, distri- buído e orientado a colunas, projetado para operar em clusters e oferecer acesso de baixa latência aos clientes. Uma das vantagens de sua arquitetura orientada a colunas é a facilidade em realizar determinados tipos de consultas, além de possibilitar maior velo- cidade ao armazenar dados esperados de forma contínua em uma única linha. Vale ressaltar que grandes empresas, como Facebook, Twitter e Digg utilizam o Cassandra. 40 BIG DATA E CIÊNCIA DE DADOS MongoDB O MongoDB tem o foco em determinar modelos de dados apropriados para sua aplicação, contudo, as técnicas utilizadas são muito variadas daquelas consideradas nos bancos de dados relacionais. Isso se deve por se atentar com os dados que são ex- traídos do banco diferente dos bancos de dados tradicionais no escopo relacional. No MongoDB, os dados não são tratados como registros, mas como documentos no formato JSON, organizados em cole- ções. Ele oferece os recursos necessários para ambientes de pro- dução, incluindo balanceamento de carga, replicação, indexação, consultas e a capacidade de operar como um sistema de arquivos com tolerância a falhas. Além disso, uma característica fundamen- tal do MongoDB é sua escalabilidade, projetada para lidar com grandes volumes de dados. De acordo com Queiroz et al. (2013), o MongoDB utiliza co- leções de documentos que se assemelham ao conceito de tabelas e linhas das tecnologias relacionais, com a diferença de que os documentos não precisam seguir o mesmo esquema. O MongoDB é utilizado por plataformas como Foursquare e SourceForge. Redis O Redis tem uma implementação key-value store, a qual trata de ser um paradigma que atribui valores às chaves para faci- litar a entrada e o armazenamento desses valores. Esta tecnologia suporta seus pares de valores-chave na memória, permitindo seu acesso rápido. Ao longo do tempo, muitas APIs foram elaboradas para uma variedade maior de linguagens de programação, tornando 41BIG DATA E CIÊNCIA DE DADOS o Redis uma boa opção para desenvolvedores. Dessa forma, te- mos o Remote Dictionary Server (Redis) como um banco de dados NoSQL do tipo chave-valor e que armazena os dados em memória. É importante destacar também que os comandos são atômicos, de modo que a ordem de execução das operações é a mesma or- dem das chamadas. Outras características incluem a capacidade de criar cha- ves e definir seu tempo de existência, permitindo configurar a ex- clusão automática após um período determinado. Um exemplo prático disso é seu uso em sessões de usuário e carrinhos de com- pras. Além disso, vale destacar que todas as consultas são realiza- das por meio das chaves, que retornam um valor, e as redundân- cias de dados não representam um problema significativo. HBase O HBase é um banco de dados orientado à coluna, distri- buído em implementação gratuita e aberta do BigTable do Google. Este tem a característica de facilitar e encontrar de modo eficiente os dados dispersos e distribuídos, sendo um dos seus pontos for- tes. O HBase possui uma série de implementações em empresas como LinkedIn, Facebook e Spotify. Podemos destacar que muitos projetos relacionados do Apache oferecem suporte ao HBase, fornecendo uma camada SQL para acesso a dados, o que ajuda os administradores de banco de dados relacionais que buscam implementar uma solução NoSQL e como existe um número grande de instalações Hadoop, o HBase é uma importante solução de armazenamento NoSQL. 42 BIG DATA E CIÊNCIA DE DADOS Amazon DynamoDB O Amazon DynamoDB é um serviço do banco de dados NoSQL em nuvem disponibilizado pela Amazon Web Service (AWS). O DynamoDB é muito veloz e flexível para todas as aplicações que precisam de latência constante abaixo de 10 milissegundos em qualquer escala. O serviço deste banco de dados em nuvem é todo geren- ciável e compatível com os modelos de armazenamento de do- cumentos e de chave-valor, propiciando dados flexíveis, desem- penho confiável e a escalabilidade automática da capacidade de throughput, fazendo desse serviço uma opção apropriada para aplicações móveis, web, jogos, tecnologia de anúncios e internet das coisas (IoT), por exemplo. Merece destaque algumas empresas como Lyft, Airbnb e Redfin, bem como Samsung, Toyota, e Capital One, que dependem da escala e da atuação do DynamoDB para comportar seus volu- mes de trabalho. Neo4j O Neo4j é o sistema de gerenciamento de banco de dados com base em grafos (ou Graph Database), sendo o sistema mais co- nhecido e usado atualmente desta categoria. Esse Graph Database é estruturado com forma de grafo, de modo que as arestas atuam como relacionamentos entre os vértices, relacionando diretamen- te com as instâncias de dados umas com as outras. Este também possui uma implementação de código aberto, em que os dados no Neo4j podem ser acessados e atualizados por meio da Cypher Query Language, uma linguagem semelhante à linguagem SQL. Podemos apresentar que uma das vantagens de banco é, em alguns casos de uso, como cenários de mineração de dados e http://www.cienciaedados.com/aprendendo-internet-of-things-com-raspberry-pi/ 43BIG DATA E CIÊNCIA DE DADOS reconhecimento de padrões, as associações entre instâncias de dados serem explicitamente declaradas. E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente en- tendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você deve ter aprendi- do que, com o aumento da produção de dados e os avanços das aplicações, surgiu a necessidade de bancos de dados capazes de lidar com tipos de dados que os bancos relacionais não conse- guem gerenciar. Nesse contexto, discutimos o sur- gimento dos bancos de dados da família NoSQL, que utilizam uma variedade de modelos de dados para acessar e gerenciar informações. De maneira geral, esses bancos são especialmente projetados para aplicativos que demandam grandes volumes de dados, menor latência e maior flexibilidade. Também exploramos os princípios, características e tipos de bancos NoSQL, como os baseados em chave-valor, documentos e grafos. Por fim, vimos exemplos práticos e características de bancos de dados adotados por empresas de sucesso. 44 BIG DATA E CIÊNCIA DE DADOS Recuperação de informações Ao término deste capítulo você será capaz de entender como funciona a recuperação de infor- mação, utilizando as soluções de Big Data e Data Science como outros recursos computacionais que surgiram. E então? Motivado para desenvolver esta competência? Vamos lá! Atualmente, as áreas de gestão, recuperação da informa- ção e apoio à decisão estão sendo provocadas devido ao volu- me, variedade e velocidade de uma grande massa de dados de diversos tipos, semiestruturados e não estruturados, de origem complexa que precisam ser buscados e analisados quanto ao seu valor e veracidade, que também é disponibilizado às organizações como grandes oportunidades de terem um conhecimento profun- do e mais preciso de seus negócios. Imagem 3.8 – Recuperar informações Fonte: Freepik. Com isto, temos a recuperação da informação se tornando o centro de muitas pesquisas por conta da grande quantidade de informações que, atualmente, se encontram espalhadas pela rede. 45BIG DATA E CIÊNCIA DE DADOS A recuperação da informação lida com a representação, armazenamento, organização e acesso às informações,buscando fornecer ao usuário exatamente o que ele precisa de maneira sim- plificada. Trata-se do processo de localizar documentos e itens de informação armazenados, com o objetivo de facilitar o acesso dos usuários aos componentes e objetos solicitados. É importante que você entenda que o processo de recuperação da informação visa buscar um con- junto de documentos de um sistema, os quais são os que suprem as necessidades informacionais do usuário. Deste modo, o usuário não está interes- sado em recuperar dados, nem achar documentos que atendam sua expressão de busca, contudo, deseja encontrar a informação sobre um determi- nado assunto. O processamento da informação se torna mais eficiente se o armazenamento tiver ocorrido com melhor qualidade e os produ- tos resultantes deste processamento forem apresentados na lingua- gem apropriada ao usuário. Os autores ainda afirmam que a aten- ção com o ruído, redundância, canal de comunicação e codificação têm impactos positivos na etapa de interrogação e busca, devido ao sistema estar organizado e livre de informações desnecessárias ou distorcidas, contribuindo com a recuperação da informação. Segundo a Associação Nacional de Pesquisa e Pós- -Graduação em Ciência da Informação, os suces- sivos avanços das tecnologias da informação têm favorecido novos modos de acessar, recuperar, armazenar, gerir e interagir com a informação. Assim, os objetos tradicionais para apresentar a informação já não são satisfatórios, bem como os ambientes de interação com a informação têm es- tado em transformação, tal como o comportamen- to das pessoas. 46 BIG DATA E CIÊNCIA DE DADOS Big Data e a recuperação da informação Como já vimos, em ambientes de Big Data, o uso de bancos de dados relacionais não é apropriado para a persistência, proces- samento e recuperação dos dados em ambientes escaláveis e com diferentes tipos de dados. Estudamos que, para tentar resolver este quesito da per- sistência da informação, foram originados novos conceitos nas tecnologias de banco de dados, como o NoSQL (Not Only SQL). Esses bancos vieram para representar soluções viáveis ao modelo relacional, proporcionando maior escalabilidade e veloci- dade no armazenamento dos dados. Define-se Big Data como grande volume, velocidade e/ou alta variedade de informações que necessitam de novas formas de processamento para permitir a melhor tomada de decisão, nova descoberta do conhecimento e otimização de processos. Assim, no processo de busca da informação em cenários da Inteligência Competitiva e Big Data, são utilizados robôs de ex- tração de dados na Internet, esses são sistemas que coletam os dados da web e montam uma base de dados, que é processada para aumentar a rapidez na recuperação de informação. A extração de informações importantes pode classificar uma página seguindo um contexto de domínio e recuperar infor- mações, estruturando-as e armazenando-as em bases de dados. Com o propósito de adicionar significado aos conteú- dos buscados em domínio específico, associam-se aos robôs de busca na web conceitos semânticos que permitem realizar a procura, não mais por palavras-chave num processo de busca 47BIG DATA E CIÊNCIA DE DADOS textual, mas por significado e valor, extraindo das páginas e ser- viços da web informações de real relevância, descartando aquilo que é desnecessário. Imagem 3.9 – Busca da informação Fonte: Freepik. A partir disso, a ontologia aparece como solução na busca de inserir semântica neste processo. Veja a seguir um pouco mais sobre ontologia. Ontologia Na busca por realizar a coleta de dados referente a um escopo determinado de conhecimento, surge o termo ontologia. Aplicada à ciência da computação e à informática, a ontologia é uma estrutura de dados utilizada para representar um con- junto de termos e suas relações em uma determinada área do conhecimento ou domínio. Nos últimos anos, o uso de ontolo- gias tem sido cada vez mais fundamental em sistemas de inte- ligência artificial, aprendizado de máquina e na Web Semântica, facilitando a comunicação entre humanos e máquinas, além de permitir que os sistemas entendam o contexto e o significado dos dados processados. 48 BIG DATA E CIÊNCIA DE DADOS A ontologia, tradicionalmente definida como o estudo do ser e de seus relacionamentos, passou a ser amplamente utilizada na ciência da computação e na ciência da informação para supor- tar o desenvolvimento de sistemas de busca semântica, processa- mento de linguagem natural (PLN), e a extração de dados relevan- tes de grandes volumes de informações. Hoje, as ontologias são componentes-chave em sistemas de conhecimento e são aplica- das em áreas como a Internet das Coisas (IoT), redes inteligentes e até mesmo na robótica para melhorar a descoberta e integração de informações complexas e em tempo real, com maior precisão. A ciência da computação utiliza a ontologia quando se tra- ta da obtenção de conhecimentos a partir de dados semiestrutu- rados, aplicando técnicas e métodos para processar essas infor- mações. Atualmente, esse uso foi expandido para lidar com dados não estruturados, como imagens e vídeos, e tem sido fundamental no desenvolvimento de assistentes virtuais inteligentes e sistemas autônomos, que precisam interpretar e reagir ao ambiente com base em conhecimentos representados ontologicamente. Data Warehouse Um Data Warehouse é um conjunto de dados orientado a assuntos integrados, não voláteis, com variações no tempo e da- dos corporativos granulares, que permitem dar suporte às deci- sões da gestão. Nos últimos anos, os Data Warehouses evoluíram para armazenar volumes ainda maiores de dados, integrando-se com tecnologias como o Big Data e plataformas de computação em nuvem para aumentar a escalabilidade e a acessibilidade. Isso implica que um Data Warehouse está orientado para as principais áreas de uma organização e é suportado por múltiplas fontes de dados, em que os dados são transformados, formata- dos, reorganizados e integrados. Além disso, uma vez armazenada 49BIG DATA E CIÊNCIA DE DADOS a informação, ela não se perde, sendo mantido um histórico de dados. Atualmente, tecnologias como o Amazon Redshift, Google BigQuery e Snowflake têm permitido que Data Warehouses se tor- nem mais dinâmicos e adaptáveis, com capacidades de processa- mento em tempo real e análises mais avançadas. Essas soluções em nuvem permitem que empresas façam consultas e análises em dados massivos sem comprometer a performance, otimizando a tomada de decisões em tempo real. O Data Warehouse é uma variante no tempo que implica um avanço dos dados ao longo do tempo, como também é dife- rente de uma base de dados operacional. Enquanto estas últimas são transacionais, os Data Warehouses têm as características par- ticulares de estarem direcionados a aplicações de apoio à decisão e de serem otimizados para a recuperação de dados e não para o processamento de transações rotineiras. Apache Lucene A tecnologia Apache Lucene é considerada uma bibliote- ca de software livre para indexação e recuperação de informações que em sua elaboração foi escrita em Java. Essa foi desenvolvida por Doug Cuttingol no ano 2000, foi aperfeiçoada e, logo após, incorporada à Fundação Apache. Lucene concede um nível adequado de abstração para um conjunto robusto de técnicas fundamentadas no modelo Vetorial e Booleano. A biblioteca Lucene é formada por duas partes: inde- xação e pesquisa, com base em palavra-chave, o algoritmo pro- cessa os dados gerando um formato que possibilita a realização de consultas. Por conseguinte, temos que Lucene é utilizado para indexar e pesquisar dados em páginas de web, documentos armazenados 50 BIG DATA E CIÊNCIA DE DADOS em sistemas locais de arquivo, arquivos de texto simples, HTML ou qualquer outro formato por meio do qual é possível coletar informações textuais. Entretanto, é importante que você saiba que para pesquisar grandes quantidades de texto de modorápido em um primeiro momento, de acordo com Andrade (2010), Lucene indexa o texto e o trans- forma em um formato que o permite deixá-lo mais veloz na busca. Este processo é chamado de indexação e sua saída é deno- minada de índice. Logo, a busca ou pesquisa se trata do processo de buscar palavras em um índice para encontrar documentos em que elas aparecem. Já existem fundamentalmente duas funcionalidades im- portantes: o processo de indexação, acessível por meio do co- mando indexer, e o processo de busca, disponível por meio do comando searcher. A seguir, a descrição das duas etapas: • Indexação - usa em seu índice a estrutura de da- dos denominada de índice invertido, em que cada conceito acrescentado possui uma referência para o arquivo que o contém. • Busca - no Lucene, para cada documento atual no resultado de alguma busca, é aplicada uma pon- tuação que representa a semelhança de tal docu- mento com a consulta. O cálculo dessa pontuação é feito baseando-se no modelo de recuperação de informação escolhido. 51BIG DATA E CIÊNCIA DE DADOS Imagem 3.10 – Indexar e buscar documento Fonte: Freepik. A biblioteca Lucene suporta os seguintes modelos: • Modelo Booleano; • Modelo Espaço Vetorial; • Modelo Probabilístico; • Modelo com base em linguagem natural. Todavia, é bom destacar que por padrão, a busca no Lucene acontece por meio da combinação de duas técnicas de recuperação de informação: Modelo Espaço Vetorial e Modelo Booleano. Contudo, uma vantagem para o programador é que não precisa implementar algoritmos de busca e classificação, pois a biblioteca Lucene tem mecanismos para calcular a pontuação de cada documento que seja referente a uma consulta e retornar do- cumentos relevantes conforme com essas pontuações. 52 BIG DATA E CIÊNCIA DE DADOS Para saber mais sobre o assunto, leia o artigo “Apa- che Lucene”, de Arthur de Lima, Jefferson José da Silva e Vagner Messias da Costa Junior. Acesse o QR Code. E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente enten- deu o tema de estudo deste capítulo, vamos re- sumir tudo o que vimos. Você deve ter aprendido sobre recuperação de informação, fazendo uma abordagem no contexto geral sobre o que ela trata e passando sobre seu processo. Vimos que a re- cuperação da informação trata da representação, do armazenamento, da organização e do acesso às informações. Assim, abordamos ainda sua im- portância para a tomada de decisão e mostramos como é relacionada à ciência de dados e da infor- mação, de modo que explanamos como o Big Data, Data Warehouse e ontologias estão relacionadas a este processo. Por fim, foi apresentada a biblioteca Apache que trabalha no processo de recuperação de informação, o Lucene. https://www-di.inf.puc-rio.br/~casanova/Disciplinas/INF1331/Slides/26-Demo_%20Apache%20Lucene%20(Arthur%20Ozorio,%20Jefferson%20Silva,%20e%20Vagner%20Costa%20Junior).pdf 53BIG DATA E CIÊNCIA DE DADOS AMARAL, F. Introdução à Ciência de Dados: mineração de dados e Big Data. Rio de Janeiro: ALTA Books, 2016. ANDRADE, C.; SOUZA, C.; MAFORT, F. Sistema gerenciador de documentos. 2011. Monografia (Graduação em Ciência da Computação). Universidade Gama Filho. Piedade. 2011. APACHE Spark - Introduction. Tutorials Point, [s. d]. Disponível em: https://www.tutorialspoint.com/apache_spark/apache_spark_ introduction.htm. Acesso em: 01 jun. 2020. ARAÚJO, H. Precisão no processo de busca e recuperação da informação. Brasília: Thesaurus, 2007. DOCUMENTATION. Apache Cassandra 3.0, [s. d.]. Disponível em: https://cassandra.apache.org/doc/latest/. Acesso em: 5 jun. 2020. MARR, B. Big Data in Practice. West Sussex: Wiley, 2016. QUEIROZ, R. et al. Geographic Databases and NoSQL. Accomlishments and future directions. Revista Brasileira de Cartografia, p. 479-492, 2013. TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013. RE FE RÊ N CI A S Processamento de grandes volumes de dados Produção de dados Armazenamento Framework para processamento de dados Hadoop Spark Storm Inteligência de negócio para Big Data Big Data e sua importância no mercado de negócio Inteligência de negócio para Big Data Perfil comportamental do profissional de análise de inteligência de negócios Big Data aplicado no mercado Magazine Luiza Amazon Nordstrom Bancos de dados para Big Data Banco NoSql Características dos bancos de dados NoSQL Tipos de banco de dados NoSQL Principais mecanismos de banco de dados NoSQL Cassandra MongoDB Redis HBase Amazon DynamoDB Neo4j Recuperação de informações Big Data e a recuperação da informação Ontologia Data Warehouse Apache Lucene