Data Scientist | Data-Driven Marketing | Boot Camp Data Analytics WoMakersCode
26 de jun. de 2022
20 de abr. de 2022
17 de mar. de 2022
1 de mar. de 2022
27 de dez. de 2021
15 de mai. de 2021
30 de abr. de 2021
16 de mar. de 2021
12 de mar. de 2021
28 de nov. de 2020
Os desafios de implantar um Data Warehouse nos dias atuais
Professor: Edcleisson Zanardi
Disciplina: Processo de ETL em um Data Warehouse
Aula: Juliana Tourrucoo Alves
Novembro de 2020 -
Quanto tempo diretores e executivos das principais corporações levaram para chegar à decisão de criar um Data Warehouse (DW)? Sem dúvida, gasta-se bastante tempo e esse tempo é valioso. Em vários casos não é porque a empresa prima por metodologias de planejamento para introdução de novos processos. E sim porque há líderes, ainda que de forma discreta, que subestimam o investimento, a função e a eficiência de um DW como uma ferramenta de apoio nas tomadas de decisões.
“Normalmente, a maior parte das empresas não sabe como transformar os dados coletados e existentes em conhecimento. Isso acontece porque nem todas as empresas mantêm as informações organizadas de forma consistente e confiável”. (Machado).
Naturalmente, a implantação de um DW gera muitas dúvidas. Há executivos que também percebem que o DW mudará sua rotina de trabalho. E quem não tem medo do novo? Poucos.
A melhor forma de conter esse temor é com informação. Portanto, o primeiro ponto que os diretores de uma empresa, como os da Seguradora de Saúde da N1, precisam ter em mente é que o DW é uma arquitetura, não uma tecnologia. (Machado).
“Há várias ideias, opiniões, definições, conceitos e ferramentas para criação e manutenção de um Data Warehouse, mas é importante ressaltar que não existe nenhum Data Warehouse pronto para ser utilizado sem um trabalho anterior de levantamento de necessidades da empresa e de seus executivos. Consequentemente, o conceito de Data Warehouse exige estudo e envolvimento da empresa e de seus executivos na definição e construção dessa base de dados de utilização corporativa”. (Machado)
Outro ponto importante para dar forma ao DW? Será essencial chamar uma equipe de Tecnologia da Informação (TI) junto a um time de BI (Business Intelligence). Em conjunto, eles vão implantar um robusto armazém de dados e unificá-lo a uma ferramenta de ETL (Extract Transform Load), como o Power BI da Microsoft ou Oracle Warehouse Builder da Oracle entre outras opções de marcas existentes no mercado. Cabe a esses softwares as funções de: extração, transformação e carregamento - a tríade que dá forma a um DW.
O BI deverá configurar a ferramenta para ela ter a capacidade de expor não apenas os dados, mas fornecer sobretudo relatórios de análise, que possam auxiliar os gestores na melhor tomada de decisão para a empresa. Por isso, essa ferramenta é configurada para ter uma interface amigável tendo o objetivo de facilitar a visualização dos cruzamentos de dados.
Outra característica do DW é a sua formatação. O DW é um banco de dados não volátil, ou seja, um repositório digital no qual não se modifica e nem se exclui dados depois de serem inseridos. “Além disso, permite atualizações periódicas e contém dados atuais e históricos para fornecer informações do fluxo do negócio no tempo” (Varago).
Não é uma regra, mas em geral, os dados históricos. São dados que identificam sobretudo o perfil dos leads (cadastros), o comportamento de compra da sua base de clientes, os produtos mais vendidos e as sazonalidades.
Como todo novo processo, a implantação do DW jamais deve ser feita de forma imediatista. Antes que os dados sejam integrados a uma ETL, é necessário criar um ambiente de teste justamente para que os dados principalmente da ferramenta de CRM (Customer Relationship Management) possam ser limpos e padronizados. É a hora de eliminar informações duplicadas ou desnecessárias. “Muitas soluções ainda são independentes, mas procedimentos de data quality podem agora ser executados como uma das transformações no processo de data integration”. (Ciferri)
Image 1: fonte Ciferri
Nessa etapa pode já ser criada também uma identificação para cada registro, a chamada chave primária (Primary Key). Ao definir um campo como sendo uma chave primária, cria-se uma métrica no banco de dados para coibir a existência de dois registros com o mesmo valor. (Brandão)
“Por exemplo, se definirmos o campo “Número do CPF” da tabela Clientes como sendo uma chave primária, estamos dizendo ao banco de dados que não podem existir dois clientes com o mesmo valor no campo “Número do CPF”. Isso é fundamental! (Brandão)
Com o banco organizado, chega a hora de dar forma ao seu DW. Hoje temos vários métodos de armazenamento e análise como dito acima, mas sempre será preciso de alguma forma trabalhar com banco de dados relacional. (Brandão)
“O banco de dados relacional permite que a informação fique estruturada, em um padrão pré-definido já conhecido por todos, no formato linhas e colunas, onde campos são preenchidos para alimentar tabelas com os seus dados. A melhor forma de armazenar dados é através de uma tabela. Lembrando que um conjunto de tabelas formam um banco de dados. As tabelas são formadas por linhas e colunas. As colunas representam um atributo da informação e as linhas representam o valor do atributo. Juntos formam os registros. (Brandão)
Na etapa de definição da metodologia do DW, sua construção pode seguir duas abordagens distintas: top-down ou bottom-up. (Varago).
· Top-down trabalha com levantamento de todos os requisitos, fontes de dados e padrões dos setores da empresa, para, então, dar sequência à implementação de toda a estrutura. Vantagens: uma única base de dados homogênea e integrada. Desvantagens: o alto custo e tempo de implementação. (Varago)
· Bottom-up faz análise dos requisitos de forma global, da qual surgem uma lista de Data Marts a serem implementados e a forma como serão integrados. Desvantagem: falta de padronização dos Data Marts, gerando redundância dos dados e resultando em dados inconsistentes, devido a diferentes representações das fontes de dados. Essa questão traz entraves à integração da base. (Varago).
Imagem 2: fonte Ciferri
outro desafio importante em um projeto de DW diz respeito ao armazenamento de dados em conformidade com a Lei Geral de Proteção de Dados [Brasil 2018]. Essa Lei é baseada no Regulamento Geral sobre a Proteção de Dados 2016/679 (RGPD, ou, como é mais conhecida em inglês, GDPR - General Data Protection Regulation), elaborado pela União Europeia. A Lei obriga organizações a seguirem uma série de itens quanto à coleta, ao tratamento e à proteção dos dados pessoais.
“A maioria das organizações armazena os dados pessoais coletados dos clientes em Sistemas de Gerenciamento de Banco de Dados (SGBD). Dessa forma, é necessário saber como e o quanto as empresas detentoras dos principais SGBDs comerciais estão preparadas para dar suporte à implantação de estratégias da LGPD de forma eficaz e eficiente”. (Almeida, Verona, Campos e Baião)
Conclusão
Como a arquitetura do Data Warehouse inclui, além de estrutura de dados, mecanismos de comunicação, processamento e apresentação da informação para o usuário final, seria recomendado a formação de um Business Intelligence Competency Center (BICC).
Esse centro teria o objetivo de melhorar o desenvolvimento e focar os recursos necessários para o projeto ter sucesso com Business Intelligence. Caberá ao BICC criar os planos estratégicos e as prioridades de BI além de define as exigências, incluindo dados de qualidade e gestão. Ele também auxiliaria os executivos na interpretação e aplicação das decisões de negócio. (Machado)
Como a tendência para o futuro é que cada vez mais os negócios estejam apoiados em DW (como ou sem Big Data), o profissional de BI conhecimento em DW é cada vez mais primordial não apenas para diminuir custos, mas para criar padrão de eficiência, com mais rentabilidade em novos negócios.
Bibliografia
livros
TAURION, Cezar. Big Data. Rio de Janeiro: Brasport, 2013.
MACHADO, Felipe Nery Rodrigues. Tecnologia e projetos de Data Warehouse: uma Visão Multidimensional. 6. ed. São Paulo. Editora Érica, 2013
Vídeos
CANAL TI, Data Warehouse (O que é, características, exemplo). Youtube, out. 2019. Disponível em: https://www.youtube.com/watch?v=BLAa9hO-H3s. Acesso em: 11 nov. 2020.
Artigos
VARAGO, Anderson. Processo de Etl em um Data Warehouse, Roteiro de Estudos.
Disponível em: https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller. Acesso em: 13 nov. 2020.
HADDAD, Renato. 10 motivos para adotar o Power BI
Disponível em https://imasters.com.br/data/10-motivos-para-adotar-o-power-bi
Acesso em: 12 nov. 2020
BRANDÃO, Robson. O que é Banco de Dados Relacional
Disponível em https://www.datainsiders.com.br/post/o-que-e-um-banco-de-dados-relacional
Acesso em: 10 nov. 2020
ALMEIDA, A. C. B, VERONA, l.D, CAMPOS, M.L.M, BAIÃO,F. A.
LGPD em Ambientes de Bancos de Dados nas Organizaçõe, Ana Carolina Brito de Almeida, Letícia Dias Verona, Maria Luiza Machado Campos e Fernanda Araujo Baião
Disponível em https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/39/163/333-1?inline=1
Acesso em: 11 nov. 2020
Ciferri, Cristina Dutra de Aguiar e Ciferri, Ricardo Rodrigues
Data Warehousing: Conceitos Básicos e Arquitetura Profa. Disponível em http://wiki.icmc.usp.br/images/7/73/SCC5911ConceitosArquitetura.pdf
Acesso em: 11 nov. 2020