Ultimamente temos ouvido falar demais sobre dados e os conceitos que giram em torno deles. Estamos na era em que tudo e todos estão sendo ou serão governados por eles. Por isso, nesse post iremos falar com a simplicidade costumeira, sobre Data Lake, um dos pilares de Big Data.
Esse termo foi falado pela primeira vez por James Dixon, na época, CTO da Pentaho. A idéia dele era diferenciar do conceito de Data Mart que possui os dados agregados e tratados.
Data Lake pode parecer algo difícil, mas é algo simples. Para explicar farei a analogia literalmente com uma represa de água.
Para a água chegar tratada em nossas casas, faz-se necessário a captura dela em diversos rios, riachos e nascentes. Pois geralmente ela é armazenada numa barragem ou açude em estado bruto imprópria para consumo.
Logo após a captação segue para estações de tratamento, onde ocorre o processo de limpeza então é distribuída.
No mundo dos dados isso não é diferente. Necessitamos capturar os dados em qualquer formato, inúmeras fontes, no estado bruto que se encontram e então armazenarmos num repositório.
Com o crescimento contínuo da capacidade computacional de processamento, possibilitou as empresas criarem seus repositórios para então serem usados, ou não, por elas. Leva-se dados brutos extraídos de sistemas internos, redes sociais, fontes externas, em qualquer formato, continuamente e para um único local. Isso é o que chamamos de Data Lake! Simples não é mesmo?
A imagem abaixo ilustra muito bem como ele é alimentado e construído.
Diferenças de Data Warehouse
Então você pode estar se perguntando. Mas não é a mesma coisa que Data Warehouse? E se a empresa já tiver um DW?
Data Warehouse é um banco de dados estruturados, orientado por assuntos, devidamente tratados e disponibilizados para o uso. Isso significa que há um esforço grande de planejamento para a construção do mesmo. Também as necessidades de negócio tem de ser bem pensadas antes do projeto. Mas a parte mais complicada nos dias atuais é a velocidade de implementação. Mas DW demanda muito tempo para ser construído ou ampliado.
Ele continua sendo extremamente útil, pois o Data Lake deixa tudo mais rápido e ágil. Isso acaba contribuindo mais com as necessidades atuais dos negócios.
Benefícios para os negócios
Como podemos perceber, as organizações poderão ter inúmeros benefícios tendo um Data Lake dentre eles:
- As informações estarão acessíveis de maneira rápida
- Redução do investimento inicial
- Facilidade e democratização no acesso aos dados
- Flexibilidade para usar informações, visto que estão no estado bruto
- Potencialização do uso de análise preditiva.
Cuidados
Apesar de serem interessantes, esses projetos podem virar “pântanos de dados” se não tomarmos os devidos cuidados.
É importante ter um objetivo de negócio claro para construir um projeto dessa envergadura. Pois juntar muitos dados não quer dizer que eles serão úteis.
Começar a levar para esse repositório fontes conhecidas, para gradativamente ir acrescentando outras que façam sentido.
Ter um processo definido de coleta, armazenamento e estruturação dos dados para evitar problemas futuros.
Ter uma equipe capacitada para fazer a gestão de todo processo e principalmente do repositório
Conclusões
Está na moda falar de Data Lake, pois ele pode resolver vários problemas existentes atualmente nas corporações. Sob a ótica da unificação da informação ele traz uma proposta interessante.
Acredito que ele tem e gerará muito valor ainda, pois não exploramos toda sua capacidade. Arrisco dizer que muitos não entenderam o que ele é.
Percebemos que todas organizações podem ter um Data Lake, mas nem todas necessitam. E a você acha que precisa de um?