data lake desenho
Source: datascienceacademy.com.br

Ultimamente temos ouvido falar demais sobre dados e os conceitos que giram em torno deles. Estamos na era em que tudo e todos estão sendo ou serão governados por eles. Por isso, nesse post iremos falar com a simplicidade costumeira, sobre Data Lake, um dos pilares de Big Data.

Esse termo foi falado pela primeira vez por James Dixon, na época, CTO da Pentaho. A idéia dele era diferenciar do conceito de Data Mart que possui os dados agregados e tratados.

Data Lake pode parecer algo difícil, mas é algo simples. Para explicar farei a analogia literalmente com uma represa de água.

Para a água chegar tratada em nossas casas, faz-se necessário a captura dela em diversos rios, riachos e nascentes. Pois geralmente ela é armazenada numa barragem ou açude em estado bruto imprópria para consumo.

Logo após a captação segue para estações de tratamento, onde ocorre o processo de limpeza então é distribuída.

No mundo dos dados isso não é diferente. Necessitamos capturar os dados em qualquer formato, inúmeras fontes, no estado bruto que se encontram e então armazenarmos num repositório.

Com o crescimento contínuo da capacidade computacional de processamento, possibilitou as empresas criarem seus repositórios para então serem usados, ou não, por elas. Leva-se dados brutos extraídos de sistemas internos, redes sociais, fontes externas, em qualquer formato, continuamente e para um único local. Isso é o que chamamos de Data Lake! Simples não é mesmo?

A imagem abaixo ilustra muito bem como ele é alimentado e construído.

arquitetura de data lake
Source: dwbimaster.com

Diferenças de Data Warehouse

Então você pode estar se perguntando. Mas não é a mesma coisa que Data Warehouse? E se a empresa já tiver um DW?

Data Warehouse é um banco de dados estruturados, orientado por assuntos, devidamente tratados e disponibilizados para o uso. Isso significa que há um esforço grande de planejamento para a construção do mesmo. Também as necessidades de negócio tem de ser bem pensadas antes do projeto. Mas a parte mais complicada nos dias atuais é a velocidade de implementação. Mas DW demanda muito tempo para ser construído ou ampliado.

Ele continua sendo extremamente útil, pois o Data Lake deixa tudo mais rápido e ágil. Isso acaba contribuindo mais com as necessidades atuais dos negócios.

Benefícios para os negócios

Como podemos perceber, as organizações poderão ter inúmeros benefícios tendo um Data Lake dentre eles:

  • As informações estarão acessíveis de maneira rápida
  • Redução do investimento inicial
  • Facilidade e democratização no acesso aos dados
  • Flexibilidade para usar informações, visto que estão no estado bruto
  • Potencialização do uso de análise preditiva.

Cuidados

Apesar de serem interessantes, esses projetos podem virar “pântanos de dados” se não tomarmos os devidos cuidados.

É importante ter um objetivo de negócio claro para construir um projeto dessa envergadura. Pois juntar muitos dados não quer dizer que eles serão úteis.

Começar a levar para esse repositório fontes conhecidas, para gradativamente ir acrescentando outras que façam sentido.

Ter um processo definido de coleta, armazenamento e estruturação dos dados para evitar problemas futuros.

Ter uma equipe capacitada para fazer a gestão de todo processo e principalmente do repositório

Conclusões

Está na moda falar de Data Lake, pois ele pode resolver vários problemas existentes atualmente nas corporações. Sob a ótica da unificação da informação ele traz uma proposta interessante.

Acredito que ele tem e gerará muito valor ainda, pois não exploramos toda sua capacidade. Arrisco dizer que muitos não entenderam o que ele é.

Percebemos que todas organizações podem ter um Data Lake, mas nem todas necessitam. E a você acha que precisa de um?