Um pouco sobre metadados

Um pouco sobre metadados

Desde que surgiram os bancos de dados sempre se falou sobre a importância da documentação dos sistemas e dos próprios bancos. Com o surgimento do conceito de Data Warehouse, aumentou a importância e surgiu o conceito de metadados.

As Corporações estão exigindo cada vez mais funcionalidades dos sistemas de TI (Tecnologia da Informação), e repositórios de metadados não são nenhuma exceção a esta regra. Mas o que são metadados?

Acima vimos que sempre houve preocupação com a documentação dos sistemas e bancos de dados das corporações, sabemos que no Data Warehouse documentar tudo é vital para a sobrevivência do projeto, pois o DW pode ser um projeto gigantesco e se não houver uma documentação eficiente ninguém conseguirá entender nada.

Os metadados são definidos como dados sobre os dados. Só que a complexidade desses dados no Data Warehouse aumenta muito. Num sistema OLTP gera-se documentos somente sobre o levantamento dos dados, banco de dados e o sistema que alimenta o mesmo. No Data Warehouse além do banco, gera-se uma documentação muito maior. Além de falar sobre o levantamento de dados e o banco, temos ainda o levantamento dos relatórios a serem gerados, de onde vem os dados para alimentar o DW, processos de extração, tratamento e rotinas de carga do dados. Ainda podem gerar metadados as regras de negócio da empresa e todas as mudanças que elas podem ter sofrido, e também a frequência de acesso aos dados.

Segundo Inmon os metadados englobam o DW e mantém as informações sobre o que está onde. Ele ainda define quais informações os metadados mantém:

  • A estrutura dos dados segundo a visão do programador;
  • A estrutura dos dados segundo a visão dos analista de SAD;
  • A fonte de dados que alimenta o DW;
  • A transformação sofrida pelos dados no momento de sua migração para o DW;
  • O modelo de dados;
  • O relacionamento entre o modelo de dados e o DW;
  • O histórico das extrações de dados;
  • Acrescentamos ainda os dados referentes aos relatórios que são gerados pelas ferramentas OLAP assim como os que são gerados nas camadas semânticas.

Os metadados podem surgir de vários locais durante o decorrer do projeto. Eles provêm de repositórios de ferramentas case, os quais geralmente já estão estruturados, facilitando a integração da origem dos metadados e o repositório dos mesmos. Essa fonte de metadados é riquíssima.

Outros dados que devem ser guardados no repositório de metadados, é o material que surgirá das entrevistas com os usuários. Destas entrevistas podem obter-se informações preciosas que não estão documentadas em nenhum outro lugar além de regras para validação dos dados após carregados no Data Warehouse.

Como pudemos ver, o volume de metadados gerados é muito grande. Existem hoje algumas ferramentas que fazem única e exclusivamente o gerenciamento dos metadados. Elas têm algumas características peculiares.

Falando de uma maneira simplista, essas ferramentas conseguem mapear o dado em todas as etapas de desenvolvimento do projeto, desde a conceitual até a de visualização dos dados em ferramentas OLAP/EIS.

Agora vamos discutir os desafios arquitetônicos mais complexos que surgem ao implementarmos um repositório de metadados que requer funcionalidade mais avançada. Enquanto a maioria dos repositórios não tentam implementar estas características, eles representam o tipo de funcionalidade que é exigida através das corporações.

As fontes metadados, (ferramentas de modelagem de dados, ferramentas de extração, transformação e carga, etc.) devem ser integradas no repositório por várias necessidades. Uma arquitetura de metadados bidirecional permite que os dados modificados na fonte possam ser alterados também no repositório automaticamente.

Esta arquitetura é altamente desejável por duas razões chaves. Primeiro: permite a essas ferramentas compartilhar metadados. Isto é desejável no mercado de ferramentas de apoio de decisão. A maioria das corporações que construíram um sistema de apoio a decisão não pensou na integração das ferramentas. Estas não são integradas, por isso, não se comunicam facilmente. Até mesmo essas ferramentas que podem ser integradas tradicionalmente requerem bastante programação manual para compartilhar dados.Segundo: metadados bidirecional é atraente para corporações que querem implementar um repositório de metadados em toda empresa.

Como vimos os metadados são importantíssimos para o sucesso de um DW. Ao começarmos qualquer projeto devemos sempre nos preocupar com os mesmos, pois são eles que servirão de bússula para nos guiar pelo emaranhado de tabelas, relatórios e dados quando estivermos perdidos.