• contato@analyticsbr.com.br

Categoria: Business Intelligence

Como dar feedback sobre Lumira 2.0 e outros produtos

Como já falamos post anterior, desde o último dia 15 está em GA o SAP Lumira 2.0 e agora a SAP disponibiliza uma iniciativa bem legal para os clientes darem seus feedbacks e falarem suas impressões sobre o novo produto.

Essa é uma iniciativa que o meu colega Iver Van de Zand compartilhou em sua página no LinkedIn e achei interessante dividir com todos vocês. Esse é um canal que a SAP está disponibilizando para ouvir opiniões, feedbacks, críticas e elogios.

E isso a SAP leva muito a sério, pois o foco é melhorar o produto e dependendo do que for sugerido poderá entrar na pauta da engenharia para os próximos SP’s. Recomendo usar sem moderação.

Para enviar seu feedback, clique aqui e siga as instruções da página.

Mas além de dar feedback sobre o Lumira 2.0, vocês também poderão interagir com o time de engenharia da SAP. Abaixo disponibilizo alguns canais que poderão auxiliar vocês para quando quiserem falar diretamente com os caras que fazem os produtos que vocês usam.

SAP Ideas Place

Um link que acho bastante interessante dividir com vocês é o SAP Ideas Place. Esse é um site onde qualquer cliente, consultor ou profissional que utiliza soluções SAP, pode fazer sugestões de evolução de produtos.

As sugestões dadas nesse site, dependendo da quantidade de pessoas que derem um “curtir” será encaminhada ao time de engenharia para fazer avaliação e caso seja aprovada, poderá entrar no roadmap para implementações futuras.

SAP Influence and Adopt

Em breve estará totalmente disponibilizado o site Influence and Adopt também com foco em ter os usuários engajados no desenvolvimento dos novos produtos.

Se você tiver interesse em fazer parte do grupo de beta testers também pode participar do programa Beta Testing e se candidatar,  ou se preferir ser um Early Adopter também tem um programa específico para isso.

Bem, essas são algumas formas de falarem com a engenharia da SAP e eu espero que gostem e interajam bastante, pois assim a evolução dos produtos estará garantida e quem sabe com influência direta de cada um de vocês.

SAP Lumira 2.0 está disponível

Hoje a SAP anunciou que para seus clientes a nova versão do Lumira 2.0 está disponível .

E ele vem cheio de novidades que já adiantamos anteriormente noutro post. Está dividido em dois módulos, o Discovery e o Designer, planejados para dar mais flexibilidade aos usuários, tanto de TI como de negócios. Também compõe o pacote o Lumira Server, que será um add on do BIP – BI Platform.

Após ser anunciado no Saphire em maio, ele foi oficialmente disponibilizado hoje para os clientes. O visual melhorou muito e novas funcionalidades foram adicionadas.

A promessa da SAP é que com essa nova versão do seu produto de data discovery e dashboards, conseguirá fazer frente aos líderes dos quadrantes mágicos e que no próximo ano também será um deles.

Para maiores detalhes e informações sugiro darem uma olhada no site oficial do produto clicando aqui, pois encontrarão uma infinidade de informações a respeito do produto, assim como manuais, SDK’s, por onde começar entre outras que poderão ajudá-los na decisão de migrar agora ou esperar mais um pouco.

Esse arquivo consegue mostrar uma visão de mais alto nível do produto e do que a SAP pensa em relação a roadmap dele.

Abaixo algumas imagens do novo produto.

Designer

Algumas telas do Lumira Designer

Discovey

E abaixo algumas telas do Lumira Discovery.

Algumas telas do Lumira 2.0 Discovery

Se quiser fazer download de uma versão trial, clique nesse link para poder baixar. É necessário fazer um pequeno cadastro.

Caso já seja cliente dos produtos de BI da SAP, você pode ir no marketplace e baixar sua versão atualizada.

Espero que vocês gostem de estarem recebendo a informação em primeira mão e se puderem compartilhar com seus amigos que utilizam o produto, fiquem a vontade e saibam que irão ajudar o blog.

Espero postar mais novidades a respeito desse assunto muito em breve.

Grande abraço.

 

SAP BusinessObjects empacotamento de produtos

Temos falado bastante nos últimos posts sobre os lançamentos e atualizações de produtos, porém percebo uma grande dificuldade de entendimento das formas de comercialização deles. Hoje irei tentar esclarecer algumas dúvidas sobre métricas e quais são os pacotes do SAP BusinessObjects disponíveis para serem comercializados.

Vamos começar pelos pacotes. Atualmente existem três empacotamentos sendo comercializados atualmente que são:

SAP BusinessObjects Enterprise Standard Edition

Essa modalidade de licenciamento tem foco somente em query reporting somente, ou seja, tem o BI Platform com a parte de mobile, motor de acesso aos dados o Sap Application Data Access, mais os produtos Crystal Reports e o WebIntelligence. A imagem no final do post ilustra como fica o Standard Edition. Esse é o pacote básico para quem está a procura de ferramentas somente de construção de relatórios.

SAP BusinessObjects Enterprise Professional Edition

Esse é o empacotamento intermediário, porém tem uma solução completa que pode ajudar quem está iniciando um novo projeto de BI ou queira modernizar algum existente. Contempla uma solução de ponta a ponta que eu dividiria em 3 partes, assim distribuídas:

Fundação

BI Platform (com mobile), SAP Application Data Access e o Lumira Server para a plataforma de BI. Essa é parte que contém a segurança, faz as conexões com as bases de dados, distribui processamento entre outras coisas.

Middleware

Aqui estão inclusas as ferramentas de modelagem de dados –

Sybase PowerDesigner – produto para modelagem de dados e arquitetura.

Data Integrator – ferramenta de integração de dados ou ETL.

Sybase IQ – banco de dados colunar específico para DW e BI.

 

Front End

Lumira desktop – foco na visualização de dados, user friendly e pode ser utilizada pelo usuário de negócios. Permite conectar a fontes de dados, fazer a preparação dos dados, visualizar/explorar e depois compartilhar em formato de histórias.

Crystal Reports – construção de relatórios pixel perfect. Possui estrutra para gerar resultados em cima de grandes massas de dados, podendo ser bases gerenciais ou transacionais.

WebIntelligence – ferramenta de geração de relatórios drag and drop com arquitetura web, utilizada e integrada sob uma plataforma de BI que consegue processar grandes volumes de dados. Agora com o SP04 está com um visual moderno, leve e muito funcional.

Dashboards – como o próprio nome diz, permite criar dashboards, fazer simulações de cenários, gráficos interativos e pode ser utilizado com dados disponibilizados de maneira off line. O ponto negativo é que ele foi construído sob a tecnologia flash.

Design Studio – produto que permite a criação de dashboards interativos, visualizações mais flexíveis e totalmente responsivas, onde se adaptam facilmente as telas de dispositivos móveis. Deve ser trabalhado pelo time de TI e utilizado por usuários de negócios.

Analysis for Office – com esse produto é possível fazer com que o Excel se conecte nos universos da plataforma BusinessObjects, e assim os usuários poderem fazer uso dos dados consolidados do ambiente de BI para trabalharem suas planilhas ou slides do PowerPoint dinamicamente.

Analysis for Olap – conecta a plataforma de BI da SAP com arquiteturas multidimensionais.

Explorer – desenhado para fazer exploração de dados e self service BI.

 

SAP BusinessObjects Enterprise Premium Edition

Esse é o empacotamento mais top da solução de BI da SAP porque além de conter tudo que há no BO Enterprise Professional, ele inclui ainda mais dois produtos muito bons que são:

Predictive Analytics – essa é a evolução natural do processo analítco, pois enquanto o BI olha pra trás, a análise preditiva olha pra frente e através de modelos estatísticos consegue dar previsibilidade de que eventos possam acontecer no futuro.

Hana Vora – ele amplia as funcionalidades do Spark e do Hadoop fazendo a ponte entre a plataforma analítica da SAP e o mundo Hadoop.

SAP BusinessObjects Edge Edition

O empacotamento EDGE( falando de produtos) possui tudo que o no BO Enterprise Professional tem (BI Platform, mobile, Lumira Server e desktop, PowerDesigner 1 licença, Sybase IQ runtime 8 cores, Data Integrator runtime 8 cores, Crystal, Dashboards, Explorer, WebI, Analysis office e olap e Design Studio), as diferenças ficam basicamente sob o prisma de licenças, a saber:
1 – Os blocos de sessões concorrentes são de 5 CSBL e não 10 CSBL como o Professional;
2 – Só pode ser um single server;
3 – Não podem ter mais que 50 sessões concorrentes, ou seja, 10 blocos de 5 CSBL;
4 – Não podem ter mais do que 100 usuários nomeados;
5 – Usuários nomeados tem todos os produtos dos concorrentes, a diferença é que os nomeados constroem e consomem, os concorrentes só consomem;
6 – Quando falo de runtime é porque o IQ só pode ser acessado pelo BO e o Data Integrator pode acessar qualquer fonte de dados, mas está limitado a carregar somente em uma de sua livre escolha.

 

Licenciamento

Esse é outro tópico que sempre gera discussão, pois a SAP muda constantemente as métricas e formas de licenciamento, mas vamos falar de como é sendo hoje.

São basicamente dois tipos de licenças dividas em Sessões Concorrentes e Usuários Nomeados, onde as sessões concorrentes são para quem irá somente consumir as informações geradas pelos produtos da plataforma e os usuários nomeados são além de consumidores, construtores dos relatórios, dashboards e etc.

Pacotes SAP BI

 

Pontos importantes

  • Apesar de terem vários produtos, eles são totalmente integrados sob a plataforma de BI.
  • A SAP está num movimento forte de simplificação do portfólio e o resultado disso é a junção de produtos que começou com o Lumira 2.0. Ainda virão os produtos de querie reporting e também do Office.
  • Quem tiver interesse de acompanhar o roadmap de produtos, eles estão disponíveis na web. Clique aqui para ver diretamente no site cada produto do seu interesse. O link acima te direcionará para os produtos de analytics.

Bem, espero que essas informações sejam úteis para você, pois não é simples entender tudo isso e eu tive dificuldades para encontrar materiais a respeito na web.

 

SAP BusinessObjects 4.2 SP04 e o novo Launchpad

Como falamos num post anterior há muita novidade no SAP BusinessObjects 4.2 SP04 e para você que, assim como eu, está curioso nós iremos mostrar algumas telas de como ficou o novo launchpad, redesenhado com o cara do SAP Fiori. O que posso adiantar é que particularmente gostei demais do que vi.

Sem muita delonga vamos direto ao que interessa, iniciando pela tela de login.

Login

Essa é a nova tela de login.

Launchpad SP04

Tela de login

BI Launchpad

Agora a nova tela inicial do Launchpad. Notem como ficou bem mais moderna, com layout leve e clean.

Tela do Launchpad após login

 

Como eu gostei muito de um artigo escrito pelo Xavier Polo da Seidor no Linkedin, irei aproveitar algumas telas que ele disponibilizou lá para compartilhar com vocês aqui. Observem que você pode customizar com a visão que melhor lhe convém.

Visão em lista ou em blocos

Inbox

Para receber seus documentos e alertas num layout clean.

Visão da inbox

Folders

Navegando pelas pastas e trabalhando com documentos.

Pastas e documentos

 

Pesquisa

Tela de pesquisa e como os resultados são apresentados.

Tela de pesquisa

WebIntelligence

Abrindo um documento WebI e a cara do novo layout.

Layout WebI

Mostrando como um trabalhar com um documento WebIntelligence. As opções de exportação e a nova cara do produto.

Trabalhando um documento WebIntelligence

Interagindo com os documentos. Essa tela dá a visão de como será a interatividade com os documentos.

WebIntelligence Interação

E por fim, essa tela mostra que o layout está bem próximo do BOC ou o Lumira 2.0

WebIntelligence BOC

Acredito que isso seja o suficiente para verem um pouco mais das novidades. Não quero deixar esse post muito extenso, mas espero que tenha sido interessante para vocês. A idéia é fornecer o máximo possível de informações para vocês conseguirem tomar a decisão de migrarem sabendo dos potenciais ganhos do SP04.

Pretendo ao longo dessa semana publicar mais algumas informações sobre o SP04 e também sobre o Lumira 2.0. Espero que tenham gostado e assinem a newsletter para receberem em primeira mão os novos posts. Feedbacks são sempre bem vindos.

 

 

Sap Lumira 2.0 – O que vem por aí?

Ao longo dessa semana aconteceu em Orlando, FL o maior evento da SAP, o Sapphire e como de costume nele são comunicados os lançamentos e as novidades referentes aos produtos e quem teve bastante destaque foi a plataforma analítica que irá disponibilizar muita coisa legal nos próximos meses.

Conforme prometido em outro post, hoje irei falar um pouco sobre o Lumira 2.0 produto bastante aguardado pelos usuários da plataforma SAP pois ele promete entregar uma experiência melhor para o usuário final. E a impressão inicial é muito boa.

A convergência do Design Studio e do Lumira 1.3x já havia sido anunciada no passado alinhada com a estratégia de simplificação da SAP, onde a junção desses dois produtos talvez represente a maior simplificação da área analítica nesse primeiro momento. Fundir a capacidade de self service do Lumira, com a flexibilidade de construção e gestão de dashboards do Design Studio faz todo sentido, pois assim os usuários de negócios conseguirão responder satisfatoriamente ao dinamismo do mercado e também estarão preparados para a  transformação digital de maneira independente da área de TI, com uma ótima experiência de uso tanto para a TI e usuários avançados, como de negócios.

Estimado para entrar em GA (General Available) em julho de 2017, o produto vem com um único engine, dois clientes desktops batizados de Designer e Discovery e todo consumo dessas informações será via browser.

Segundo Iver Van de Zand que já está usando a versão beta, há inúmeros pontos positivos na nova versão, conforme o vídeo abaixo que ele gravou, mas ele gostaria de destacar dois:

 

  • Live connection com o BW: o que ocorre no Lumira 2.0 é que ele herda os pontos fortes de cada produto. A limitação do Lumira 1.3x em relação à conectividade live com o SAP BW. Agora é possível o usuário escolher entre uma conexão live (dados permanecem no BW) ou off line. O mesmo se aplica ao SAP Hana.

 

  • Interoperabilidade: quando você cria uma story board com dados mistos no Discovery é possível enviar para o Designer com um único clique e pode ser disponibilizado num dashboard corporativo. Em outras palavras, usuários de negócios que criam suas visões no que seria o Lumira, podem em alguns cliques, transformar isso num dashboard corporativo (Desig Studio) de uma maneira bastante simples.

A nova versão, continua com a mesma estrutura e lógica, ou seja, com as quatro etapas que todos estão acostumados:

  1. conexão e aquisição;
  2. enriquecimento e preparação;
  3. visualização e criação da story board;
  4. compartilhamento.

Abaixo disponibilizamos um vídeo gravado pelo próprio Iver onde ele dá uma “passeada” pelo Discovery. Eu particularmente gostei muito e espero que vocês também gostem.

Live Connection com o BW

Essa funcionalidade é para quem já possui o Sap BW. Agora é possível se conectar facilmente (live) ao BW, tanto com o Discovery, quanto com o Designer, conforme o vídeo de demonstração abaixo. Isso significa dizer que os dados armazenados no BW estão disponíveis para serem usados fazendo data discovery e insights. Também será possível construir um story board com o Discovery e disponbilizar como dashboard corporativo usando o Designer.

Interoperabilidade

Se tem algo que a SAP se preocupou muito nesse projeto de unificação foi com a interoperabilidade entre o Designer e o Discovery. A impressão inicial é que conseguiu ter êxito na iniciativa. Abaixo mais um vídeo do Iver Van de Zand que exemplifica como será simples e relativamente fácil trazer uma story board do Discovery para o Designer e transformá-la num dashboard. Realmente muito bom!

Outras funcionalidades

Abaixo mais algumas funcionalidades a serem destacadas, totalmente focadas no Discovery.

  • Tudo que necessita para iniciar a construção de uma exploração, como conexões, documentos locais, fontes de dados e etc, estão numa única tela;
  • enriquecer dados, visualizar uma história e compartilhar, também estão numa tela só;
  • clique com o botão direito está habilitado para todos componentes;
  • filtros em nível de história, de página e de gráfico. Múltiplas condições para filtros;
  • funcionalidade drag and drop de filtros para criação de controles;
  • copiar e colar gráficos para reutilização;
  • melhoria no bookmark.

Bem, acredito que esses são os pontos principais da versão do Lumira 2.0. Agora é aguardar a disponibilização dele para começarmos a utilização. Notadamente está com um visual melhor, mais simples, bem clean e irá proporcionar aos usuários finais uma ótima experiência de uso. Também irá simplificar e facilitar a vida do time de TI, pois o desenvolvimento de dashboards ficou melhor.

Fiquem à vontade para interagir conosco e em breve postarei mais novidades a respeito da plataforma analítica da SAP.

SAP BusinessObjects 4.2 – Novidades do SP04

SAP BusinessObjects 4.2 SP04

Nova interface do Launchpad

No último dia 08 de maio foi disponibilizado pela SAP uma atualização do BusinessObjects, sua plataforma de BI e tem muita coisa boa que vocês irão gostar. Serei breve nesse post porém disponibilizarei para download uma apresentação da SAP, que contém todas funcionalidades detalhadas para que vocês possam ver e decidirem se vale a pena ou não atualizarem.

Essa foi uma atualização importante e ampla em relação à plataforma toda e tivemos inúmeros pontos de inovação que não é nosso objetivo discutir todos aqui, mas como falei acima, aqui você pode fazer download da apresentação com todos detalhes. Abaixo falaremos sobre os quatro pontos que me chamaram a atenção.

  • O Webintelligence tem nova interface e está mais clean, leve e intuitiva. Vale a pena dar uma olhada com calma para ver os detalhes.
  • Aquela dependência de applets Java foi removida e todas funcionalidades de edição agora são suportadas pelos browsers. Nessa atualização a SAP também aprimorou o uso da funcionalidade de FREE HAND SQL no cliente DHMTL, algo que já havia sido solicitado a algum tempo.
  • Grupo de servidores exclusivos permite que você isole determinado grupo de usuários para que utilizem recursos dedicado, ou seja, se há usuários de negócios que necessitam ter acesso aos relatórios a qualquer momento, você pode usar a opção de disponibilizar um servidor exclusivo para eles em tempo de execução.
  • E o recurso que mais me chamou a atenção foi o BI launchpad com a interface Fiori. Ficou muito bacana e tenho certeza que vocês irão aprovar.

Sugiro vocês darem uma olhada no documento que disponibilizei para download acima para terem a visão completa dessa ampla atualização.

Bem, acho que por hora é isso. Em breve irei postar mais conteúdo a respeito desse assunto e muitos outros. Estou com bastante coisa do Lumira 2.0 para dividir com vocês e acredito que até a próxima semana esteja no ar.

Espero que tenham gostado e divirtam-se como eu estou me divertindo. Cometários serão sempre bem vindos e a interação também é sempre produtiva.

 

Um pouco sobre metadados

Desde que surgiram os bancos de dados sempre se falou sobre a importância da documentação dos sistemas e dos próprios bancos. Com o surgimento do conceito de Data Warehouse, isso não diminuiu a importância, pelo contrário, aumentou e muito.

As Corporações estão exigindo cada vez mais funcionalidades dos sistemas de TI (Tecnologia da Informação), e repositórios de metadados não são nenhuma exceção a esta regra. Mas o que são metadados?

Acima vimos que sempre houve preocupação com a documentação dos sistemas e bancos de dados das corporações, sabemos que no Data Warehouse documentar tudo é vital para a sobrevivência do projeto, pois o DW pode ser um projeto gigantesco e se não houver uma documentação eficiente ninguém conseguirá entender nada.

Os metadados são definidos como dados sobre os dados. Só que a complexidade desses dados no Data Warehouse aumenta muito. Num sistema OLTP gera-se documentos somente sobre o levantamento dos dados, banco de dados e o sistema que alimenta o mesmo. No Data Warehouse além do banco, gera-se uma documentação muito maior. Além de falar sobre o levantamento de dados e o banco, temos ainda o levantamento dos relatórios a serem gerados, de onde vem os dados para alimentar o DW, processos de extração, tratamento e rotinas de carga do dados. Ainda podem gerar metadados as regras de negócio da empresa e todas as mudanças que elas podem ter sofrido, e também a frequência de acesso aos dados.

Segundo Inmon os metadados englobam o DW e mantém as informações sobre o que está onde. Ele ainda define quais informações os metadados mantém:

  • A estrutura dos dados segundo a visão do programador;
  • A estrutura dos dados segundo a visão dos analista de SAD;
  • A fonte de dados que alimenta o DW;
  • A transformação sofrida pelos dados no momento de sua migração para o DW;
  • O modelo de dados;
  • O relacionamento entre o modelo de dados e o DW;
  • O histórico das extrações de dados;
  • Acrescentamos ainda os dados referentes aos relatórios que são gerados pelas ferramentas OLAP assim como os que são gerados nas camadas semânticas.

Os metadados podem surgir de vários locais durante o decorrer do projeto. Eles provêm de repositórios de ferramentas case, os quais geralmente já estão estruturados, facilitando a integração da origem dos metadados e o repositório dos mesmos. Essa fonte de metadados é riquíssima.

Outros dados que devem ser guardados no repositório de metadados, é o material que surgirá das entrevistas com os usuários. Destas entrevistas podem obter-se informações preciosas que não estão documentadas em nenhum outro lugar além de regras para validação dos dados após carregados no Data Warehouse.

Como pudemos ver, o volume de metadados gerados é muito grande. Existem hoje algumas ferramentas que fazem única e exclusivamente o gerenciamento dos metadados. Elas têm algumas características peculiares.

Falando de uma maneira simplista, essas ferramentas conseguem mapear o dado em todas as etapas de desenvolvimento do projeto, desde a conceitual até a de visualização dos dados em ferramentas OLAP/EIS.

Agora vamos discutir os desafios arquitetônicos mais complexos que surgem ao implementarmos um repositório de metadados que requer funcionalidade mais avançada. Enquanto a maioria dos repositórios não tentam implementar estas características, eles representam o tipo de funcionalidade que é exigida através das corporações.

As fontes metadados, (ferramentas de modelagem de dados, ferramentas de extração, transformação e carga, etc.) devem ser integradas no repositório por várias necessidades. Uma arquitetura de metadados bidirecional permite que os dados modificados na fonte possam ser alterados também no repositório automaticamente.

Esta arquitetura é altamente desejável por duas razões chaves. Primeiro: permite a essas ferramentas compartilhar metadados. Isto é desejável no mercado de ferramentas de apoio de decisão. A maioria das corporações que construíram um sistema de apoio a decisão não pensou na integração das ferramentas. Estas não são integradas, por isso, não se comunicam facilmente. Até mesmo essas ferramentas que podem ser integradas tradicionalmente requerem bastante programação manual para compartilhar dados.Segundo: metadados bidirecional é atraente para corporações que querem implementar um repositório de metadados em toda empresa.

Como vimos os metadados são importantíssimos para o sucesso de um DW. Ao começarmos qualquer projeto devemos sempre nos preocupar com os mesmos, pois são eles que servirão de bússula para nos guiar pelo emaranhado de tabelas, relatórios e dados quando estivermos perdidos.

O que é ETL?

Esta etapa é uma das fases mais criticas de um Data Warehouse, pois envolve a fase de movimentação dos dados. A mesma se dá basicamente em três passos, extração, transformação e carga dos dados, esses são os mais trabalhosos, complexos e também muito detalhados, embora tenhamos várias ferramentas (falaremos mais abaixo) que nos auxiliam na execução desse trabalho.
O primeiro passo a ser tomado no processo de ETL é simplesmente a definição das fontes de dados e fazer a extração deles. As origens deles podem ser várias e também em diferentes formatos, onde poderemos encontrar desde os sistemas transacionais das empresas até planilhas, flat files (arquivos textos) , dados que vem do grande porte e também arquivos do tipo DBF, do Dbase.
Definidas as fontes, partimos para o segundo passo que consiste em transformar e limpar esses dados. Mas o que afinal de contas o que é isso?
Bem vamos descrever de uma forma bem simples. Quando obtemos os dados de uma fonte, que na maioria das vezes é desconhecida nossa, e foi concebida ha muito tempo atrás, os mesmos possuem muito lixo e há muita inconsistência. Por exemplo. Quando um vendedor de linhas telefônicas for executar uma venda, ou inscrição, ele está preocupado em vender, e não na qualidade dos dados que está inserindo na base, então se por acaso o cliente não tiver o número do CPF a mão, ele cadastra um número qualquer, desde que o sistema aceite, um dos mais utilizados é o 999999999-99. Agora imagine um diretor de uma companhia telefônica consultar o seu Data Warehouse (DW) para ver quais são os seus maiores clientes, e aparecer em primeiro lugar o cliente que tem o CPF 999999999-99 ? Seria no mínimo estranho. Por isso, nessa fase do DW, fazemos a limpeza desses dados, para haver compatibilidade entre eles.

Além da limpeza, temos de fazer na maioria das vezes uma transformação, pois os dados provêm de vários sistemas, e por isso, geralmente uma mesma informação tem diferentes formatos, por exemplo: Em alguns sistemas a informação sobre o sexo do cliente pode estar armazenada no seguinte formato : “M” para Masculino e “F” para Feminino, porém em algum outro sistema está guardado como “H” para Masculino e “M” para Feminino e assim sucessivamente. Quando levamos esses dados para o DW, deve-se ter uma padronização deles, ou seja, quando o usuário for consultar o DW, ele não pode ver informações iguais em formatos diferentes, então quando fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme sugerido pelo próprio usuário. No DW, teremos somente M e F, fato esse que facilitará a análise dos dados que serão recuperados pela ferramenta OLAP.

Além desses exemplos acima, nós podemos integrar todas fontes de dados num único banco. Com isso não existirão mais “ilhas” de dados, mas sim teremos informações ricas e totalmente integradas.

Como o volume de dados é muito grande, há muitos casos que não temos condições de processar as extrações e transformações na janela de tempo em que o DW não está sendo usado, então temos de fazer uso do que chamamos de staging área (ver mais detalhes) para conseguirmos executar os processos com sucesso.

A seguir são apresentados alguns dos fatores que devem ser analisados antes de começar a fase de extração dos dados:

  • A extração de dados do ambiente operacional para o ambiente de data warehouse demanda uma mudança na tecnologia. Os dados são transferidos de bancos de dados hierárquicos, tal como o adabas, ou de bases do grande porte, como o DB2, para uma nova estrutura de SGBD relacional para Data Warehouse, tal como o Sap Sybase IQ, DB2 UDB, Oracle, Teradata e etc;
  • A seleção de dados do ambiente operacional pode ser muito complexa, pois muitas vezes é necessário selecionar vários campos de um sistema transacional para compor um único campo no data warehouse;
  • Outro fator que deve ser levado em conta é que dificilmente há o modelo de dados dos sistemas antigos, e se existem não estão documentados;
  • Os dados são reformatados. Por exemplo: um campo data do sistema operacional do tipo DD/MM/AAAA pode ser passado para o outro sistema do tipo ano e mês como AAAA/MM;
  • Quando há vários arquivos de entrada, a escolha das chaves deve ser feita antes que os arquivos sejam intercalados. Isso significa que se diferentes estruturas de chaves são usados nos diferentes arquivos de entrada, então deve-se optar por apenas uma dessas estruturas;
  • Os arquivos devem ser gerados obedecendo a mesma ordem das colunas estipuladas no ambiente de data warehouse;
  • Podem haver vários resultados. Dados podem ser produzidos em diferentes níveis de resumo pelo mesmo programa de geração das cargas;
  • Valores default devem ser fornecidos. As vezes pode existir um campo no data warehouse que não possui fonte de dados, então a solução é definir um valor padrão para estes campos.

O data warehouse espelha as informações históricas necessárias, enquanto o ambiente operacional focaliza as informações pontuais correntes.
A parte de carga dos dados também possui uma enorme complexidade, e os seguintes fatores devem ser levados em conta:

  • A parte de Integridade dos dados. No momento da carga é necessário checar os campos que são chaves estrangeiras com suas respectivas tabelas para certificar-se de que os dados existentes na tabela da chave estrangeira estão de acordo com a tabela da chave primária;
  • Se a tabela deve receber uma carga incremental ou a carga por cima dos dados. A carga incremental normalmente é feita para tabelas fatos e a carga por cima dos dados é feita em tabelas dimensões onde o analista terá que deletar os dados existentes e incluí-los novamente. Mas em alguns casos poderá acontecer que as tabelas de dimensões tem de manter o histórico, então o mesmo deverá ser mantido (slowly change dimension);
  • Apesar de existirem ferramentas de ETL como o SSIS (Sql Server Integration Services) Data Stage, Business Objects Data Integrator e o Informática PowerCenter, ainda tem-se a necessidade de criar rotinas de carga para atender determinadas situações que poderão ocorrer. Pode ser em shell script, SQL puro ou em C, quando necessita-se de performance.

As ferramentas de ETL mais utilizadas no mercado são o Data Stage da IBM, o PowerCenter da Informática, O SSIS – SQL Server Integration Services da Microsoft, Pentaho (Open Source), Talend (Open Source), Sap Data Integrator ou Data Services e o ODI – Oracle Data Integrator da Oracle. Todos tem os seus diferenciais e cada um poderá ser utilizado dependendo do caso de cada empresa. Algumas ferramentas tem a curva de aprendizado mais suave, outras um pouco mais íngrime, mas em certos casos mesmo sendo uma ferramenta de difícil aprendizado exigindo maiores investimentos em pessoal, serão compensados com a performance e flexibilidade da mesma. Há outras ferramentas que tem custo zero de aquisição pois, vem embutida junto com um SGBD (Sistema Gerenciador de Banco de Dados) e tem as open source que, dependendo do porte do projeto, podem atender satisfatoriamente.

O que vale dizer é que uma ferramenta de ETL tem grande valia, principalmente se os sistemas OLTP (transacionais) são muitos, pois elas são uma poderosa fonte de geração de metadados, e que contribuirão muito para a produtividade da sua equipe, porém deve-se tomar muito cuidado ao escolhe-la. Seja minucioso, teste o máximo de ferramentas que puder e veja qual é a mais adequada ao seu caso, pois elas exigem um alto investimento, tanto em capacitação, quanto na própria aquisição. Em alguns casos é interessante o auxílio de profissionais externos para a escolha. O fato verdadeiro é que os benefícios serão bastante vistosos e a produtividade aumentará consideravelmente.