Muitas organizações querem compartilhar conjuntos de dados em toda a empresa, mas dar os primeiros passos pode ser um desafio. Esses desafios variam de questões puramente técnicas, como formatos de dados e APIs, a culturas organizacionais nas quais os gerentes resistem ao compartilhamento de dados que eles sentem próprios. Governança de dados é um conjunto de práticas que permitem que os dados criem valor dentro de uma empresa. Ao lançar uma iniciativa de governança de dados, muitas organizações optam por aplicar as melhores práticas, como as coletadas no corpo de conhecimento da Associação de Gerenciamento de Dados (DAMA-BOK) . Embora essas práticas definam um estado final desejável, nossa experiência é que tentar aplicá-los amplamente em toda a empresa como um primeiro passo pode ser disruptivo, caro e lento para fornecer valor. Em nosso trabalho com várias organizações industriais e governamentais, pesquisadores do SEI desenvolveram uma abordagem incremental para o lançamento de governança de dados que oferece retorno imediato. Esta publicação destaca nossa abordagem, baseada em seis princípios.

1. Um conjunto de dados produz benefícios somente quando é usado para tomar decisões.

Se aplicarmos as melhores práticas, por exemplo, limpe um conjunto de dados, publique seu esquema, atribua um administrador de dados e camada em uma API aberta, mas ninguém nunca usa o conjunto de dados, então não produzimos nenhum benefício direto. Decisões e ações produzem benefícios, e até que usemos um conjunto de dados para apoiar a tomada de decisões, está apenas incorrendo em custos. (Nós reconhecemos que um conjunto de dados que está “pronto para ir” possui o valor da opção , mas esse não deve ser o foco inicial da governança de dados).

2. Valor  Σ benefícios – Σ custos

O valor de um conjunto de dados é a soma dos benefícios que ele produz (ou seja, os benefícios das decisões que o conjunto de dados suporta) menos a soma dos custos para usar o conjunto de dados. Obviamente, queremos que esse valor seja positivo.

3. Os dados têm uma cadeia de valor

A cadeia de valor para um conjunto de dados tem quatro partes móveis, como mostrado aqui:

Klein_datagovernance_figure1.png

A primeira parte é o produtor de dados, que pode ser um sensor, fonte aberta ou outro sistema. Em seguida, um editor adquire o conjunto de dados, o armazena e o torna acessível dentro da empresa. Um consumidor desenvolve uma aplicação de suporte à decisão ou analítica que usa o conjunto de dados e um Decision-Maker usa o aplicativo para tomar decisões. Existem variações, em que uma única entidade desempenha mais de uma função.Por exemplo, o Produtor também pode publicar, ou o Consumidor também pode ser o Tomador de Decisão.

Para o nosso alcance de compartilhamento de dados dentro de uma empresa, em quase todos os casos, as três primeiras partes apenas envolvem custos e benefícios são produzidas apenas pelo Decision-Maker.

Klein_datagovernance_figure2.png

Nós vamos nos concentrar no Publisher e no Consumidor. Em muitos casos, o Produtor está fora do alcance de nossa autoridade, e o Decision-Maker está executando um processo comercial ou de missão que também está fora de nossa autoridade. Nos concentraremos em coisas que podemos controlar.

Klein_datagovernance_figure3.png

No caso de existir apenas um único editor e um único Consumidor, as coisas são fáceis de gerenciar. Existe uma única cadeia de valor. O conjunto de dados pode ser re-formatado, limpo ou enriquecido, mas geralmente o Editor e o Consumidor podem concordar sobre como dividir os custos associados ao uso do conjunto de dados.

Por outro lado, quando há múltiplos Consumidores, cada um com diferentes necessidades do conjunto de dados, o problema torna-se mais desafiador. Temos o potencial de duplicação de esforços por Consumidores, por exemplo, se cada Consumidor deve remover registros duplicados no conjunto de dados. Alternativamente, o Editor pode negociar acordos separados com cada Consumidor para entregar uma versão personalizada dos dados ou uma API diferente, que duplica o trabalho do Editor. Estes custos decorrentes da duplicação de esforços reduzirão o valor que produzimos com a utilização dos dados. Para minimizar esses custos, precisamos ter uma perspectiva mais ampla.

4. Governança restringe o Data Publisher para ajudar os consumidores de dados

A governança atribui responsabilidades e limita a liberdade. Nesse caso, restringimos o Publisher para entregar o conjunto de dados de uma forma que seja melhor para todos osConsumidores. Fazemos isso analisando a cadeia de valor através de todos os Consumidores e alocando responsabilidades (e, portanto, custos) entre o Editor e os Consumidores para maximizar o valor total produzido por todas as utilizações do conjunto de dados.

A Governança se manifesta na Arquitetura Empresarial de uma organização como padrões, padrões e políticas, e é revisada como parte do processo de engenharia de software da organização – por exemplo, nas revisões da fase-portão.

A governança precisa de autoridade – fazer regras que ninguém segue incorrer apenas em custos, sem benefícios de compensação e, portanto, produz valor negativo.

A restrição do editor pode reduzir os custos do editor, por exemplo, reduzindo os tipos de interfaces, restringindo os requisitos de compatibilidade com versões anteriores para uma interface ou restringindo as opções de tecnologia. No entanto, as restrições geralmente aumentam os custos do editor, por exemplo, exigindo uma transformação de esquema, maior qualidade de dados ou maior disponibilidade. Essas melhorias ajudam os Consumidores a reduzir seus custos para usar os dados. As melhorias também reduzem a duplicação de trabalho em todos os Consumidores, aumentando assim o valor total.

5. Aplicar governança somente quando aumenta o valor (benefícios> custos)

Não precisamos governar todos os conjuntos de dados na empresa. De fato, se a empresa tiver trocas únicas entre um único editor e um único consumidor, então, investir na governança de dados pode não valer a pena porque os custos superam os benefícios.

6. Concentre sua governança nas coisas que os consumidores de dados desejam

Governança restringe o editor. Devemos adaptar essas restrições para cada conjunto de dados. Um conjunto de dados pode justificar um investimento significativo na melhoria da qualidade dos dados, enquanto outro conjunto de dados pode simplesmente ser armazenado em um cluster Hadoop .

Para se concentrar nos dados que os Consumidores querem, criamos uma estrutura de cinco partes do Consumer Consumer Data para categorizar suas preocupações. As categorias de estrutura fornecem uma lista de verificação e, para cada categoria, fornecemos algumas perguntas típicas de que um consumidor de dados precisaria responder para efetivamente usar um conjunto de dados.

Klein_datagovernance_figure4.png

Primeiro, os consumidores precisam saber quais dados estão disponíveis e se esse conjunto de dados é apropriado para seu uso:

  • Existem restrições no uso de dados?
  • Será que o conjunto de dados estará disponível enquanto eles o precisarem? O conjunto de dados precisa passar esses testes antes de passar para a próxima categoria.

A segunda categoria (Data Set Semantics) aborda preocupações sobre o significado do conjunto de dados completo:

  • Qual informação representa?
  • De onde veio?
  • Depende ou complementa outros conjuntos de dados.

A terceira categoria enfoca o significado e a estrutura de cada registro no conjunto de dados.

A quarta categoria abrange as preocupações sobre o acesso ao conjunto de dados, como é alcançável, quais são os protocolos de interface e as APIs e como o acesso é controlado.

Finalmente, os consumidores estão preocupados com a qualidade do serviço. Os conjuntos de dados que eles usam devem ser entregues com disponibilidade e desempenho consistente com os requisitos para os aplicativos que eles estão construindo.

Um catálogo de dados corporativos é um mecanismo para capturar e comunicar essas informações sobre conjuntos de dados dentro da empresa. O catálogo de dados é um repositório que contém informações sobre os conjuntos de dados (ou seja, metadados ) que estão disponíveis na empresa. Existem produtos comerciais que implementam catálogos de metadados; No entanto, a versão inicial do catálogo poderia ser implementada usando qualquer tecnologia leve que ofereça suporte à busca ou triagem, como um wiki, site do SharePoint ou mesmo uma planilha compartilhada. Se você começar com uma implementação leve, você pode decidir quais recursos e escala você precisa e migrar para um produto comercial, se necessário.

Recomendamos que você adote uma abordagem ágil para construir seu catálogo – pense ” produto mínimo viável “. Comece com atributos de Existência e Adequação e adicione outros que possam ser relevantes e úteis. Para cada um, equilibre o benefício contra o custo.

Um Playbook para Governança de Dados

Combinamos os seis princípios discutidos acima para criar um livro didático para governança leve de dados:

Passo 1 : Identifique suas decisões de alto benefício. Essas decisões podem ser infreqüentes, mas de alto impacto, alta freqüência, mas baixo impacto, ou algo intermediário.

Etapa 2 : identifique os conjuntos de dados que suportam suas decisões de maior benefício.

Passo 3 : para cada um desses conjuntos de dados, identifique a relação produtor-consumidor. Se for uma relação de um para um, pouca ou nenhuma governança pode ser necessária. Se for um para muitos ou muitos para muitos, a governança pode aumentar o valor.

Passo 4 : quais restrições você deve impor ao Produtor? Como os dados Consumidores precisam se adaptar? Utilize a estrutura de Preocupação do consumidor de dados descrita acima para identificar possíveis ações de governança. Em cada ponto, equilibre o custo e o benefício para manter o valor positivo.

Etapa 5 : Repita as etapas 2, 3 e 4 para cada decisão de alto benefício identificada na Etapa 1.

Etapa 6 : Revise periodicamente sua lista de decisões de alto benefício para mudanças e introduza ou remova restrições de governança usando o valor definido de dados para orientar a tomada de decisões.

Empacotando

A abordagem incremental e orientada por valores para a governança de dados coberta neste post do blog permite que as organizações minimizem a interrupção e fricção que inibem as tentativas de compartilhar conjuntos de dados dentro de uma empresa. A adoção ampla das melhores práticas acabará por ser benfica, mas a abordagem discutida aqui pode ajudá-lo a dar os primeiros passos.

deixe os seus comentários na seção de comentários abaixo.

Anúncios