随笔-关于元数据

 
 

iAmFisher 通过 Google 阅读器发送给您的内容:

 
 

于 09-1-19 通过 淘宝数据平台团队 作者:正德


    数据仓库的规模越大,元数据就越能体现出它的作用。就像一本书,如果内容不多,有无目录影响不大,
如果厚达几百页而又没有目录,页码,那么使用这本书简直是受罪。
日常生活也是如此,到处是元数据带给我们的便利。想想我们去图书馆,音像店,甚至是餐馆点菜的菜谱。。。

  ETL方面,元数据一样重要。有些公司在一开始就依赖工具。这样入口统一,规则也统一,所以元数据收集比较方便,准确。
也有一些公司是先CODING的方式,这在几年前比较常见。由于那时候公司管理者还不知道数据仓库能带来的价值,
往往是抱着先试试看的态度。而coding的优点就是灵活,效率高,前期投入少。
往往经过N年的发展后,问题也会出来,尤其是在一些业务高速发展的公司。后期会变得维护困难,维护的成本很大。
而且小组成员越来越多,CODING风格不一,随意性较大,互相维护起来更不易。

  这时候,就需要一次彻底整理。从底层几十万行代码中,提炼出核心的步骤,
比如
a、模块间的调度关系,可以直观知道一个模块是放在哪个模块调度的,那个模块的源头又有哪些模块。
b、表与表间的转换关系,一个事实表,它是由哪些事实表计算得来的。又有哪些表是依赖它生成的。
再细下去可到字段级别。如a表的b字段,是从c表的d字段,经过sum()得来的。
但个人觉得,要实现字段级别,前提是已经存在较严格的编码规范并严格遵守。否则,想实现这个难度还是很高的,
除非你是想手工一行行的整理,那就没有难度可言,只是时间问题。

    但,不管难度怎么样,要花多少时间,一旦成功做出来,效果将是非常可喜的,你也一定会觉得很值得。

 
 

可从此处完成的操作: