DW

数据仓库基础

Posted by owl city on May 2, 2022
  • Create Date: 2022-05-02
  • Update Date: 2022-05-02

数据仓库基础知识

  1. 什么是数据仓库 以数据建模理念为基础,以消除数据孤岛为目的,通过一系列标准方法和工具,解决大数据计算中如质量、复用、扩展、成本等问题,驱动业务发展。

  2. 数据仓库特点 面向主题的,继承的,稳定的,反应历史变化

  3. 六大概念 3.1 分层

    • 为了解耦合、分布执行、降低出问题的风险
    • 空间换时间,使用预计算换取数据使用的高效性
    • 方便快速定位问题

3.2 分域

  • 主题域:面向分析的,通常是联系较为紧密的数据主题的集合
  • 数据域:一类业务活动单元的集合,如日志、交易等

3.3 分类 如元数据、主数据、参考数据等

3.4 维度 由独立不重叠的数据元素组成的数据集,所构成的可进行统计的对象。即我们观察某一事务的一个角度

3.5 粒度 事实表中一条记录所表达的业务细节程度

3.6 事实

  1. OneData体系 OneData体系是阿里数据中台的核心方法论,其包含了三个方面内容:OneModel 即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径规范和统一,实现数据资产全链路管理,提供标准数据输出。OneID 即建立业务实体要素资产化为核心,实现全域链接、标签萃取、立体画像,其数据服务理念根植于心,强调业务模式。OneService 即数据被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过统一的接口服务化方式对外提供数据服务。

  2. 模型调优 5.1 完善度: 应用层访问汇总层数据的查询比例、跨层应用率、是否可以快速响应业务方的需求

5.2 复用度:模型引用系数->模型被读取并产出下游模型的平均数量

5.3 规范度:主题域归属、分成信息、命名规范、表&字段命名

5.4 稳定性:SLA保证

5.5 扩展性:模型是否有冲突

5.6. 准确性&一致性:数据质量保证

5.7 健壮性:底层模型不受快速迭代的业务影响

5.8 低成本