数据开发技术方向主要有数据仓库、在线分析处理(OLAP)以及数据挖掘三部分组成。
一、数据仓库:架构
1.数据仓库 Data Warehouse,DW
数据仓库是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
2.数据集市
①数据集市 Data Mart,DM
②操作集市 Oper Mart
3.ODS 操作数据存储Operational Data Storage,ODS
4.ETL Extract-Transform-Load
一、数据仓库:抽象
1.主题
①主题Subject
②主题域Subject Area
2.主体
3.模型
①模型Model
②数据模型Data Model
③业务数据模型Business Data Model
④逻辑数据模型Logical Data Model,LDM
⑤物理数据模型Physical Data Model,PDM
⑥实体Entity
⑦关系RelatIOShip
⑧属性Attribute
⑨实体关系Entity Relationship,ER
⑩事实Fact
⑪维度Dimension
⑫维的层次Hierarchy of Dimension
⑬维的级别Level of Dimension
⑭维的成员Level of Dimension
⑮业务过程Business Process
⑯度量Measure
⑰指标Metric
⑱指示器Indicator
⑲粒度Grain
⑳度量值Measures
一、数据仓库:建模
1.模型查询
①即席查询Ad Hoc Queries
②冰山查询 Iceberg Query
③交叉探察 Drill Across
④实体建模Entity Modeling
⑤范式建模Third Normal Form,3NF
⑥维度建模Dimensional Modeling、总线架构Bus Architecture、一致性维度Comformed Dimension、一致性事实Comformed Fact
2.事实表
①事实表Fact Table
以粒度的不同来化分,事实表可以分为三类,分别是事务粒度事实表,周期快照粒度事实表和累积快照粒度事实表。
①事务粒度事实表Transaction Grain Fact Table
②周期快照粒度事实表Periodic Snapshot Grain Fact Table
③累积快照粒度事实表AccumulatingSnapshot Grain Fact Table
以用途的不同来化分,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。
①原子事实表Atom Fact Table
②聚集事实表Aggregated Fact Table
③合并事实表Consolidated/Merged Fact Table
其他类型事实表
①非事实型事实表Factless Fact Table
②蜈蚣事实表Centipede Fact Table
③旋转事实表Pivoted Fact Table
④切片事实表Sliced FactTable
⑤稀疏事实表Sparse Facts
3.维度表
①维度表Dimension Table
②代理关键字 Surrogate Key
③缓慢变化维度SlowlyChanging Dimension SCD
④退化维度Degenerate Dimension
⑤微型维度-Minidimension
⑥多值维度Multivalue Dimension
⑦角色模仿维度RolePlayingDimensions
⑧杂项维度Junk Dimension
4.宽表
宽表Wide table
在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。
星型模式:星型模式StarSchema
雪花模式:雪花模式SnowflakeSchema
星座模式:事实星座模式FactConstellation或星系模式galaxy schema
5.数据分析 BI
商业智能BusinessIntelligenceBI
OLTP
联机事务处理Online Transaction Processing,OLTP
OLAP
①大规模并行计算框架Massively Parallel Processing,MPP
②联机分析处理OLAPOnlineAnalytical Processing,OLAP
③MOLAP
④ROLAP
⑤HOLAP
6.多维分析
①多维分析MultidimensionalAnalvsis
②立方体Cube
③钻取 Drill Down
④上卷Roll Up
⑤切片Slice
⑥切块(Dice
⑦旋转Pivot
二、数据挖掘:机器学习
①机器学习machineLearning
②标签Lable
③特征Feature
④样本Example
⑤模型Model
⑥策略Strategy
⑦算法Algorithm
⑧监督学习Supervised Learning
⑨回归Regression
⑩分类Classification
⑪无监督学习Unsupervised Learning
三、深度学习
深度学习DeepLearning