生意数仓的搭建【转发】彩世界彩票注册平台官
分类:彩世界彩票注册平台官网

统计模型:大部分实际工作中使用的数据分析模型都要使用统计学,也可以叫做统计模型。

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)

2.3数据报表:

大数据:大数据,并不仅仅指海量的数据,其还有四大特点,4V,分别是Volume、Variety、Velocity、Value。

非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)
约在1991年前的全企业集成
1991年后的企业数据集成EDW时代
1994年-1996年的数据集市
1996-1997年左右的两个架构吵架
1998年-2001年左右的合并年代

彩世界彩票注册平台官网 1

数据标准:是基于业务、管理、技术等需要而对数据属性制订的标准,是为了规范数据语言,使同一数据语言可以在不同系统中运用或使用,也可以在不同部门间进行沟通。

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。

报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

一、数字、数据、信息

彩世界彩票注册平台官网 2

数据仓库:

数据平台:是信息系统相对应的,信息系统侧重于信息和系统,而数据平台侧重于为企业人员提供某种服务。例如钻井平台,是石油工人在这个平台进行工作,而钻井平台本身也是一种物理和信息系统。

Apache Beam 大规模流处理

1.元数据管理

数据规范:是一个范围更宽泛的概念,例如制订数据标准也是数据规范的一种,如何规范数据使其可以在报表分析中使用也是一种规范。

2.数据仓库:

八、数据模型、数据分析模型、统计模型

(点击放大图像)
[图片上传中。。。(10)]
数据仓库第二代架构
(点击放大图像)

2.1数据模型:

七、数据平台、大数据平台、数据服务平台

彩世界彩票注册平台官网 3

1.面向主题的,按照一定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。

数据源:指的是数据的来源,数据源的主语在“源”上,也就是产生数据的地方。而源数据的主语是“数据”,也就是从源头产生的数据。

3.数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操作主要是数据的查询;

尽管已经来到大数据时代,大数据审计已经提出好几年,但真正开展大数据审计的审计组织并不多,甚至很多审计人员对与大数据审计相关的基础概念也不了解。下面介绍8组概念,供大家参考,也欢迎大家留言进行补充和指正。

通过上图,我们能够很容易的看出在整个数据仓库的建模过程中,我们需要经历一般四个过程:

在我们开拓新的审计领域时,对一些概念的理解是非常重要的,对概念正确的理解会影响到今后工作的方向,反之,错误的理解会导致错误的方向。方向错了,即使做再多的技术性工作,离目标越来越远的可能性就会越大。

彩世界彩票注册平台官网 4

3.可扩展性:主要体现在数据建模的合理性。

数据工厂:数据工厂可以对数据加工,可以根据客户的的需求来定制不同的数据产品。

(点击放大图像)

数据模型的建设,维度的选择,是为了满足数据主题的需求。数据主题通常就是业务需求的提炼。

数据集市:数据集市中的数据可以被多个部门的人员直接使用,数据集市中的数据来源于不同的信息系统。

各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。

2.数据质量:由于数据仓库流程通常分为多个步骤,包括数据清洗,转换,装载等,那么由于脏数据会导致数据失真,就可能导致做出错误的决策。

数据元:就是数据元素,也可以理解为抽象化的数据项,目的是把一项项数据进行抽象、定义、规范,形成基础元素,以便在报表中组合使用。

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

彩世界彩票注册平台官网 5

六、数据集市、数据仓库、数据工厂

很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?
我们先来看用户群体的区别,下边整理了2个图来讲述用户群体相关区别。
一、用户群体
非互联网数据平台用户:
(点击放大图像)

数据仓库有如下要求:

二、数据源、数据元、元数据

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)

彩世界彩票注册平台官网 6

数据模型:是指数据的结构和关系,分逻辑模型和物理模型,逻辑模型指的是数据的逻辑关系,物理模型可以理解为数据库的表结构。数据模型侧重于系统设计和实施。

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——数据获取、数据仓库、数据应用:

信息:信息是对物质世界和精神世界的一种可以传递的描述。信息可以是反映物质世界的,例如人们所了解到的地球绕太阳一周的时间、万有引力定理等。信息也可以是反映人们精神世界的,例如某位思想家的思想理论等。信息往往是人类可以识别和理解的。信息可以是真的信息,也可以是假的信息;信息可以是有用的信息,也可以是无用的信息。信息往往通过数字、数据、文字、图像、视屏等形式传递和储存。

回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。
数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

因此,在整个数据仓库的模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术,我们既需要了解丰富的行业经验,同时,也需要一定的信息技术来帮助我们实现我们的数据模型,最重要的是,我们还需要一个非常适用的方法论,来指导我们自己针对我们的业务进行抽象,处理,生成各个阶段的模型。

数据管理:主要侧重于对不同数据流的具体管理,涵盖数据的安全、质量、标准、需求分析等内容。

彩世界彩票注册平台官网 7

数据主题

大数据平台:根据大数据特征打造的平台,不是所有的数据平台都能叫做大数据平台。

      数据仓库有以下特点:

数据分析模型:侧重于业务应用和决策支持,是基于某些应有场景的算法。数据分析模型通过输入大量的历史数据,通过既定算法和参数获得对决策有参考意义的分析结果。

很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?
我们先来看用户群体的区别,下边整理了2个图来讲述用户群体相关区别。
一、用户群体
非互联网数据平台用户:
(点击放大图像)

数据报表示例

四、数据管理、数据管控、数据治理

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

业务建模,生成业务模型,主要解决业务层面的分解和程序化。

数据仓库:数据仓库里的数据虽然有一定的规则进行存放,但往往要通过专门的人员来进行存放或取数。一般情况下,数据仓库里的数据要拿到数据集市才能被大家使用。

很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?
我们先来看用户群体的区别,下边整理了2个图来讲述用户群体相关区别。
一、用户群体
非互联网数据平台用户:
(点击放大图像)

领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。

数字:狭义的数字是数学上的,但在信息技术中,数据、信息、图像、视屏等都可以数字形式储存在计算机、储存器中。

1.效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高。

数据服务平台:为业务部门提供数据服务的平台,更侧重于数据的应用。

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。

彩世界彩票注册平台官网 8

彩世界彩票注册平台官网 9

数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

数据模型的层次划分

基础数据:是企业生产经营中直接产生的,未经加工过的基础性数据,如客户基础数据。

元数据(Meta Date),其实应该叫做解释性数据,或者数据字典,即数据的数据。主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

五、数据标准、数据规范、数据字典

Apache Beam 大规模流处理

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程。ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

三、基础数据、衍生数据、主数据

彩世界彩票注册平台官网 10

2.4数据集市和开放API

数据:数据的范畴比数字大得多,数据不仅包括数字,在互联网时代,还包括文字、图像乃至视频。数据可以被计算机收集、储存、分析,可以通过互联网进行传递。数据可以承载信息,但数据承载的信息并不一定都是有意义的信息。

彩世界彩票注册平台官网 11

       商业数仓的目的是为了构建面向分析的集成化数据环境,为企业的决策提供支持(Decision Support)。数据仓库之所以是仓库而不是工厂是因为,数仓自身不需要生产数据,也不需要消费数据,数据来自外部,并且开发给外部应用。

数据字典:是更侧重于某一系统的技术属性的标准,如SAP系统有其自身的数据字典。

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。

主数据:企业有不同的业务、财务等信息系统,只有那些可以交互、共享的关键数据才称为主数据。

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。

开放API,指对外开放的查询等接口。

数据治理:是站在企业更高的角度,从全局出发,以组织架构、体系入手,对数据进行顶层的设计。

Apache Beam 大规模流处理

1、提升数据准确性:因为建立面向主题的数据表之后,不用再根据需求的不同,建立不同的结果表,自然发生错误的几率会大大降低

衍生数据:与基础数据相对应,是按照一定规则对基础数据进行加工、计算后产生的数据,不是通过业务前台直接采集的。

1.数据获取:

数据管控:侧重于对数据的控制,例如数据安全控制、质量控制等等。

彩世界彩票注册平台官网 12

物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。

元数据:就是最原始、最基础的数据,也就是数据的数据。

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来
这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。
数据的ETL 采用datastage 工具开发(备注 大约06年我写了国内最早的版本datastage 指南 大约190页叫“datastage 学习版文档”。后来没再坚持下来)。
数据集市架构
(点击放大图像)
[图片上传中。。。(12)]
(点击放大图像)
[图片上传中。。。(13)]
这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。
数据仓库混合性架构(Cif)
(点击放大图像)
[图片上传中。。。(14)]
(点击放大图像)

2、提升效率:由于是面向主题的,所以需要的任何数据都可以从数据集市表直接简单获取。

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

数据仓库的结构

2.2数据主题:

(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

数据质量中心:

(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)

这里的数据汇总指的是基于特定需求的简单汇总(基于多维数据的聚合体现在多维数据模型中),简单汇总可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接地展示于报表上。

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

2.数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工和集成之后,进入数据仓库。

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来
这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。
数据的ETL 采用datastage 工具开发(备注 大约06年我写了国内最早的版本datastage 指南 大约190页叫“datastage 学习版文档”。后来没再坚持下来)。
数据集市架构
(点击放大图像)

数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型

五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论(备注:坛子里有个叫吴君,他发表了不少这方面的文章)。
在国内项目实施中IBM、Terdata、埃森哲、菲奈特(被东南收购,东南后来某些原因而倒闭)等很多专业厂商在实施中对ODS层、EDW层都赋予了各种不同的功能与含义(备注:在后边的架构案例解)。
在数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
我整理了一个表格是这两位大师优缺点:
(点击放大图像)

逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。

相关赞助商

对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,其他是网站内外部可能其它各类对于公司决策有用的数据。

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
如何通过使用 AWS对IT资源实现高级别管控,并大规模实现更高级别的安全性?

转自 : 链接:

(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(一):非互联网时代 • 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。

数据集市(Data Mart) ,也叫数据市场,可以理解为字段非常多的宽表,比如销售表,除了包含订单和金额等必需的字段,还包含可能使用的产品信息集合、用户信息集合、甚至销售人员的信息,是数据仓库的核心组成部分。

Apache Beam 大规模流处理

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

彩世界彩票注册平台官网 13

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)

数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

彩世界彩票注册平台官网 14

(点击放大图像)
[图片上传中。。。(10)]
数据仓库第二代架构
(点击放大图像)

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(一):非互联网时代 • 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。

这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。
回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。
ODS层 支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。
EDW层基于IIW(IBM的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。
各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。
新一代架构OPDM 操作型数据集市(仓库)
OPDM大约是在2011年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。
在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在2016年的今天看来OPDM在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。
下篇,我们将讲述非互联网数据平台的核心数据模型。敬请关注;
关于作者
松子(李博源) ,自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。
//
我所经历的大数据平台发展史(一):非互联网时代 • 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。

非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)
约在1991年前的全企业集成
1991年后的企业数据集成EDW时代
1994年-1996年的数据集市
1996-1997年左右的两个架构吵架
1998年-2001年左右的合并年代

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然Bill inmon与 Ralph kilmball的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。
(点击放大图像)
[图片上传中。。。(6)]
数据仓库第一代架构
(开发时间2001-2002年)
海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
功能:进销存分析、闭环控制分析、工贸分析等
硬件环境:
业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央数据库服务器:4EXON,2G,480GSCSI
OLAP 服务器:2PIV1GHZ,2G,240GSCSI
开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

彩世界彩票注册平台官网 15

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)

相关赞助商

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然Bill inmon与 Ralph kilmball的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。
(点击放大图像)
[图片上传中。。。(6)]
数据仓库第一代架构
(开发时间2001-2002年)
海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
功能:进销存分析、闭环控制分析、工贸分析等
硬件环境:
业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央数据库服务器:4EXON,2G,480GSCSI
OLAP 服务器:2PIV1GHZ,2G,240GSCSI
开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

彩世界彩票注册平台官网 16

彩世界彩票注册平台官网 17

彩世界彩票注册平台官网 18

Apache Beam 大规模流处理

彩世界彩票注册平台官网 19

五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论(备注:坛子里有个叫吴君,他发表了不少这方面的文章)。
在国内项目实施中IBM、Terdata、埃森哲、菲奈特(被东南收购,东南后来某些原因而倒闭)等很多专业厂商在实施中对ODS层、EDW层都赋予了各种不同的功能与含义(备注:在后边的架构案例解)。
在数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
我整理了一个表格是这两位大师优缺点:
(点击放大图像)

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

相关赞助商

彩世界彩票注册平台官网 20

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

相关赞助商

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

彩世界彩票注册平台官网 21

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。

(点击放大图像)

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
分析师参与数据平台直接建设比重增加。
原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)

从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
(点击放大图像)

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

互联网数据平台用户:
(点击放大图像)

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

彩世界彩票注册平台官网 22

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来
这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。
数据的ETL 采用datastage 工具开发(备注 大约06年我写了国内最早的版本datastage 指南 大约190页叫“datastage 学习版文档”。后来没再坚持下来)。
数据集市架构
(点击放大图像)
[图片上传中。。。(12)]
(点击放大图像)
[图片上传中。。。(13)]
这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。
数据仓库混合性架构(Cif)
(点击放大图像)
[图片上传中。。。(14)]
(点击放大图像)
[图片上传中。。。(15)]
这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。
回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。
ODS层 支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。
EDW层基于IIW(IBM的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。
各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。
新一代架构OPDM 操作型数据集市(仓库)
OPDM大约是在2011年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。
在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在2016年的今天看来OPDM在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。
下篇,我们将讲述非互联网数据平台的核心数据模型。敬请关注;
关于作者
松子(李博源) ,自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。

相关赞助商

彩世界彩票注册平台官网 23

各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。

在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

彩世界彩票注册平台官网 24

彩世界彩票注册平台官网 25

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)

彩世界彩票注册平台官网 26

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
如何通过使用 AWS对IT资源实现高级别管控,并大规模实现更高级别的安全性?

回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。
数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

相关赞助商

(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 复杂类型数据基础上的大分析、高宽带、大内容)。
数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

Apache Beam 大规模流处理

(点击放大图像)

平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8届双11容量规划这样设计



相关赞助商

彩世界彩票注册平台官网 27

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
分析师参与数据平台直接建设比重增加。
原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。

五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论(备注:坛子里有个叫吴君,他发表了不少这方面的文章)。
在国内项目实施中IBM、Terdata、埃森哲、菲奈特(被东南收购,东南后来某些原因而倒闭)等很多专业厂商在实施中对ODS层、EDW层都赋予了各种不同的功能与含义(备注:在后边的架构案例解)。
在数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
我整理了一个表格是这两位大师优缺点:
(点击放大图像)

互联网数据平台用户:
(点击放大图像)


彩世界彩票注册平台官网 28

企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
用户面对是结构化生产系统数据源。

彩世界彩票注册平台官网 29

企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
用户面对是结构化生产系统数据源。

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

Apache Beam 大规模流处理

企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
用户面对是结构化生产系统数据源。

在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。
(点击放大图像)

该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

彩世界彩票注册平台官网 30

[图片上传中。。。(2)]
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较为严谨的数据模型关系图:
(点击放大图像)
[图片上传中。。。(3)]
数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

彩世界彩票注册平台官网 31

互联网数据平台用户:
(点击放大图像)

彩世界彩票注册平台官网 32

彩世界彩票注册平台官网 33

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

彩世界彩票注册平台官网 34

相关赞助商

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
(点击放大图像)

彩世界彩票注册平台官网 35

非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)
约在1991年前的全企业集成
1991年后的企业数据集成EDW时代
1994年-1996年的数据集市
1996-1997年左右的两个架构吵架
1998年-2001年左右的合并年代

互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
分析师参与数据平台直接建设比重增加。
原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。

彩世界彩票注册平台官网 36

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)
[图片上传中。。。(10)]
(点击放大图像)
[图片上传中。。。(11)]
本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。
非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。
下篇章将分享给大家互联网时代的数据平台,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。
关于作者
松子(李博源),自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

彩世界彩票注册平台官网 37

彩世界彩票注册平台官网 38

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然Bill inmon与 Ralph kilmball的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。
(点击放大图像)
[图片上传中。。。(6)]
数据仓库第一代架构
(开发时间2001-2002年)
海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
功能:进销存分析、闭环控制分析、工贸分析等
硬件环境:
业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央数据库服务器:4EXON,2G,480GSCSI
OLAP 服务器:2PIV1GHZ,2G,240GSCSI
开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

在面对企业复杂业务与成千上万的数据项进行设计时,没有哪个牛逼的人都记得住的,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型 (备注 数据平台数据模型,而非数据挖掘的模型)。
数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)
(点击放大图像)
[图片上传中。。。(4)]
在“我所经历的大数据平台发展史 上篇 非互联网时代“提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。
Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。
(点击放大图像)
[图片上传中。。。(5)]
(点击放大图像)
[图片上传中。。。(6)]
该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。
Ralph kilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。
(点击放大图像)
[图片上传中。。。(7)]
该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注 涉及的复杂维度、退化维度等不在这个讨论范围)。
数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“、”扁平化“、”裁剪“等眼花缭乱的建模手法,数据模型不同层次ODS、DWDDWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。
(点击放大图像)
[图片上传中。。。(8)]
(点击放大图像)
[图片上传中。。。(9)]
(点击放大图像)

彩世界彩票注册平台官网 39

数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。 本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

数据模型是整个数据平台的数据建设过程的导航图。
有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名..。
减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

彩世界彩票注册平台官网 40

彩世界彩票注册平台官网 41

//
我所经历的大数据平台发展史(二):非互//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-//
我所经历的大数据平台发展史(二):非互联网时代 • 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

Apache Beam 大规模流处理

各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。

Apache Beam 大规模流处理

彩世界彩票注册平台官网 42

(点击放大图像)
[图片上传中。。。(10)]
数据仓库第二代架构
(点击放大图像)

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。
前言,”数据模型“ 这个词只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在,聚焦一下,这里提到的是数据平台中的”数据模型“。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何简单的建设?
在“我所经历的大数据平台发展史 上篇 非互联网时代”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。

Apache Beam 大规模流处理

(点击放大图像)
[图片上传中。。。(13)]
这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。
数据仓库混合性架构(Cif)
(点击放大图像)
[图片上传中。。。(14)]
(点击放大图像)
[图片上传中。。。(15)]
这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。
回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。
ODS层 支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。
EDW层基于IIW(IBM的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。
各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。
新一代架构OPDM 操作型数据集市(仓库)
OPDM大约是在2011年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。
在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在2016年的今天看来OPDM在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。
下篇,我们将讲述非互联网数据平台的核心数据模型。敬请关注;
关于作者
松子(李博源) ,自由撰稿人,数据产品&数据分析总监。2000年开始数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 ; 个人沉淀在大数据产品、大数据分析、数据模型领域;欢迎关注个人微信订阅号:songzi2016。
data-platfor2-part01

从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
(点击放大图像)

QCon北京2017,4月16-18日,北京·国家会议中心,精彩内容抢先看

相关赞助商

彩世界彩票注册平台官网 43

彩世界彩票注册平台官网 44

相关赞助商

相关厂商内容
关于红包、SSD云盘等核心技术集锦!
Cloudant DBaaS技术概述
下一代 DB2更加突出 BLU Acceleration
如何通过使用 AWS对IT资源实现高级别管控,并大规模实现更高级别的安全性?

彩世界彩票注册平台官网 45

本文由彩世界注册首页发布于彩世界彩票注册平台官网,转载请注明出处:生意数仓的搭建【转发】彩世界彩票注册平台官

上一篇:SAP 主任孟鼎铭发布离职 老董摩尔根和克莱因担当 下一篇:没有了
猜你喜欢
热门排行
精彩图文