怎么样在大数据平台上建立的数据仓库中应用数据湖的

齐文圣 2019-12-21 18:32:00

推荐回答

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜数据是按照小贩应用程序归堆存储的,超市里面则是按照菜的类型同主题归堆的。与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据有的数据库例如电信计费数据库甚至处理实时信息。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案。1.效率足够高。客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。2.数据质量。客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
黄登英2019-12-21 18:41:53

提示您:回答为网友贡献,仅供参考。

其他回答

  • 一定要说的话,那就是包含和被包含关系吧,数据仓库是数据中台的一个元数据来源。WakeData数据中台的数据接入平台就是提供包含数据仓库、日志数据、外部数据等多源数据接入储存的平台。
    辛培军2019-12-21 19:39:10
  • 1收集和分析业务需求2建立数据模型和数据仓库的物理设计3定义数据源4选择数据仓库技术和平台5从操作型数据库中抽取、净化、和转换数据到数据仓库6选择访问和报表工具7选择数据库连接软件8选择数据分析和数据展示软件9更新数据仓库1数据转换工具要能从各种不同的数据源中读取数据。2支持平面文件、索引文件、和legacyDBMS。3能以不同类型数据源为输入整合数据。4具有规范的数据访问接口5最好具有从数据字典中读取数据的能力6工具生成的代码必须是在开发环境中可维护的7能只抽取满足指定条件的数据,和源数据的指定部分8能在抽取中进行数据类型转换和字符集转换9能在抽取的过程中计算生成衍生字段10能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件11必须对软件供应商的生命力和产品支持能力进行仔细评估主要数据抽取工具供应商:Prismsolutions.Carleton''sPASSPORT.InformationBuildersInc.''sEDA/SQL.SASInstituteInc.一般问题不完全是技术或文化,但很重要包括但不限于以下几点:业务用户想要执行什么样的分析?你现在收集的数据需要支持那些分析吗?数据在哪儿?数据的清洁度如何?相似的数据有多个数据源吗?什么样的结构最适合核心数据仓库例如维度或关系型?技术问题包括但不限于以下几点:在你的网络中要流通多少数据?它能处理吗?需要多少硬盘空间?硬盘存储需要多快?你会使用固态还是虚拟化的存储。
    齐有利2019-12-21 19:14:51
  • 何谓数据仓库?为什么要建立数据仓库?答:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的稳定性、随时间不断变化不同时间的数据集合,为企业决策支持系统提供所需的集成信息。建立数据仓库的目的有3个:一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
    黄相平2019-12-21 18:57:54

相关问答

中国股市20年间有八次牛市,七次熊市。牛市:第一次指数涨幅沪指:95.79-1429.01点涨幅:1391.8%深成指:396.52点涨幅:635.9%>行情特点1990年12月19日上海证券交易所成立,一年内仅有8只股票,人称老八股;而当时股票交易前先手工填写委托单,被编到号的人才有资格拿到委托单,能买到股票等于中了头彩,因为没人愿意抛出。这使得沪指从90年12月开始计点,一路上扬,造就了第一次牛市。92年5月21日,上证所取消涨停板,将牛市推至顶峰,当日指数狂飙到1266.49点,单日涨幅105%,这一记录至今未破。第二次指数涨幅沪指:386.85-1558.95点涨幅:301%深成指:1529.21-3422.22点涨幅:123.8%>行情特点1992年,中国的改革开放到了一个坎上,资本市场既有521的暴涨又有810暴动,但中国经济发生了一件大事,那就是邓小平南巡。邓小平的南巡讲话中,有关股市未来怎么发展的问题成为一大热点,而他讲话里最重要的是“坚决地试”这四个字。11月17日,天宸股份人民币股票上市,沪指完成最后一跌,第二轮牛市启动。三个月内快速上涨,301%的涨幅至今为股民津津乐道。第三次指数涨幅沪指:325.89-1052.94点涨幅:224.4%深成指:944.02-2162.75点涨幅:129.1%>行情特点1993年至1994年间,我国宏观经济偏热并引发紧缩性宏观调控,同时A股实现了一次大规模的扩容,使得大盘一蹶不振的持续探底,证券市场一片萧条,94年7月29日大盘创下325.89的最低点。7月30日相关部门出台三大利好救市,94年8月1日沪指跳空高开,第三次牛市启动。井喷行情随即展开,市场在不到30个交易日的时间上涨至1052.94点。第四次指数涨幅沪指:582.89-926.41点涨幅:60.5%深成指:1042.71-1473.29点涨幅:42.7%>行情特点1993-1995年,我国为了推进与大力发展国债市场,开设了国债期货市场,立即吸引了几乎90%的资金,股市则持续下跌。1995年2月,327国债期货事件发生;5月17日,中国证监会暂停国债期货交易,在期货市场上呼风唤雨的资金短线大规模杀入股票市场,掀起了一次短线暴涨。第四次牛市仅3个交易日,是A股史上最短的一次牛市,股指却从582.89涨到926.41。第五次指数涨幅沪指:512.03-1510.18点涨幅:194.5%深成指:924.33-6103.62点涨幅:560.3%>行情特点经过连续的下跌,1996年1月股市终于开始走稳,最低点已经探明512点,新股再次发行困难,管理层被迫停发了新股,而政策也开始偏暖,券商资金面开始宽裕,各路资金也开始对优质股票进行井井有条的建仓。第五次牛市启动,崇尚绩优开始成为主流投资理念。火爆行情非同寻常,管理层连发12道金牌亦未能阻止股指上扬,直到1997年5月10日周六印花税由3‰上调至5‰。第六次指数涨幅沪指:1047.83-2245.44点涨幅:114.3%深成指:2521.08-5091.46点涨幅:102%>行情特点第六次牛市俗称519行情。由于管理层容许三类企业入市,到99年5月,主力的筹码已经相当多了,市场对今后将推出的一系列利好报有很高的期望,5月19日人民日报发表社论,指出中国股市会有很大发展,投资者踊跃入市。2000年2月13日,证监会决定试行向二级市场配售新股,资金空前增加,网络概念股的强劲喷发推动沪指创下2245的历史最高点。第七次指数涨幅沪指:998.23-6124.04点涨幅:513.5%深成指:2590.53-19600.03点涨幅:656.6%>行情特点第七次牛市起点来自2019年5月股权分置改革启动展开,开放式基金大量发行,人民币升值预期,带来的境内资金流动性过剩,资金全面杀入市场。而之后伴随着基金的疯狂发行和市场乐观情绪,在530调高印花税都没能改变市场的运行轨迹,一路冲高至6124点。此轮牛市曾被媒体称为全民炒股的时代。第八次指数涨幅沪指:1664.93-3478.01点涨幅:108.9%深成指:5577.23-13943.44点涨幅:150%>行情特点件随着四万亿投资政策和十大产业振兴规划,A股市场掀起了新一轮大牛市,股价从1664点涨至3478点,在不到十个月的时间里股价大涨109%。3月3日后的逼空上涨性质能与06年和07年的超级疯牛相媲美。即使IPO重启这样特大利空也未能改变牛市的前进。直到09年7月29日第一只大盘股上市和紧缩的宏观政策才阶段性结束了第八轮牛市。熊市:第一次指数跌幅沪指:14291992.5.25–3861992.11.17跌幅:73%深成指:2918–1529跌幅:40%>行情特点沪指在第一轮牛市冲上1429后,市场开始价值回归,不成熟的股市波动极大。1992年8月9日和8月10日深圳新股认购抽签表发行了,但发生了当时震惊全国的810风波,刺激沪深两市大幅下挫。为加强对证券市场的管理,92年10月中国证监会成立。这次熊市仅仅半年时间,股指跌幅却高达73%,这样的下跌在现在来看是不可想象的,而在当时,投资者们都自然地接受了。第二次指数跌幅沪指:15581993.2.16–3251994.7.29跌幅:79%深成指:3422–944跌幅:69%>行情特点1992年深沪两地上市公司有54家,1993年有177家,1994年有287家;A股筹资额1992年为50亿,1993年为276亿元,1994年为99.78亿元,扩容的势头十分凶猛。随着发行额度的明确,市场进入真正的低迷期,第二次熊市来临。1994年2月14日,政府宣布1994年新股发行额度55亿元,明显要比1993年的195亿元低得多,但沪指在3月10日击破700点,4个月后跌到全年最低325点。第三次指数跌幅沪指:10521994.9.13–5471995.5.16跌幅:48%深成指:2162–1018跌幅:50%>行情特点第三次熊市时,证券市场一片萧条,在人们对股市信心丧失殆尽的时候,相关部门出台三大利好救市,沪指1个半月涨幅达200%。但政策刺激是短暂的,随后A股进入第三次熊市。而早期的股市不讲究什么价值投资,业绩好坏是无所谓,最重要的是流通盘要小,这样好炒。但随着股价的炒高,总有无形的手将股市打低。第四次指数跌幅沪指:9261995.5.22–5121996.1.19跌幅:45%深成指:1473–931跌幅:31%>行情特点短暂的第三次牛市过后,股市重新下跌,第四次熊市来临。为抑制投机,1995年6月15日,管理层下达55亿的95年额度,同时20家历史遗留问题股票也被开始安排上市,沪指再下一城。从1995年的8月开始,当时仅仅3倍市盈率的四川长虹开始悄悄走强,业绩白马股逐步受到主流资金的关注。至1996年1月19日,股指达到阶段地点512点,绩优股股价普遍超跌,新一行情条件具备。第五次指数跌幅沪指:15101997.5.12–10471999.5.17跌幅:31%深成指:6103–2521跌幅:57%>行情特点这轮大调整也是因为过度投机,在绩优股得到了充分炒作之后,到1999年5月18日,股指已经跌至1047点。这两年间,股市的扩容继续疯狂进行,规模出现了难以想象的扩张。严重的供需矛盾使二级市场出现极度失血,持续2年的熊市就此展开。第六次指数跌幅沪指:22452001.6.14–9982019.6.6跌幅:56%深成指:4809–2590跌幅:43%>行情特点2001年上半年,沪指突破2000点,这让当时的中国股民为之欢呼雀跃。1个千点似乎预示着一个千年,点数的攀升似乎在向全世界宣告,中国的股票市场已经达到了一定的规模。然而在国有股市价减持的消息冲击下,2000点很快成为中国股票市场的险峰,从此之后,我们经历了长达4年多的调整,指数拦腰一半最低打到2019年的998点。第六次熊市是历史上最长时间的大调整。第七次指数跌幅沪指:61242019.10.16–16642019.10.28跌幅:73%深成指:19559–5577跌幅:69%>行情特点随着市场的亢奋,监管部门不断提示风险,07年10月16日见到6124的历史高点后,在中国的通胀持续升温、基金暂停发行、美国次贷危机、中国石油上市后大幅下和大小非的减持等利空影响下,引发了第七轮熊市,在下跌过程中一个个整数关口被轻易攻破,直到1664点止跌,后迎来四万亿投资政策,才结束了第七次跌幅惊人的超级大熊市。