大数据呀大数据
啥是大数据?
我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角;
我的个人经历–
大数据 啥是大数据? 我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角; 我的个人经历–>> 我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据; 有了这些数据,各大互联网巨头都在想着法的将这些数据变现,但是这么多数据也给他们带来了一些问题: 随着从事互联网行业的年限增多,也渐渐对海量数据的存储和处理有了一些模糊的认知: 大数据的分布式存储,并行计算和实时数据流处理 新技术的发展 新技术的发展时间轴 我们国家在2014年才将大数据写入政府工作报告,但是我们的发展速度之快我们在日常生活中足以感受到; 大数据到底是什么? 我感觉大数据就像是比特币,需要从海量数据中挖掘有价值的信息; 这个海量数据: 1,规模大, 2,不是关系型数据中的信息那样有规律,而是多样性(有文本,图像视频等大量不直接相关的信息) 3,需要通过大量的计算和复杂的分析得到有价值的信息; 4,信息具有时效性决定了对大数据的利用要实现实时分析,实时呈现分析结果; 大数据核心技术 围绕着大数据的特点: 1,分布式存储架构, 面对海量数据—> 需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的数据存储) 数据的时效性—> 大规模的并行计算大数据存储系统, 分布式的数据分发, 高可靠容错机制 数据库的设计–> 海量数据该怎么存储,在分布式存储的大框架下,数据的存储方式—面向列式内存数据库 1,大表数据----数亿行以及数百万列 2,硬件需要有高性能的随机读取能力以及毫秒级的响应 3,稀疏存储,null的列不占用空间 2,新型分布式系统架构 3,大数据技术架构 4,大数据的解决架构 如今大数据已进入蓬勃发展阶段,大数据分析已经在我们身边等诸多领域有了充分应用—>>我们体会最深的可能要数各大视频软件给你推送的视频了,但这并不是我们现在要关心的; 上面的结构图确实比较复杂,对于小白怎么快速入门呢? 只需要快速了解各大厂商提供的云服务(他们都给你集成好了,直接拿来用他不香吗? 关于云服务----大数据 我们以华为云为例: MRS 可以看到**MRS实现了从调度到计算,存储的服务,**剩下的厂商可以根据需要自己开发适合本厂的组件; 同时对于数据存储,厂商可以选择自己建立数据库也可以借助华为云数据湖工厂(DLF)来实现数据集成,开发,管理等操作(支持多种数据处理节点) 数据中台DGC 挖掘数据的价值----数据中台DGC 简单的理解数据中台就是对**数据进行一个全生命周期的管理,**包含数据的继承,规范设计,数据的开发与质量监控,数据的资产管理和可视化; 数据中台DGC可以无缝衔接MRS,DWS,DLI等数据底座的开发 MRS服务 MRS基于存算分离构建下一代数据平台 MRS目前有两个主流版本可以选择,1.x 和2.x版本,分别对应Hadoop2.x 和 3.x生态; 如果1.x版本跟2.x版本均有部分组件无法完全兼容客户业务,则需要进行版本兼容性考量,一般情况下Hadoop生态底层组件的兼容通常优于上层组件; MRS集群部署模式 MRS 3.x集群提供了 分析集群,流式集群,自定义集群.混合集群四种集群部署模式 混合集群模式安装的组件全 自定义集群是混合集群模式的扩展 一般是(在业务规划不明确的地方选择混合集群模式,安装组件结束后可以将不需要的组件关闭; 分析/流式集群模式并非安装全部组件,且 集群部署完毕不在支持安装组件了; (编辑:清远站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |