大数据处理当中的一个至关重要的环节,就是大数据计算,通过对海量数据的计算处理,从而实现从数据到价值的转换。作为大数据架构师,对于主流的大数据计算框架及其架构实现,需要牢牢掌握。今天我们从大数据架构师的培训机构角度,来对大数据计算框架做一个简单的汇总。大数据计算,从数据计算的实时性角度分为离线计算和实时流式计算两类,从数据计算的模式角度分为大数据MapReduce计算和关系型数据库关联统计计算两种类型,从数据建模角度分为大规模数据计算和基于样本数据的计算两类。
离线计算技术适用于实时性要求不高的场景,特点是支持的数据规模大。实时流式计算可以快速地完成数据的统计,但是仅仅适合于完成海量数据某一个侧面的计算,比如用户偏好画像、搜索关键字统计等。大数据计算模型以MapReduce最为经典,MapReduce计算模型的实现原理是,首先将大文件“微分”为多个小的数据块并存入HDFS集群中,然后再通过MapReduce完成对“微分”数据的“积分”。Map负责以映射的方式提取分散在大数据集群中的数据项,Reduce则负责对排序后的统计数据进行聚合(求和、求均值等)输出。因此,MapReduce特别适合大规模分布式文件系统的统计计算。MapReduce计算模型之所以能够满足海量数据的统计,根源在于被统计文件虽然规模大,但是是采用列式存储方式,原始数据具有共同的数据特征。而关系型数据是按行存取的,每一行中不同列的数据特征都不一样,要完成数据的统计需要扫描所有行,因此,面向海量数据时的统计效率低,只能通过分区、索引等方式将数据规律性布放,提高数据的存取效率。尽管MapReduce计算模型非常强大,但是如何实现统计功能需要编程实现,而开源工具R软件采用命令行方式,可以快速完成数据建模、统计计算以及可视化工作。R软件的优势是能够快速调整模型、快速见到计算结果,不足之处是对于海量数据的计算能力差,因此需要将Hadoop/MapReduce计算模型与R软件结合起来,R软件侧重基于样本数据构建计算模型,而MapReduce则侧重于为R软件提供样本数据。目前,在大规模分布式计算领域,Python已经超越R语言,成为数据计算和机器学习的最为主流开发语言和工具。关于大数据架构师的培训机构,大数据计算框架汇总,以上就是今天的分享内容了。大数据架构师,属于大数据开发的高级职位,要求高深的技术背景以及行业经验,想做架构,先要积累足够的经验才行。