Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark 3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征
本书共8章,内容主要包括Spark概述及入门实战,Spark的作业调度和资源分配算法,Spark SQL、DataFrame、Dataset的原理和实战,深入理解Spark数据源,流式计算的原理和实战,亿级数据处理平台Spark性能调优,Spark机器学习库,Spark 3.0的新特性和数据湖等。 本书适合Spark开发人员和Spark运维人员阅读。
《精通Hadoop3》详细阐述了与Hadoop 3相关的基础知识,主要包括Hadoop 3简介、深入理解Hadoop分布式文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、Hadoop生态圈组件、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据安全、监测Hadoop等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解
现在已经有越来越多的行业和技术领域需要大数据分析系统,例如金融行业需要使用大数据系统进行信贷风控,零售、餐饮行业需要通过大数据系统进行辅助销售决策,各种物联网场景需要大数据系统持续聚合和分析时序数据,各大科技公司需要建立大数据分析中台等等。 《大数据综合应用项目实战/高等职业院校基于工作过程项目式系列教材》为培养和开发大数据全面人才的教材。同类型的书籍中,内容大多是关于知识点的介绍以及案例,缺乏真实项目开发过程中各个时期所遇到的问题。而《大数据综合应用项目实战/高等职业院校基于工作
本书分为5章: 第一章, 算量; 第二章, 算法; 第三章, 算力; 第四章, 新一代信息技术; 第五章, 数字化转型。