
会员
Spark 3.0大数据分析与挖掘:基于机器学习
更新时间:2023-09-21 10:31:02 最新章节:13.6 小结
书籍简介
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark3.0机器学习框架使用的核心。本书用于Spark3.0ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。本书采取实例和理论相结合的方式,讲解细致直观,示例丰富,适合Spark3.0机器学习初学者、大数据分析和挖掘人员,也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。
品牌:清华大学
上架时间:2022-03-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
王晓华 罗凯靖编著
最新上架
- 会员《网络科学与网络大数据结构挖掘》作为网络科学的工具性图书共分两大模块:第一模块是基础理论,包括网络基本概念、网络拓扑性质、复杂网络社团挖掘等内容,旨在让读者熟悉一些基本的建模方法和分析技巧。第二模块为应用模块,包括复杂网络在几个代表性领域中的应用研究分析及案例剖析等。全书没有过多地数学和物理推导,而是更为关注网络科学的思维习惯和研究方式,兼具理论性、资料性和实践性。可用于各学科领域的教学及研究人员计算机0字
- 会员本书本书基于业务问题,就如何搭建分析框架,厘清分析思路,按照标准分析步骤对数据进行怡当的预处理,选择合适的分析方法和分析模型,使用恰当的分析工具对数据进行分析,以及对分析结果进行可视化和符合业务要求的解读等内容展开讲解,帮助业务专家做出合适的业务判断,制定准确的业务策略。计算机13万字
- 会员本书从与数据要素关系最密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。计算机14.5万字
- 会员这是一本能指导首席数据官(CDO)快速构建知识体系和能力模型的标准指南。本书融合了作者对CDO角色的深刻理解和深厚的工程实践经验,系统而全面地介绍了CDO所需的核心知识体系与能力模型。本书从CDO的基本概念出发,逐步深入探讨了CDO在政策环境、数字化转型、组织数据体系建设与管理、数据价值创造等方面的关键作用。书中不仅详细阐述了CDO应具备的基础数据知识和组织数据管理能力,还通过丰富的案例和实战技巧计算机17.3万字
- 会员本书全面介绍数据产品开发与经营,全书共13章,分为数据产品基础、数据产品开发、数据产品实践、数据产品经营四篇。第一篇深入分析国家和地方层面的数据资产政策,提出数据资产运营框架,并介绍数据资源的治理和数据产品。第二篇详细阐述数据产品开发三大策略、数据产品设计五步法、数据产品开发方法以及数据产品运营方法。第三篇全面介绍数据产品开发的实践案例,特别从数据要素型企业、数商型企业两个角度说明数据产品开发的实计算机33.6万字
- 会员本书内容分3个部分共12章。第1-4章主要介绍什么是数据分析,以及Python的编程环境和基础语法知识。第5-9章主要介绍数据处理和分析的各种方法。第10-12章介绍了如何结合Python与Excel在实际工作中进行数据处理与分析操作。计算机8.5万字