本项目主要采用目前大数据领域最成熟的实时计算框架Spark,它是目前主流企业在实时计算方向采用的主流框架。本项目使用了Spark技术生态栈中的三个技术框架:SparkCore、SparkStreaming和SparkMLlib,进行道路交通实时流量监控预测系统的开发。业务实现包括数据产生模块、数据实时收集处理模块、特征数据提取模块、模型预测模块、数据存储模块。 陶睿,大讲台大数据特聘讲师|国有企业智能交通大数据高级工程师,在国有企业以及一线互联网公司从事过大数据开发和架构工作,负责过多个大型大数据系统的架构和开发。精通Hadoop、Storm、Spark等大数据技术。有丰富的企业内部技术分享、技术培训和技术讲座的经验。 大讲台spark培训课程大纲之Spark企业级项目实战之交通实时流量监控 需求分析 1、项目背景 2、总体业务要求 3、难点分析 数据收集 1、数据采集阶段技术对比 2、项目中数据采集技术Kafka 3、Kafka安装及基本操作 4、Kafka的API操作及项目中应用 数据流处理 1、数据实时处理阶段技术拓展Storm 2、SparkStreaming实用项目解决方案 3、SparkStreaming项目中性能调优 数据快速存取 1、项目存储工具Redis 2、Redis部署、基本操作及项目中使用 模型建立 1、项目机器学习算法库Mllib 2、Mllib基本数据格式 3、项目中实际模型选择 整体解决方案设计 1、产品功能的简单介绍 2、架构设计 3、技术选型 4、部署方案 5、模块设计划分 部署及代码实现 1、测试环境介绍 2、分析模块实现1--数据产生 3、分析模块实现2--数据实时收集处理模块 4、分析模块实现3--特征数据提取及模型预测 5、分析模块实现4--模型预测 6、项目调优 项目总结
下载地址:
|