北京列举网 > 教育培训 > 电脑/网络 > 大数据开发技术之Hadoop的作业提交流程
北京
[切换城市]

大数据开发技术之Hadoop的作业提交流程

更新时间:2018-09-11 15:55:34 浏览次数:60次
区域: 北京 > 昌平 > 沙河
类别:软件工程师培训
地址:北京市昌平区沙河镇汇德商厦
通用的任务程序提交步骤为:
1.客户端向resourceManager发送job请求
2.resourceManager返回存储路径,jobId给客户端
3.客户端创建路径把jobId,分片信息,配置文件信息,jar文件拷贝到返回的存储路径上
4.客户端向resourceManager报告提交完成
5.resourceManager在nodeManager上启动一个容器(container),在container中执行mrappmaster进程(主管mr任务执行)
6.mrappmaster取得分片信息,任务的相关配置,计算job所需资源
7.mrappmaster向resourceManager申请资源
8.resourceManager准备资源,mrappmaster启动container运行mapTask
9.maptask进程启动之后,根据给定的数据切片范围进行数据处理,处理流程:
1)利用客户指定的inputformat来获取recordReader读取数据,形成kv键值对。
2)将kv传递给客户定义的mapper类的map方法,做逻辑运算,并将map方法的输出kv收集到缓存。
10.mrappmaster监控所有的maptask进程完成之后,会根据用户指定的参数来启动相应的reduceTask进程,并告知reduceTask需要处理的数据范围
11.reducetask启动之后,根据appmaster告知的待处理的数据位置,从若干的maptask所在的机器上获取若干的maptask输出结果,并在本地进行一个归并排序,然后,再按照相同的key的kv为一组,调用客户自定义的reduce方法,并收集输出结果kv,然后按照用户指定的outputFormat将结果存储到外部设备。
12.所有任务定期向mrappmaster报告任务进度,所有任务完成后,mrappmaster报告resourceManager释放资源
北京电脑/网络相关信息
4月23日
办公软件培训
平谷-平谷城区
4月19日
办公软件培训
平谷-平谷城区
4月11日
办公软件培训
平谷-平谷城区
4月9日
办公软件培训
平谷-平谷城区
4月7日
4月1日
注册时间:2017年12月26日
UID:453900
---------- 认证信息 ----------
手机已认证
查看用户主页