博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
淘宝Hadoop集群的概况
阅读量:5907 次
发布时间:2019-06-19

本文共 877 字,大约阅读时间需要 2 分钟。

国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。

淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle,
MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。
Hadoop包括两类节点Master和Slave节点,
Master节点包括Jobtracker,Namenode,
SecondName,
Standby,
硬件配置:16CPU*4核,96G内存。
Slave节点主要是TaskTracker和DataNode,
硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存
(注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data
locality)。
每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map
slots是19,643个,Reduce
slots是15,273个
所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map
slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。

转载于:https://www.cnblogs.com/joleang/p/3244821.html

你可能感兴趣的文章
cordova 爬坑指南
查看>>
AWS Amplify Console:赋予应用程序快速部署的能力
查看>>
scrapy模拟登录代码演示及cookie原理说明
查看>>
[Flink]Flink1.3 Batch指南二 集群运行
查看>>
LeetCode 319 Bulb Switcher(灯泡切换)(从规律中发现算法……)
查看>>
数字化转型面临的五大挑战
查看>>
微软没强迫?Win 10 版本号追踪网站 Buildfeed 关闭
查看>>
JDBC的Statement对象
查看>>
巧用DOS命令合并多个文本文件的内容
查看>>
内穆尔(Nemours)儿童健康系统选择HID Global解决方案
查看>>
行业看点 | 段路明研究组《自然》子刊发文 揭示深度神经网络和量子多体问题的关联...
查看>>
「镁客·请讲」bitBerg杨坤:冰山下藏着的是VR游戏的未来
查看>>
9Python全站之路系列之MySQL SL注入
查看>>
phantomjs-循环输出输入参数
查看>>
ListBox自绘,列表显示一系列图片
查看>>
控件名称不可修改
查看>>
综述:人工智能、数据科学、机器学习
查看>>
SQL
查看>>
c# 下载网页图片
查看>>
虚拟机上网配置
查看>>