百度大规模数据处理介绍-百度,大数据 - 大数据-中国存储论坛

tomcat 发表于 2015-3-2 11:21:34

百度大规模数据处理介绍

所有Hadoop集群节点总共一万台HDFS优势?

支持海量存储?
全局命名空间?
数据高可用性?
服务高可靠性?
系统扩展性好?
数据安全性?
易用性?vfs兼容层??
支持MapReduce编程框架?
支持Hbase、Hypertable等分布式索引系统。HDFS不足?

随机读性能较差?
只支持单一追加(已满足应用需要??
文件写入不立即可读?不支持“tail –f”?
不支持sync、mmap和软硬链接操作?
Namenode是单点(双机备份策略基本解决问题??
大量小文件会面临Namenode内存不足等问题?百度应用实践-问题?

存储超过20PB数据
每日新增数据超过10TB
NameNode瓶颈问题?容量和性能?
数据安全性
每周近百块故障硬盘百度应用实践-对策?

2000+ NODES
NODES?2*4 core?12*1 TB disk
分布式NameNode
访问权限控制
故障硬盘自动发现并淘汰大规模数据分析MPI

whitehorse 发表于 2018-8-14 00:39:08

不错，支持支持。。。

cfzxd 发表于 2020-11-5 21:02:42

感谢楼主分享！

jimmieyuan 发表于 2020-11-5 22:15:46

楼主威武，谢谢分享

xtoer 发表于 2020-11-5 22:52:24

这个不错，感谢分享啦

cfzxd 发表于 2020-11-5 23:16:07

感谢楼主分享！

qin梅 发表于 2020-11-5 23:17:15

这个不错，感谢分享啦

浪迹AT天涯 发表于 2020-11-7 21:17:25

不错，支持支持。。。

int2147483648 发表于 2020-11-7 21:17:33

好东东，谢谢老大分享！

robinhan 发表于 2020-11-7 21:41:10

受教，谢谢分享~

页: [1]

中国存储论坛's Archiver

百度大规模数据处理介绍