将文章归档于
G事八卦
由. Ken Wong on 2008-01-11

要在搜索领域超越Google绝非易事,即使对微软和Yahoo!这样的企业而言,也是极困难的。其中一个重要的原因是即使别的企业可以复制或模仿Google的搜索技术、界面,但它们却无法完全复制Google最引以为荣的软硬件基础架构。Google的硬件方面包括了自行组装的服务器群,以及建设于世界各地的超大型数据中心等等,这一点我们早就已经知道了。而在软件方面,我们也知道Google服务器里运行的是由Google自行设计的OS及应用程序。事实上,Google的软件架构的名字为MapReduce,Google依靠它来处理各种数据,比如索引互联网、计算网页PR值、处理Google Earth/Maps的地理信息、聚合Google News里的文章、进行机器翻译等等。可以说MapReduce的效率直接决定着Google的各种产品的表现。因此我们不难想像,MapReduce每天所处理的数据量将会是十分惊人的,因为Google不仅是世界上最多人使用的搜索引擎,它的众多产品也拥有大量的用户。
到底有多惊人?网络技术专家Niall Kennedy(via GOS)给出的结果是,MapReduce现在每天所处理的数据量已超过20PB(即20480 TB或20971520GB)。这意味着Google员工可以花更少的时间处理更多的数据,比如他们可以计算数TB的数据,但在10分钟内就可得到结果。这些MapReduce来自由Google员工Jeffrey Dean及Sanjay Ghemawat所写的一份ACM论文。
当然,要获得这种效率,花费也是惊人的。Google的标准机集群节点由两个2GHz的Intel Xeon多线程处理器、4GB内存、双160GB硬盘及千兆以太网连接构成。从硬件成本上推算,平均每个Google MapReduce任务就会用到100万美元的硬件,而这个价格还不包括网络带宽费、数据中心支出及员工支出等费用在内。因此正如我们之前所说的那样,要追上Google,你必须得有很多很多的钱,否则你是烧不起来的。
(感谢Hung推荐!)
Permalink: Google每天处理的数据量已超20PB
Mr Wong
Vote for Google每天处理的数据量已超20PB:
|
分值情况: 7.25 / 8 评分
|
回应:
46pk
(01/10/08 7:35pm)
很好很和谐很强大
回应:
aaa
(01/10/08 7:43pm)
Gseeker只会抄袭
回应:
fiorano
(01/11/08 8:51am)
其实Google的观点很值得国内的很多有钱的厂商学习:用最少的钱、用最成熟的技术去构建稳定、高性能、高可用性的系统。
我们的硬件耗资巨大,可是却远远没有发挥最大功效。
我们的硬件耗资巨大,可是却远远没有发挥最大功效。
回应:
Jiajin Yu
(01/11/08 1:01pm)
MapReduce的出处不是这一片文章,而是Dean, J. and Ghemawat, S. 2004. MapReduce: Simplified data processing on large clusters. In Proceedings of Operating Systems Design and Implementation (OSDI). San Francisco, CA. 137-150.
可以从这里下载http://labs.google.com/papers/mapreduce-osdi04.pdf
CACM是ACM的通讯刊物,不算是正式的学术期刊。OSDI是操作系统方面的会议,偏向于具体实现。
可以从这里下载http://labs.google.com/papers/mapreduce-osdi04.pdf
CACM是ACM的通讯刊物,不算是正式的学术期刊。OSDI是操作系统方面的会议,偏向于具体实现。
回应:
幻灭
(01/11/08 1:23pm)
>>Jiajin Yu
谢谢。我在文章中指的是这些MapReduce的数据来自ACM论文,而这些数据是比较新的,在你补充的这篇文章里是没有的。
谢谢。我在文章中指的是这些MapReduce的数据来自ACM论文,而这些数据是比较新的,在你补充的这篇文章里是没有的。
回应:
听歌
(01/13/08 5:23pm)
20PB,那是什么概念?用民用硬盘160G来算,都有13万多个了,应该足够堆满一个篮球场
回应:
carloschen
(01/20/08 10:50am)
這邊竟然有一模一樣的文章︰
http://www.590103.idv.tw/blog/archives/508
截圖在此︰
http://aycu12.webshots.com/image/42211/2004162318756856876_rs.jpg
其他文章有沒有被抄襲,沒有一篇一篇去看。
http://www.590103.idv.tw/blog/archives/508
截圖在此︰
http://aycu12.webshots.com/image/42211/2004162318756856876_rs.jpg
其他文章有沒有被抄襲,沒有一篇一篇去看。
回应:
幻灭
(01/21/08 2:36pm)
>>carloschen
感谢提醒!这种情况越来越常见了=..=已报告CW处理。
感谢提醒!这种情况越来越常见了=..=已报告CW处理。
使用我们的搜索寻找其他有趣的文章
| CW工具栏 | ![]() |
| RSS | |
|
| |
| Yodao |
|
| Netvibes |
|
| Anothr | |
| Follow us on Twitter! |



