gseeker
Google每天处理的数据量已超20PB
将文章归档于 G事八卦 由. Ken Wong on 2008-01-11
Google每天处理的数据量已超20PB

  要在搜索领域超越Google绝非易事,即使对微软和Yahoo!这样的企业而言,也是极困难的。其中一个重要的原因是即使别的企业可以复制或模仿Google的搜索技术、界面,但它们却无法完全复制Google最引以为荣的软硬件基础架构。Google的硬件方面包括了自行组装的服务器群,以及建设于世界各地的超大型数据中心等等,这一点我们早就已经知道了。而在软件方面,我们也知道Google服务器里运行的是由Google自行设计的OS及应用程序。事实上,Google的软件架构的名字为MapReduce,Google依靠它来处理各种数据,比如索引互联网、计算网页PR值、处理Google Earth/Maps的地理信息、聚合Google News里的文章、进行机器翻译等等。可以说MapReduce的效率直接决定着Google的各种产品的表现。因此我们不难想像,MapReduce每天所处理的数据量将会是十分惊人的,因为Google不仅是世界上最多人使用的搜索引擎,它的众多产品也拥有大量的用户。

  到底有多惊人?网络技术专家Niall Kennedy(via GOS)给出的结果是,MapReduce现在每天所处理的数据量已超过20PB(即20480 TB或20971520GB)。这意味着Google员工可以花更少的时间处理更多的数据,比如他们可以计算数TB的数据,但在10分钟内就可得到结果。这些MapReduce来自由Google员工Jeffrey Dean及Sanjay Ghemawat所写的一份ACM论文

  当然,要获得这种效率,花费也是惊人的。Google的标准机集群节点由两个2GHz的Intel Xeon多线程处理器、4GB内存、双160GB硬盘及千兆以太网连接构成。从硬件成本上推算,平均每个Google MapReduce任务就会用到100万美元的硬件,而这个价格还不包括网络带宽费、数据中心支出及员工支出等费用在内。因此正如我们之前所说的那样,要追上Google,你必须得有很多很多的钱,否则你是烧不起来的。

  (感谢Hung推荐!)

  

Permalink: Google每天处理的数据量已超20PB
img Addthis img Ask img Blinklist img del.icio.us img Digg img Fark img Facebook img Google img Lycos img Ma.gnolia Add this page to Mister Wong Mr Wong img Netscape img Netvousz img Newsvine img Reddit img StumbleUpon img Slashdot img Tailrank img Technorati img Wink img Yahoo

Vote for Google每天处理的数据量已超20PB:

  • Currently 7.25/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
分值情况: 7.25 / 8 评分
 
Share It
CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Google google   |   什么是RSS?
Yodao Yodao
Netvibes Netvibes
AnothrAnothr
TwitterFollow us on Twitter!