整个网络 G狂想 G花絮 G创意 G快讯 G技巧 小项目 招聘

 

Google每天处理的数据量已超20PB

由. Ken Wong 将文章归档于 G事八卦

Google每天处理的数据量已超20PB

  要在搜索领域超越Google绝非易事,即使对微软和Yahoo!这样的企业而言,也是极困难的。其中一个重要的原因是即使别的企业可以复制或模仿Google的搜索技术、界面,但它们却无法完全复制Google最引以为荣的软硬件基础架构。Google的硬件方面包括了自行组装的服务器群,以及建设于世界各地的超大型数据中心等等,这一点我们早就已经知道了。而在软件方面,我们也知道Google服务器里运行的是由Google自行设计的OS及应用程序。事实上,Google的软件架构的名字为MapReduce,Google依靠它来处理各种数据,比如索引互联网、计算网页PR值、处理Google Earth/Maps的地理信息、聚合Google News里的文章、进行机器翻译等等。可以说MapReduce的效率直接决定着Google的各种产品的表现。因此我们不难想像,MapReduce每天所处理的数据量将会是十分惊人的,因为Google不仅是世界上最多人使用的搜索引擎,它的众多产品也拥有大量的用户。

  到底有多惊人?网络技术专家Niall Kennedy(via GOS)给出的结果是,MapReduce现在每天所处理的数据量已超过20PB(即20480 TB或20971520GB)。这意味着Google员工可以花更少的时间处理更多的数据,比如他们可以计算数TB的数据,但在10分钟内就可得到结果。这些MapReduce来自由Google员工Jeffrey Dean及Sanjay Ghemawat所写的一份ACM论文

  当然,要获得这种效率,花费也是惊人的。Google的标准机集群节点由两个2GHz的Intel Xeon多线程处理器、4GB内存、双160GB硬盘及千兆以太网连接构成。从硬件成本上推算,平均每个Google MapReduce任务就会用到100万美元的硬件,而这个价格还不包括网络带宽费、数据中心支出及员工支出等费用在内。因此正如我们之前所说的那样,要追上Google,你必须得有很多很多的钱,否则你是烧不起来的。

  (感谢Hung推荐!)

  






Permalink: Google每天处理的数据量已超20PB
Tags: Google  MapReduce  数据处理  软件  统计 

Trackback: http://www.creative-weblogging.com/cgi-bin/mt-tb.pl/110035





CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Google google   |   什么是RSS?
Yodao Yodao
Netvibes Netvibes
AnothrAnothr
时事通讯

使用我们的搜索寻找其他有趣的文章



  • 贡献者

 


  • 推荐书

  • GSeeker(G速客;原“幻灭的麦克风”)曾经是一个专注于Google及搜索行业的个人blog。目前的Gseeker将不仅仅是以Google为主,而是以互联网及互联网应用为主的项目博客。
    ——Hong Xiaowan
    GSeeker(G速客;原“幻灭的麦克风”)是一个专注于Google及搜索行业的个人blog。非Google官方网站。我们试图记录真实的Google,包括它的花边新闻。Google不是我们的信仰,只是我们的兴趣。如果您发现与Google或搜索行业有关的有趣的信息,不妨给我们发邮件。感谢您的访问!
    ——Ken Wong(幻灭)


  • Other blogs in the same channel in the Creative Weblogging Network







 

Tagcloud: GAH G狂想 G花絮 G创意 G多点 G快讯 G技巧 G事八卦 G源共享 Sponsored Post 公告 小项目 幻灭日志 挨踢G讯 杂谈