整个网络 最新的文章 最热门的*五*个话题 G多点 G事八卦 G源共享 挨踢G讯

四月 13, 2008

Google宣布Googlebot已可通过提交表格抓取更多内容

由. Ken Wong 将文章归档于 G源共享

Googlebot
  作为Google索引网络的主要工具,Google的爬虫Googlebot的最终目的是可以快速并准确地抓取互联网上所有类型的内容。之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

  据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到

时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot现在已经懂得通过提交表格而获得新内容。

  同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是会自动略过这些表格的。

  这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。但毫无疑问,搜索引擎的爬虫越智能,我们将来能搜索到的互联网的信息也就更齐全。

广告


固定链接: Google宣布Googlebot已可通过提交表格抓取更多内容
关键词: Google  Googlebot  爬虫  表格  抓取 

引用: http://www.creative-weblogging.com/cgi-bin/mt-tb.pl/120017



广告


广告


广告


CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Googlegoogle  |   什么是RSS?
YodaoYodao
Netvibes Netvibes
AnothrAnothr
时事通讯
点击联系广告合作.

使用我们的搜索寻找其他有趣的文章

这blog而已 全网络
广告 -
这里订您的.


 
点击联系广告合作.


  • 推荐书

  • GSeeker今天开始将恢复更新。
    ——Hong Xiaowan
    GSeeker(G速客;原“幻灭的麦克风”)是一个专注于Google及搜索行业的个人blog。非Google官方网站。我们试图记录真实的Google,包括它的花边新闻。Google不是我们的信仰,只是我们的兴趣。如果您发现与Google或搜索行业有关的有趣的信息,不妨给我们发邮件。感谢您的访问!
    ——Ken Wong(幻灭)
  • Other blogs in the same channel in the Creative Weblogging Network

广告 -
这里订您的.