gseeker
Google宣布Googlebot已可通过提交表格抓取更多内容
将文章归档于 G源共享 由. Ken Wong on 2008-04-14
Googlebot
  作为Google索引网络的主要工具,Google的爬虫Googlebot的最终目的是可以快速并准确地抓取互联网上所有类型的内容。之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

  据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到

时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot现在已经懂得通过提交表格而获得新内容。

  同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是会自动略过这些表格的。

  这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。但毫无疑问,搜索引擎的爬虫越智能,我们将来能搜索到的互联网的信息也就更齐全。




Permalink: Google宣布Googlebot已可通过提交表格抓取更多内容
Tags: Google  Googlebot  爬虫  表格  抓取 
Trackback: http://publish.creative-weblogging.com/publish/mt-tb.pl/120017
img Addthis img Ask img Blinklist img del.icio.us img Digg img Fark img Facebook img Google img Lycos img Ma.gnolia Add this page to Mister Wong Mr Wong img Netscape img Netvousz img Newsvine img Reddit img StumbleUpon img Slashdot img Tailrank img Technorati img Wink img Yahoo

Vote for Google宣布Googlebot已可通过提交表格抓取更多内容:

  • Currently 9.50/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
分值情况: 9.50 / 2 评分
订阅
Share It
CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Google google   |   什么是RSS?
Yodao Yodao
Netvibes Netvibes
AnothrAnothr
时事通讯

TwitterFollow us on Twitter!