整个网络 G狂想 G花絮 G创意 G快讯 G技巧 小项目 招聘

 

Google宣布Googlebot已可通过提交表格抓取更多内容

由. Ken Wong 将文章归档于 G源共享

Googlebot
  作为Google索引网络的主要工具,Google的爬虫Googlebot的最终目的是可以快速并准确地抓取互联网上所有类型的内容。之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

  据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到

时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot现在已经懂得通过提交表格而获得新内容。

  同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是会自动略过这些表格的。

  这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。但毫无疑问,搜索引擎的爬虫越智能,我们将来能搜索到的互联网的信息也就更齐全。








Permalink: Google宣布Googlebot已可通过提交表格抓取更多内容
Tags: Google  Googlebot  爬虫  表格  抓取 

Trackback: http://www.creative-weblogging.com/cgi-bin/mt-tb.pl/120017





CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Google google   |   什么是RSS?
Yodao Yodao
Netvibes Netvibes
AnothrAnothr
时事通讯

使用我们的搜索寻找其他有趣的文章



  • 贡献者

 


  • 推荐书

  • GSeeker(G速客;原“幻灭的麦克风”)曾经是一个专注于Google及搜索行业的个人blog。目前的Gseeker将不仅仅是以Google为主,而是以互联网及互联网应用为主的项目博客。
    ——Hong Xiaowan
    GSeeker(G速客;原“幻灭的麦克风”)是一个专注于Google及搜索行业的个人blog。非Google官方网站。我们试图记录真实的Google,包括它的花边新闻。Google不是我们的信仰,只是我们的兴趣。如果您发现与Google或搜索行业有关的有趣的信息,不妨给我们发邮件。感谢您的访问!
    ——Ken Wong(幻灭)


  • Other blogs in the same channel in the Creative Weblogging Network







 

Tagcloud: GAH G狂想 G花絮 G创意 G多点 G快讯 G技巧 G事八卦 G源共享 Sponsored Post 公告 小项目 幻灭日志 挨踢G讯 杂谈