将文章归档于
G源共享
由. Ken Wong on 2007-05-30

我们现在所使用的绝大部分的搜索引擎的工作原理都大同小异,即搜索引擎派出爬虫,不断地跟随着互联网网站上面的链接走,并且分析所经过的网页内容,再将其收录进搜索引擎的索引数据库里;用户输入关键词进行搜索时,搜索引擎就从现有的索引数据库里返回相关的结果。世界前四大搜索引擎Google、Yahoo!、微软Live Search及ASK均采用这样的模式。Google之所以更优秀,是因为它的算法能返回相关度更高、更准确的搜索结果。不过正如你所想,这种模式的缺点也是很明显的,那就是它所提供的搜索结果并不是实时的,而是基于索引数据库。更具体地说,只有爬虫抓取过的网页内容,才有可能出现在索引数据库里,然后才有可能被用户搜索得到。也就是说,在这种模式下,用户所得到的搜索结果并非最新的,因为网站出现了新内容后,还得等待爬虫来抓取、分析和收录。另外,任何一个搜索引擎包括Google在内,其爬虫仍然无法走遍整个互联网,因为互联网信息的增长速度是爆炸式的。因此,传统的搜索引擎只能向我们提供旧的、不完整的搜索结果。
今年2月份我们曾经介绍过自然语言搜索引擎Powerset,它之所以声称比Google更强,是因为它所拥有的语义技术能比Google更好地理解用户的搜索意图。但也仅此而已,Powerset还是和Google一样,依靠现有的索引数据库而工作,它并没有解决索引互联网这个根本的问题。如果有一个搜索引擎,它能为我们提供实时的、完整的搜索结果,那么我们就不会再错过互联网上的任何一条信息了。但问题是,这样的搜索引擎是否真的存在?
听起来可能有点令人难以置信,但MyLiveSearch就声称自己正是这样一个革命性的新搜索引擎,它能革掉Google的命,甚至能革掉整个搜索产业的命。据报道,MyLiveSearch由35岁的Rob Gabriel所创造,总部位于澳大利亚墨尔本市。它自称是世界上第一个"Live"(实时)搜索引擎。当然,MyLiveSearch和微软的Live Search完全不同,后者的"Live"只是品牌名称,与搜索引擎的特性完全无关。那到底MyLiveSearch有什么本事?
MyLiveSearch的工作原理和Google等搜索引擎有着本质的不同。首先,MyLiveSearch依靠浏览器的插件而工作。当用户输入搜索关键词时,它就会接通Google、Yahoo!、微软等现有搜索引擎的索引数据库。但它并不是直接将这些数据库里的结果返回给用户,而是将这些数据库的相关结果连同用户浏览器里及各种流行网站的书签都当作是"starting points"(起点),然后它的搜索引擎才开始真正工作。MyLiveSearc会以这些起点为出发点,抓取连接至这些起点的其它所有网页,这样它就可以向用户提供准确度及相关度都更高的搜索结果。也就是说,MyLiveSearch自己并不像Google那样老老实实地每天都派爬虫出去抓取网页,而是直接以Google等搜索引擎的搜索结果及互联网用户的收藏网页为起点,进行二度抓取及搜索。
Rob Gabriel声称MyLiveSearch能在数秒内返回搜索结果,并且它们相比起传统的搜索引擎的搜索结果,将会是更丰富、更详尽、对用户更有用的。此外,MyLiveSearch还能直接搜索动态网页的内容,而动态网页的内容一直是令Google等搜索引擎极头痛的一个问题,因为现有的爬虫并不能很好地抓取这些网页的内容。基于这种技术,Rob Gabriel声称MyLiveSearch将可能改变人们搜索互联网的方式,因为MyLiveSearch实质上就相当于将每一台电脑都变成了一个超级爬虫,然后再联合所有电脑的力量实现实时搜索。
看完上述的介绍你可能会觉得Rob Gabriel只是吹牛或夸夸其谈而已,不过你很可能想错了。因为Google的商业拓展人员至少已经和MyLiveSearch进行了两次接触,第一次是这个技术刚刚出现时,而第二次则只是在上星期。为什么?因为Google一向都有习惯,收购新的搜索技术。一方面是为了增强自己的实力,另一方面则是为了消除潜在的竞争对手。如果你还记得,Google干这事也不只一两次了,最轰动的一次要算一年前Google收购Orion搜索算法了。而Orion算法则刚好又是由澳大利亚University of New South Wales的年仅26岁的博士生Ori Alon所发明。
Rob Gabriel说上周与Google人员进行接触后,激发了他下个月将到硅谷演示MyLiveSearch搜索技术的念头。用他自己的话来讲,就是MyLiveSearch起源于一个梦想,而这个梦想正在慢慢地变成现实,并且远比他的最初预期要大。MyLiveSearch由Rob Gabriel及他的弟弟Mark Gabriel连同另一位系统工程师Mende Jurukovski一同开发,历时两年,但这个技术的最初创意早在10年前已经由Rob Gabriel创造出来。
MyLiveSearch预计在下个月中旬至下旬会正式推出beta公测,你可以预先进入它的官方网站提交申请,以便第一时间试用这个声称会革掉Google的命的搜索引擎:
http://www.mylivesearch.com/search/beta.php
姑且不论MyLiveSearch是否真的会成为比Google更优秀的全新一代搜索引擎,至少它的技术对于搜索业界及每一位普通的搜索用户而言,都是有好处的。或许,它真的能够令我们眼前一亮呢。时间会说明一切的。
Permalink: MyLiveSearch:它将会革掉Google的命?
Mr Wong
Vote for MyLiveSearch:它将会革掉Google的命?:
|
分值情况: 9.91 / 11 评分
|
回应:
cugbig
(05/29/07 3:03pm)
假设,他以后真的强大了。革掉了Google,Yahoo的命。那么没有了这些搜索引擎强大的索引数据支持,他自己不也完了。还有,这种模式下用户岂不是有很长的延时,对网站而言应该也会增加很大的负担吧?
回应:
幻灭
(05/29/07 3:46pm)
革掉了命并不意味着死亡,尤其是像Google这样的企业,呵呵。从目前的资料看,延时的确是它的一个大问题,尽管创始人声称数秒内会有结果。MyLiveSearch越流行,网站的负担可能越大,尤其是知名的网站。想像一下无数的人肉爬虫一天搜几千次=..=
回应:
cow
(05/29/07 3:52pm)
看完後,沒有感到此技術有多live,它不是一樣要依靠各大搜索引擎的數據庫。
結合書簽進行搜索,google也有類似的方法。
結合書簽進行搜索,google也有類似的方法。
回应:
AlbertNi
(05/29/07 4:06pm)
这个思路确实非常有新意。。。
不过这个技术不是意味着,随着流量增大,爬虫会做大量的重复工作?这样的话,带来的巨大带宽占用和大量的服务器处理很明显会影响效率嘛。。。
不过这个技术不是意味着,随着流量增大,爬虫会做大量的重复工作?这样的话,带来的巨大带宽占用和大量的服务器处理很明显会影响效率嘛。。。
回应:
Qount
(05/29/07 4:48pm)
思路是不寻常,希望对搜索有进步!
回应:
googwz
(05/29/07 11:36pm)
严重BS百度空间不允许贴google相册的相片
回应:
Topliver
(05/30/07 10:11am)
不错!思路很好,希望会引发革命!
回应:
Sqqd
(05/30/07 10:25am)
这个。。听着就感觉快不起来啊。。。
回应:
xiaoV
(05/30/07 2:04pm)
@cugbig
google以后卖数据为生?^_^
google以后卖数据为生?^_^
回应:
study5
(05/30/07 2:16pm)
我不看好这个
没有革命性的创新是革不了Google的命的
他所提到的技术我不认为能对搜索结果带来多大的改观
没有革命性的创新是革不了Google的命的
他所提到的技术我不认为能对搜索结果带来多大的改观
回应:
dogorgod
(05/30/07 7:24pm)
希望它能成功,这样我就可以赚一比了。哈哈。不要让我失望啊。
使用我们的搜索寻找其他有趣的文章
| CW工具栏 | ![]() |
| RSS | |
|
| |
| Yodao |
|
| Netvibes |
|
| Anothr | |
| Follow us on Twitter! |



