[自然语言搜索引擎]带你了解Powerset

 

人们期待已久的自然语言搜索引擎 Powerset 终于亮相, Powerset 将改变人们从 wikipedia 搜索和发现资料的方式。基于 PARC 专利许可,以及专有的搜索技术的 Powerset 将是自然语言搜索技术的一种突破,它可以就任何主题或领域,从 wikipedia 的文章中抓取句子的含义。我觉得自然语言搜索还是挺有发展前途的,毕竟不懂计算机知识的受众还是多数.一个伟人说过:抓住多数人的心,你就可以掌握世界. 这个事情来说QQ 可以算是一个例子呢!

这是 Powerset 改变人们消费网络内容的第一步,与基于关键词搜索的传统搜索引擎不同,Powerset 尝试理解句子的含义并进行匹配,以下是关于 Powerset 的发展历程。


2006年10月2日

Matt Marshall 在 venturebeat.com 撰写了一份声明来吸引风险资金。


一个不容忽视的高科技创业公司,Powerset,即将获得 1000万美元风险资金对抗 Google

我们耳闻一个叫做 Powerset  的高科技创业公司,声称其搜索技术优于 Google。该公司由人工智能与自然语言技术专家 Barney Pell 创办,他的业务创想已经深入硅谷的风险投资者。


接着,Pell 在他的博客中谈了他的看法:

Powerset与自然语言搜索


两天以后,VentureBeat 就以前的声明发表了一篇很长的更新,
因为太长,我们只节选其中一部分:

关于 Powerset 与自然语言搜索的更多细节
Matt Marshall 2006年10月4号


们说过会告诉你们更多 Powerset 的细节,这个不为人知的公司准备以一种新的搜索技术超越 Google。Powerset
的杀手锏是自然语言搜索,它会理解人们的自然语言。比如,如果你在 Google 中输入“Books by Children”,Google
一般会忽略那个 "by",并搜索所有与 "books" 和 "children" 有关的页面,因为没有搜索引擎能理解句子中的语意,一些公司,如
Ask Jeeves,曾尝试过,你可以以问句向 Ask Jeeves 提问,但如果你的问题太复杂,Ask Jeeves
就会无所适从,因为它只能回答事先准备好的特定问题。

虽然 Google
也知道自然语言的重要,却没有在这个领域获得重大突破。这很好理解,正象 Powerset 的 Barney
Pell 说的那样,人们已经接受使用那些专门的搜索语言,就是关键词语言。很多搜索引擎能够识别一些高级查询语法,比如,搜索那些不含某个关键词的页
面,但人们并不容易记住这些搜索语法,而每个搜索引擎的语法各不相同。最终,Google
的核心引擎建立在这种关键词语言上,而它们很难改变建立在这个基础上的各个层面。

Pell 因此而来,Powerset 尝试解决自然语言问题,将自然语言作为搜索的核心引擎,来理解时间,地点,语气等等,他们并没有给出确切的发布日期。


就在第二天,10月5日,搜索专家
Danny Sullivan 正式向 Powerset 提出质疑:

“那是痴人说梦,10年前就有人这么痴了
现在又轮到
Powerset。目前,那是一个你根本没法使用的搜索引擎,但这些炒作无疑还会继续。为了阻止这些行为,让我来讲讲自然语言搜索的历史。”接着
Danny Sullivan 用了非常长的篇幅,回顾了1995年以来的自然语言搜索历史,因为太长,这里不再赘述。

现在,看看2008 年5月12日

Powerset 正式发布,这是 Powerset 改变人们消费网络内容的第一步,与基于关键词搜索的传统搜索引擎不同,Powerset 尝试理解句子的含义并进行匹配。


Powerset 的首页


Powerset 目前面向以下领先的自由内容提供者进行搜索:

  • Powerset 对 wikipedia 英文版的250万篇文章进行搜索
  • 针对很多问题,Powerset 从开放的共享知识库 Freebase 获得答案。


Powerset 的搜索结果页包含以下实用功能:

Factz – 当用户输入一个搜索主题,Powerset 会从 wikipedia 中总结出一些相关资料。

Dossiers – Powerset 会根据 Freebase 和 Wikipedia 作一个总结,以便用户对某个主题的概况有一个快速的了解。

Answers –  对很多问题,Powerset 自动根据 wikipedia 和 freebase 中的资料,生成一个答案表。

Semantic Highlighting – 与用户问题语意相关的搜索结果会加亮显示。

Minibrowser – 搜索结果会以大纲形式显示。

Article Outline – 一个导航工具条会随时漂浮在旁边帮助用户快速进入文章的某个章节。

Summary of Factz – 会自动生成文章的内容总结。

Explore Factz – 可以生成相关主题文章的链接。

Powerset 常见问题:

为什么 Powerset 的搜索只限于 Wikipedia?

Wikipedia
是网络上千千万万用户查找高质量信息的源泉,通过对 Wikipedia 的搜索,Powerset
不仅提高了搜索质量,还提供了一种对知识进行总结归纳的新方法。当然,Wikipedia 只是开始,接下来,Powerset
还会将触角伸向更多资源。

什么是 Freebase?

一个由 Metaweb 提供的自由开发的世界知识库,Powerset 的一些问题的答案来自 Freebase。

“Powerset”是什么意思?

太文字游戏了 – 译者。

本文国际来源:http://altsearchengines.com/2008/05/11/powerset-launches-into-the-search-space/
中文翻译来源:COMSHARP CMS 官方网站

值得了解的7个Google搜索技巧

以下7个Google搜索技巧你也许见过,这只是一个总结.使用这些技巧能够大大加强你的搜索效率和准确度.

1.Google脸部搜索

这个技巧能够让你在使用Google图片搜索的时候过滤搜索结果,以便只显示包含有人脸部的部分图片.这在当你只需要搜寻流行的产品,公司和特定地域背后的人物的时候非常有用.你只需要在使用标准图片搜索之后出现的URL后加上&imgtype=face 后缀就可以了.

如果你不想每次都添加后缀,还可以安装这个Greasemonkey脚本.当然,你必须使用安装有Greasemonkey的Firefox.

2.  Google + 社会媒体网站= 免费好用的东东

如果你在寻找免费的桌面壁纸,Wordpress模板等等,使用Google搜索社会媒体网站是最好的选择.在任何常规搜索中"免费"这个会立即带来滔滔垃圾结果.所以既然无数社会媒体网站的用户已经给你感兴趣的东东进行了排名和评论,那么你何不直接略过这些垃圾搜索结果呢.你要做的只是让Google直接搜索指定网站里的内容就可以了,而出现在搜索结果里的一定是经过万人提炼的保质保量的内容.

PS:因为国内的类似网站还并不发达,所以使用英文在国外网站上搜索是一个比较好的选择.

3.  寻找免费的匿名网络代理

网络代理让你可以通过第三方代理网站进行网络浏览.它充当的是浏览器和其他网络站点的中间人角色.我们使用网络代理一般有两个主要原因:

  • 你在网吧等公共场合上网,基于隐私的考虑不幸让管理员知道你的浏览记录.
  • 你希望跳过网络内容过滤器或者某些服务器对你的IP的屏蔽.当然,在中国,我们主要是对付强大的网络审查以及校园网的限制.

使用Google搜索免费网络代理,你只需要使用下列搜索语句,找到起作用的代理,然后输入你想浏览的网站的URL就可以了

4.  搜寻免费的MP3,PDF,视频等

我们已经有了百度和超多提供免费不合法内容下载的网站,但是依赖他们还是有很多英文内容我们搜索不到,这个时候我们就可以Google以下这些变态语句了.

5.  浏览全世界的开放摄像头

用Google还可以搜索开发接入的实时直播摄像头,通过它你可以观看世界各地开放摄像头实时拍摄下来的镜头.这可能并没有多大的用处,不过还是很好玩.(注意,你可能需要安装ActiveX插件或者Java Runtime.)

6.  通过图片评判一个网站

通过一个网站内部的随机图片,你可以找出一个网站是到底是关于什么的.即便你对这个网站非常熟悉,这个技巧也非常值得一试,你一定会找到一些意想不到的东西.

7.  基于第三方观点的搜索结果

有时你通过其他网站如何评价一个网站来更好地获得该网站的内容.这里需要说明一下allinanchor语法: anchor是一处说明性的文字,它标注说明了这个链接可能跳转到其它的网页或跳转到当前网页的不同地方.当我们用allinanchor提交查询的时候,Google会限制搜索结果必须是那些在anchor文字里包含了我们所有查询关键词的网页.换句话讲,它忽略了返回网页的标题和内容,而是基于其他网站用来参考搜索结果产生的搜索相关性来过滤搜索结果网页的.
Examples (notice the added variety between search results):

原文来自Marc&Angel