数据结构 – Justin Talk

FROM: http://bundles.blog.hexun.com/44963459_d.html

结构化数据展现给我们的将会是一个别样滴未来~~

我们首先关注的一个重大网络趋势就是结构化数据。在先前的介绍中，它有时会在“语义网”这个术语中被提及。但是2009年这年已经得出结果了，这一趋势无疑将不再仅仅局限于语义网。在本文中，我们将会分析今年结构化数据的发展，并提供三个产品实例：OpenCalais，Google，以及Wolfram Alpha。

数据网，而非文档

在今年二月份的时候，蒂姆·伯纳斯-李（Tim Berners-Lee）就称我们已经身处数据网的时代，而非文档互联网的时代。伯纳斯-李掌管的机构—— W3C已经在积极推广用以构建数据网的两大关键计划：语义网（Semantic Web）以及最近才出现的关联数据（Linked Data）

虽然在过去几年中，我们已经知道构建数据并让其他人在此基础对数据加以利用的方式有很多种。目前最好的一个例子就是Twitter，它的API负责着Twitter上90%的用户活动——这些都是通过第三方应用程序来完成的。

数据网的基本原则仍然与Alex Iskold之前在读写网上发表的一篇文章中所描述一样（link）：“非结构化的信息将会为结构化的信息让路——从而铺砌出一条通向智能计算的道路来。”

案例一: OpenCalais

我们首先介绍的实例产品OpenCalais可能是我们目前找得出的关联数据有关的最佳示例（link）。国际商业与金融新闻巨头——汤森路透公司（Thomson Reuters）在08年2月的时候推出了一个名叫OpenCalais的API（link）。简单说来，OpenCalais将非结构化的HTML转换成语义上经过标记了的数据。它会将数据按照“人”，“地点”，“公司“等类别进行整理。这样，第三方应用程序和站点就能在这些数据的基础上制作出一些有意思的新东西来。

对于关联数据的完整阐述，读者可以读读Alexander Korth在09年四月份写的技术介绍《数据网：创建机器可以访问的数据》。我也在09年5月发表的一篇标题为《怒放的关联数据：你为什么应该关注？》的文章中也讲解过关联数据的背景以及相应的好处。

案例二:Google的富文本摘要

在今年三月份的时候，Google以一种被称为”富文本摘要“的形式在自身核心的搜索功能中添加了结构化数据。本质上来讲，这个特性可以从网页上提炼并显示有用的信息，它是通过结构化数据的开放标准像微格式（microformat）和RDFa来实现的。在5月推出的时候，Google就邀请发行商来标记他们的HTML（link）。尽管这类标记的普及还需要一段时间，但是Google这类大公司对它的利用也显示出网络上结构化数据的重要性在不断增长。

案例三 3: Wolfram Alpha

自 Wolfram|Alpha五月份高调发布以来，我们一直在密切关注这创新产品。它自称是“计算型知识引擎”，尽管它并不像某些人所预言的那样是Google杀手，但是它还是具备许多潜在的用途。

Wolfram|Alpha 有一个类似搜索引擎的界面，它可以允许用户向里面输入自然语言的语句。但是这款产品的一个主要组成功能就是你可以对数据进行运算。这款产品是以数据的利用和运算为前提条件。如果Web2.0的本质是关于数据的生成（也就是用户生成内容），那么下一代网络则与数据的利用有关。

结论

从上面三个案例，我们可以看到结构化数据正在快速成为当今网络的一个特性。像汤森路透和Google这样的公司正在让数据变得有组织，而新型的产品（像Wolfram|Alpha）将会以一种我们现在无法想象的方式对这些数据加以利用。

（译者：Moon.Wong）

标签：数据结构

2009年五大网络趋势之结构化数据

数据网，而非文档

案例一: OpenCalais

案例二:Google的富文本摘要

案例三 3: Wolfram Alpha

结论