智能语义聚合框架：像人类一样收集和理解知识

郑昀 20071129

智能语义聚合框架并不是什么领域都适用的，能够进入的垂直领域特点：

信息源：网络资讯足够丰富，碎片多且分散；
用户需求：受众越来越依赖于网络碎片形成自己的意见；
商业需求：容易建立商业模式或电子商务的领域。

也就是说，很多网络口碑公司，只是要么点评、要么点评搬家、或者拿出点儿商业报告、或者论坛营销把戏，但离真正理解人们在说什么还远得很。其实语义应用上有好多事情很好玩的，并不是只能像玩聚网搞得像techmeme一样热点自动发现，毕竟玩聚的热点故事还不能真正理解故事的本意；像大旗网的口碑榜还只是玩文本的情感倾向计算，但它也没有理解一个帖子为何说产品不好、不好在哪里、为何要买这个产品等等。

现在的搜索理解人们在说什么吗？

也是不知道的。

它们可能知道你提到了哪些关键词，哪些词更重要，但它不会像人类一样去看到网页内容形成知识，现有的搜索只能叫做“together”而已。

智能语义聚合框架可以。我们目前正在做的事情就是在证券市场上试图充分体现这个框架的优越性，挖掘一些本来只有人才能干的价值；在这个层面上，酷讯或者爱帮网的生活搜索只能算是“精确信息提取”和“灵巧组织”而已。

那么什么是像人类一样的收集和理解知识呢？

我们举一个雅虎全能搜索的例子。

雅虎的这个人际关系图后来也被谷歌在天涯来吧里复制：http://www.yahoo.cn/s?v=person&p=%E6%96%B9%E8%88%9F%E5%AD%90，方舟子的人际网络关系图。我们前几个月也抽了点时间玩了一把，首先收集所有各种明星的新闻资料，然后训练机器理解人类之间可能存在的关系有哪些，接着按实体名（你可以理解为人名）与实体名之间的距离远近以及关系词去统计实体与实体之间存在哪些潜在关系，最后反转和理顺关系、归纳即可。这里面的难点就在于实体与实体的关系并不一定简单的通过“XXX的XXX”这种简单句式来表达，汉语千变万化，新闻资讯阐述的往往是一个事件，你要给机器足够的训练，它才能理解足够多的关系。

这种模式的理解知识，就很象人（或小孩子学习）的思维了。这只是一个简单的例子。

小结：

智能语义聚合框架，是什么，第一步，选择好垂直方向；第二步，把知识碎片together起来，碎片包括blog、news、forum、microblog、live room等等；第三步，文本挖掘和统计；第四步，展现价值。

一般来说，计算语言学和自然语言信息处理研究的核心问题是语言的自动理解（Language Understanding）和自动生成（Language Generation）。智能语义聚合框架还属于前者的世俗应用。前者从句子表层的词语符号串识别句子的句法结构，判断成分之间的语义关系，最终弄清句子表达的意思。这个事情学术界搞了很久了，但要想隐藏掉背后的复杂技术，变成一个通用的应用需求，还是需要从实际生活中来，观察人类日常行为也许是个好办法。语义搜索或者语义网这高深的东西，我真的担心只有Geek才有的需求，让无数人竞折腰啊。

我的其他文章：

11/27/2007  话题营销在选择自由的当下只能是制造垃圾和垃圾流量
11/23/2007  爱帮网“搜索+社区”就地展开
11/01/2007  【乱讲】互联网人的“迷信”
11/06/2007 互联网大鳄的"打"、"着实打"、"用心打"

11/06/2007 GPS导航服务的视野应该放远些

10/29/2007 【帮帮】移动互联网的“浑水”

10/22/2007 小i机器人,MSNNEXT,MSNSHELL的周末聚会【帮帮俱乐部】

10/16/2007 Web2.0的信息组织需要引入语义的新思路

玩聚热点频道：