登录

/

注册

首页 > 科技媒体 > 媒体详情
互联网搜索技术:群体智能支撑的搜索技术(清华大学与搜狗公司合作项目)
罗纳尔多 2015-12-04
导语

随着网络数据的爆炸性增长,搜索引擎已经成为信息化社会不可或缺的基础互联网应用系统之一。

     

研究的问题

随着网络数据的爆炸性增长,搜索引擎已经成为信息 化社会不可或缺的基础互联网应用系统之一。正如2014年图灵奖获得者Vinton Cerf指出,搜索引擎已经成为人类记忆的延伸,这充分说明了搜索已经在人类的认知过程中发挥了重要的作用。尽管搜索引擎在应用层面已经取得了很大的成功,但搜索技术发展中仍然面临着巨大的技术挑战:一方面,网络空间数据资源的规模庞大而内容繁杂,目前中文网页的规模已经达到数千亿的规模,但其中的低质 量、垃圾乃至非法内容却为数众多;另一方面,搜索用户信息需求的内容复杂而表述模糊,搜索引擎每日需要处理数以亿计的用户查询,但这些查询的平均长度仅有 6个字左右。

解决方法

从本质上讲,这两方面的技术挑战反映了用户个体相对有限的认知能力与网络空间近乎无限的资源容量之间的矛盾。基于此,计算机科学提出采用群体智能(Wisdom of Crowds)方法来应对这类技术挑战。在2015年度北京市科学技术奖评选中,清华大学计算机系作为第一完成单位与搜狗公司合作完成的项目“群体智能支撑的互联网搜索技术及其应用”获得一等奖(技术发明类),计算机系主要完成人包括刘奕群、张敏、马少平、王超和金奕江。

群体智能方法,就是利用用户群体决策,协助解决在认知与信息处理方面用传统计算方法难以直接完成的任务。计算方法在处理问题时具有存储、处理效率较高的优 势,但是其应对认知、推理任务的能力有限;人类个体具有较强的认知、推理能力,但是反馈效率较低、质量也不甚稳定。群体智能很大程度上结合了两者之间的优 势,借助搜索引擎记录的规模庞大的匿名用户群体行为信息,就可以从中挖掘提炼出群体智能,协助其解决面临的各种挑战性问题。

具体来讲,该项目开展了基于用户行为结构图的信息需求理解、基于行为模式挖掘的网络资源质量评估、基于点击模型构建的搜索结果排序三方面的研究工作。其中,信息需求理解是资源质量评估与结果排序工作开展 的基础,资源的质量水平与排序效果的优劣归根到底由用户的需求加以定义和度量,而信息需求理解涉及的用户行为结构图模型也构成了用户群体交互行为分析的基 本要素。资源质量评估是搜索结果排序的主要依据之一,也是从繁杂的网络资源环境中去伪存真、去粗取精的基础。结果排序是搜索引擎技术研究的重中之重,直接关系到用户信息需求的满足和信息获取效率的提升,而排序的结果又对于用户行为反馈信息的收集产生反作用。该项目的主要创新点在于对用户群体行为中规律性知 识的提取,以及针对用户个体认知行为中决策依据的分析。

产业应用

上述研究成果在学术研究及产业应用方面都取得了良好的效果:理论成果方面共申请发明专利18项,获得软件著作权2项,并发表了数十篇高质量的学术论文,得到 众多国际权威学者引用,例如微软研究院的学者在其论文中称之为“据我们所知最为有效的方法”;西班牙Ovideo大学的学者评价这是“最优性能的方法”。 实际应用方面,该项目通过清华—搜狗搜索技术联合实验室平台进行产学研转化,取得良好效果。相关技术在搜狗公司、人民网搜索引擎等技术平台,北京市工商 局、北京市食品与药品监督局等公共管理平台,以及7万余家各类企业的推广运营中取得了良好的应用。


刘奕群副教授简介:

清华大学计算机科学与技术系,Email:yiqunliu@tsinghua.edu.cn

个人主页:http://www.thuir.org/group/~yqliu

研究领域:网络信息检索, 网络用户行为分析, 自然语言处理

研究概况:

主要研究兴趣集中在网络搜索引擎技术,尤其是基于用户行为分析方法改进搜索引擎性能这一研究领域。面对海量繁杂的网络数据与千差万别的用户行 为,传统的信息检索、机器学习、自然语言处理技术在搜索引擎系统中的应用面临着极大的挑战。为应对这一挑战,利用搜索引擎海量规模的用户行为数据信息,发 挥“用户群体智慧”的作用是非常必要的。基于这一思路,我们在国家自然科学基金重点项目、青年项目、教育部博士点基金项目与清华—搜狐搜索技术联合实验室 的支持下开展了一系列相关研究。

我们在“互联网页面质量评估”、“互联网垃圾网页与非法资源识别”、“搜索引擎检索效果与广告效果评估”、“搜索引擎查询推荐”、“互联网用户浏览 推荐”等搜索引擎技术领域开展了相关研究,取得了较好的研究成果。相关成果发表在JASIST、WWW、CIKM、WSDM等相关研究领域国际著名期刊与 会议上,并申请国家发明专利8项(其中已获得3项授权)。研究成果同时通过清华—搜狐搜索技术联合实验室的校企合作平台应用到搜狗搜索引擎中,取得了良好 的实际应用效果。

部分研究成果展示参见:搜索仪平台http://searche.thuir.cn/)、搜狗实验室平台http://www.sogou.com/labs/)。

研究课题:

1、国家自然科学基金重点课题: 下一代信息检索 (2008-2011);

2、国家自然科学基金青年基金课题: 基于网络用户行为分析的垃圾网页识别方法研究(2010-2012);

3、“清华—搜狐”搜索技术联合实验室合作课题: 搜索引擎日志分析、输入法日志分析、用户查询推荐、用户浏览推荐、垃圾页面识别、学术共享资源建设等 (2010-2012).

(本文参考自清华大学官网http://www.tsinghua.edu.cn/publish/newthu/index.html

如若转载,请注明e科网。

如果你有好文章想发表or科研成果想展示推广,可以联系我们或免费注册拥有自己的主页

  • 清华大学
  • 群体智能
  • 搜索技术
分享到
文章评论(0)
登陆后参加评论
作者 罗纳尔多

学生

北京理工大学

活跃作者
  • 爱因斯坦 科研工作者 北京航空航天大学 博士
  • 金陵 本科生 北京大学 本科
  • 梅西 本科生 北京工业大学 本科


发布成功!

确 定 关 闭