一背景介绍
随着互联网技术的发展和普及,各级政府、企事业单位、大专院校都纷纷架设了网站,借助互联网技术提升自我形象、扩大影响范围,同时广泛借鉴新的互联网手段,将相关工作平台转移到了互联网上,并积极拓展新的互联网工作业务。上述现象表明,一个全民互联网的时代已经到来。
但是随着时间的推移,网站内容不断增多,网站结构也越来复杂,使得访问者尤其是初次访问者,往往对如何从海量信息中找到所需内容感到困惑,随着点击次数的增多,逐渐失去了对网站内容的兴趣和耐心。从而站内检索的需求也就逐渐浮出水面了。
二需求分析
自从有了计算机以后,人类开始用计算机保存信息,有保存,就有查找,于是检索技术诞生了。文本检索技术的发展从最初的SMART文档检索系统到Altavista搜索引擎,到现在的搜索巨头Google,其发展可谓日新月异、与时具进,人们开始习惯互联网的搜索时代,站内检索的需求也逐渐显露出来。
1、大部分网站的架设目的是让外界了解自己,了解的人越多,效果就越好。让访问者浏览到最需要的内容,就可让更多的访问者了解自己,这样站内检索成为必然选择。
2、站内检索的日志功能可以记录每个访问者的检索词和检索结果,这是访问者意图的最直接的表现。通过分析这些信息,网站相关负责人员还可以调整网站结构和内容,从而更好的满足上面第一点所提到访问者需求,形成一个良性循环。
3、站内检索可以让访问者更全面的了解他所想要的东西,这增加了网站信息间的组织性和逻辑性,方便了访问者的使用,提升用户体验度。
4、目前互联网上面的各大知名网站都在明显位置放置了一个检索框,便于访问者进行信息检索浏览。所以增加在网站上增加站内检索功能,更能体现一个网站的专业性,从而树立良好的公众形象。
三相关技术介绍
从搜索引擎技术发展的角度来讲,一个完善的搜索引擎应具备以下技术特点:
1、自动分析用户需求。
2、对象数据信息自动抽取、优化排序。
3、基于视觉网页块分析。
4、网页库内容分类。
5、潜在相关性自动提示。
6、对象数据网页内容结构化信息抽取类技术,网页上文本内容的相关性分析。
7、自然语言处理、简单的语意语法分析。
8、对象数据的重复冗余自动识别。
9、针对行业的自主优化。
10、相关搜索自动提示。
11、对象数据自动采集。
12、自动跟踪对象数据的变化。
就目前的搜索引擎技术现状来讲,主要存在基于数据库搜索、基于spider抓取技术的搜索、基于全文检索技术的搜索三种检索方式,以上三种检索方式各有利弊,以下就三种技术的利弊加以分析。
|
基于数据库的搜索 |
基于spider抓取技术的搜索 |
基于全文检索技术的搜索 |
技术原理 |
数据库搜索 |
经Spider抓取网页,对html解析/分词/索引实现网页式搜索平台 |
对数据库数据进行html解析、分词,索引,实现搜索平台 |
数据容量 |
小于百万级 |
千万级以上 |
千万级以上 |
检索效率 |
秒级速度,准确度高 |
毫秒级速度,高速,准确度低 |
毫秒级速度,高速,准确度高 |
检索能力 |
不支持分词功能,无法完成全文检索,但可以用sql的单字索引功能实现最低级的全文检索 |
支持分词功能,但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态网页进行搜索,动态网页数据无法抓取 |
支持分词功能,可对过关键字进行检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录 |
抗压能力 |
差,随数据量上升,数据库压力增大,系统崩溃的危险系数高 |
抗压能力强,系统安全系数高 |
抗压能力强,系统安全系数高 |
结果精度 |
用户对搜索范围、内容和体现的结果无法精确控制 |
用户对搜索范围、内容和体现的结果无法精确控制 |
用户可对搜索的内容范围和体现的结果进行精确的控制 |
内容范围 |
可控制 |
不可有效控制,栏目无法精确控制 |
可有效控制,栏目控制精准 |
动态摘要 |
无 |
摘要内容不清晰各种垃圾信息过多 |
提供动态摘要,摘要清晰精确,便于用户快速寻找到所需信息 |
其他功能 |
1、无关键字飘红
2、无同义词搜索
3、可实现相关性排序 |
1、有关键字飘红
2、无同义词搜索
3、可实现相关性排序
4、支持标准的国际搜索语法
5、二次开发成本高 |
1、有关键字飘红
2、有同义词搜索
3、可实现相关性排序
4、支持标准的国际搜索语法
5、持续升级能力强 |
通过上面的对比表格,我们可以发现基于数据库的检索方式基本上不能满足站内搜索功能的实际需求,只有后两种检索方式才有可能从技术角度上满足需求,金信桥站内搜索引擎平台将后两种检索方式进行了有机的结合,通过对网页内容抓取技术和全文检索技术,摒弃了这两种检索方式的弊端,从而提供了一种全新的站内检索解决方案。
四总体目标
通过站内搜索引擎平台的部署,使得门户网站的包含的信息资源能够真正的“活”起来,流动起来,从而能够提高访问者对于网站的兴趣,提升访问者的体验度,最终满足架设网站来提升自我形象、扩大影响范围的初衷。
五方案介绍
本方案提供的功能由TBSSiteSE站点搜索引擎系统、WEB检索系统组成。
1TBSSiteSE站点搜索引擎系统
TBSSITESE站点搜索引擎系统是金信桥公司研发的一款用于针对网站页面及文件进行内容抓取并建立索引的专业检索引擎。
专业的搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面: 准、全、快 。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这需由“ 分词技术 ”和“ 排序技术 ”来决定。
中文分词技术属于自然语言处理技术范畴,就是通过计算机对一句话当中的连续文字是否为词的判断过程。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思,能否准确的对中文信息中的内容进行准备分词,很大程度上决定了检索结果的准确性。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,TBSSITESE融合了以上三种分词算法,同时结合歧义词识别技术和新词识别技术,大大的提高了中文分词的准确性。
对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的信息中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序,即排序技术的实际应用。
中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。 网络蜘蛛即Web Spider,是一个很形象的名字。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是可以网络蜘蛛在抓取的时候抓取的内容更全。TBSSITESE可以根据抓取站点的不同,让用户根据站点情况自主的选择抓取策略,从而尽可能地满足了性能与效果之间的平衡。
通过TBSSITESE对抓取回来的内容进行分析,抓取的内容是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,通过对文件信息(包括网页所在URL、编码类型、网页内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)的提取,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对网页内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
2WEB检索系统
WEB检索系统是用户直接操作进行检索的界面,用户的所有检索命令都通过此系统将用户输入的检索词进行分解搜索请求,并由相关搜索引擎在索引数据库中查找,将搜索结果按照相关度进行排序,提取关键字的内容摘要,最后将组织好的检索结果页面返回给用户。
例如当用户在检索主界面的搜索框中输入关键字“中国人民”,检索系统会自动将关键字分解为“中国”和“人民”两个关键字并在索引数据库中进行检索,当检索服务器把检索结果返回给检索系统后,检索系统会根据关键字的相关度进行排序,将最符合用户需求的结果排列在最前面的位置,当上述操作完成以后,检索系统将组织好的结果页面返回给用户,用户就可以在结果中查找自己需要的内容。
六总结
综上方案坚持开放、标准、先进、成熟的原则,以TBS相关软件平台为基础,旨在提供一整套完整、先进、实用、高效的解决方法,从而推动各大门户网站的建设和发展,助力打造其自有品牌的互联网服务。
北京金信桥信息技术有限公司愿携手国内各级政府、企事业单位、大专院校,积极运用我公司在信息提取、全文检索等方面拥有的丰富行业知识和行业经验,共同创造美好的未来,实现在数字化建设中的最大价值。
|