首頁>>廠商>>軟件開發(fā)商>>拓尓思

TRS電信行業(yè)114企業(yè)搜索引擎解決方案

2007/03/22

1.概述

1.1方案背景

  2006年,隨著中國互聯(lián)網(wǎng)搜索市場的迅猛發(fā)展,百度、Google、雅虎、搜狐搜狗、新浪愛問、中國搜索等國內(nèi)外搜索引擎在中國市場展開了空前激烈的競爭。在搜索市場的巨大市場價值的吸引下,國內(nèi)電信運營商紛紛推出向綜合信息服務(wù)提供商轉(zhuǎn)型的戰(zhàn)略舉措,加入爭奪搜索市場份額的行列。

  2006年6月,中國電信全面升級114查號業(yè)務(wù),推出了全新的號碼百事通業(yè)務(wù),為將近8億的電話用戶提供方便、快捷的綜合信息服務(wù)。號碼百事通立足于百姓的衣、食、住、用、行、樂,著眼于生活的便利、便捷,致力于為公眾提供綜合信息服務(wù)。在中國電信瞄準(zhǔn)這一巨大的潛力市場的同時,國內(nèi)另一固網(wǎng)運營巨頭中國網(wǎng)通,也開始在其北方10省推廣類似的電話搜索引擎服務(wù)。重量級的電信運營商加入搜索引擎市場的爭奪,預(yù)示著2007年搜索市場將產(chǎn)生風(fēng)起云涌的變化。

  目前用戶對互聯(lián)網(wǎng)服務(wù)的使用、獲取方式的變化以及服務(wù)商為此進(jìn)行的技術(shù)創(chuàng)新,是搜索形態(tài)變遷的關(guān)鍵,也是不同搜索服務(wù)商競爭的核心。作為互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展最重要的方向之一,以Google、百度為代表的第二代搜索服務(wù)實際上與互聯(lián)網(wǎng)服務(wù)整體發(fā)展的第二個階段是相互對應(yīng)的。第一階段是網(wǎng)站呈現(xiàn),目錄分類;第二階段是內(nèi)容交互,網(wǎng)絡(luò)搜索;第三階段是任意聚合,個性搜索;第四階段是自由交互,智能發(fā)布與搜索。第三代互聯(lián)網(wǎng)搜索引擎將在個性化、語義智能分析、搜索結(jié)果優(yōu)化等方面取得明顯進(jìn)步。

  雖然電信運營商推出搜索引擎有其本身的品牌和資源優(yōu)勢, 但是常規(guī)的互聯(lián)網(wǎng)搜索模式已經(jīng)被成熟的搜索引擎深度挖掘,百度、google等搜索巨頭長期積累的競爭優(yōu)勢卻不是短時間就能趕超。那么電信運營商的新搜索引擎如何才能立足搜索市場并在局部勝出呢?其關(guān)鍵在于深入整合挖掘電信運營商的企業(yè)內(nèi)部網(wǎng)絡(luò)資源和信息資源優(yōu)勢,側(cè)重于特定關(guān)鍵領(lǐng)域提供特色搜索服務(wù),為用戶提供真正有價值的信息。

  對于中國電信和中國網(wǎng)通而言,114巨大的品牌資源、龐大的用戶群、廣泛的知名度是電信運營商實現(xiàn)信息服務(wù)平臺的最佳載體。通過114平臺的發(fā)展,刻意逐步將基于語音的增值服務(wù)嫁接到統(tǒng)一的平臺上來,并為客戶提供提供衣、食、住、用、行、樂等方面便利快捷的綜合信息。目前,中國電信的號碼百事通業(yè)務(wù)和中國網(wǎng)通的114電話導(dǎo)航業(yè)務(wù),在國內(nèi)各省區(qū)陸續(xù)展開。而作為該業(yè)務(wù)核心的114企業(yè)搜索引擎更是2007年各省市電信公司建設(shè)的重中之重。

  北京拓爾思(TRS)信息技術(shù)有限公司是國內(nèi)企業(yè)搜索引擎和內(nèi)容管理軟件的領(lǐng)導(dǎo)廠商, 公司在企業(yè)搜索引擎領(lǐng)域占據(jù)著國內(nèi)企業(yè)級搜索引擎市場的70%。TRS公司結(jié)合電信企業(yè)建設(shè)114搜索引擎的需求,應(yīng)用多年來自主開發(fā)的TRS Database Server作為企業(yè)搜索引擎服務(wù)的平臺,配套TRS文本挖掘基礎(chǔ)件、TRS網(wǎng)絡(luò)信息雷達(dá)和數(shù)據(jù)內(nèi)容分發(fā)服務(wù)模塊,向電信行業(yè)推出智能、安全、跨平臺、個性化的電信行業(yè)114企業(yè)搜索引擎解決方案。此方案已經(jīng)在中國電信全國中心114企業(yè)搜索引擎項目和上海電信號碼百事通搜索引擎項目中獲得了成功應(yīng)用。

1.2 企業(yè)搜索引擎與互聯(lián)網(wǎng)搜索引擎的區(qū)別

  搜索引擎的出現(xiàn),整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁資源,并提供信息導(dǎo)航和信息查詢服務(wù),使信息的價值得到了網(wǎng)民和廠商的普遍認(rèn)可。一提到搜索引擎,就自然聯(lián)想到互聯(lián)網(wǎng)搜索引擎,再加上一些廠商刻意的推波助瀾,造成了互聯(lián)網(wǎng)搜索引擎取代所有搜索引擎的概念。而實際上我們可以看到不同搜索引擎之間的差別很大。

  TRS電信114搜索引擎是以TRS的企業(yè)級搜索引擎為基礎(chǔ)的。TRS所說的企業(yè)搜索引擎(Enterprise Search Engine,簡稱ESE)中的企業(yè)并非指單純的企業(yè),政府、教育、科研、媒體、醫(yī)療、軍隊、安全部門都有類似的應(yīng)用需求,這里的“企業(yè)”可以理解為“企業(yè)級”,即企業(yè)級搜索引擎。那么,對于企業(yè)級搜索,我們對“搜索”的訴求又是什么呢?和互聯(lián)網(wǎng)搜索引擎相比,它又有哪些不同呢?

  實際上,搜索引擎服務(wù)是內(nèi)容管理技術(shù)的一個典型應(yīng)用。我們不妨從內(nèi)容管理的框架來看搜索引擎的各個環(huán)節(jié),即從信息內(nèi)容的采集,加工,管理,到服務(wù),以至到信息內(nèi)容的“發(fā)現(xiàn)”來比對一下企業(yè)級搜索引擎的不同。


*SEO:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網(wǎng)絡(luò)排名。

1、復(fù)雜結(jié)構(gòu)數(shù)據(jù)的搜索

  互聯(lián)網(wǎng)上搜索的數(shù)據(jù)一般都是網(wǎng)頁形式的,盡管這幾年網(wǎng)上豐富起來的圖片、MP3等信息形式,但其組織形式仍是基于HTML組成的網(wǎng)頁。而企業(yè)級用戶需要搜索的數(shù)據(jù)既有互聯(lián)網(wǎng)站上的,也有內(nèi)部網(wǎng)站上的;既有網(wǎng)頁形式的,又有各種數(shù)據(jù)庫形式的,如SQL Server、Oracle數(shù)據(jù)庫等;既有結(jié)構(gòu)化數(shù)據(jù),又更多的是各種電子文件格式的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的數(shù)據(jù),又有多媒體形式的數(shù)據(jù);而且,同一機構(gòu)的數(shù)據(jù)還可能分布在不同介質(zhì)的載體上。

  然而,不管數(shù)據(jù)的形式、來源、位置、平臺如何不同,企業(yè)用戶總是希望內(nèi)外數(shù)據(jù)能無縫結(jié)合,用一個搜索工具和統(tǒng)一的界面,發(fā)出幾個簡單的檢索請求就能對所有資源進(jìn)行檢索,并很快就能有滿意的結(jié)果。

  并且,互聯(lián)網(wǎng)搜索內(nèi)容對于用戶來說都是未知的,而企業(yè)級搜索的對象基本上是已知信息源,其中包括企業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞組等,在對這些信息進(jìn)行索引時,用戶需要按照內(nèi)容而不是通過比較源鏈接來進(jìn)行排列。

2、嚴(yán)格的安全搜索

  在企業(yè)內(nèi)部,安全的問題是無法回避的。因為企業(yè)內(nèi)部的信息不象“人人平等”的互聯(lián)網(wǎng)信息,其信息內(nèi)容帶有明顯的“等級”安全特性。所以,當(dāng)搜索技術(shù)變得無所不能,人們反而開始擔(dān)心,如果搜索的結(jié)果泄漏了企業(yè)的機密怎么辦?如果企業(yè)原有的安全架構(gòu)對新的搜索技術(shù)失效了怎么辦?這些疑問都讓用戶感到如鯁在喉,岌岌小心。

  很多業(yè)內(nèi)人士在談到搜索安全的話題就憂心忡忡,他們普遍認(rèn)為搜索環(huán)境并沒有為企業(yè)級應(yīng)用做好足夠的準(zhǔn)備,未來充滿太多的變數(shù)。而在一些實際的應(yīng)用中,我們看到,即便為數(shù)據(jù)定義了文檔級和數(shù)據(jù)庫級的雙重安全保障,搜索引擎的"魔爪"還能透過授權(quán)的索引文檔來"搜索"它們。

  因此,針對企業(yè)網(wǎng)中不同的用戶對不同的資源,其使用權(quán)限都可能不一樣,需要企業(yè)搜索引擎能夠?qū)τ脩簟①Y源、權(quán)限分級管理和控制,確保系統(tǒng)的安全。

3、高可靠的查全和查準(zhǔn)

  作為專業(yè)用戶,企業(yè)用戶需要查找的信息專業(yè)性強、概念復(fù)雜,而對查詢的查全率和查準(zhǔn)率有著非常高的要求。因此,需要利用各種手段來提高搜索引擎的查準(zhǔn)率和查全率。

  從查全率來看,互聯(lián)網(wǎng)搜索引擎無從談起查全率,因為互聯(lián)網(wǎng)上的信息如此泛濫無邊,任何一個搜索引擎服務(wù)商都無法窮盡互聯(lián)網(wǎng)上的每個網(wǎng)頁。而在企業(yè)級的某些應(yīng)用中,是不允許有所遺漏的檢索。必須對企業(yè)內(nèi)部每個需要提供服務(wù)的信息進(jìn)行索引。在檢索機制上必須保障效率的前提下達(dá)到全面搜索的要求。

  同樣的道理,在互聯(lián)網(wǎng)上因為信息自由的特點,決定了搜索只能通過“關(guān)鍵詞匹配”這種核心檢索手段去實現(xiàn)。而在企業(yè)內(nèi)部,信息的組織復(fù)雜了許多。企業(yè)級搜索引擎有完善的信息分類體系,元數(shù)據(jù),對象數(shù)據(jù)多層邏輯的組織形式,在查詢上滿足基于對象數(shù)據(jù)內(nèi)容和元數(shù)據(jù)標(biāo)引體系的精確查詢要求。

4、智能化的檢索服務(wù)

  企業(yè)內(nèi)部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性,不像互聯(lián)網(wǎng)搜索引擎僅提供信息參考。在企業(yè)內(nèi)部的搜索結(jié)果將直接參與到企業(yè)的運營、決策中。所以,對于搜索的結(jié)果處理,搜索過程中采用相關(guān)智能技術(shù)以達(dá)到迅速、準(zhǔn)確、全面定位目標(biāo)信息非常重要。例如采用相關(guān)度分析技術(shù),使相關(guān)度較高的結(jié)果排在結(jié)果列表的前面,相關(guān)度較低的結(jié)果排在后面,并屏蔽無用和錯誤的信息;構(gòu)造強大的語義規(guī)則庫,使系統(tǒng)能夠正確地判斷與檢索詞相關(guān)的同義詞、近似詞、上位詞、下位詞,幫助用戶判斷結(jié)果的相關(guān)度,并進(jìn)行進(jìn)一步的查詢;支持完善的信息分類體系,對檢索結(jié)果自動分類或者信息聚類;提供智能化的概念擴(kuò)展查詢等,都將有利于企業(yè)對信息資源的高效利用。

5、企業(yè)搜索引擎通常都和企業(yè)其他的IT應(yīng)用有機結(jié)合

  以內(nèi)容管理技術(shù)為框架,搜索技術(shù)為支撐,企業(yè)搜索引擎通常與數(shù)據(jù)管理、內(nèi)容管理、記錄管理、競爭情報、團(tuán)隊協(xié)同、過程管理、信息門戶等知識管理的各個環(huán)節(jié)密切結(jié)合,構(gòu)成管理企業(yè)知識資產(chǎn)的完整而又靈活的體系。知識內(nèi)容管理對搜索引擎技術(shù)提出了更高的要求,而先進(jìn)的搜索引擎技術(shù)則為知識內(nèi)容管理提供了工具和保障。在市場上我們也可以看到,國內(nèi)外企業(yè)級搜索引擎廠商,有許多也是知識內(nèi)容管理解決方案的提供商。

6、實時的信息搜索服務(wù)

  正如前所敘,企業(yè)內(nèi)部的搜索服務(wù),具備業(yè)務(wù)特性,需要將搜索結(jié)果參與企業(yè)的運營和決策。所以通過搜索引擎提供的服務(wù),必須能夠動態(tài)地反應(yīng)實際情況,即當(dāng)內(nèi)部的信息發(fā)生變化時,必須能夠?qū)崟r反應(yīng)。在企業(yè),不允許出現(xiàn)像互聯(lián)網(wǎng)搜索引擎服務(wù)那樣信息滯后更新的現(xiàn)象。

1.3 電信114企業(yè)搜索引擎建設(shè)需求分析

  2007年,要想在搜索市場占領(lǐng)先機,就需要使電信114企業(yè)搜索引擎具備差異化的競爭優(yōu)勢。如何培養(yǎng)用戶使用習(xí)慣?如何聚集商業(yè)客戶合作伙伴?如何實現(xiàn)平臺搜索技術(shù)的改造升級?這些成為是電信公司建設(shè)114搜索引擎需要面對和解決的問題。目前各省市基本都建設(shè)了號碼百事通和114電話導(dǎo)航的平臺。

  從客戶需求角度分析,114搜索引擎用戶存在前向查詢客戶和后向被查詢客戶兩種角色,這兩種客戶對于號碼百事通業(yè)務(wù)有著不同的需求和價值:

從前向查詢客戶角度分析:

  首先,前向查詢客戶撥打114是要獲得能夠解決衣食住行各類生活問題的相關(guān)線索,具體而言,就是提供各類服務(wù)組織的電話號碼。

  其次,用戶獲得信息線索后需要進(jìn)行一定的選擇比較,即客戶為了最終解決某個問題或完成某件事情,需要把獲得的信息、線索進(jìn)行比較分析,找到最佳路徑。

  再次,進(jìn)行訂單交易,即客戶通過比較選擇后,確定了對象,有直接轉(zhuǎn)接或者預(yù)訂的需求。在現(xiàn)代的信息社會里,“預(yù)先確定”已經(jīng)成為人們享受某項服務(wù)之前的必要環(huán)節(jié)。

  最后,完成服務(wù),即客戶實現(xiàn)最終消費、解決問題或者完成服務(wù)的過程。在這個環(huán)節(jié)中,客戶可能會用到電子支付,也會有服務(wù)質(zhì)量反饋等后續(xù)事務(wù)。

  由此可見,前向客戶需求鏈的存在,為114搜索引擎業(yè)務(wù)提供了良好的發(fā)展空間。正是為了滿足前向客戶需求、最大限度地為客戶提供“一站式”便捷服務(wù),號碼百事通需要建立豐富的本地生活類信息數(shù)據(jù)庫,為前向客戶提供查詢轉(zhuǎn)接、短信播報等業(yè)務(wù),從而獲得廣闊的號碼信息增值服務(wù)新市場。

從后向被查詢客戶需求角度分析:

  與前向查詢客戶的需求環(huán)節(jié)相對應(yīng),根據(jù)需求層次不同,后向被查詢客戶的需求分為三類:

  第一類,后向客戶需要將114平臺作為信息發(fā)布的媒介。中國電信114有著廣泛的客戶群體,像使用電視、報刊、互聯(lián)網(wǎng)這些主流媒體一樣,政企客戶需要盡可能地在114這一語音媒體上發(fā)布更多的信息。中國電信114能夠以其誠信、高品質(zhì)的品牌形象,為政企客戶提供廣傳播、可信賴的語音信息發(fā)布平臺,能夠讓更多的客戶了解后向客戶的服務(wù)能力和企業(yè)形象。

  第二類,后向客戶需要114成為企業(yè)的一個營銷渠道。高品質(zhì)企業(yè)客戶看重中國電信良好的品牌形象和114“一對一”信息傳遞的特性,希望114能夠成為其強有力的營銷渠道。傳統(tǒng)的企業(yè)營銷采用公共媒體廣泛行銷,近來越來越多的企業(yè)開始注重精準(zhǔn)信息的分眾傳遞,即根據(jù)目標(biāo)客戶群的年齡、職業(yè)、地域特征,選擇信息投放范圍和信息投放方式,以期把營銷做得快速、準(zhǔn)確、有力度。例如,“分眾傳媒”瞄準(zhǔn)中國高中端商務(wù)人士做專業(yè)樓宇廣告聯(lián)播,在納斯達(dá)克成功上市;

  第三類,后向客戶需要114成為其業(yè)務(wù)交易平臺。企業(yè)使用114進(jìn)行宣傳、營銷之后,需要進(jìn)一步延伸服務(wù),盡可能地促成交易。信用卡、電子支付的盛行,為電話支付、在線交易(bizon-line)提供了堅實的基礎(chǔ),114延伸為業(yè)務(wù)交易平臺,可以更大程度地為前后向客戶提供服務(wù)。

  可見,后向客戶的需求同樣為號碼百事通業(yè)務(wù)提供了廣闊的發(fā)展空間,號碼百事通誠信、便捷、廣泛服務(wù)的品牌形象,能夠為優(yōu)質(zhì)政企客戶提供良好的宣傳、營銷和交易平臺。

  業(yè)務(wù)的豐富也對114企業(yè)搜索引擎提出了更高的建設(shè)要求。大致需求有以下幾點:

  1.對業(yè)務(wù)應(yīng)用所需的企業(yè)信息庫急需快速補充、整理和完善,才能為前端查詢用戶提供有價值的信息服務(wù)
在業(yè)務(wù)應(yīng)用方面,114企業(yè)搜索引擎的業(yè)務(wù)應(yīng)用主要包括優(yōu)先報號、實名查詢、品牌查詢、臨時報號、查詢轉(zhuǎn)接、短信報號、話務(wù)呼轉(zhuǎn)、企業(yè)名片、企業(yè)廣告、指路服務(wù)、個人號簿、企業(yè)總機、簽約客戶分析、注冊客戶分析等14大類。

  這些業(yè)務(wù)應(yīng)用推廣的關(guān)鍵是必須保證數(shù)據(jù)庫中的信息必須準(zhǔn)確、有效、及時。目前從全國范圍看,各省電信公司的企業(yè)信息庫還需快速補充和完善,以應(yīng)對日益增長的外部電話和網(wǎng)絡(luò)搜索的需求。

2.對于龐大的信息資源庫和數(shù)據(jù)庫內(nèi)的信息要進(jìn)行特定領(lǐng)域的挖掘和搜索

  由于基于114轉(zhuǎn)型的電話搜索業(yè)務(wù),主要是向前端用戶提供準(zhǔn)確、及時、深入的衣、食、住、行、樂等相關(guān)的綜合信息服務(wù)。因此針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù),才能真正獲得目標(biāo)用戶的青睞。所以需要建立需要具有特色垂直搜索功能的114企業(yè)搜索引擎。

3.跨地域、跨業(yè)務(wù)、跨平臺的信息共享不到位,無法發(fā)揮規(guī)模效應(yīng)

  全國各省市的電信公司分布區(qū)域大,業(yè)務(wù)應(yīng)用眾多,公司內(nèi)部存在各種數(shù)據(jù)庫和信息平臺。企業(yè)內(nèi)部的數(shù)據(jù)和信息沒有進(jìn)行很有的共享和利用,所以無法發(fā)揮全國電信公司的規(guī)模效應(yīng);114企業(yè)搜索引擎應(yīng)實現(xiàn)對各省本地和跨區(qū)域的信息查詢,并支持對互聯(lián)網(wǎng)信息的查詢。

3.平臺需要聚集并支持大規(guī)模的商業(yè)合作伙伴運營,后臺商務(wù)信息的互動發(fā)布,競價排名。

  電信行業(yè)114企業(yè)搜索引擎,不僅需要滿足前向查詢用戶查詢需求,而且為后向被查詢企業(yè)客戶創(chuàng)造了優(yōu)先接觸目標(biāo)消費者和發(fā)布商務(wù)廣告的機會。

4.各省電信公司都需要開發(fā)自己的特色業(yè)務(wù),因此要求平臺具有良好的擴(kuò)展性。

  為了解決上述問題,需要各地電信114企業(yè)數(shù)據(jù)信息庫的數(shù)據(jù)模型統(tǒng)一并且進(jìn)行升級改造,建設(shè)全國統(tǒng)一搜索引擎以實現(xiàn)全國114信息的共享和全國跨地域信息查詢。

1.3 電信114企業(yè)搜索引擎建設(shè)目標(biāo)

  114企業(yè)搜索引擎的建設(shè)將會延伸114的功能,豐富114的信息服務(wù)內(nèi)容和形式,力爭把114做成語音搜索領(lǐng)域的Google。

電信企業(yè)建設(shè)114搜索引擎建設(shè)工程將實現(xiàn)以下目標(biāo):
  1. 幫助電信公司建設(shè)全國統(tǒng)一114企業(yè)搜索引擎,實現(xiàn)跨省查詢業(yè)務(wù),并為沒有建設(shè)搜索引擎的省份提供省內(nèi)114企業(yè)搜索引擎。


  2. 支持對各省市電信公司114業(yè)務(wù)應(yīng)用相關(guān)內(nèi)部數(shù)據(jù)庫和信息資源庫進(jìn)行補充完善,并進(jìn)行個性化服務(wù)的信息挖掘和整合。系統(tǒng)支撐大規(guī)模用戶跨地域和跨平臺搜索。


  3. 114企業(yè)搜索引擎具備開發(fā)特定領(lǐng)域垂直搜索的能力,各地電信公司可以在此平臺上進(jìn)行二次開發(fā)。


  4. 聚集商業(yè)客戶及合作伙伴,滿足企業(yè)客戶競價排名、信息發(fā)布、商機獲取、資源共享等的雙向需求。
2.TRS電信114企業(yè)搜索引擎解決方案架構(gòu).

  TRS公司作為國內(nèi)企業(yè)級搜索引擎和內(nèi)管理領(lǐng)域的領(lǐng)導(dǎo)軟件廠商,一直在該領(lǐng)域擁有先進(jìn)的理念、成熟的產(chǎn)品和先進(jìn)的信息檢索、內(nèi)容管理和文本挖掘技術(shù)。TRS電信114企業(yè)搜索引擎2006年在中國電信號碼百事通全國中心搜索引擎項目,和上海電信號碼百事通搜索引擎的基礎(chǔ)上得到了成功的應(yīng)用,積累了豐富的行業(yè)實踐經(jīng)驗。這些項目實踐對全國各地電信企業(yè)建立或升級114企業(yè)搜索引擎也具有良好的示范意義。

  TRS公司結(jié)合電信行業(yè)114業(yè)務(wù)應(yīng)用需求,依托自身企業(yè)搜索引擎產(chǎn)品和中文信息處理技術(shù),推出的的電信114企業(yè)搜索引擎解決方案,能夠全面整合索引搜索電信114業(yè)務(wù)應(yīng)用的信息內(nèi)容,并向用戶提供高效的、準(zhǔn)確的、安全的、個性化的搜索體驗。其框架圖如下:


  從圖中可以看到,TRS電信114企業(yè)搜索引擎采用TRS高性能的TRS Database Server 6.0集群構(gòu)作為索引和搜索基礎(chǔ)平臺;TRS數(shù)據(jù)庫網(wǎng)關(guān)作為跨平臺數(shù)據(jù)導(dǎo)入工具,整合索引電信企業(yè)組織內(nèi)部各類應(yīng)用系統(tǒng)、數(shù)據(jù)庫、外購信息庫、自建信息庫等多種信息資源;TRS網(wǎng)絡(luò)信息雷達(dá)作為網(wǎng)絡(luò)信息采集工具,定向采集特定的網(wǎng)絡(luò)信息資源;TRS CKM作為文本挖掘的工具,應(yīng)用文本自動分類、自動聚類、信息過濾等中文處理技術(shù)對業(yè)務(wù)應(yīng)用信息技術(shù)深度挖掘分析;TRS內(nèi)容分發(fā)服務(wù)器作為內(nèi)容服務(wù)模塊,實現(xiàn)內(nèi)容的個性化搜索服務(wù)。并且整個架構(gòu)擁有很強的擴(kuò)展性,對用戶開放開發(fā)接口,電信企業(yè)可以自行開發(fā)具有特色的搜索服務(wù)。

2.1 系統(tǒng)整合電信多種信息來源,支持內(nèi)容實時增量索引

  在電信企業(yè)內(nèi)部,許多信息內(nèi)容的創(chuàng)建和生產(chǎn)都分散在各個應(yīng)用系統(tǒng)中,而這些應(yīng)用系統(tǒng)的數(shù)據(jù)存儲基本上都是采用關(guān)系型數(shù)據(jù)庫或者NOTES系統(tǒng)中。這些外部信息資源可能包括企業(yè)CRM系統(tǒng)、10000號系統(tǒng)、帳務(wù)系統(tǒng)等應(yīng)用系統(tǒng),也可能包括查號數(shù)據(jù)庫、企業(yè)信息庫、用戶信息庫等業(yè)務(wù)應(yīng)用數(shù)據(jù)庫,也可能包括外購資源、自建數(shù)據(jù)庫等其他信息源。

  TRS公司推出的企業(yè)搜索引擎解決方案,利用TRS公司多年來自主開發(fā)的TRS Database Server作為企業(yè)搜索引擎服務(wù)的平臺?梢詫㈦娦牌髽I(yè)內(nèi)外部多種格式、多種介質(zhì)形態(tài)、多種存儲方式的內(nèi)容信息,以實時的方式將這些信息進(jìn)行索引。并且在索引的過程中力求能夠做到準(zhǔn)確,并配合以相關(guān)智能語言技術(shù)做信息的去重、自動標(biāo)引等能力。其框架如圖:


  TRS支持包括Oracle、SQL Server、DB2、Sybase和Mysql等業(yè)界主流關(guān)系數(shù)據(jù)庫系統(tǒng),既可以實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)一次性向TRS Server的遷移,實現(xiàn)歷史數(shù)據(jù)的采集入庫到數(shù)據(jù)管理平臺;也可以實現(xiàn)增量動態(tài)運行方式,無縫透明支持各種應(yīng)用數(shù)據(jù)的數(shù)據(jù)庫采集。將應(yīng)用中的數(shù)據(jù)實時地反映到114企業(yè)搜索引擎平臺服務(wù)器中(TRS Database Server)。

2.2 集群架構(gòu)支撐大規(guī)模部署應(yīng)用,支持內(nèi)容海量安全管理

  在電信114企業(yè)搜索引擎應(yīng)用中,海量信息的管理完全不同于互聯(lián)網(wǎng)搜索引擎。首先在信息總量上,因為114企業(yè)搜索引擎應(yīng)用是分散在各個電信企業(yè)內(nèi)部,并且每個地域、每個應(yīng)用系統(tǒng)的數(shù)據(jù)量都是海量的。隨著業(yè)務(wù)應(yīng)用的增加,數(shù)據(jù)量將會成倍增長。TRS電信114企業(yè)搜索引擎平臺服務(wù)器在系統(tǒng)架構(gòu)上,應(yīng)用集群技術(shù),支持分布式部署,實現(xiàn)在單臺或者數(shù)臺機器中實現(xiàn)電信企業(yè)內(nèi)部海量數(shù)據(jù)的管理。從信息安全的角度,電信114企業(yè)搜索引擎服務(wù)保障業(yè)務(wù)信息是按秩序、按組織規(guī)則授權(quán)方式的搜索。而不象互聯(lián)網(wǎng)搜索引擎上的人人搜索。

  TRS全文數(shù)據(jù)集群服務(wù)器,是架構(gòu)在多個物理TRS全文數(shù)據(jù)庫服務(wù)器之上的分布式管理系統(tǒng),它支持?jǐn)?shù)據(jù)分布及負(fù)載均衡兩種方式,并支持兩種方式的組合運用,滿足用戶海量數(shù)據(jù)和高并發(fā)環(huán)境下的分布式檢索、檢索性能和可靠性要求。

  “TRS全文數(shù)據(jù)庫服務(wù)器組”內(nèi)的數(shù)據(jù)庫服務(wù)器之間負(fù)載均衡

  組內(nèi)的數(shù)據(jù)庫服務(wù)器由集群服務(wù)器統(tǒng)一調(diào)度,一個服務(wù)請求只發(fā)往組內(nèi)的一個數(shù)據(jù)庫服務(wù)器,一個“TRS全文數(shù)據(jù)庫服務(wù)器組”至少包含一個數(shù)據(jù)庫服務(wù)器。

  “TRS全文數(shù)據(jù)庫服務(wù)器組”之間實現(xiàn)分布式檢索

  用戶一個檢索請求需要根據(jù)其所包含目標(biāo)對象的分布情況,發(fā)往其中部分或全部的數(shù)據(jù)庫服務(wù)器組,TRS全文數(shù)據(jù)庫集群服務(wù)器對檢索結(jié)果集歸并處理后返回給用戶。

采用TRS全文數(shù)據(jù)庫系統(tǒng)V6的集群架構(gòu)可實現(xiàn)以下目標(biāo):

  TRS企業(yè)搜索引擎平臺服務(wù)器(TRS Database Server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對企業(yè)信息內(nèi)容搜索引擎服務(wù)的管理和資源建設(shè)的新需求,發(fā)展了包括Native XML, 集群,Unicode, 自然語言處理及智能檢索等眾多新功能,結(jié)合TRS領(lǐng)先的結(jié)構(gòu)化和非結(jié)構(gòu)化聯(lián)合查詢技術(shù),從而滿足了用戶對電信114搜索引擎的廣泛需求。更為重要的是,TRS電信114企業(yè)搜索引擎平臺服務(wù)器提供了多種安全機制的管理,涉及到系統(tǒng)安全和內(nèi)容安全各個方面。為安全的搜索奠定堅實基礎(chǔ)。 

2.3應(yīng)用垂直搜索實現(xiàn)內(nèi)容挖掘分析利用,支持電信企業(yè)開發(fā)特色搜索服務(wù)

  搜索引擎的出現(xiàn),整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁資源,并提供信息導(dǎo)航和信息查詢服務(wù),使信息的價值得到了網(wǎng)民和廠商的普遍認(rèn)可。但是,搜索引擎的發(fā)展格局是多方面的,市場需求的多元化也導(dǎo)致了搜索引擎的行業(yè)化和細(xì)分化,從而“垂直搜索引擎”成為了搜索引擎發(fā)展的必然趨勢之一。

  TRS認(rèn)為:垂直搜索引擎是針對某一個行業(yè)或組織,滿足行業(yè)專業(yè)需求、或者組織某項業(yè)務(wù)需求的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。比如:用戶搜索廣州天河區(qū)的可帶寵物就餐的川菜館的電話、菜單價格、交通指路等這就是一種垂直搜索。

  TRS作為國內(nèi)垂直搜索引擎的領(lǐng)軍企業(yè),全面支持垂直搜索的相關(guān)技術(shù),并率先在國內(nèi)進(jìn)行了垂直搜索引擎的實踐,為用戶成功實施了包括中央政府門戶網(wǎng)站政府搜索引擎、公安部搜索引擎、專利搜索引擎、企業(yè)經(jīng)濟(jì)情報預(yù)警搜索引擎等等成功案例。

  在電信行業(yè)建設(shè)114企業(yè)搜索引擎的背景下,雖然TRS作為搜索引擎廠商提供了成熟的基于企業(yè)級搜索的搜索引擎產(chǎn)品,但是各地電信企業(yè)對信息內(nèi)容進(jìn)行再組織、再開發(fā),特別是應(yīng)用智能的知識挖掘技術(shù)進(jìn)行內(nèi)容的挖掘和分析,并根據(jù)業(yè)務(wù)需求開發(fā)業(yè)務(wù)排序和展示,從而為用戶開發(fā)特色搜索服務(wù)。如生活搜索、購物搜索、旅游搜索、票務(wù)搜索、教育搜索、行路搜索等等特色搜索服務(wù)。

2.4搜索高效、準(zhǔn)確,向用戶提供智能個性搜索體驗

  在搜索性能方面,TRS全文數(shù)據(jù)庫在普通PC服務(wù)器環(huán)境下,在千萬級記錄的數(shù)據(jù)庫上,也能獲得亞秒級查詢速度。集群架構(gòu)的TRS電信114搜索引擎可以根據(jù)不同用戶的規(guī)模,滿足大規(guī)模座席的查詢速度和并發(fā)數(shù)量的要求。
在要滿足高效搜索的同時,TRS企業(yè)搜索引擎平臺服務(wù)器熔煉了TRS公司多年在中文智能處理方面的研究成果,并結(jié)合十多年來的企業(yè)及搜索引擎的應(yīng)用經(jīng)驗。多種中文智能處理技術(shù)的應(yīng)用,如智能分詞,字詞索引結(jié)合、主題詞表概念擴(kuò)展等技術(shù)的應(yīng)用,同時TRS搜索引擎內(nèi)嵌中文自動分詞系統(tǒng),使得查全率和查準(zhǔn)率都得到極大的保障。
在TRS電信114企業(yè)搜索引擎解決方案中。采用了模塊化的內(nèi)容分發(fā)服務(wù)模塊。讓用戶可以方便地通過頁面設(shè)計模板封裝等方式來實現(xiàn)個性化的搜索提交,結(jié)果個性呈現(xiàn)。并且系統(tǒng)結(jié)合多種信息分發(fā)機制,將搜索、瀏覽、訂閱等功能有機集成。而對于信息發(fā)現(xiàn)和評估,系統(tǒng)也提供了很好的支持,并可以根據(jù)搜索的統(tǒng)計,來評估信息內(nèi)容的使用情況及信息用戶的搜索習(xí)慣。電信企業(yè)也可以根據(jù)自己的需求,開發(fā)符合本地用戶習(xí)慣的搜索頁面和結(jié)果排序頁面。

3.方案特點和優(yōu)勢

1、軟件產(chǎn)品成熟度高
  TRS全文數(shù)據(jù)庫系統(tǒng)自80年代面向市場以來,有近2000家企業(yè)級用戶的成功案例,特別是新華社多媒體數(shù)據(jù)庫、公安搜索引擎、中央政府門戶等高端項目的應(yīng)用。

2、自主、領(lǐng)先的核心技術(shù)

  TRS軟件產(chǎn)品完全基于自主、領(lǐng)先的核心技術(shù)開發(fā),特別是本項目應(yīng)用的全文檢索技術(shù)、網(wǎng)絡(luò)信息搜索技術(shù)、文本挖掘基礎(chǔ)件,從功能、性能和產(chǎn)品穩(wěn)定性方面都有業(yè)界領(lǐng)先的實力。

3、強大的項目實施開發(fā)力量
  TRS公司總部在北京設(shè)有研發(fā)中心,軟件產(chǎn)品開發(fā)人員約有130多人,在上海設(shè)有分公司和項目實施開發(fā)人員,具有強大的項目實施開發(fā)和服務(wù)力量。

4、完善的方案設(shè)計、內(nèi)置的集群架構(gòu)、良好的擴(kuò)展能力
  本方案根據(jù)項目需求,進(jìn)行了搜索引擎、網(wǎng)絡(luò)信息搜索、數(shù)據(jù)上載同步等各方面的完整設(shè)計,并以TRS自身技術(shù)實現(xiàn)了分布式負(fù)載均衡搜索引擎集群、和網(wǎng)絡(luò)信息搜索集群,具有分層集群架構(gòu)和良好的擴(kuò)展能力

5、廣泛的高端項目成功案例和良好市場形象
  本項目采用TRS業(yè)內(nèi)領(lǐng)先而成熟的搜索解決方案和產(chǎn)品搭建搜索引擎系統(tǒng),其具備多方面的優(yōu)勢:

4.1“安全”的搜索引擎

  TRS搜索引擎技術(shù)支持內(nèi)容安全性控制,可以通過域、IP段、URL等廣域網(wǎng)范圍的控制,實現(xiàn)授權(quán)搜索采集,不亂采集。同時,TRS對查詢內(nèi)容進(jìn)行分級控制,特定的人只能搜索和查詢特定的內(nèi)容。

  在TRS搜索引擎技術(shù)中提供了信息智能過濾和禁用詞典設(shè)置,通過這些技術(shù),保障搜索引擎在提供便捷的搜索服務(wù)的同時,也保證對不良信息搜索的過濾。

  另一方面,TRS搜索引擎技術(shù)在安全模塊設(shè)計上提供了對PKI/PMI體系支持的開放接口,在未來,很容易將本系統(tǒng)整合到信息安全保障體系之中。

4.2更高的搜索準(zhǔn)確性和智能性

  TRS搜索引擎技術(shù)支持按詞索引、按字索引、按關(guān)鍵詞索引,字詞混合索引,適應(yīng)不同應(yīng)用環(huán)境的需求,同時TRS搜索引擎內(nèi)嵌中文自動分詞系統(tǒng)--檢索“北大”,檢索不出“東北大學(xué)”。

  內(nèi)嵌歧義處理實例規(guī)則庫,正確識別歧義片斷,提高分詞準(zhǔn)確性分詞系統(tǒng)要達(dá)到一定的準(zhǔn)確率,需要和人一樣不斷積累知識,也就是不斷積累分詞規(guī)則。TRS公司從80年代末就開始積累分詞規(guī)則, 這些規(guī)則是需要從大量的語料中統(tǒng)計產(chǎn)生,如果語料的數(shù)量不夠則產(chǎn)生的規(guī)則往往帶有片面性,TRS積累了20~30GB的文本語料, 且這些語料能反應(yīng)現(xiàn)中文語言的特點。如果一個語句切分時有歧義片段,有適合的規(guī)則則按規(guī)則切分歧義片段,提高查準(zhǔn)率;

  在查詢方面,TRS提供了基于詞典的智能擴(kuò)展查詢,可以按同義詞、主題詞等詞典進(jìn)行智能擴(kuò)展查詢,例如,在查詢“銳器”時,系統(tǒng)將自動將包括“匕首”“刀”內(nèi)容的結(jié)果提供給用戶參考。

4.3個性化的搜索體驗

  TRS搜索引擎內(nèi)容分發(fā)服務(wù)模塊充分考慮了信息搜索過程中工作繁忙、對信息的時效性要求高等工作特點。提供了任務(wù)定制查詢、專欄預(yù)設(shè)查詢、個性化排序等功能。例如:使用者可以定制查詢?nèi)蝿?wù),比如“專項斗爭”、“專題文件”等單項任務(wù),又如可以定制查詢更新時間,查詢系統(tǒng)將根據(jù)定制的任務(wù),定期進(jìn)行相關(guān)信息查詢,定期將查詢結(jié)果推送到用戶的工作界面,方便信息需求者。

  另外,系統(tǒng)還提供了個人檢索歷史記錄、個性化界面設(shè)置等等功能,不同的使用者可以選擇適合自己的工作查詢界面,提升系統(tǒng)的易用性和靈活性。

4.4強大的異構(gòu)資源整合搜索

  TRS搜索引擎技術(shù)不但能搜索網(wǎng)頁內(nèi)容,而且能搜索各種RDBMS, 文件系統(tǒng)等多種異構(gòu)資源數(shù)據(jù)進(jìn)行整合搜索,為用戶提供更全面的信息搜索應(yīng)用。在未來,可以在當(dāng)前搜索引擎系統(tǒng)上不斷擴(kuò)展新的搜索應(yīng)用。

4.5標(biāo)準(zhǔn)、開放的系統(tǒng),提供強大的系統(tǒng)擴(kuò)展能力

  標(biāo)準(zhǔn)、開放是一個應(yīng)用系統(tǒng)得以發(fā)展和壯大的基礎(chǔ),通過標(biāo)準(zhǔn)開放的模式,可以保證用戶更多地采用先進(jìn)的技術(shù)搭建個性化的應(yīng)用。

  隨著技術(shù)的發(fā)展,各個軟件供應(yīng)商越來越在某一領(lǐng)域具有專利或優(yōu)勢技術(shù),但是用戶的需求是全方位的,因此,最好的解決方案就是采用統(tǒng)一規(guī)范標(biāo)準(zhǔn)的接口進(jìn)行應(yīng)用集成,這也是國際化軟件發(fā)展趨勢。

  TRS公司設(shè)計的建設(shè)方案在很多方面為系統(tǒng)應(yīng)用集成提供了保證,如支持系統(tǒng)三層體系結(jié)構(gòu),支持J2EE標(biāo)準(zhǔn)中間件,支持XML數(shù)據(jù)交換規(guī)范,提供底層數(shù)據(jù)庫的各種平臺的完善的開發(fā)接口,提供模塊組件,支持二次開發(fā),開放底層數(shù)據(jù)存儲格式等等。

  本系統(tǒng)在架構(gòu)設(shè)計方面,不但滿足了現(xiàn)有的需要,而且為系統(tǒng)未來發(fā)展進(jìn)行了考慮。首先,數(shù)據(jù)層采用了TRS集群服務(wù)器,實現(xiàn)了TRS全文檢索數(shù)據(jù)庫的集群和負(fù)載均衡應(yīng)用,在應(yīng)用層實現(xiàn)了應(yīng)用服務(wù)器的集群和負(fù)載均衡設(shè)計,在采集方面利用分布式采集和任務(wù)集中控制的模式可以進(jìn)行大規(guī)模采集應(yīng)用,在未來可以通過增加硬件的方式,就能提供系統(tǒng)的處理能力。

  另外,隨著未來負(fù)載和訪問量的增加,可以分步建立鏡像中心,滿足大規(guī)模應(yīng)用需要。

4.6具有充分滿足需求的自主核心技術(shù)和產(chǎn)品.

  TRS公司在本項目所涉及的眾多方面具有全方位的核心技術(shù)和產(chǎn)品,并且公司發(fā)展的戰(zhàn)略定位和本項目的需求完全吻合。

  本方案涉及底層數(shù)據(jù)庫系統(tǒng)、中文知識挖掘、信息搜索等多種技術(shù),是一個大型和復(fù)雜的信息系統(tǒng),TRS信息技術(shù)有限公司在信息檢索、內(nèi)容管理和知識管理方面具有領(lǐng)先的產(chǎn)品和技術(shù)優(yōu)勢,致力于成為中文內(nèi)容管理領(lǐng)域的領(lǐng)導(dǎo)者。TRS全文信息檢索系統(tǒng)已經(jīng)在超過1千家用戶的多個系統(tǒng)和應(yīng)用中得到成功應(yīng)用;TRS中文知識管理和自然語言處理方面的研究成果,是業(yè)界第一個實用化的相關(guān)產(chǎn)品,其中包括中文自動分類系統(tǒng)、自動聚類系統(tǒng)、網(wǎng)頁內(nèi)容過濾、內(nèi)容去重等。這些研究成果來源于公司相關(guān)的研究機構(gòu)-中文信息處理研究中心-承擔(dān)的國家自然科學(xué)基金、國家863計劃等國家級研究項目。TRS公司致力于成為中國信息檢索和內(nèi)容管理市場的技術(shù)和市場領(lǐng)導(dǎo)者,并且把行業(yè)化應(yīng)用作為我們的既定戰(zhàn)略,因此在技術(shù)研發(fā)的持續(xù)投入上符合用戶對信息系統(tǒng)持續(xù)發(fā)展的需求。

4.7采用先進(jìn)的搜索引擎技術(shù).

  近年來搜索引擎技術(shù)得到較大發(fā)展,為本系統(tǒng)的實現(xiàn)提供了技術(shù)手段。本系統(tǒng)所涉及的搜索引擎相關(guān)技術(shù)包括網(wǎng)頁自動采集和更新、網(wǎng)頁自動分析技術(shù)。

網(wǎng)頁自動采集和更新
為保證本系統(tǒng)要求功能的順利實現(xiàn),所采用的搜索引擎技術(shù)具備以下功能:

  1. 支持增量更新的策略,每次采集只采集上次更新后新生成的網(wǎng)頁,而不是全部再采集一遍,從而保證信息更新的效率。增量更新策略是對信息采集非常重要的方法,也是網(wǎng)絡(luò)上搜索引擎普遍存在的缺點。


  2. 支持靈活的采集策略,包括可以指定采集的目錄和層次,以及使用檢索邏輯來定位內(nèi)容,比如可以采用“自行車-比賽”這樣的檢索邏輯來控制抓取“有關(guān)自行車,但并不是關(guān)于自行車比賽”的網(wǎng)頁。除了在采集模塊提供檢索邏輯定位內(nèi)容的方式,我們還在發(fā)布模塊提供專題服務(wù)的方式實現(xiàn)同樣的功能,而且我們建議應(yīng)采用以專題服務(wù)為主實現(xiàn)網(wǎng)頁內(nèi)容定位。具體內(nèi)容參見設(shè)計方案中的專題服務(wù)部分。
網(wǎng)頁自動分析技術(shù)

采集到的網(wǎng)頁,為了滿足本系統(tǒng)的應(yīng)用,必須經(jīng)過以下加工處理:

4.8基于內(nèi)容的自動分類和聚類技術(shù)

  為了對采集到的大量網(wǎng)頁信息進(jìn)行標(biāo)注分類,必須采用適當(dāng)?shù)臋C器自動分類方法,盡量減少需要人工參與的環(huán)節(jié)。但是,必要的人工干預(yù)能夠提供分類的準(zhǔn)確率。

  在本方案系統(tǒng)應(yīng)用設(shè)計中所提出的機檢分類和自動分類,分別代表了語義規(guī)則分類方法和統(tǒng)計原理分類方法兩種典型的分類技術(shù),為了描述方便,我們分別稱它們?yōu)榛谡Z義規(guī)則的自動分類和基于統(tǒng)計原理的自動分類。

·基于語義規(guī)則的自動分類(機檢分類)

  基于語義規(guī)則的自動分類是利用人工定義的語義規(guī)則對信息進(jìn)行分類,人們通過維護(hù)一個規(guī)則表來控制分類的效果。

  優(yōu)點:原理簡單,容易實現(xiàn),控制效果明顯。

  缺點:語義規(guī)則的制定和維護(hù)需要大量的人工參與,不能利用語料庫的知識資源;不能有效解決對多語言的支持,對多語言需要分別建立對應(yīng)的規(guī)則表,工作量大;人工制定的語義規(guī)則不可能完全反映分類的內(nèi)在規(guī)律。
基于語義規(guī)則的自動分類方法比較適合通過簡單的規(guī)則即可明確判定的分類,比如按地區(qū)分類,按事件分類等。

·基于統(tǒng)計原理的自動分類(自動分類)

  基于統(tǒng)計原理的自動分類方法是建立在統(tǒng)計學(xué)習(xí)理論和機器學(xué)習(xí)方法之上的根據(jù)內(nèi)容進(jìn)行自動分類的方法,其基本原理是利用概率統(tǒng)計學(xué)原理,采用機器在大量語料庫上自動學(xué)習(xí)的方式,分析出各個分類的內(nèi)在特征,然后通過對比未知對象與各個分類特征的相關(guān)程度來判定其類別歸屬。

  基于統(tǒng)計原理的計算方法在近年來得到普及的開發(fā)和應(yīng)用,并在諸如語音識別、漢字識別、拼音輸入法等領(lǐng)域的應(yīng)用中表現(xiàn)出良好的實用價值,比基于規(guī)則推理、語義分析等語言學(xué)知識的方法表現(xiàn)出更強的靈活性和適應(yīng)性。

  優(yōu)點:學(xué)習(xí)過程由機器自動進(jìn)行,不需人工干預(yù);人們對分類質(zhì)量的控制轉(zhuǎn)換成提供語料庫的方式,更加符合信息管理員的工作特點;在給定語料庫的前提下,機器對分類特征的提取不會產(chǎn)生遺漏或誤差,計算結(jié)果穩(wěn)定。

  缺點:基于統(tǒng)計原理的自動分類適合于對內(nèi)容進(jìn)行自動分類,而不適合地區(qū)、事件、來源等類型的分類。
在此系統(tǒng)設(shè)計、實現(xiàn)中,不但可以先按內(nèi)容、地區(qū)、來源等多種方式快速標(biāo)引網(wǎng)頁,而且可以基于內(nèi)容對采集信息進(jìn)行自動、準(zhǔn)確的分類,這兩種分類方法有機結(jié)合為搜索引擎系統(tǒng)提供全面的、準(zhǔn)確的、快速的、智能的分類服務(wù)。

4.9基于內(nèi)容的信息去重技術(shù)

  在該項目中,采用了信息去重、相似性檢索技術(shù),主要應(yīng)用在網(wǎng)頁的排重過程分析中。雖然簡單的規(guī)則判斷提供了一種可選擇的方式,但合理的方案應(yīng)是基于網(wǎng)頁內(nèi)容本身的判斷,基于網(wǎng)頁內(nèi)容的判斷應(yīng)該是排重的主要手段。因此我們建議采用基于內(nèi)容的、成熟的信息去重相似性檢索技術(shù)實現(xiàn)內(nèi)容的排重判斷,在排重判斷的過程中,TRS公司設(shè)計、實現(xiàn)的系統(tǒng)將不但處理文字內(nèi)容,而且要對文中的數(shù)字內(nèi)容進(jìn)行判斷。

4.10優(yōu)異的全文檢索性能

  TRS全文檢索系統(tǒng)在行業(yè)里具有領(lǐng)先的性能,是中文全文檢索的事實上的標(biāo)準(zhǔn),眾多的全文檢索廠商都以TRS的性能指標(biāo)作為自己軟件評測的標(biāo)準(zhǔn)和系統(tǒng)發(fā)展方向。

  目前國內(nèi)唯一的商用千萬級數(shù)據(jù)庫——新華社多媒體數(shù)據(jù)庫就是采用TRS作為底層檢索平臺,目前,該系統(tǒng)已有將近16T數(shù)據(jù)量,檢索(包括簡單檢索和復(fù)雜檢索)的平均響應(yīng)時間是秒級。并且,TRS的檢索性能隨著數(shù)據(jù)的增加不會呈線性下降,可以在一個非常廣的數(shù)據(jù)規(guī)模范圍內(nèi)保證用戶的實際應(yīng)用。

TRS全文數(shù)據(jù)庫系統(tǒng)V6的性能指標(biāo)

單機環(huán)境下TRS 全文數(shù)據(jù)庫系統(tǒng)的性能指標(biāo):

集群負(fù)載均衡模式下TRS 全文數(shù)據(jù)庫系統(tǒng)的性能指標(biāo):

TRS 全文數(shù)據(jù)庫系統(tǒng)的性能圖示:


海量數(shù)據(jù)高并發(fā)環(huán)境下單機、集群訪問性能對比圖示:

(排版時,下面的圖可由上面的圖引導(dǎo)而來,例如:在上圖下面兩根線的位置加一個箭頭)


  由上圖我們可以看到,在海量數(shù)據(jù)高并發(fā)環(huán)境下,TRS全文數(shù)據(jù)庫服務(wù)器集群負(fù)載均衡模式可以成倍提高訪問性能。

3.1.1.1索引性能

  在技術(shù)規(guī)范書中提出了“系統(tǒng)(以2×3.0G CPU、2G內(nèi)存、2×146G 15KRPM硬盤配置檔次的PC Server為標(biāo)準(zhǔn))平均創(chuàng)建100萬條記錄索引的時間< 1小時;系統(tǒng)在創(chuàng)建索引時對主機的CPU和內(nèi)存的占用率不得高于30%。;系統(tǒng)索引膨脹率小于2.5,最多不能超過3.0。”等索引方面技術(shù)和性能的要求。

  根據(jù)TRS全文數(shù)據(jù)庫的測試數(shù)據(jù),在Dell2850 2xCPU,4G內(nèi)存,10000轉(zhuǎn)硬盤,Redhat AS4.0測試環(huán)境下,數(shù)據(jù)加載和索引速度單機最高可達(dá)每小時3.5G。

1、索引創(chuàng)建時間
  索引創(chuàng)建時間跟被創(chuàng)建索引的記錄數(shù)無關(guān),由記錄大小決定的,普通新聞稿記錄,100萬條基本上是2GB左右,如果按詞索引,用時30分鐘,按字索引用時60分鐘,全冗余(字詞混和)用時120分鐘。據(jù)了解,114項目的數(shù)據(jù)記錄內(nèi)容較少,100萬條應(yīng)該在1G以內(nèi),若籠統(tǒng)的按半數(shù)大小,索引耗時應(yīng)該在1小時左右。

2、CPU和內(nèi)存的占有

  這個值沒有專門做過檢查,但創(chuàng)建索引主要是對磁盤的讀寫繁忙,沒有過多的計算,所以CPU的占用應(yīng)該不會多,至于內(nèi)存,介于內(nèi)存的讀寫速度比硬盤快很多,所以會占用一定數(shù)量的內(nèi)存緩存,考慮到100萬條記錄的大小不會超過1G,所以影響也不會大

3、索引空間膨脹率

  目前測試情況,按膨脹率最高的全冗余(字詞混和)模式創(chuàng)建索引,膨脹率接近3.0。

4.11成功的應(yīng)用模式和豐富的應(yīng)用經(jīng)驗

  TRS 公司多年來服務(wù)于眾多的關(guān)鍵信息系統(tǒng)建設(shè),在應(yīng)用集成能力和服務(wù)能力上得到了用戶的認(rèn)可。

  如國務(wù)院新聞辦三網(wǎng)一庫的核心數(shù)據(jù)庫建設(shè)、國家計委縱向網(wǎng)、衛(wèi)生部信息發(fā)布網(wǎng)站,國家統(tǒng)計局綜合網(wǎng)站信息服務(wù)系統(tǒng),北京市勞動和社會保障局網(wǎng)站、外交部新聞監(jiān)控采集系統(tǒng)、新華社多媒體數(shù)據(jù)庫平臺、中央人民廣播電臺網(wǎng)站內(nèi)容管理平臺、央視在線主持系統(tǒng)、人民日報資料庫、中糧、中國五礦等等,我們對資源庫建設(shè)、入庫、編輯、生成、展示等整個信息的生產(chǎn)和服務(wù)的應(yīng)用需求有著深刻的理解,這是領(lǐng)先其他公司的顯著優(yōu)勢,通過這些服務(wù),我們與客戶建立了良好的合作關(guān)系,贏得了客戶的信任。特別是我們?yōu)樾氯A社多媒體數(shù)據(jù)庫進(jìn)行的提速工作,再次展現(xiàn)了公司在信息檢索技術(shù)領(lǐng)域國際化的領(lǐng)先水平,我們通過并行檢索、Bi-Gram索引、服務(wù)器群集和數(shù)據(jù)庫智能化自我管理以及多層次Cache技術(shù)等,使得多媒體數(shù)據(jù)庫在千萬級數(shù)據(jù)庫記錄的綜合查詢性能獲得了成倍的提高,這是對關(guān)鍵業(yè)務(wù)的關(guān)鍵性突破。

4.12專注的服務(wù)

  TRS專注于咨詢和開發(fā)服務(wù),采用開放的體系結(jié)構(gòu)、技術(shù)和產(chǎn)品,確保用戶的利益,保護(hù)現(xiàn)有投資。

  TRS公司專注于軟件產(chǎn)品的提供和技術(shù)服務(wù),在咨詢和服務(wù)能力上居于領(lǐng)先地位,在本項目中,我們在關(guān)鍵性平臺上采用了TRS成熟產(chǎn)品,并且保證提供開放的技術(shù)體系,提供完整和可擴(kuò)充性,提供應(yīng)用集成能力,同時根據(jù)用戶需求,推薦針對應(yīng)用的行業(yè)內(nèi)具有優(yōu)勢的相關(guān)產(chǎn)品,總體設(shè)計方案強調(diào)系統(tǒng)組件的最佳組合,選擇合適的技術(shù)和產(chǎn)品。

企業(yè)•廣東移動搜索引擎服務(wù)

  在廣東移動搜索引擎服務(wù)的系統(tǒng)建設(shè)中,TRS重點解決了資源信息的整合和安全問題。
資源信息的整合包括了對辦公自動化數(shù)據(jù)的整合、對論壇數(shù)據(jù)的整合、對CM系統(tǒng)數(shù)據(jù)的整合,通過整合,實現(xiàn)統(tǒng)一的檢索入口,實現(xiàn)統(tǒng)一的Portal服務(wù)。此外,各種數(shù)據(jù)對原有系統(tǒng)中的權(quán)限(主要是Notes系統(tǒng)中的權(quán)限)得到了很好的繼承,只有相關(guān)的授權(quán)用戶才能對自己權(quán)限范圍內(nèi)的信息進(jìn)行瀏覽和檢索。


  廣東移動的搜索引擎從技術(shù)上可以分為三個部分:Notes業(yè)務(wù)平臺,TRS檢索系統(tǒng),權(quán)限過濾和顯示模塊。用戶進(jìn)行全文檢索首先在TRS中命中相應(yīng)檢索記錄,然后通過權(quán)限過濾命中相應(yīng)的數(shù)據(jù)集合,最終通過顯示模塊展示給相關(guān)人員經(jīng)過安全驗證的信息內(nèi)容。

  通過這種方式,Notes中的全部業(yè)務(wù)權(quán)限得到了充分的繼承,有效體現(xiàn)了TRS企業(yè)搜索引擎的開放性和可集成能力,充分體現(xiàn)了TRS安全檢索的概念。

  通過共享資源庫的建設(shè),為內(nèi)部工作人員提供了一個題材豐富的信息資源系統(tǒng),采用TRS企業(yè)搜索引擎系統(tǒng),將各部門信息資源整理加工,形成集公文、政務(wù)信息、行業(yè)規(guī)章、地方特色信息等資源的數(shù)據(jù)庫,為各級領(lǐng)導(dǎo)提供決策服務(wù)參考,為相關(guān)工作人員提供信息快速查詢平臺。

  安全檢索和資源整合服務(wù),使內(nèi)部的信息得到有序的共享,并進(jìn)一步優(yōu)化了管理流程,實現(xiàn)“一站式”信息發(fā)布和辦公服務(wù)模式。

CTI論壇編輯



相關(guān)鏈接:
TRS助力號碼百事通118114見證精彩奧運 2008-09-23
信息周刊:剖析號碼百事通 2007-09-18
業(yè)界英才歡聚國電盛會 TRS形象閃耀青藏高原 2007-09-17
熱烈祝賀TRS榮膺2007中國十大創(chuàng)新軟件企業(yè)稱號 2007-09-17
TRS Database Server最新升級版本V6.1發(fā)布 2007-09-17

分類信息:  增值電信_與_電話信息查詢服務(wù)  增值電信_與_電信  電話信息查詢服務(wù)_與_電信
高平市| 余姚市| 闽清县| 镇赉县| 泉州市| 辽中县| 土默特左旗| 尉犁县| 镇沅| 甘洛县| 临泽县| 本溪市| 洛川县| 沁阳市| 兴和县| 云霄县| 和顺县| 琼海市| 邓州市| 南漳县| 政和县| 河间市| 西藏| 常宁市| 五家渠市| 莆田市| 晋江市| 敦化市| 繁昌县| 高要市| 布尔津县| 通州区| 景泰县| 江油市| 石阡县| 抚宁县| 监利县| 峡江县| 万年县| 鄂托克前旗| 宿迁市|