【正文】
改日期排序的結(jié)果對(duì)比:4. 實(shí)時(shí)性l 內(nèi)容實(shí)時(shí)性:OA系統(tǒng)更新的信息能在較短時(shí)間內(nèi)檢索到(最低要求是一天)在SharePoint搜索中心,POC階段已經(jīng)根據(jù)具體實(shí)施階段對(duì)內(nèi)容實(shí)時(shí)性的要求,設(shè)置了增量爬網(wǎng)計(jì)劃任務(wù)。該窗口直接連入Notes OA界面,直接實(shí)現(xiàn)了從搜索中心到Notes OA的單點(diǎn)登陸??梢詷?gòu)建一個(gè)獨(dú)立企業(yè)搜索應(yīng)用,為員工提供一站式搜索,也可以將微軟企業(yè)搜索作為一項(xiàng)平臺(tái)服務(wù),為各個(gè)獨(dú)立應(yīng)用如知識(shí)管理服務(wù),提供檢索其中數(shù)據(jù)的服務(wù)。所以,Query服務(wù)器也可以配置網(wǎng)絡(luò)負(fù)載均衡以應(yīng)對(duì)大用戶量請(qǐng)求的環(huán)境;Index索引服務(wù)器主要擔(dān)當(dāng)搜索外部數(shù)據(jù)源,把這些數(shù)據(jù)爬取并保存到本地的操作;SQL數(shù)據(jù)庫(kù)服務(wù)器主要提供了數(shù)據(jù)存取的功能;按照這些服務(wù)器分別擔(dān)當(dāng)?shù)慕巧?,我們可以把這些服務(wù)器分別部署到同一個(gè)服務(wù)器場(chǎng)中,其物理架構(gòu)圖可參照如下: 按照微軟搜索引擎的工作機(jī)理,其邏輯架構(gòu)為:在上圖中,內(nèi)容源表示各種存儲(chǔ)著信息資料的IT系統(tǒng),索引引擎模塊會(huì)根據(jù)不同的協(xié)議和接口從內(nèi)容源中爬取信息轉(zhuǎn)換為內(nèi)容索引??刹僮鞯乃阉鹘Y(jié)果可容易地進(jìn)行篩選和排序、使用和共享。5. 索引控制用于輕松包含和排除所搜索內(nèi)容以及立即刪除任何站點(diǎn)或項(xiàng)的細(xì)粒度索引控制。充分利用社會(huì)網(wǎng)絡(luò)的強(qiáng)大功能。動(dòng)態(tài)Ranking技術(shù)是內(nèi)置在搜索引擎中的,自動(dòng)根據(jù)企業(yè)內(nèi)部對(duì)搜索引擎使用得最多的關(guān)鍵字和搜索命令,還有搜索中數(shù)據(jù)源的屬性信息等,對(duì)搜索結(jié)果的Ranking進(jìn)行修改。這樣在搜索引擎爬網(wǎng)時(shí),系統(tǒng)會(huì)自動(dòng)把Word文檔的Ranking提高。這個(gè)MetaData映射技術(shù),可以讓企業(yè)更有針對(duì)性地來(lái)定義企業(yè)所關(guān)心的,具有企業(yè)自身特點(diǎn)的搜索功能。另外,對(duì)每個(gè)跟搜索相關(guān)的功能,微軟均通過(guò)對(duì)象模型向企業(yè)提供二次編程接口。 權(quán)限實(shí)現(xiàn)模型系統(tǒng)直接繼承OA現(xiàn)有權(quán)限,直接在搜索結(jié)果中實(shí)現(xiàn)了只有用戶有權(quán)限操作的內(nèi)容才能檢索到的功能。因?yàn)榕谰W(wǎng)內(nèi)容會(huì)消耗大量資源和帶寬,因此最好在爬網(wǎng)時(shí)只包含較少的高相關(guān)性內(nèi)容,而不要包含大量可能不相關(guān)的內(nèi)容。通過(guò)在微軟測(cè)試中心做的測(cè)試,對(duì)以下服務(wù)器場(chǎng)的測(cè)試結(jié)果為:Computer roleHardware Hard disk capacityQuery servers4 dualcore Intel Xeon gigahertz (GHz) processors32 gigabytes (GB) RAM40 GB for the operating system (Redundant Array of Independent Disks (RAID) 5)956 GB for the content index and the operating system paging file (RAID 10)Index server4 dualcore Intel Xeon GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the content index and the operating system paging file (RAID 10)Database server4 dualcore Intel Xeon GHz processors32 GB RAM40 GB for the operating system (RAID 5)956 GB for the SharedServices_Search_DB database with dedicated small puter system interface (SCSI) controller (RAID 10)The following disks shared a SCSI controller:273 GB for the SharedServices_DB database (RAID 10)273 GB for the TempDb database (RAID 10)273 GB for log files (RAID 10)136 GB for the SharePoint_Config database (RAID 10)針對(duì)這種配置的服務(wù)器,進(jìn)行橫向擴(kuò)展,測(cè)試的結(jié)果為:服務(wù)器場(chǎng)大小每秒響應(yīng)請(qǐng)求Query server CPU利用率Index server CPU 利用率Database server CPU 利用率Database server 平均磁盤讀寫(xiě)/秒1x1x1 2x1x1 3x1x1 4x1x1 5x1x1 6x1x1 7x1x1 8x1x1 l 系統(tǒng)支持容量通過(guò)定義調(diào)整Index索引服務(wù)器的索引規(guī)則,企業(yè)可以按照需求,設(shè)置Index索引一次打開(kāi)多少個(gè)Index進(jìn)程。突出了搜索平臺(tái)的概念,也讓系統(tǒng)的可用性得到很大提高。它總是允許你從搜索結(jié)果界面中預(yù)覽普通文檔類型,以使你確保找到了正確的文檔;190。 搜索返回的結(jié)果是可操作的并且包含了已存在的信息(與即時(shí)通訊技術(shù)同時(shí)使用時(shí),例如Live Communication Server),因此你可以非常容易的聯(lián)系和定位到你所感興趣的相關(guān)信息的作者。 安全性剪裁指搜索結(jié)果只會(huì)顯示那些具有訪問(wèn)權(quán)限的用戶條目——因此確保遵守和保護(hù)知識(shí)財(cái)產(chǎn)和隱私因此,微軟搜索產(chǎn)品能夠?yàn)槠髽I(yè)提供平臺(tái)級(jí)別的完整搜索解決方案。190。例如,同樣搜索“企業(yè)文化”一詞,在不同企業(yè)內(nèi)結(jié)果顯然是不同的;再如:?jiǎn)T工輸入“打印機(jī)安裝程序”,員工很大可能是要找到內(nèi)部打印機(jī)安裝入口。搜索引擎會(huì)根據(jù)預(yù)先定義的規(guī)則計(jì)算所搜索信息與用戶檢索詞之間的[相關(guān)度],將[相關(guān)度]最高的結(jié)果,即它自認(rèn)為最可能滿足用戶需求的信息排在最前的頁(yè)面。我們還可以考慮采用虛擬分類的技術(shù),由知識(shí)工作者自行定義分類維度,可以進(jìn)一步提高結(jié)果的相關(guān)度;l 逐步實(shí)現(xiàn)關(guān)聯(lián)信息的查找我們建議可以考慮根據(jù)員工的角色,逐步實(shí)現(xiàn)信息的關(guān)聯(lián)查找,例如,一個(gè)員工,他在查找“理賠流程”時(shí),他關(guān)注的可能是一份流程規(guī)范,理賠業(yè)務(wù)系統(tǒng)的入口,理賠的表單,公司負(fù)責(zé)理賠工作的專家等等信息,我們可以把這些統(tǒng)一地在一個(gè)界面展現(xiàn)給員工,提高結(jié)果命中率的同時(shí),方便員工對(duì)信息的使用;l 通過(guò)運(yùn)維管理提高結(jié)果集的相關(guān)度我們?cè)诨ヂ?lián)網(wǎng)上和企業(yè)內(nèi)網(wǎng)搜索“企業(yè)文化”這個(gè)關(guān)鍵詞時(shí),我們期望的結(jié)果顯然是不一樣的,前者要的是一種定義,后者很可能就是需要馬上把廣東移動(dòng)的企業(yè)文化顯示出來(lái)。可以采用的技術(shù)手段包括:——我們可以通過(guò)建立“最佳匹配”實(shí)現(xiàn)95%以上的相關(guān)度;——可以建立關(guān)鍵詞庫(kù),提高結(jié)果相關(guān)度;——可以通過(guò)對(duì)員工搜索詞頻的分析,對(duì)“最佳匹配”和關(guān)鍵詞庫(kù)進(jìn)行調(diào)整;——可以通過(guò)捕獲檢索內(nèi)容對(duì)象的屬性,進(jìn)行精確分類和條件查找。然而,互聯(lián)網(wǎng)搜索引擎中相關(guān)度計(jì)算顯然與企業(yè)有著本質(zhì)的區(qū)別。微軟的解決方案提供了豐富的用戶搜索報(bào)告,以幫助運(yùn)營(yíng)部門不斷發(fā)現(xiàn)員工的搜索需求,從而顯著提升員工搜索體驗(yàn)。 易于擴(kuò)展的開(kāi)發(fā)接口支持客戶化靈活定制需求微軟搜索平臺(tái)建立在可擴(kuò)展的體系架構(gòu)上,支持Web Services以及行業(yè)互操作標(biāo)準(zhǔn),包括XML以及SOAP。在組織內(nèi)部,提供給使用者擁有大量信息的簡(jiǎn)單搜索是很重要的,確信他們不能看到受限制的搜索結(jié)果以及內(nèi)容也是很重要的。 專為企業(yè)而建立 評(píng)估報(bào)告指出大多數(shù)企業(yè)內(nèi)的數(shù)據(jù)20%為非結(jié)構(gòu)化數(shù)據(jù)(例如郵件、Word文檔等),還有8