freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

某某移動企業(yè)搜索引擎項目技術(shù)方案(編輯修改稿)

2024-11-24 20:43 本頁面
 

【文章內(nèi)容簡介】 某某移動 搜索引擎項目技術(shù)方案 11 邏輯表達式 5 100 關(guān)鍵詞檢索 3 邏輯表達式 15 *關(guān)鍵詞檢索:指非結(jié)構(gòu)化數(shù)據(jù)的全文檢索 **邏輯表達式:指非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合檢索 其他參數(shù) 1) 每秒支持 100 個查詢 2) 網(wǎng)頁索引 更新時間需要達到每 8 小時更新 1 次 3) 數(shù)據(jù)庫索引更新時間需要每 4 個小時更新 1 次; 3. 其他要求 開發(fā)包及幫助文檔要求:搜索引擎供應(yīng)商所提供的二次開發(fā)包及文檔(要求至少包含中文),要求接口定義符合常規(guī)、說明文檔、接口文檔、例子文檔完整清晰。 三、 需求分析 根據(jù)上述的建設(shè)需求,我們分析認為 某某移動 搜索引擎項目主要的建設(shè)內(nèi)容和關(guān)鍵問題包括: 1) 搜索引擎系統(tǒng)必須是跨平臺設(shè)計,支持各種主流操作系統(tǒng)、各種主流應(yīng)用服務(wù)器和主流 Web 服務(wù)器、各主流關(guān)系數(shù)據(jù)庫;支持主流的開發(fā)平臺: C/C++應(yīng)用開發(fā)、 COM和 .Net 應(yīng)用開發(fā)、 java 應(yīng) 用開發(fā)。 2) 實現(xiàn)對多種信息源的接入和信息采集:本項目要求搜索引擎能夠接入多種信息源,包括關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)、 Web 服務(wù)器等等。搜索引擎要能夠提供各種方便易用的系統(tǒng)接入工具 /模塊,自動化或半自動化地批量處理各數(shù)據(jù)源中的信息。 3) 實現(xiàn)多種類型信息對象處理:要求搜索引擎不僅能夠接入各類信息源,而且要能夠?qū)π畔⒃粗械母黝惤Y(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進行識別、分析,抽取文本內(nèi)容,進行過濾、排重、轉(zhuǎn)換、分類等加工處理,并能夠合理存儲到搜索引擎的存儲系統(tǒng)中。需要處理的對象涉及到關(guān)系數(shù)據(jù)庫中的關(guān)系型數(shù)據(jù)、 XML 類半結(jié)構(gòu)化數(shù)據(jù)、 Office 某某移動 搜索引擎項目技術(shù)方案 12 類非結(jié)構(gòu)化數(shù)據(jù)等等。 4) 實現(xiàn)對信息的全面索引和檢索功能:要求搜索引擎能夠從信息對象中抽取出正文及多個可描述對象的文本域,運用分詞技術(shù)對文本進行切分,運用有效的索引策略對信息建立索引,以便建立高效、準確的信息檢索服務(wù)。 5) 實現(xiàn)對數(shù)據(jù)的管理和訪問控制:搜索引擎要能夠?qū)笈_存儲的數(shù)據(jù)進行有效的管理,提供管理入口和管理工具,并且能夠結(jié)合統(tǒng)一用戶認證系統(tǒng)在應(yīng)用層控制用戶對搜索引擎后臺數(shù)據(jù)的訪問與獲取。系統(tǒng)還需要提供訪問統(tǒng)計和審計功能,以便有效掌握搜索引擎的運行和使用情況。 6) 實現(xiàn)全方位的信息搜索服務(wù):為用戶提供 全面的信息檢索途徑,可根據(jù)多種搜索域?qū)π畔⑦M行檢索,能夠支持多語言以及關(guān)鍵詞的邏輯組合檢索,并通過人性化的、合理的排序機制和表現(xiàn)邏輯來有效地組織和提供搜索結(jié)果。 7) 提供搜索引擎的健壯架構(gòu):包括當(dāng)前搜索引擎系統(tǒng)的框架、軟硬件架構(gòu)、系統(tǒng)的擴展機制、雙機熱備冗余方案等。 8) 提供搜索引擎安全性保障機制:包括數(shù)據(jù)、應(yīng)用及用戶信息的安全性。 9) 提供豐富的搜索引擎接口:搜索引擎要能提供各類接口,包括管理接口、應(yīng)用接口、用戶接口,便于對搜索引擎所收集的信息進行進一步的分析、輸出、加工和利用。 10) 提供高性能的搜索服務(wù):系統(tǒng)要求支持海 量數(shù)據(jù)量的搜索能力及較高的并發(fā)響應(yīng)速度。 四、 設(shè)計原則 本項目要求建設(shè)的搜索引擎系統(tǒng)應(yīng)采用先進的數(shù)學(xué)模型、智能化的檢索方式,設(shè)計目標(biāo)在于建立一個安全、穩(wěn)定、準確、及時的搜索系統(tǒng)。整個系統(tǒng)在總體設(shè)計上遵循開放、可擴展、經(jīng)濟、安全的原則,從而使整個系統(tǒng)結(jié)構(gòu)合理,技術(shù)先進,易于擴展,既能滿足當(dāng)前的業(yè)務(wù)數(shù)據(jù)處理要求,又能符合長期發(fā)展的需要。 1. 標(biāo)準化 系統(tǒng)設(shè)計遵照執(zhí)行國家頒布的現(xiàn)有標(biāo)準以及即將推出的各類規(guī)范。 某某移動 搜索引擎項目技術(shù)方案 13 ? 技術(shù)標(biāo)準化:系統(tǒng)的設(shè)計使用通行的、廣為接受的技術(shù)和方法,保證系統(tǒng)可擴展、可升級的能力。 ? 結(jié)構(gòu)標(biāo)準化:系統(tǒng)的設(shè) 計遵循先進的、成熟的、被廣為應(yīng)用和驗證的架構(gòu),降低系統(tǒng)的設(shè)計風(fēng)險,提高穩(wěn)定性和靈活性。 ? 數(shù)據(jù)標(biāo)準化:系統(tǒng)使用的數(shù)據(jù),如電子文檔、業(yè)務(wù)數(shù)據(jù)等,都符合國家相關(guān)標(biāo)準的要求。 2. 開放性 系統(tǒng)總體方案設(shè)計在體系結(jié)構(gòu)、硬件平臺、軟件平臺的確定方面,從設(shè)備選型到設(shè)計、開發(fā)都要充分考慮 標(biāo)準和開放 的原則。在應(yīng)用系統(tǒng)的設(shè)計與開發(fā)方面,依據(jù)標(biāo)準化和模塊化的設(shè)計思想,具備跨平臺運行支持能力,可以運行在多種硬件平臺和操作系統(tǒng)平臺上。 3. 先進性和成熟性 項目投資考慮到今后的發(fā)展,不使用落后的產(chǎn)品與技術(shù),以避免投資的浪費;為保證系統(tǒng)的穩(wěn) 定性,持續(xù)的可維護性和可擴展性,在系統(tǒng)軟件選型、開發(fā)技術(shù)上,選用業(yè)界先進、成熟的技術(shù)和產(chǎn)品,以保障項目實施的成功率、運行效果及運行效率。 在項目中采用先進的設(shè)計模型,行業(yè)流行和先進的技術(shù),例如系統(tǒng) Ntier 體系架構(gòu)等,先進的技術(shù)保證系統(tǒng)在大并發(fā)訪問時的穩(wěn)定性,并可根據(jù)系統(tǒng)發(fā)展,按需擴展。 在系統(tǒng)設(shè)計過程中,采用成熟的產(chǎn)品進行系統(tǒng)建設(shè),這樣,能夠在最大限度上保證核心系統(tǒng)的成熟度。同時,一些個性化的應(yīng)用也將采用成熟的技術(shù)進行開發(fā)和功能擴展。 4. 可擴展性 軟硬件配置具備動態(tài)平滑擴展能力,可以通過調(diào)整系統(tǒng)框架和相應(yīng) 服務(wù)單元的配置,適應(yīng)業(yè)務(wù)量的變化,獲得良好的性能價格比。系統(tǒng)架構(gòu)在開放的安全應(yīng)用支撐體系結(jié)構(gòu)之上,系統(tǒng)易于擴展,具有良好的可擴充性。同時提供各種靈活可變的接口,系統(tǒng)內(nèi)部也保持相當(dāng)程度的可擴充性。 某某移動 搜索引擎項目技術(shù)方案 14 5. 可移植性 系統(tǒng)支持跨平臺的應(yīng)用,支持主流的 Web 服務(wù)器, Web 應(yīng)用服務(wù)器。對硬件和操作系統(tǒng)沒有特殊要求。 跨平臺的特性保證了系統(tǒng)具有更高的可移植性和適應(yīng)能力,使得客戶方能夠靈活選擇平臺部署方案,兼顧全局系統(tǒng)考慮。 6. 安全性 項目中充分考慮系統(tǒng)安全性,充分保障系統(tǒng)中數(shù)據(jù)備份、應(yīng)用流程、權(quán)限管理等各個環(huán)節(jié)的安全性。在設(shè)計 系統(tǒng)結(jié)構(gòu)時,各個層次都消除單點隱患,充分考慮到系統(tǒng)的冗余配置和災(zāi)難恢復(fù);應(yīng)用系統(tǒng)的用戶有著各種各樣不同的權(quán)限級別和應(yīng)用層次,因此在平臺設(shè)計時,應(yīng)該充分考慮不同用戶的需求,保證正常用戶能夠高效、快速地訪問授權(quán)范圍內(nèi)的系統(tǒng)信息和資源。同時,也必須能夠有效地阻止未授權(quán)用戶的非法入侵、以及非授權(quán)訪問。 7. 高效性與準確性 搜索引擎要求具備很高的運行效率及信息檢索準確度。本項目將運用業(yè)內(nèi)領(lǐng)先的各類數(shù)據(jù)處理技術(shù)、索引技術(shù)、優(yōu)化技術(shù)、分布式技術(shù)、集群技術(shù)、應(yīng)用服務(wù)技術(shù)等,保障最終應(yīng)用運行效率和效果。 8. 全面性 搜索引擎系統(tǒng)全面 性包括采集內(nèi)容的全面性及檢索結(jié)果的全面性。 采集內(nèi)容的全面性指搜索引擎能夠接入各種采集源,對各類、各級信息進行全面采集。 在提供信息搜索服務(wù)時,除了需要保證很高的運行效率(即很快的檢索相應(yīng)速度)和結(jié)果準確性外,還需要保證具有很高的查全率,即 檢出的相關(guān)文獻量與系統(tǒng)文獻庫中相關(guān)文獻總量的比率,它反映該系統(tǒng) 數(shù)據(jù) 庫中實有的相關(guān)文獻量在多大程度上被檢索出來。 本系統(tǒng)在設(shè)計時,采用先進的檢索算法,內(nèi)嵌漢語自動分詞系統(tǒng),并根據(jù)需要不斷地升級分詞系統(tǒng)、更換詞典、統(tǒng)計建立了大量歧義排除規(guī)則,有效增強分詞準確性,使系統(tǒng)同時 某某移動 搜索引擎項目技術(shù)方案 15 具備 高查全率和查準率。 9. 可維護性及易用性 一方面建立的平臺本身具有可維護性,另一方面還需要在平臺的開發(fā)過程中,注意培養(yǎng)系統(tǒng)運行管理人員,讓將來的系統(tǒng)運行管理人員熟悉和了解整個系統(tǒng)的總體結(jié)構(gòu)以及相關(guān)的知識。只有這樣才能保證系統(tǒng)的有效運行,發(fā)揮應(yīng)有的作用。整套系統(tǒng)的數(shù)據(jù)維護簡單,容易操作,降低維護的技術(shù)難度,也減少了人為隱患的發(fā)生。 10. 可行性及可實施性 系統(tǒng)的建設(shè)方案具有較好的可行性以及可實施性,一方面,在系統(tǒng)的整體框架下系統(tǒng)開發(fā)投產(chǎn)能夠分階段地進行,并保持各階段的相互鋪墊和整體工作的連續(xù)。另一方面,系統(tǒng)設(shè)計充分考慮 到具體的網(wǎng)絡(luò)、硬件環(huán)境,保證系統(tǒng)能夠?qū)崿F(xiàn)完善的功能。 五、 整體解決方案設(shè)計 1. 系統(tǒng)框架設(shè)計 根據(jù)項目需求特點, TRS 將采用 下圖所示的整體框架來建設(shè) 某某移動 搜索引擎項目 。 某某移動 搜索引擎項目技術(shù)方案 16 周 期 控 制信 息 采 集鏈 路 分 析采 集 策 略自 動 分 類自 動 過 濾自 動 排 重內(nèi) 碼 轉(zhuǎn) 換分 類 檢 索二 次 檢 索拼 音 檢 索… …簡 單 檢 索 高 級 檢 索詞 典 管 理統(tǒng) 計 分 析用 戶 管 理權(quán) 限 管 理應(yīng)用開發(fā)接口數(shù)據(jù)存儲索引中心 W e b 資 源 數(shù) 據(jù)文 件 系 統(tǒng) 關(guān) 系 型 數(shù) 據(jù) 庫其 他 系 統(tǒng) 數(shù) 據(jù)檢索應(yīng)用層加工層采集層系 統(tǒng) 管 理異 構(gòu)信 息 源 整個搜索引擎系統(tǒng)包含為 7 大部分: ? 信 息源 ? 采集 層 ? 數(shù)據(jù)加工層 ? 數(shù)據(jù)存儲中心 ? 檢索應(yīng)用層 ? 系統(tǒng)管理層 ? 應(yīng)用開發(fā)接口 信息源 搜索引擎的信息源為搜索引擎核心各系統(tǒng)需要采集、加載、處理、分析和索引并提供服 某某移動 搜索引擎項目技術(shù)方案 17 務(wù)的各類信息數(shù)據(jù)。 根據(jù)本項目的要求,在信息源層,主要需要處理 的對象包括 結(jié)構(gòu)化的信息和非結(jié)構(gòu)化信息: RTF, DOC, PPT, XLS, PDF, HTML, ASP, JSP, PHP, TXT,、 ZIP、 RAR。這些信息對 象在不同的數(shù)據(jù)源中存在,包括:關(guān)系數(shù)據(jù)庫、本地文件系統(tǒng)、遠程文件、 Web 服務(wù)器等。 采集層 采集層實現(xiàn)對 不同數(shù)據(jù)源中的各類數(shù)據(jù)對象 進行采集,在采集層會根據(jù)數(shù)據(jù)源的不同和處理對象的不同,運用不同的處理工具來進行數(shù)據(jù)采集、分析和過濾等。 在本項目中將主要應(yīng)用到以下采集工具: 網(wǎng)絡(luò)信息 采集模塊、 關(guān)系數(shù)據(jù)庫信息采集模塊、本地文件系統(tǒng)資源采集、遠程文件資 源采集、其它信息源數(shù)據(jù)的采集:根據(jù)數(shù)據(jù)源接入方式,利用相應(yīng)的采集工具進行信息獲取、過濾等。 通過采集配置和調(diào)度控制,從信源集合中實時或非實時的、增量的將結(jié)構(gòu)化和非結(jié)構(gòu)化信息準確高效的采集到搜索引擎中,為系統(tǒng)內(nèi)部的其他模塊提供分析依據(jù) 。 數(shù)據(jù)加工層 數(shù)據(jù)加工層為搜索引擎的信息智能分析處理中心,其核心功能包括:正文提取、自動智能分詞、信息過濾、文本特征標(biāo)引、網(wǎng)頁快照壓縮存儲。通過對數(shù)據(jù)的分析、挖掘和處理,為搜索引擎索引中心的工作做好準備。 信息分析與處理是系統(tǒng)中非常復(fù)雜而重要的模塊,它將內(nèi)容自動過濾、自動分類、 自動排重、內(nèi)碼轉(zhuǎn)換等功能無縫集成在系統(tǒng)內(nèi)部,實現(xiàn)了自動處理的高集成度。數(shù)據(jù)加工層的工作質(zhì)量很大程度上決定了搜索引擎最終服務(wù)數(shù)據(jù)的質(zhì)量。 數(shù)據(jù)存儲索引中心 數(shù)據(jù)存儲索引中心需要 對前端系統(tǒng)采集、加工的海量、異構(gòu)信息進行統(tǒng)一的存儲,按照索引規(guī)則建立索引,為上層的檢索服務(wù)提供核心的檢索動力支持。 數(shù)據(jù)存儲索引中心 實現(xiàn)信息搜索的核心處理功能,是搜索后臺架構(gòu)的主體,搜索系統(tǒng)所需的數(shù)據(jù)均由這一部分來進行統(tǒng)一調(diào)度和控制。 某某移動 搜索引擎項目技術(shù)方案 18 按照數(shù)據(jù)規(guī)模, 存儲索引中心 可采用一臺至多臺服務(wù)器來構(gòu)成分布式存儲和負載均衡的架構(gòu)模式來存儲和索引數(shù)據(jù)。 在這一層,通常會以集群的模式部署若干臺甚至上千臺服務(wù)器來分布需要提供搜索服務(wù)的數(shù)據(jù),并提供負載均衡、冗余備份等機制的實現(xiàn)。 檢索應(yīng)用層 基于檢索核心引擎提供的檢索功能和相應(yīng)的接口
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1