freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

最新移動環(huán)境下的搜索引擎軟件系統(tǒng)設計與實現(xiàn)-在線瀏覽

2024-08-10 04:44本頁面
  

【正文】 析,為后續(xù)設計提供了理論鋪墊。本章還對“妙搜”系統(tǒng)性能要求進行了介紹,力求全面的分析“妙搜”系統(tǒng)的用戶前景和需求來源,從客戶需求的角度,分析“妙搜”系統(tǒng)的可行性。本章從系統(tǒng)總體目標開始,介紹了“妙搜”系統(tǒng)的軟件技術平臺選擇,進而分節(jié)介紹了“妙搜”系統(tǒng)必要環(huán)節(jié)和各個子系統(tǒng),分別是:妙搜服務系統(tǒng)架構設計、內(nèi)容爬取子系統(tǒng)設計、索引子系統(tǒng)設計、搜索處理子系統(tǒng)設計、中文分詞算法設計、聚類設計、緩存子系統(tǒng)設計、通信接口層設計。第6章 妙搜移動搜索引擎系統(tǒng)的實現(xiàn)。最后對整體運行系統(tǒng)并對系統(tǒng)進行了測試運行。第二章搜索引擎關鍵技術介紹 搜索引擎技術是互聯(lián)網(wǎng)時代發(fā)展起來的現(xiàn)代科學技術之一,由于現(xiàn)代社會信息量爆炸,如何在海量的信息海洋中快速、準確的搜尋到自己所要的信息,成為現(xiàn)代互聯(lián)網(wǎng)時代最重要的課題之一。近年來,由于以手機、平板電腦為代表的移動互聯(lián)網(wǎng)終端的快速發(fā)展,已經(jīng)有很明顯的趨勢:未來的互聯(lián)網(wǎng)技術發(fā)展,移動互聯(lián)網(wǎng)技術將在其中占據(jù)重要地位,而移動環(huán)境下的搜索引擎技術,也成為科學研究的熱門領域之一。根據(jù)大英百科全書的相關信息收錄,搜索引擎,是現(xiàn)代互聯(lián)網(wǎng)技術之一,目的是為了幫助互聯(lián)網(wǎng)用戶(包括PC電腦用戶)在互聯(lián)網(wǎng)上對信息進行查找的一種軟件程序?,F(xiàn)代搜索引擎技術的發(fā)展,使得用戶可以通過各種互聯(lián)網(wǎng)終端,對搜索的信息進行再搜索和分析處理,通過各種方法,實現(xiàn)對互聯(lián)網(wǎng)信息的快速查找和檢索,提高互聯(lián)網(wǎng)應用的效率。進入新世紀以來,互聯(lián)網(wǎng)技術中的搜索引擎技術有了突飛猛進的發(fā)展,實現(xiàn)了跨越式、交叉性、多學科的發(fā)展模式,在國內(nèi)外的商業(yè)互聯(lián)網(wǎng)巨頭中,都產(chǎn)生了諸如谷歌、百度、必應、雅虎等互聯(lián)網(wǎng)搜索門戶網(wǎng)站,這些新興的互聯(lián)網(wǎng)商業(yè)帝國的快速成長,也印證了搜索引擎技術在整個互聯(lián)網(wǎng)技術中的重要地位。對用戶的需求和拓展也在不斷深入和繼續(xù)。互聯(lián)網(wǎng)時代的來臨,給搜索引擎技術的發(fā)展帶來了一個很大的機遇,互聯(lián)網(wǎng)的發(fā)展與進步為搜索引擎技術的發(fā)展方向起了指導,使得互聯(lián)網(wǎng)搜索引擎技術朝著以下幾個方向發(fā)展:智能化是互聯(lián)網(wǎng)技術發(fā)展的總體方向之一,對互聯(lián)網(wǎng)的發(fā)展起著綱要性、指導性的作用。智能化能夠提升搜索引擎使用用戶的搜索效率,能夠提高搜索引擎的準確性,提高搜索引擎系統(tǒng)的易用性。搜索引擎技術與媒體有著天然的聯(lián)系,搜索的結果既可以以文字的方式呈現(xiàn),也可以以媒體的方式呈現(xiàn),隨著用戶對搜索結果的要求越來越高,互聯(lián)網(wǎng)搜索引擎技術的發(fā)展中媒體化的趨勢也愈加明顯。特異化包括個性化和特色化,是對互聯(lián)網(wǎng)搜索引擎用戶的不同需求的描述和闡述。通過特異性的發(fā)展,搜索引擎技術能夠充分利用這些特異性信息來提高用戶的檢索效率,并為用戶提供全程幫助和服務,使得個性化搜索更符合每個用戶的需求。功能化表現(xiàn)在搜索引擎技術在發(fā)展中不再滿足僅僅表現(xiàn)為單一的搜索功能,而且通過其他的生活服務,為互聯(lián)網(wǎng)用戶的生活提供服務,在諸如新聞、百科、文檔搜索、天氣預報等方面,有利用搜索引擎技術對信息的即時性和敏感性,提供由于其他互聯(lián)網(wǎng)服務的優(yōu)質功能性服務。可以預期,今后互聯(lián)網(wǎng)搜索引擎技術的發(fā)展將為搜索引擎技術的發(fā)展帶來更大的服務和突破。 搜索引擎技術的首要步驟是內(nèi)容的抓取,簡言之,就是對互聯(lián)網(wǎng)信息和內(nèi)容的抓取,一般是通過根據(jù)既定的規(guī)則對互聯(lián)網(wǎng)上的網(wǎng)站內(nèi)容,信息進行搜索、掃描和檢索得到的。中文分詞技術是移動環(huán)境下互聯(lián)網(wǎng)搜索引擎技術對中文文獻搜索所需要涉及的核心技術,是對中文內(nèi)容的檢索核心技術。縱觀現(xiàn)有的互聯(lián)網(wǎng)搜索引擎技術,對中文分詞的作法,一般可以歸納概括為以下三種算法:第一種是基于字符串匹配的分詞方法,也有很多學者將其稱為機械類的中文分詞法。由索引進行的搜索引擎系統(tǒng)技術是搜索引擎技術的重要組成部分,它能夠對系統(tǒng)通過程序搜集的各種信息進行處理和分析,從中進行提煉和檢索,特別是對互聯(lián)網(wǎng)的網(wǎng)頁信息,索引的方法可以很容易的將包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等在內(nèi)的網(wǎng)頁內(nèi)容進行有效的處理。在索引的過程中,重點需要注意以下幾點內(nèi)容:有連貫的被索引的信息文件。通過索引能夠形成索引詞典或者通過反向索引形成表格。搜索引擎系統(tǒng)中所指的排序,是指在搜索引擎的運行過程中,能夠從網(wǎng)頁信息的索引中找到相關數(shù)據(jù)庫,并通過相關關鍵詞,以網(wǎng)頁的形式展示搜索結果。通過排序,能夠提高用戶的體驗,是搜索引擎技術的重要成果性技術。通過給用戶提供搜索接口,能夠將搜索的內(nèi)容返回給用戶,并將搜索的內(nèi)容以一定的組織形式呈現(xiàn)出來。對用戶的搜索關鍵詞或者語句進行分析得到的Terni(系列詞)。利用搜索將索引讀入內(nèi)存。對搜索的結果文檔進行排序(依據(jù)與查詢關鍵詞的相關性)將查詢的結果以特定的形式返回給用戶,完成搜索。需要特別指出的是,在搜索引擎系統(tǒng)進行抓取內(nèi)容的同時,特定的切詞系統(tǒng)或者索引系統(tǒng),將對抓取的網(wǎng)頁或者文檔進行自動的切詞處理,以便能夠根據(jù)不同的詞匯在網(wǎng)頁或者搜索信息中所出現(xiàn)的頻率和存在的位置進行計算,得出其存在和出現(xiàn)的權重,將切詞處理后的結果存入到索引文件中,以備后期使用。本章主要是對互聯(lián)網(wǎng)搜索引擎技術的基本技術和基本原理的介紹,首先對搜索引擎技術的定義進行了闡述,對搜索引擎技術的發(fā)展、搜索引擎技術的主要分類,以及搜索引擎技術的發(fā)展方向進行了描述和分析,再通過介紹搜索引擎系統(tǒng)運行的幾個步驟,闡明互聯(lián)網(wǎng)技術發(fā)展的方向,以及搜索引擎技術下一步發(fā)展的重點領域,并為下文對“妙搜”系統(tǒng)的介紹和闡述奠定基礎。因此,文檔的聚類一般來說,被視作是一種無監(jiān)督的學習方法(英文為Unsupervised learning)。這種方法使得同類個體相互之間的距離很小,不同種類的個體之間距離很大,這樣非常有利于同類個體相聚,異類個體分離。區(qū)別與分類,聚類對類別的劃分并非人為設計和進行安排的,而是由計算機系統(tǒng)根據(jù)一定的程序設計自主進行的分類,因此,聚類被稱為非監(jiān)督學習,即是根據(jù)不同數(shù)據(jù)之間的相似程度和差別,自主的發(fā)掘數(shù)據(jù)的內(nèi)在規(guī)律,進而對數(shù)據(jù)進行更加準確和深刻的歸類。文本聚類是利用聚類的思想,對文本之間進行的一種歸類,它根據(jù)的理論是運用聚類的方法,對文本進行智能識別和分析,根據(jù)不同文檔中的信息,找出其特定的內(nèi)在聯(lián)系和相似程度分析,從而對文檔進行集合、歸類和搜尋,便于用戶充文檔中快速、準確發(fā)現(xiàn)信息。根據(jù)目前研究的成果,文本聚類的一般工作流程是,將非結構的問題進行一定的歸類和安排,使其相對的結構化,然后利用特定的數(shù)據(jù)挖掘技術,對文本信息進行聚類。如下圖所示:圖例1圖3. 1聚類過程圖 LINGO算法概要作為一種被廣泛使用,并受到良好贊譽的聚類算法,LINGO算法在運行中,能夠充分的考慮到標簽(特別是一個方便理解和能夠準確表達類信息的標簽)在分類中所起的重要作用和收到的良好效果。隨后,LINGO算法通過對搜索關鍵詞或者關鍵詞組與信息中的抽象的概念之間比較關聯(lián)度,對相對度比較高的N個標簽作為類標簽,進而將文本分配到相關度最高的類別中,便于用戶的搜索和應用。提取出來的短語首先要確保的是其完整性。設文檔T,其長度為N,T的完整子字符串S定義為:S稱為T的完整子字符串,當S在T中出現(xiàn)互不相同的k次的位置P, P2.. ., Pk時,其中至少存在一對吏得T中第(/01個字符與第個字符不相同(左完整性),并且,其中至少存在一對(/,/)(1^〗^_/^/0使得了中第(p, +|s1)個字符與第(/^ +岡)個字符不相同(右完整性)。左完整:子字符串“to_be”是左完整的,比較第(01)個字符,和第(131)個字符(“―”),兩者不同,根據(jù)以上概念定義,“to—be”是左完整的。 根據(jù)完整字符串的定義,“to_be”就是T的完整字符串。設一個文檔T,長度為N,T的后綴數(shù)組S指將T所有的后綴按照字符順序排序,而令后綴起始的位置(按排序后的順序)構成的數(shù)組。而創(chuàng)建后綴數(shù)組的算法的期望時間復雜度也是0(aO,查找一個長度為P的字符串只需要0(尸+ logJV)的時間。如果利用向量空間模型對所有的詞語或者關鍵詞進行完全匹配,必然無法將同義詞這種意思相同表達不同的詞語做到完全區(qū)分,即如果將“教師”作為關鍵詞進行搜索,那么對文檔進行聚類分析之后,以“先生”為關鍵詞內(nèi)容的相關意思一致的文檔也就無法顯示出來,這給我們的搜索引擎發(fā)展帶來了技術性的瓶頸。例如,“高等院校招生”,“高等院?!焙汀罢猩笔莾蓚€相互獨立、又有一定聯(lián)系的關鍵詞,如果用戶搜索“招生”,就會顯示出含有“招生”作為關鍵詞的文檔匹配項,但是很可能有一部分包含有“高等院?!钡膬?nèi)容,但是不包含“招生”。作為一種常用的信息檢索技術,隱含語義分析(Latent Semantic Indexing, LSI)的出現(xiàn)最重要的作用是彌補向量空間模型所存在的缺陷。即將向量空間模型中簡單的詞匯的匹配替代為語義的匹配。在實際操作中,由于詞與詞,文檔與文檔,以及詞語文檔之間的子空間的分布不是隨機分布的狀態(tài),而是出于全文整體語義、詞義的內(nèi)容之中的,因此會受到上下文和整個文章所要表達的思想的束縛和限制。而在實際操作中,由于詞文檔矩陣的數(shù)據(jù)往往非常龐大,而且鑒于漢語文化的博大精深,常常會出現(xiàn)一詞多義,多詞一義的情況,這種情況的出現(xiàn)在現(xiàn)代漢語語文的行文和應用充非常常見,因此會給我們的判斷帶來干擾和迷惑,在這種情況下,與向量空間模型中的文檔高維表示不同,潛在語義標引還需要利用數(shù)學工具將原來的文檔高維表示投影到低維的空間、即潛在語義空間中,簡化語義的空間結構,從而達到縮小問題規(guī)模,消除并減少常見的迷惑和干擾。 LINGO算法過程分析所謂的文本預處理,是指為了進一步提高取類標簽的準確性,將文本以聚類算法可用處理的形式進行預處理,具體包括兩個階段:第一個階段叫做特征表示,第二個階段稱為特征提取。下面具體介紹向量空間模型,根據(jù)向量空間模型的原理,文檔集C中的每個文檔Dj都是一個特征向量,且向量空間模型中所有文檔的特征向量都具有相同的維數(shù):設為n,這個相同的尾數(shù)是全部文檔中所有不同特征項的總數(shù)目。T,W,i;。類標簽的提取是第二個步驟,是指在提取之前,需要對所有的包括關鍵詞和詞組在內(nèi)的關鍵詞進行提取。通過奇異值分解法(SVD: Singular Value Deposition)來發(fā)現(xiàn)抽象的概念,主要是單一主題或者相關主題的集合,這種方法的有點在于能夠高效率的客服重復的詞組、短語,以及同義詞、近義詞和相關的人稱物主代詞,切實提高系統(tǒng)的便捷性和高效性。類標簽的提取大致可以分為三個步驟:即抽象概念的發(fā)現(xiàn)、詞匹配和標簽提取。., U的列向量就代表抽象概念。詞匹配和標簽提取主要解決的問題是類標簽的確定。P表示關鍵詞關鍵詞組矩陣,它可以通過將關鍵詞組看作偽文檔的方式來構造,Uk表示抽象概念,因此抽象概念和關鍵詞、關鍵詞組的關系就可以通過下式來表示:M = U/P最后,類標簽提取還要考慮重疊標簽的修剪。本文中所稱的文檔分配,具體是指在一個定義的矩陣Q中,用每一個行向量表示一個類標簽,用C表示文檔的分配矩陣,那么整個文檔分配的具體構造過程可以用下面的公式所表示:C=Q39。 LINGO聚類算法最終要形成最終聚類,聚類的結果的作用是將經(jīng)過處理后類權重排序后返回給用戶,下面的公式是根據(jù)LINGO算法采用的類權重計算方法:C/ote/ = labelscore x ||C||其中Ctote/ =7^^amp。 LINGO聚類算法的優(yōu)缺點作為搜索引擎技術中眾多優(yōu)秀算法的一種,LIGNO聚類算法經(jīng)過長期的發(fā)展和演變,不斷的將技術應用中存在的問題和缺陷進行修補和完善,發(fā)展至今,LINGO聚類算法已經(jīng)成為比較成熟、易用性強、對不同的系統(tǒng)適應程度高的一個比較好的優(yōu)選算法,本文對LINGO聚類算法的介紹,還停留在技術應用的表面,LINGO聚類算法的優(yōu)點還有很多,特別是在系統(tǒng)的應用中,和對搜索引擎技術的發(fā)展方面,還有很多值得肯定的方面,下面簡單對LINGO聚類算法的優(yōu)點總結如下:首先,LINGO聚類算法能夠為聚類結果創(chuàng)建有意義的類標題。其次,LINGO聚類算法可以通過利用奇異值分解的方法獲取取文檔集合的抽象概念,該標簽能夠最大限度的反映出不同類別中的文檔的語義信息,通過準確的聚類,實現(xiàn)在LINGO聚類算法的運用下的模糊聚類(即一個文檔能夠同時出現(xiàn)在多個相關的類別中)。這也是我們在本搜索引擎系統(tǒng)的設計中需要重點關注和克服的問題之一。 本章小結在本章中,我們對文本聚類的概念進行了集中的介紹,重點從文本聚類中的重要方法,LINGO聚類算法進行了闡述,并對LINGO聚類算法的全過程,包括運行的計算過程中的每一個步驟進行了詳細的介紹,并對LINGO聚類算法的優(yōu)點和存在的不足進行了分別的描述,通過以上對LINGO聚類算法的全面詳盡的介紹,從理論上論證搜索引擎系統(tǒng)所需要應用的基礎理論,從而將移動環(huán)境下搜索引擎技術所涉及的相關原理和技術理論進行了一個全面的介紹,從下一章開始,我們將對本文中的重點內(nèi)容:“妙搜”移動搜索引擎項目進行闡述和介紹,行文的體例將從“妙搜”移動搜索引擎項目的需求分析入手。 “妙搜”移動搜索引擎項目的研究,主要的背景是目前互聯(lián)網(wǎng)技術發(fā)展的大背景下,以手機、平板電腦為代表的移動客戶端發(fā)展速度迅猛,成為移動互聯(lián)網(wǎng)發(fā)展的重要硬件依托,而從軟件方面來看,目前移動互聯(lián)網(wǎng)在軟件發(fā)展方面還相對滯后,發(fā)展移動環(huán)境下的互聯(lián)網(wǎng)搜索引擎技術大有可為,筆者結合自身的工作實際認識到,在移動環(huán)境下的互聯(lián)網(wǎng)發(fā)展中,進行照搬照抄原有的互聯(lián)網(wǎng)搜索引擎技術服務是行不通的,因為手機設備用戶對移動環(huán)境下的互聯(lián)網(wǎng)搜索引擎技術有著差異化的需求,正是這種需求,成為本文開發(fā)“妙搜”移動搜索引擎項目的動力和靈感源泉,本文試圖以“妙搜”移動搜索引擎項目的基礎,在充分借鑒前人理論成果的基礎上,深入發(fā)掘移動環(huán)境下的互聯(lián)網(wǎng)搜索引擎技術的發(fā)展方向,力求開發(fā)出一整套能夠針對移動互聯(lián)網(wǎng)終端的、適合移動用戶使用的移動環(huán)境下互聯(lián)網(wǎng)搜索引擎服務系統(tǒng)。這套移動搜索引擎系統(tǒng)的設計中,最大限度的考慮到移動環(huán)境下互聯(lián)網(wǎng)用戶的需求和體驗,是為移動環(huán)境下互聯(lián)網(wǎng)用戶量身訂做的一套互聯(lián)網(wǎng)搜索引擎服務系統(tǒng)。根據(jù)對系統(tǒng)的分析和設計,下圖是“妙搜”移動搜索引擎項目的總體用例
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1