freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

最新移動環(huán)境下的搜索引擎軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-文庫吧資料

2025-07-06 04:44本頁面
  

【正文】 互聯(lián)網(wǎng)時(shí)代信息技術(shù)和計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,呈現(xiàn)出與以往互聯(lián)網(wǎng)發(fā)展完全不同的新特點(diǎn),在這樣的基礎(chǔ)上,我們認(rèn)識到,作為傳統(tǒng)互聯(lián)網(wǎng)服務(wù)領(lǐng)域使用最多的搜索引擎服務(wù),目前在國內(nèi)市場上,針對漢語特點(diǎn)和移動環(huán)境下互聯(lián)網(wǎng)發(fā)展規(guī)律的搜索引擎還鳳毛麟角,現(xiàn)有的搜索引擎技術(shù)大多是對PC端的互聯(lián)網(wǎng)搜索引擎技術(shù)進(jìn)行照搬照抄,完全沒有根據(jù)移動環(huán)境下的互聯(lián)網(wǎng)用戶的特點(diǎn)和需求進(jìn)行差異化發(fā)展,據(jù)此,筆者在結(jié)合自身工作、學(xué)習(xí)的基礎(chǔ)上,機(jī)會設(shè)計(jì)在移動環(huán)境下的互聯(lián)網(wǎng)搜索引擎服務(wù)系統(tǒng):“妙搜”移動搜索引擎。第4章 妙搜移動搜索引擎系統(tǒng)的需求分析 前文我們用了一定的篇幅對當(dāng)前實(shí)際應(yīng)用中,移動環(huán)境下搜索引擎技術(shù)的發(fā)展及其相關(guān)基礎(chǔ)技術(shù)和理論進(jìn)行了介紹,特別是結(jié)合移動互聯(lián)網(wǎng)中搜索引擎技術(shù)的關(guān)鍵性、核心技術(shù)進(jìn)行了闡述,將包括索引、中文分詞、查詢倒排技術(shù)以及文本聚類等技術(shù)理論進(jìn)行了分別的敘述,本章重點(diǎn)在前面的基礎(chǔ)上,介紹本文中的重點(diǎn)內(nèi)容:“妙搜”移動搜索引擎項(xiàng)目的系統(tǒng)設(shè)計(jì)背景、系統(tǒng)所要實(shí)現(xiàn)的目標(biāo)以及系統(tǒng)的具體結(jié)構(gòu)和性能等方面,展開進(jìn)行深入的分析??傮w而言,LINGO聚類算法還是優(yōu)點(diǎn)多于缺點(diǎn)的,具體在系統(tǒng)的應(yīng)用中,還需要我們根據(jù)不同的情況,結(jié)合實(shí)際中遇到的問題,對出現(xiàn)的新情況、新問題進(jìn)行重點(diǎn)解決和集中克服,力爭揚(yáng)長避短,用好LINGO聚類算法服務(wù)我們的“妙搜”系統(tǒng)。同時(shí),我們也應(yīng)該看到,在發(fā)展的過程中,由于系統(tǒng)環(huán)境和實(shí)際應(yīng)用環(huán)境的變遷,LINGO聚類算法的發(fā)展也在繼續(xù),在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)快速發(fā)展的今天,作為一種優(yōu)秀的算法,LINGO聚類算法也需要不斷的與時(shí)俱進(jìn),通過不斷的自我完善和修補(bǔ)獲得更好的用戶體驗(yàn),具體而言,目前LINGO聚類算法的發(fā)展中主要存在的最主要的的缺點(diǎn)和不足就是,在LINGO聚類算法中,詞權(quán)重公式采用了傳統(tǒng)的TFIDF,這種情況不能充分的考慮并照顧到不同的詞性因素與位置因素,也正因?yàn)槿绱?,LINGO聚類算法中LINGO形成的聚類缺乏層次關(guān)系。通過類標(biāo)題的使用,能夠大大提高算法的準(zhǔn)確度和處理速度,對快速得到結(jié)果,并準(zhǔn)確的優(yōu)選出最佳結(jié)果具有重要的意義。/^^076乂||6|是分配到類別C的文檔數(shù)。A在上面的公式中,A是輸入文檔的詞文檔矩陣,結(jié)果矩陣中的元素Cij表示第j個(gè)文檔屬于第i個(gè)類別的程度,定義一個(gè)文檔分配域值A(chǔ)SSIGNMENT—THRESHOLD,當(dāng)CijASSIGNMENT—THRESHOLD時(shí)將第j個(gè)文檔分配到第i個(gè)類,最后將沒有被分配的文檔分配到Other類,默認(rèn)情況ASSIGNMENT—THRESH0LD=0. 225。構(gòu)造一個(gè)詞一文檔矩陣Z,其中類的候選標(biāo)簽表示一個(gè)文檔,執(zhí)行ZZ得到類標(biāo)簽之間的相似關(guān)系,選擇結(jié)果矩陣每行中超過標(biāo)簽相似度閾值(Label Similarity Threshold)并且最大者為. 該類的類標(biāo)簽。由于抽象概念和關(guān)鍵詞組都可以在同一個(gè)向量空間中描述,因此LINGO使用cosine距離公式來度量抽象概念和關(guān)鍵詞或關(guān)鍵詞組之間的相似度。最常用的獲得A的最佳近似矩陣Ak的方法如下式所示:Ml,名 II,乏?其中||y4||,..,是矩陣A的Frobenius范數(shù),q是一個(gè)控制參數(shù),明顯地g值越大獲得的k值也就越大,最終聚類獲得的類別數(shù)也就越多,默認(rèn)情況下LINGO取q=0. 775。其中,抽象概念發(fā)現(xiàn)階段主要是通過奇異值分解獲得文檔集合的潛在語義關(guān)系,LINGO認(rèn)為詞文檔矩陣A經(jīng)奇異值分解后產(chǎn)生三個(gè)矩陣U、S和V即:j = USV.39。LINGO算法在關(guān)鍵詞組的提取方面采用的技術(shù)被稱為后綴數(shù)組技術(shù)。我們所采用的LINGO算法在此步驟中采用的方法被稱為奇異值分解法(SVD: Singular Value Deposition)。T?W, }特征項(xiàng)Ti的權(quán)重Wij的計(jì)算才用TFIDF方法的標(biāo)準(zhǔn)定義:= TF,j X IDIf = X logAVDI^在以上的公式中,文檔集C的所有文檔的總和為N,TFi」為特征項(xiàng)T,在文檔Dj中出現(xiàn)的次數(shù),DFi為文檔集C中包含Ti的文檔數(shù)目。文檔Dj的特征向量就可以用文檔中的特征項(xiàng)Ti及其權(quán)重Wij來表示:V(Dj={T,W。一般常見的理論認(rèn)為,文本的特征表示的模型有很多,常見的諸如概率檢索模型、布爾模型、概率檢索模型、向量空間模型等都是比較常見的模型,其中最流行的模型當(dāng)屬向量空間模型。進(jìn)而在得到潛在語義空間之后,就可以根據(jù)各個(gè)詞和文檔的向量坐標(biāo)進(jìn)一步進(jìn)行分析。在這種情況下,語義空間表現(xiàn)出了詞詞、詞文檔、文檔文檔之間在語義上相關(guān)性。 如果把用來檢索的文檔之間的內(nèi)容看做是詞空間下面的一個(gè)子空間,那么任意兩個(gè)不同的文檔之間的子空間距離越小,則這兩個(gè)文檔之間的語義上就越相關(guān),因此,詞往往被視作是一個(gè)文檔空間內(nèi)下屬的一個(gè)子空間,通過對兩個(gè)詞語之間的子空間距離進(jìn)行的判斷,可以對兩個(gè)詞語之間的相關(guān)程度進(jìn)行大致的判斷和分類。根據(jù)隱含語義分析(Latent Semantic Indexing, LSI)的觀點(diǎn),詞語的選擇背后是隱含著一種來自語言含義方面的信息流,這種信息流是搜索的精髓,如何利用隱含語義分析的方法,從詞中提取的抽象概念替換或者取代與搜索關(guān)鍵詞意思相同的內(nèi)容。所以我們認(rèn)為這兩個(gè)詞存在著一定的語義關(guān)系,這類文檔也可能包含了用戶所需信息。事實(shí)上,在搜索引擎的實(shí)際應(yīng)用中,對詞組或者是關(guān)聯(lián)詞的使用,是搜索引擎技術(shù)發(fā)展的一個(gè)必由之路,因?yàn)樵跐h語中,有很多類似的隱含語義分析的詞組短語,而它們在外表上看是格格不入的。 LINGO算法基礎(chǔ)之隱含語義分析隱含語義其實(shí)是漢語語法中的一個(gè)重要的特色,在其他語言中也有所體現(xiàn),簡言之,隱含語義分析就是針對日常用語中的同義詞或者近義詞進(jìn)行有效的歸類和合理的分析,同時(shí)對具有相同意思表達(dá)的詞組短語進(jìn)行有效的應(yīng)用,例如,在漢語中,“教師”和“先生”是完全不一樣的兩個(gè)詞,但是在詞語的詞義和實(shí)際的應(yīng)用中可以做到語義互換,能夠表達(dá)出同樣的含義。例如,設(shè)文檔T : to_be_or_not_to_be?它的后綴集合為rs,則有下表所示:表1 表3. 2后綴數(shù)組表表3. 2從上述表格可以看出,實(shí)際需要存儲的僅僅是表格的中間一列,很明顯后綴數(shù)組的存儲只需要0(aO的空間,其中N為文檔的長度。在LINGO算法中,后綴數(shù)組(Suffix Array)是一個(gè)重要的數(shù)據(jù)的結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)就是效率特別的高,高效率來自于它能夠準(zhǔn)確的對文檔或者文本中的信息進(jìn)行充分的解讀,并從中找出關(guān)鍵性的短語。右完整:子字符串“to_be”也是右完整的,比較T中第(0+5)個(gè)字符(“一”)和第(13+5)個(gè)字符(T的結(jié)尾處),兩者不相同,根據(jù)以上概念定義,“to—be”也‘ 是右完整的。我們以文檔T= “to—be—or—not—to—be”和T的子字符串“to_be”為例,說明一下以上的概念。提出了短語完整性的概念。 LINGO算法基礎(chǔ)之后綴數(shù)組短語是具有詞語順序的多個(gè)詞或者字所組成的初級漢語單位,LINGO算法的特點(diǎn)在于在對短語中的關(guān)鍵詞或者關(guān)鍵字的尋找和提取中,能夠?qū)㈥P(guān)鍵性的短語(key phrase),準(zhǔn)確的找尋到,這樣既能夠準(zhǔn)確的解讀文檔中的關(guān)鍵信息,同時(shí)能夠大大提高聚類的可讀性。區(qū)別于其他普通的算法,LINGO算法不是對數(shù)據(jù)先進(jìn)行聚類然后對標(biāo)簽進(jìn)行提取,LINGO算法的方案似乎有些與眾不同,它首先將方便理解的類標(biāo)簽進(jìn)行提取,之后再對文檔進(jìn)行分配,利用后綴樹組SuffixArray來對關(guān)鍵詞進(jìn)行提取,并在構(gòu)造詞文檔矩陣中利用奇異值的分解方法來發(fā)現(xiàn)搜索的結(jié)果中可能存在的抽象概念,而這些抽象的概念往往是存在于不同的標(biāo)題之下的。通過首先的文本進(jìn)行處理,從中提取關(guān)鍵詞,然后對文本的特征、類標(biāo)簽進(jìn)行提取,發(fā)現(xiàn)不同的類別,整理歸類其內(nèi)容,從而使得文本可以通過結(jié)構(gòu)化的形式進(jìn)行描述,然后再根據(jù)不同的應(yīng)用需要和客戶的需求,選擇不同的聚類算法,最后將全部的聚類效果進(jìn)行評估,以期能夠改進(jìn)聚類的過程。其理論基礎(chǔ)也是聚類的思想假設(shè),即相同種類的文檔之間的相似程度較高,不同種類的文檔之間的相似程度較低,通過這種理論,作為無監(jiān)督學(xué)習(xí)方法的一種,聚類的思想在搜索引擎的應(yīng)用中,使得系統(tǒng)不需要事先對文檔的類別進(jìn)行人為的標(biāo)注,自動的就能夠有效的處理信息并進(jìn)行聚類分析。這種方法遠(yuǎn)勝于分類的那種由人為預(yù)先設(shè)定的方法,分類也被成為是一種監(jiān)督學(xué)習(xí)的方法。正因?yàn)槿绱?,聚類?jīng)常被用于進(jìn)行數(shù)據(jù)挖掘,對數(shù)據(jù)進(jìn)行多元統(tǒng)計(jì)和分析,成為一種重要的非監(jiān)督模式的識別方法。 聚類的概念嚴(yán)格來說,聚類是一種方法,這種方法把一組信息體按照各自不同的特點(diǎn)或者相似程度分為幾種不同的類別,在專業(yè)領(lǐng)域也被稱作是組或者是簇。第3章 LINGO聚類算法分析文檔的聚類(Clustering)是一種重要的聚類,它的理論基礎(chǔ)是一個(gè)有名的假設(shè),即相同種類的文檔之間的相似程度是很高的,不同種類的文檔之間的相似程度很低,在聚類的分類中,不需要專門的訓(xùn)練過程,能夠自動的對文檔進(jìn)行手工標(biāo)記類別,這樣一來,文檔的聚類就具有比較高的自主性和自動處理的功能,也就能夠大大提高對關(guān)鍵字文本的處理能力,提供處理效率。 緊接著,在全部的抓取工作和索引工作完成之后,及時(shí)更新全部的索引文件和整個(gè)數(shù)據(jù)庫,將用戶所查詢的網(wǎng)頁信息,以最快最全的方式,通過查詢器對信息進(jìn)行處理,并將處理的結(jié)果和全部的網(wǎng)頁鏈接、簡要內(nèi)容,以該信息在整個(gè)結(jié)果中的相關(guān)度或權(quán)重為依據(jù)進(jìn)行排序,將排序的結(jié)果以搜索結(jié)果的形式呈現(xiàn)在用戶的面前。一般來說,在移動環(huán)境下的互聯(lián)網(wǎng)搜索引擎的主要工作流程是:利用搜索關(guān)鍵詞,將內(nèi)容進(jìn)行抓取,每個(gè)一段時(shí)間,將讀取URL列表(該列表來自網(wǎng)頁服務(wù)的URL服務(wù)器上)同時(shí),再根據(jù)深度優(yōu)先或廣度優(yōu)先的算法,將前述所抓取的URL列表統(tǒng)一的分配到文檔中,將該文檔命名為唯一的ID類型,并將該文檔進(jìn)行一定程度的壓縮之后,將其與所在網(wǎng)頁上的所有鏈接存入到系統(tǒng)的數(shù)據(jù)庫中。利用搜索的查詢樹索引,將每個(gè)詞的文檔鏈表進(jìn)行交叉,從而得到搜索的結(jié)果文檔。通過對搜索關(guān)鍵詞的語法分析進(jìn)行查詢得到的查詢樹。關(guān)于用戶搜索接口,需要特別說明以下的幾個(gè)方面:用戶搜索的需要輸入的語句。所謂用戶搜索接口,是特指為用戶提供的相關(guān)界面,用于在用戶在搜索引擎輸入界面輸入關(guān)鍵字進(jìn)行搜索之后,由搜索引擎系統(tǒng)將用戶的搜索結(jié)果以鏈接和頁面顯示內(nèi)容摘要的方式,組織起來,為用戶提供搜索服務(wù)。同時(shí),還能夠根據(jù)相關(guān)網(wǎng)頁信息內(nèi)容與所要檢索的關(guān)鍵詞的關(guān)聯(lián)程度,自動將相關(guān)度較高的網(wǎng)頁信息或者內(nèi)容排列在搜索結(jié)果展示網(wǎng)頁的前列。索引的內(nèi)容能夠儲存并讀寫進(jìn)入硬盤。通過索引能夠運(yùn)用語法分析或者是語言處理的方法,使索引內(nèi)容形成Term(系列詞)。索引的本質(zhì)是利用一定的相關(guān)度算法對搜索引擎技術(shù)的應(yīng)用中進(jìn)行的大量計(jì)算進(jìn)行處理,同時(shí)根據(jù)每一個(gè)網(wǎng)頁的文字與所搜索的相關(guān)關(guān)鍵字的聯(lián)系程度建立相關(guān)的索引數(shù)據(jù)庫,同時(shí)根據(jù)結(jié)果進(jìn)行歸類。它是能夠基于中文搜索的請求,進(jìn)行正向匹配配合負(fù)向匹配的一種綜合算法,因而也具有中文分詞算法簡單易行,能夠有效的提高中文分詞的效率;第二種是基于統(tǒng)計(jì)的分詞方法,它能夠智能化的利用搜索過程中出現(xiàn)的文字頻率,自動進(jìn)行統(tǒng)計(jì)歸類,將新出現(xiàn)的詞語有效的進(jìn)行分類識別,因?yàn)橹悄苄愿撸且驗(yàn)樾枰獙?shù)據(jù)進(jìn)行統(tǒng)計(jì)和歸類,因而在處理速度上,略遜于基于字符串匹配的分詞方法;第三種是基于理解的分詞方法,這種分詞方法的智能化程度最高,也能夠適應(yīng)漢語的行文結(jié)構(gòu),它是利用計(jì)算機(jī),通過模擬智能行為,對句子進(jìn)行理解和分類,進(jìn)而將中文語言的組成信息和各種語法元素,通過機(jī)器識別、解讀的方法進(jìn)行讀取,因?yàn)檫@方面的技術(shù)還不夠成熟,因此這種分詞方法還處在研究階段,在實(shí)際中的應(yīng)用十分有限,但是體現(xiàn)了未來搜索引擎技術(shù)發(fā)展的智能化趨向,因此前景十分廣闊。中文分詞技術(shù)要解決的問題,是針對中文特有的語法習(xí)慣而設(shè)計(jì)的,比如說,中文相對于西方的文字來說,所有的詞組都是有字組成的,而在連續(xù)的由文字組成的意思表達(dá)串中,如何將其根據(jù)中文的語法分解成為一個(gè)個(gè)有獨(dú)立意思表示的文字單元,就成為中文檢索需要解決的重要問題之一。這其中涉及到的技術(shù)是對互聯(lián)網(wǎng)站點(diǎn)進(jìn)行深度優(yōu)先遍歷和廣度優(yōu)先遍歷兩種掃描模式,從一個(gè)網(wǎng)站的網(wǎng)頁上轉(zhuǎn)到另一個(gè)網(wǎng)站的網(wǎng)頁上,如此往復(fù),以保證所得到的信息是最大限度的為用戶所使用。它已經(jīng)成為搜索引擎技術(shù)發(fā)展的主要動力,通過商業(yè)化的發(fā)展,搜索引擎的完善和擴(kuò)展功能增添了無窮動力,為互聯(lián)網(wǎng)技術(shù)的發(fā)展提供了有力的支持?;ヂ?lián)網(wǎng)上進(jìn)行商業(yè)活動已經(jīng)不是新鮮事物了,但是互聯(lián)網(wǎng)技術(shù)中搜索引擎技術(shù)的商業(yè)化才剛剛起步,由于搜索引擎往往伴隨著大量的用戶瀏覽量,搜索引擎的商業(yè)價(jià)值一直以來被開發(fā)者所重視,從早期的提供互聯(lián)網(wǎng)廣告,到后期的提供推廣型搜索服務(wù),再到目前開始發(fā)展的互聯(lián)網(wǎng)電子商務(wù)、電子物流、電子服務(wù)等。搜索引擎技術(shù)的發(fā)展,與互聯(lián)網(wǎng)技術(shù)的發(fā)展是息息相關(guān)的,目前互聯(lián)網(wǎng)技術(shù)的發(fā)展,呈現(xiàn)出“科技改變生活”的理念,與現(xiàn)實(shí)生活中的各種活動結(jié)合的越來越緊密,因此搜索引擎技術(shù)的發(fā)展也離不開為用戶的現(xiàn)實(shí)生活服務(wù),這就是我們所說的功能化。面對海量的用戶需求和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,滿足不同的用戶的不同需求,而不是千篇一律的提供同樣的搜索結(jié)果,是互聯(lián)網(wǎng)用戶對互聯(lián)網(wǎng)技術(shù)發(fā)展的必然要求,也是搜索引擎技術(shù)發(fā)展的方向之一。通過媒體化,互聯(lián)網(wǎng)搜索引擎技術(shù)的用戶可以在結(jié)果中看到更多的視頻、音頻等多媒體信息,這也是互聯(lián)網(wǎng)技術(shù)突飛猛進(jìn)發(fā)展的必然結(jié)果,試想,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,用戶對媒體信息的檢索需求也越來越多,而為互聯(lián)網(wǎng)用戶服務(wù)的搜索引擎技術(shù)也是大勢所趨。此外,通過互聯(lián)網(wǎng)搜索引擎技術(shù)的智能化,能夠最大限度的實(shí)現(xiàn)搜索引擎系統(tǒng)與用戶之間的交流與互動,為用戶提供一個(gè)由系統(tǒng)智能處理后的最優(yōu)搜索結(jié)果。特別是隨著移動環(huán)境下互聯(lián)網(wǎng)技術(shù)的發(fā)展,智能化的方向也在指導(dǎo)著互聯(lián)網(wǎng)搜索引擎技術(shù)的發(fā)展。深化和開發(fā)互聯(lián)網(wǎng)搜索引擎技術(shù)的新市場成為今后發(fā)展的重要方向之一。面對著互聯(lián)網(wǎng)時(shí)代信息量劇增的現(xiàn)實(shí),今后互聯(lián)網(wǎng)搜索引擎技術(shù)還將在多個(gè)領(lǐng)域繼續(xù)快速發(fā)展。目前常見的搜索引擎根據(jù)其查找方式的不同,可以分為三大類:第一種稱為全文搜索引擎、第二種是目錄索引類搜索引擎,最后一種也被稱作元搜索引擎。它通過與用戶進(jìn)行網(wǎng)絡(luò)互動,將所要查找的信息通過關(guān)鍵字、詞組、短語的形式,進(jìn)入互聯(lián)網(wǎng)信息查找系統(tǒng),并對互聯(lián)網(wǎng)信息盡心掃描,以分類或者是
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1