freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)論文20xx(完整格式)(編輯修改稿)

2024-11-15 05:20 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 樹(shù)、哈希表等。這個(gè)階段還需要對(duì)預(yù)處理之后的文檔進(jìn)行詞法分析,這是因?yàn)楹芏嗾Z(yǔ)言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的詞與詞之間不存在分隔符,因此必須先進(jìn)行分詞,而英文中的詞存在很多變形,比如“pute”就存在“putes”、“puting”、“puted”等多種變形,應(yīng)先進(jìn)行詞根還原。此外,有些詞雖然出現(xiàn)頻率很高,但對(duì)于查詢沒(méi)有任何幫助,比如“的”、“了”等,就無(wú)需放入索引,為此需要預(yù)備一個(gè)停用詞表(stop word list)對(duì)這類詞進(jìn)行過(guò)濾。用戶輸入的查詢條件可以有多種形式,包括關(guān)鍵詞、布爾表達(dá)式、自然語(yǔ)言形式的描述語(yǔ)句甚至是文本,但如果把這些輸入僅當(dāng)作關(guān)鍵詞去檢索,顯然不能準(zhǔn)確把握用戶的真實(shí)信息需求。很多系統(tǒng)采用查詢擴(kuò)展來(lái)克服這一問(wèn)題。各種語(yǔ)言中都會(huì)存在很多同義詞,比如查“計(jì)算機(jī)”的時(shí)候,包含“電腦”的結(jié)果也應(yīng)一并返回,這種情況通常會(huì)采用查詞典的方法解決。但完全基于詞典所能提供的信息有限,而且很多時(shí)候并不適宜簡(jiǎn)單地以同義詞替換方法進(jìn)行擴(kuò)展,因此很多研究者還采用相關(guān)反饋、關(guān)聯(lián)矩陣等方法對(duì)查詢條件進(jìn)行深入挖掘。最簡(jiǎn)單的檢索系統(tǒng)只需要按照查詢?cè)~之間的邏輯關(guān)系返回相應(yīng)的文檔就可以了,但這種做法顯然不能表達(dá)結(jié)果與查詢之間的深層關(guān)系。為了把最符合用戶需求的結(jié)果顯示在前面,還需要利用各種信息對(duì)結(jié)果進(jìn)行重排序。目前有兩大主流技術(shù)用于分析結(jié)果和查詢的相關(guān)性:鏈接分析和基于內(nèi)容的計(jì)算。許多研究者 發(fā)現(xiàn),WWW 上超鏈結(jié)構(gòu)是個(gè)非常豐富和重要的資源,如果能夠充分利用的話,可以極大地提高檢索結(jié)果的質(zhì)量?;谶@種鏈接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法, 提出了HITS 算法,其它一些學(xué)者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經(jīng)在實(shí)際的系統(tǒng)中實(shí)現(xiàn)和使用,并且取得了良好的效果。而基于內(nèi)容的計(jì)算則沿用傳統(tǒng)的文本分類方法,多采用向量空間模型、概率模型等方法來(lái)逐一計(jì)算用戶查詢和結(jié)果的相似度(相關(guān)性)。兩者各有優(yōu)缺點(diǎn),而且恰好互補(bǔ)。鏈接分析充分利用了Web 上豐富的鏈接結(jié)構(gòu)信息,但它很少考慮網(wǎng)頁(yè)本身的內(nèi)容,而直觀上看,基于內(nèi)容的計(jì)算則較為深入地揭示了查詢和結(jié)果之間的語(yǔ)義關(guān)系,但忽略了不同網(wǎng)頁(yè)之間的指向關(guān)系,因此現(xiàn)在很多系統(tǒng)嘗試把兩者結(jié)合起來(lái),以達(dá)到更好的性能。信息檢索技術(shù)的模型信息檢索模型可形式化地表示成為一個(gè)四元組 D, Q, F, R(qi,dj),D是一個(gè)文檔集合,Q是一個(gè)查詢集合,F(xiàn)是一個(gè)對(duì)文檔和查詢建模的框架,R(qi,dj)是一個(gè)排序函數(shù),它給查詢qi和文檔 dj 之間的相關(guān)度賦予一個(gè)排序值。、布爾模型所謂布爾檢索, 就是采用布爾代數(shù)的方法, 用布爾表達(dá)式表示用戶提問(wèn), 通過(guò)對(duì)文本標(biāo)識(shí)與用戶給出的檢索式進(jìn)行邏輯比較來(lái)檢索文本。設(shè)文本集D 中某一文本i, 該文本可表示為:Di =(t1 , t2, ?, tm),其中, t1 , t 2, ?, t m 為標(biāo)引詞, 用以反映i 的內(nèi)容。另設(shè)用戶某一檢索式如下:Qj =(t1 ∧ t 2)∨(t3 ∧(t4)).對(duì)于該檢索式, 系統(tǒng)響應(yīng)并輸出的一組文本應(yīng)為: 它們都含有標(biāo)引詞t1 和t2 , 或者含有標(biāo)引詞t 3, 但不含有標(biāo)引詞t 4。布爾檢索具有簡(jiǎn)單、易理解、易實(shí)現(xiàn)等優(yōu)點(diǎn), 故得到廣泛的應(yīng)用。1967年后, 布爾檢索模型正式被大型文獻(xiàn)檢索系統(tǒng)采用, 并漸成為各種商業(yè)性聯(lián)機(jī)檢索系統(tǒng)的標(biāo)準(zhǔn)檢索模式, 服務(wù)信息情報(bào)界30多年, 直到現(xiàn)在, 大多數(shù)商用檢索系統(tǒng)仍采用布爾檢索。盡管布爾檢索有著種種的優(yōu)點(diǎn), 但是它的缺點(diǎn)仍然是明顯的, 它存在的主要缺陷有以下幾點(diǎn)。(1)布爾邏輯式的構(gòu)造不易全面反映用戶的需求。用標(biāo)引詞的簡(jiǎn)單組配不能完全反映用戶的實(shí)際需要, 用戶需要那一方面內(nèi)容的文本, 需要到多大程度, 這是檢索式無(wú)法表達(dá)清楚的, 如對(duì)上述檢索式, t1 和t2 , 究竟用戶希望能得到更多地反映t1 內(nèi)容的文本還是反映t2 內(nèi)容的文本, 傳統(tǒng)的布爾檢索無(wú)法 5 解決此問(wèn)題。(2)匹配標(biāo)準(zhǔn)存在某些不合理的地方。例如, 在響應(yīng)某個(gè)用“∧”連接的檢索時(shí), 系統(tǒng)把只含有其中一個(gè)或數(shù)個(gè)但非全部檢索詞的文本看作與那些根本不含有其中一個(gè)檢索詞的文本一樣差, 同樣加以排除。另一方面, 用響應(yīng)某個(gè)用“∨”連接的檢索式時(shí), 系統(tǒng)都不能把含有所有這些檢索詞的文本看作比那些只含有其中一個(gè)檢索詞的文本更好一些。(3)檢索結(jié)果不能按照用戶定義的重要性排序輸出。系統(tǒng)檢索輸出的文本中, 排在第一位的文本不一定是文本集中最適合用戶需要的文本, 用戶只能從頭到尾瀏覽才能知道輸出文本中那些更適合自己的需要。針對(duì)于標(biāo)準(zhǔn)的布爾模型中文獻(xiàn)表達(dá)形式過(guò)于簡(jiǎn)單、檢索條件過(guò)于嚴(yán)格而出現(xiàn)的問(wèn)題,人們對(duì)其采取了擴(kuò)充和修改,提出了擴(kuò)展的布爾模型。如Salton 于1983年提出的一種所謂的擴(kuò)展布爾檢索模型, 它是將向量檢索模型與布爾檢索模型融為一體, 并克服了傳統(tǒng)希爾模型的一些缺陷, 下面我們用矢量的方法來(lái)討論布爾檢索。設(shè)文本集中每篇文本僅由兩個(gè)標(biāo)引詞t1 和t2 標(biāo)引, 并且tt2允許賦以權(quán)值, 其權(quán)值范圍為[ 0, 1] , 權(quán)值越接近1, 說(shuō)明該詞越能反映文本的內(nèi)容, 反之, 越不能反映文本的內(nèi)容, 在Salton 模型中, 上述情形用平面坐標(biāo)系上某點(diǎn)代表某一文本和用戶給出的檢索式, 如圖:圖中的橫、縱坐標(biāo)用tt2 表示, 其中A(0, 1)表示詞t1 權(quán)值為0, 詞t 2 權(quán)值為1 的文本, B(1, 0)表示詞t 1權(quán)值為1, 詞t 2 權(quán)值為0 的文本, C(1, 1)表示詞tt 2 的權(quán)值均為1 的文本, 文本集D 中凡是可以用tt 2 標(biāo)引的文本可以用四邊形OACB 中某一點(diǎn)表示, 同樣, 用戶給出檢索式后, 也可用四邊形OACB 中某一點(diǎn)表示。下面我們來(lái)看看Salton 模型中是如何構(gòu)造相似度計(jì)算式的。對(duì)于由t1 和t2 構(gòu)成的檢索式q = t1 ∨ t2 , 在圖1中只有A、B、C 3點(diǎn)所代表的各文本才是最理想的文本, 對(duì)于某一文本D 來(lái)說(shuō), 當(dāng)D 點(diǎn)離A、B、C 3點(diǎn)越接近時(shí)說(shuō)明相似度越大,或者說(shuō),當(dāng)D點(diǎn)離O點(diǎn)越遠(yuǎn)時(shí),相似度越大。因而D與O的距離DO =(d10)+(d20)22 =d1+d222 可以作為我們衡量一文本與查詢q 的相關(guān)程度的一個(gè)尺度, 顯然0 ≤ 2 , 為了使相似度控制在0 與1 之間, 將相似度定義為:d1+d222DO ≤sim(D, Q(t1 ∨ t2))= 與C 的距離DO(1)對(duì)于由t1 和t 2 構(gòu)成的查詢q = t1 ∧ t 2, 只有C 點(diǎn)才是最理想的文本, 用D =(1d1)+(1d2)22作為我們衡量一文本與查詢q 的相關(guān)程度的一個(gè)尺度, 于是, 把相似度定義為:(1d1)+(1d2)22sim(D, Q(t1 ∧ t2))= 1(2)(1)、(2)式還可推廣到對(duì)檢索標(biāo)引詞進(jìn)行加權(quán)的情形, 設(shè)檢索標(biāo)引詞tt2 的權(quán)值分別為a, b,0 ≤ a, b ≤ 1, 則(1)式、(2)式可進(jìn)一步推廣為:a(1d1)+b(1d2)2222sim(d, Q(t1 , a)∨(t2, b))= 1235。在文本信息檢索中, 布爾檢索不僅具有簡(jiǎn)單、易理解等特點(diǎn), 而且易于在計(jì)算機(jī)中加以實(shí)現(xiàn), 是一種最為常用的檢索方法。擴(kuò)展的布爾模索模型——Salton 模型克服了傳統(tǒng)布爾模型的一些缺陷, 更符合了用戶的需要。、向量空間模型 向量空間模型是由Salton及其學(xué)生們?cè)诹甏┑狡呤甏跆岢霾l(fā)展起來(lái)的。這一模型將給定的文本(文章、查詢或文章中的一段等)轉(zhuǎn)換成一個(gè)維數(shù)很高,由一系列關(guān)鍵詞組成的向量。模型并沒(méi)有規(guī)定關(guān)鍵詞如何定義,但是一般來(lái)說(shuō),關(guān)鍵詞可以是字,詞或者短語(yǔ)。假設(shè)我們用“詞”作為Term,那么在詞典中的每一個(gè)詞,都定義向量空間中的一維。如果一篇文檔包含這個(gè)詞,那么表示這個(gè)文檔的向量在這個(gè)詞所定義的維度上應(yīng)該擁有一個(gè)非0值。這個(gè)模型最大特點(diǎn)是可以方便地計(jì)算出任意兩個(gè)向量的近似程度,即向量所對(duì)應(yīng)的文本間的相似性。用信息檢索的術(shù)語(yǔ)來(lái)說(shuō),如果兩個(gè)向量是相近的,則其對(duì)應(yīng)的文本是語(yǔ)義相關(guān)的。將所有文獻(xiàn)和查詢以向量形式表示,則針對(duì)特定的查詢向量,比較它與所有文獻(xiàn)向量的相似度,并依相似度將文獻(xiàn)降序排列,這便是現(xiàn)代信息檢索系統(tǒng)中常用的方法。Salton及其學(xué)生們還根據(jù)向量空間模型實(shí)現(xiàn)了Smart系統(tǒng)。該系統(tǒng)在過(guò)去的30多年中,對(duì)信息檢索的研究有非常重要的影響。信息檢索的許多理論和技術(shù)(如自動(dòng)索引、加權(quán)技術(shù)、相關(guān)反饋、文獻(xiàn)聚類等)都是在Smart上首先實(shí)現(xiàn)或測(cè)試的。假設(shè)表示文檔向量,而表示查詢向量,文檔與查詢的相關(guān)性可以用余弦距離表示如下:如果我們用進(jìn)行歸一化,即令和表示和中的第i維的值,并且對(duì)每個(gè)文檔矢量,那么上式有可以表示為在此,究竟如何取值是一個(gè)重要的問(wèn)題,其取值一般被稱為關(guān)鍵詞i在文檔D中的權(quán)重。目前,對(duì)關(guān)鍵詞權(quán)重的確定方法一般都需要獲取一些關(guān)于關(guān)鍵詞的統(tǒng)計(jì)量,而后根據(jù)這些統(tǒng)計(jì)量,應(yīng)用某種認(rèn)為規(guī)定的計(jì)算公式來(lái)得到權(quán)重。最常用的統(tǒng)計(jì)量包括: tf,Term Frequency的縮寫(xiě),表示某個(gè)關(guān)鍵詞在某個(gè)文檔中出現(xiàn)的頻率。qtf,Query Term Frequency的縮寫(xiě)。表示查詢中某關(guān)鍵詞的出現(xiàn)頻率。N,集合中的文檔總數(shù) df,Document Frequency的縮寫(xiě),表示文檔集合中,出現(xiàn)某個(gè)關(guān)鍵詞的文檔個(gè)數(shù)。 idf,Inversed Document Frequency的縮寫(xiě)。dl,文檔長(zhǎng)度 adl,平均文檔長(zhǎng)度權(quán)重的計(jì)算:在向量空間模型下,構(gòu)造關(guān)鍵詞權(quán)重計(jì)算公式有三個(gè)基本原則:,那么這個(gè)詞應(yīng)該被認(rèn)為越重要。,那么這個(gè)詞區(qū)分文檔的作用就越低,于是其重要性也應(yīng)當(dāng)相應(yīng)降低。,那么其出現(xiàn)某個(gè)關(guān)鍵詞的次數(shù)可能越高,而每個(gè)關(guān)鍵詞對(duì)這個(gè)文檔的區(qū)分作用也越低,相應(yīng)的應(yīng)該對(duì)這些關(guān)鍵詞予以一定的折扣。早期的權(quán)重往往直接采用tf,但是顯然這種權(quán)重并沒(méi)有考慮上述第二條原則,因此在大規(guī)模系統(tǒng)中是不適用的。目前,常用的關(guān)鍵詞權(quán)重計(jì)算公式大多基于tf和df進(jìn)行構(gòu)建,同時(shí),一些較為復(fù)雜的計(jì)算公式也考慮了文檔長(zhǎng)度?,F(xiàn)簡(jiǎn)要列舉如下:TFIDF得分。嚴(yán)格地說(shuō),TF/IDF得分并不特指某個(gè)計(jì)算公式,而是一個(gè)計(jì)算公式集合。其中TF與IDF都可以進(jìn)行各種變換,究竟何種變換較能符合實(shí)際需求,需要由實(shí)驗(yàn)和應(yīng)用來(lái)驗(yàn)證。常見(jiàn)的變換方法有:其中,最后一個(gè)公式,即:被大量系統(tǒng)證明是最有效的。此外,較為常用的關(guān)鍵詞權(quán)重算法還包括Okapi權(quán)重和Pivoted Normalization 權(quán)重(PNW)。這些公式綜合考慮了查詢和文檔中的詞頻,以及文檔的長(zhǎng)度。Okapi權(quán)重需要預(yù)設(shè)三個(gè)參數(shù): k1, b, k3,在01000之間 而PNW則需要預(yù)設(shè)一個(gè)參數(shù)s。在經(jīng)典模型中,假設(shè)索引項(xiàng)是獨(dú)立的,或者說(shuō)是正交的。這個(gè)假設(shè)極大地簡(jiǎn)化了索引項(xiàng)權(quán)值的計(jì)算過(guò)程,盡管這一假設(shè)有時(shí)不符合自然語(yǔ)言的實(shí)際情況,但是在這個(gè)假設(shè)下,計(jì)算權(quán)值的過(guò)程簡(jiǎn)單快捷,因而在目前很多實(shí)用的信息檢索模型中仍被廣泛采用。向量空間模型中索引項(xiàng)權(quán)重的算法提高了檢索的性能,改進(jìn)了檢索效果,同時(shí)采用了部分匹配的策略和一定的相似度計(jì)算方法,使得模型可以根據(jù)結(jié)果文檔與檢索項(xiàng)的相似度進(jìn)行排序,檢索出與用戶查詢要求接近的文檔,從而有效地控制返回文檔的數(shù)量和質(zhì)量,檢索的結(jié)果文檔集更接近用戶的檢索需求。但是事實(shí)上,在自然語(yǔ)言中,有些索引項(xiàng)是相互關(guān)聯(lián)的,比如當(dāng)在一個(gè)文檔中看到“計(jì)算機(jī)”時(shí),就非常有可能同時(shí)看到“科學(xué)”;而當(dāng)在一個(gè)文檔中看到“土豆”時(shí),看到“計(jì)算機(jī)”的可能性就很小。再比如:“王勵(lì)勤”“乒乓球”的出現(xiàn)不是獨(dú)立的。同時(shí),該模型丟失了句法信息(如短語(yǔ)結(jié)構(gòu)、詞的順序等),而權(quán)重的計(jì)算需要利用整個(gè)文檔集合的信息。、概率模型由于信息檢索中文本信息的相關(guān)判斷的不確定性和查詢信息表示的模糊性,導(dǎo)致了人們用概率的方法解決這方面的問(wèn)題。Maron和Kuhns在1960年提出了第一概率檢索模型;1976年Robertson和Sparck Jones等在此基礎(chǔ)上進(jìn)行改進(jìn)提出了第二概率檢索模型;之后,Turtle、Fuhr和Roberston又提出了統(tǒng)一化模型,即第三概率檢索模型,提高了文檔的排序精度。信息檢索的概率模型基于概率排序原則:對(duì)于給定的用戶查詢Q,對(duì)所有文本計(jì)算概率,并從大到小進(jìn)行排序,概率公式為:P(R|D,Q)。其中,R表示文本D與用戶查詢Q相關(guān)。另外,用R’表示文本D與用戶查詢Q不相關(guān),有:P(R|D,Q)+ P(R’|D,Q)= 1,也就是用二值形式判斷相關(guān)性。把文本用特征向量表示:x =(x1,x2,xn)。其中,N為特征項(xiàng)的個(gè)數(shù),xi為0或者1,分別表示特征相i在文本中出現(xiàn)或不出現(xiàn)。在信息檢索中,估計(jì)參數(shù)是困難的,一般地并不直接地計(jì)算P,而是把計(jì)算P(R|di,qk)換為計(jì)算P(R|x,qk),這樣處理略去了公式中與文本無(wú)關(guān)的特征項(xiàng),計(jì)算的結(jié)果可能與實(shí)際不符。為了容易計(jì)算,現(xiàn)在假設(shè)包括相同特征項(xiàng)的文本,經(jīng)過(guò)計(jì)算后,它們的可能性是相同的。將所有文本按相關(guān)概率P進(jìn)行排序,等價(jià)于所有文本按特征向量排序。一個(gè)文本D的概率相關(guān)性的計(jì)算為:第四篇:畢業(yè)設(shè)計(jì)論文畢業(yè)設(shè)計(jì)(論文)軟弱土地基處理對(duì)策研究劉建軍(建筑工程技術(shù) 專業(yè) 0730610256 湖北 黃石 435003)摘要:為充分利用土地資源,有必要對(duì)軟弱土地基進(jìn)行處理。本文探討了軟弱土地基的特性,結(jié)合具體的工程實(shí)例比較分析了常用處理方法的特點(diǎn)及在工程中的應(yīng)用。關(guān)鍵詞:軟弱土地基;不均勻沉降;處理方法;應(yīng)用我國(guó)幅員遼闊,海岸線長(zhǎng),河流湖泊遍布,軟弱土地基分布廣泛。加之我國(guó)建筑業(yè)迅猛發(fā)展,原先的優(yōu)良地基由于建筑層數(shù)的增高,荷載的增大,也變?yōu)檐浫醯鼗?。因此,?duì)軟弱地基處理的研究非常必要。本文將在前人的基礎(chǔ)之上進(jìn)一步探討軟弱地基的特點(diǎn),并結(jié)合工程實(shí)例總結(jié)地基處理的方法以及在工程中的應(yīng)用。軟弱地基的特點(diǎn)軟弱地基主要由淤泥、淤泥質(zhì)土、沖填土、雜填土或其他高壓縮性土構(gòu)成。其主要缺陷是承載力不足、地基變形過(guò)大?;A(chǔ)底面以下,當(dāng)土層的地基承載
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1