freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)技術(shù)文檔(編輯修改稿)

2025-08-09 22:34 本頁面
 

【文章內(nèi)容簡介】 地進行采集,并將采集結(jié)果壓縮后,再回傳到本地。這樣做大量地節(jié)省了Web資源,大量的剪裁工作將在被采集對象的服務(wù)器上完成?! 〉诹N是基于元搜索的爬行器。它對用戶的提交的查詢請求通過多個領(lǐng)域或門戶搜索引擎搜索,并將結(jié)果整合后返回給用戶。一般元搜索引擎并不保存Web頁面的索引文件,但是有一些元搜索引擎會保存為它服務(wù)的每個搜索引擎的信息特征,以后根據(jù)用戶請求做出選擇。 Nutch使用累積式爬取與增量式爬取相結(jié)合的策略進行,既保證了數(shù)據(jù)的完整性又保證了時效性。網(wǎng)絡(luò)爬蟲爬行策略網(wǎng)頁的抓取策略可以分為廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。廣度優(yōu)先搜索 廣度優(yōu)先搜索策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。下面,我將以圖示的方式介紹廣度優(yōu)先遍歷的過程,如下圖所示。圖 () 選擇A作為初始 種子節(jié)點url,則廣度優(yōu)先搜索的過程,如表()所示。表 廣度優(yōu)先搜索過程操作隊列中的元素初始空A入隊列AA出隊列空BCDEF入隊列BCDEFB出隊列CDEFC出隊列DEFD出隊列EFE出隊列FH入隊列FHF出隊列FG入隊列HGH出隊列GI入隊列GIG出隊列I I 出隊列空在表所示的搜索過程中,出隊列的節(jié)點順序即是圖()的廣度優(yōu)先搜索過程。由此可見,圖()所示的廣度優(yōu)先搜索過程的順序為:ABCDEFHGI。深度優(yōu)先搜索 深度優(yōu)先搜索策略從起始網(wǎng)頁開始,選擇一個URL進入,分析這個網(wǎng)頁中的URL,選擇一個再進入。如此一個鏈接一個鏈接地抓取下去,直到處理完一條路線之后再處理下一條路線,但每深入一層,網(wǎng)頁價值和PageRank都會相應(yīng)地有所下降。 圖()所示的深度優(yōu)先廣度優(yōu)先搜索過程的順序為:ABCD EHIFG最佳優(yōu)先搜索 最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪問與主題相關(guān)的網(wǎng)頁 。信息檢索技術(shù)信息檢索(IR),通俗的講,就是要在一個很大的文本(有時可能是其他數(shù)據(jù),如圖像等)集合中,找到與用戶需求相關(guān)的可以滿足用戶需求的非結(jié)構(gòu)化信息。向量空間模型(VSM)向量空間模型將文檔映射為一個特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)為一列互不雷同的詞條項,ωi(d)為ti在d中的權(quán)值, 一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù),即在信息檢索中常用的詞條權(quán)值計算方法為 TFIDF 函數(shù),其中N為所有文檔的數(shù)目,ni為含有詞條ti的文檔數(shù)目。TFIDF公式有很多變種,下面是一個常用的TFIDF公式:根據(jù)TFIDF公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越小;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文檔內(nèi)容屬性的能力越強,其權(quán)值越大。兩文檔之間的相似度可以用其對應(yīng)的向量之間的夾角余弦來表示,即文檔di,dj的相似度可以表示為進行查詢的過程中,先將查詢條件Q進行向量化,主要依據(jù)布爾模型:當ti在查詢條件Q中時,將對應(yīng)的第i坐標置為1,否則置為0,即從而文檔d與查詢Q的相似度為在查詢過程中,可以計算出每個文檔與查詢的相似度,進而可以根據(jù)相似度的大小,將查詢的結(jié)果進行排序。向量空間模型可以實現(xiàn)文檔的自動分類和對查詢結(jié)果的相似度排序,能夠有效提高檢索效率;它的缺點是相似度的計算量大,當有新文檔加入時,則必須重新計算詞的權(quán)值。Lucene Scoring 評分機制solr使用lucene的內(nèi)部評分機制,現(xiàn)對lucene的評分機制進行介紹。lucene 的評分公式:score(q,d) = coord(q,d) queryNorm(q) ∑(tf(t in d) idf(t)2() norm(t,d))t in q其中:tf(t in d)關(guān)聯(lián)到項頻率,項頻率是指項t 在文檔d 中出現(xiàn)的次數(shù) frequency。默認的實現(xiàn)是:tf(t in d) =frequency189。idf(t)關(guān)聯(lián)到反轉(zhuǎn)文檔頻率,文檔頻率指出現(xiàn)項t 的文檔數(shù)docFreq。docFreq 越少 idf 就越高。默認實現(xiàn):idf(t) =1 + log(numDocs–––––––––docFreq+1)coord(q,d)評分因子,是基于文檔中出現(xiàn)查詢項的個數(shù)。越多的查詢項在一個文檔中,說明些文檔的匹配程序越高。默認是出現(xiàn)查詢項的百分比。queryNorm(q)查詢的標準查詢,使不同查詢之間可以比較。此因子不影響文檔的排序,因為所有有文檔都會使用此因子。默認值:queryNorm(q) = queryNorm(sumOfSquaredWeights) =1––––––––––––––sumOfSquaredWeights189。 每個查詢項權(quán)重的平分方和(sumOfSquaredWeights)由 Weight 類完成。例如 BooleanQuery 地計算:sumOfSquaredWeights = ()2∑(idf(t) ())2t in q()查詢時期的 項 t 加權(quán)(如:java^),或者由程序使用 setBoost()。norm(t,d)壓縮幾個索引期間的加權(quán)和長度因子:Document boost 文檔加權(quán),在索引之前使用 ()Field boost 字段加權(quán),也在索引之前調(diào)用 ()lengthNorm(field) 由字段內(nèi)的 Token 的個數(shù)來計算此值,字段越短,評分越高,在做索引的時候由 計算。以上所有因子相乘得出 norm 值,如果文檔中有相同的字段,它們的加權(quán)也會相乘:norm(t,d) = () lengthNorm(field) ∏()fieldfindnamed ast索引的時候,把 norm 值壓縮(encode)成一個 byte 保存在索引中。搜索的時候再把索引中 norm 值解壓(decode)成一個 float 值,這個 encode/decode 由 Similarity 提供。solr使用了Lucene的內(nèi)核,也繼承了Lucene的打分規(guī)則,我們可以根據(jù)自己的應(yīng)用實現(xiàn)評分算法,換掉默認的;也可以使用默認的,利用修改solr配置文件,來調(diào)節(jié)評分。Page Rank算法一個網(wǎng)頁的重要性等于指向它的所有網(wǎng)頁的重要性相加之和。如果網(wǎng)頁j存在一個指向網(wǎng)頁i的連接,則表明j的所有者認為i比較重要,從而把j的一部分重要性得分賦予i。這個重要性得分值為:為網(wǎng)頁j的PageRank值,為網(wǎng)頁j的出鏈數(shù)。一個頁面的PageRank是由所有鏈向它的頁面(鏈入頁面)的重要性經(jīng)過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級。由于存在一些出鏈為0,也就是那些不鏈接任何其他網(wǎng)頁的網(wǎng), 也稱為孤立網(wǎng)頁。因此需要對 PageRank公式進行修正,即在簡單公式的基礎(chǔ)上增加了阻尼系數(shù)(damping factor)q, q一般取值q=。即網(wǎng)頁i的PageRank值;所以公式的意義是:網(wǎng)頁i的PageRank值=(1d)+d*(鏈接到網(wǎng)頁i的所有PR值/該網(wǎng)頁的所有出鏈數(shù)量之和)。信息采集搜索系統(tǒng)的安裝++,集群的配置情況如下圖: 表() 系統(tǒng)配置序號名稱描述1使用MapReduce進行并行爬取,使用HDFS存儲數(shù)據(jù),Nutch的任務(wù)提交在Hadoop集
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1