freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)技術(shù)文檔(編輯修改稿)

2025-08-09 22:34 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 地進(jìn)行采集,并將采集結(jié)果壓縮后,再回傳到本地。這樣做大量地節(jié)省了Web資源,大量的剪裁工作將在被采集對(duì)象的服務(wù)器上完成。  第六種是基于元搜索的爬行器。它對(duì)用戶的提交的查詢請(qǐng)求通過(guò)多個(gè)領(lǐng)域或門戶搜索引擎搜索,并將結(jié)果整合后返回給用戶。一般元搜索引擎并不保存Web頁(yè)面的索引文件,但是有一些元搜索引擎會(huì)保存為它服務(wù)的每個(gè)搜索引擎的信息特征,以后根據(jù)用戶請(qǐng)求做出選擇。 Nutch使用累積式爬取與增量式爬取相結(jié)合的策略進(jìn)行,既保證了數(shù)據(jù)的完整性又保證了時(shí)效性。網(wǎng)絡(luò)爬蟲爬行策略網(wǎng)頁(yè)的抓取策略可以分為廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會(huì)導(dǎo)致爬蟲的陷入(trapped)問(wèn)題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。廣度優(yōu)先搜索 廣度優(yōu)先搜索策略是指在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一般使用廣度優(yōu)先搜索方法。下面,我將以圖示的方式介紹廣度優(yōu)先遍歷的過(guò)程,如下圖所示。圖 () 選擇A作為初始 種子節(jié)點(diǎn)url,則廣度優(yōu)先搜索的過(guò)程,如表()所示。表 廣度優(yōu)先搜索過(guò)程操作隊(duì)列中的元素初始空A入隊(duì)列AA出隊(duì)列空BCDEF入隊(duì)列BCDEFB出隊(duì)列CDEFC出隊(duì)列DEFD出隊(duì)列EFE出隊(duì)列FH入隊(duì)列FHF出隊(duì)列FG入隊(duì)列HGH出隊(duì)列GI入隊(duì)列GIG出隊(duì)列I I 出隊(duì)列空在表所示的搜索過(guò)程中,出隊(duì)列的節(jié)點(diǎn)順序即是圖()的廣度優(yōu)先搜索過(guò)程。由此可見,圖()所示的廣度優(yōu)先搜索過(guò)程的順序?yàn)椋篈BCDEFHGI。深度優(yōu)先搜索 深度優(yōu)先搜索策略從起始網(wǎng)頁(yè)開始,選擇一個(gè)URL進(jìn)入,分析這個(gè)網(wǎng)頁(yè)中的URL,選擇一個(gè)再進(jìn)入。如此一個(gè)鏈接一個(gè)鏈接地抓取下去,直到處理完一條路線之后再處理下一條路線,但每深入一層,網(wǎng)頁(yè)價(jià)值和PageRank都會(huì)相應(yīng)地有所下降。 圖()所示的深度優(yōu)先廣度優(yōu)先搜索過(guò)程的順序?yàn)椋篈BCD EHIFG最佳優(yōu)先搜索 最佳優(yōu)先搜索策略按照一定的網(wǎng)頁(yè)分析算法,預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度,或與主題的相關(guān)性,并選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。它只訪問(wèn)與主題相關(guān)的網(wǎng)頁(yè) 。信息檢索技術(shù)信息檢索(IR),通俗的講,就是要在一個(gè)很大的文本(有時(shí)可能是其他數(shù)據(jù),如圖像等)集合中,找到與用戶需求相關(guān)的可以滿足用戶需求的非結(jié)構(gòu)化信息。向量空間模型(VSM)向量空間模型將文檔映射為一個(gè)特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)為一列互不雷同的詞條項(xiàng),ωi(d)為ti在d中的權(quán)值, 一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù),即在信息檢索中常用的詞條權(quán)值計(jì)算方法為 TFIDF 函數(shù),其中N為所有文檔的數(shù)目,ni為含有詞條ti的文檔數(shù)目。TFIDF公式有很多變種,下面是一個(gè)常用的TFIDF公式:根據(jù)TFIDF公式,文檔集中包含某一詞條的文檔越多,說(shuō)明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越??;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。兩文檔之間的相似度可以用其對(duì)應(yīng)的向量之間的夾角余弦來(lái)表示,即文檔di,dj的相似度可以表示為進(jìn)行查詢的過(guò)程中,先將查詢條件Q進(jìn)行向量化,主要依據(jù)布爾模型:當(dāng)ti在查詢條件Q中時(shí),將對(duì)應(yīng)的第i坐標(biāo)置為1,否則置為0,即從而文檔d與查詢Q的相似度為在查詢過(guò)程中,可以計(jì)算出每個(gè)文檔與查詢的相似度,進(jìn)而可以根據(jù)相似度的大小,將查詢的結(jié)果進(jìn)行排序。向量空間模型可以實(shí)現(xiàn)文檔的自動(dòng)分類和對(duì)查詢結(jié)果的相似度排序,能夠有效提高檢索效率;它的缺點(diǎn)是相似度的計(jì)算量大,當(dāng)有新文檔加入時(shí),則必須重新計(jì)算詞的權(quán)值。Lucene Scoring 評(píng)分機(jī)制solr使用lucene的內(nèi)部評(píng)分機(jī)制,現(xiàn)對(duì)lucene的評(píng)分機(jī)制進(jìn)行介紹。lucene 的評(píng)分公式:score(q,d) = coord(q,d) queryNorm(q) ∑(tf(t in d) idf(t)2() norm(t,d))t in q其中:tf(t in d)關(guān)聯(lián)到項(xiàng)頻率,項(xiàng)頻率是指項(xiàng)t 在文檔d 中出現(xiàn)的次數(shù) frequency。默認(rèn)的實(shí)現(xiàn)是:tf(t in d) =frequency189。idf(t)關(guān)聯(lián)到反轉(zhuǎn)文檔頻率,文檔頻率指出現(xiàn)項(xiàng)t 的文檔數(shù)docFreq。docFreq 越少 idf 就越高。默認(rèn)實(shí)現(xiàn):idf(t) =1 + log(numDocs–––––––––docFreq+1)coord(q,d)評(píng)分因子,是基于文檔中出現(xiàn)查詢項(xiàng)的個(gè)數(shù)。越多的查詢項(xiàng)在一個(gè)文檔中,說(shuō)明些文檔的匹配程序越高。默認(rèn)是出現(xiàn)查詢項(xiàng)的百分比。queryNorm(q)查詢的標(biāo)準(zhǔn)查詢,使不同查詢之間可以比較。此因子不影響文檔的排序,因?yàn)樗杏形臋n都會(huì)使用此因子。默認(rèn)值:queryNorm(q) = queryNorm(sumOfSquaredWeights) =1––––––––––––––sumOfSquaredWeights189。 每個(gè)查詢項(xiàng)權(quán)重的平分方和(sumOfSquaredWeights)由 Weight 類完成。例如 BooleanQuery 地計(jì)算:sumOfSquaredWeights = ()2∑(idf(t) ())2t in q()查詢時(shí)期的 項(xiàng) t 加權(quán)(如:java^),或者由程序使用 setBoost()。norm(t,d)壓縮幾個(gè)索引期間的加權(quán)和長(zhǎng)度因子:Document boost 文檔加權(quán),在索引之前使用 ()Field boost 字段加權(quán),也在索引之前調(diào)用 ()lengthNorm(field) 由字段內(nèi)的 Token 的個(gè)數(shù)來(lái)計(jì)算此值,字段越短,評(píng)分越高,在做索引的時(shí)候由 計(jì)算。以上所有因子相乘得出 norm 值,如果文檔中有相同的字段,它們的加權(quán)也會(huì)相乘:norm(t,d) = () lengthNorm(field) ∏()fieldfindnamed ast索引的時(shí)候,把 norm 值壓縮(encode)成一個(gè) byte 保存在索引中。搜索的時(shí)候再把索引中 norm 值解壓(decode)成一個(gè) float 值,這個(gè) encode/decode 由 Similarity 提供。solr使用了Lucene的內(nèi)核,也繼承了Lucene的打分規(guī)則,我們可以根據(jù)自己的應(yīng)用實(shí)現(xiàn)評(píng)分算法,換掉默認(rèn)的;也可以使用默認(rèn)的,利用修改solr配置文件,來(lái)調(diào)節(jié)評(píng)分。Page Rank算法一個(gè)網(wǎng)頁(yè)的重要性等于指向它的所有網(wǎng)頁(yè)的重要性相加之和。如果網(wǎng)頁(yè)j存在一個(gè)指向網(wǎng)頁(yè)i的連接,則表明j的所有者認(rèn)為i比較重要,從而把j的一部分重要性得分賦予i。這個(gè)重要性得分值為:為網(wǎng)頁(yè)j的PageRank值,為網(wǎng)頁(yè)j的出鏈數(shù)。一個(gè)頁(yè)面的PageRank是由所有鏈向它的頁(yè)面(鏈入頁(yè)面)的重要性經(jīng)過(guò)遞歸算法得到的。一個(gè)有較多鏈入的頁(yè)面會(huì)有較高的等級(jí),相反如果一個(gè)頁(yè)面沒有任何鏈入頁(yè)面,那么它沒有等級(jí)。由于存在一些出鏈為0,也就是那些不鏈接任何其他網(wǎng)頁(yè)的網(wǎng), 也稱為孤立網(wǎng)頁(yè)。因此需要對(duì) PageRank公式進(jìn)行修正,即在簡(jiǎn)單公式的基礎(chǔ)上增加了阻尼系數(shù)(damping factor)q, q一般取值q=。即網(wǎng)頁(yè)i的PageRank值;所以公式的意義是:網(wǎng)頁(yè)i的PageRank值=(1d)+d*(鏈接到網(wǎng)頁(yè)i的所有PR值/該網(wǎng)頁(yè)的所有出鏈數(shù)量之和)。信息采集搜索系統(tǒng)的安裝++,集群的配置情況如下圖: 表() 系統(tǒng)配置序號(hào)名稱描述1使用MapReduce進(jìn)行并行爬取,使用HDFS存儲(chǔ)數(shù)據(jù),Nutch的任務(wù)提交在Hadoop集
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1