freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學(xué)本科生畢業(yè)論文-基于paradise平臺論文檢索系統(tǒng)(文件)

2025-06-17 16:40 上一頁面

下一頁面
 

【正文】 求 庫 ,來提高搜索引擎的中相似的 請 求的 處 理速度。 Abstract: Large web search engines have to answer thousands of queries per second with interactive response times. Due to the sizes of the data sets involved, often in the range of multiple terabytes, a single query may require the processing of hundreds of megabytes or more of index data. To keep up with this immense workload, large search engines employ clusters of hundreds or thousands of machines, and a number of techniques such as catching, index pression, and index and query pruning are used to improve scalability. In particular, twolevel caching techniques cache results of repeated identical queries at the frontend, while index data for frequently used query terms are cached in each node at a lower level. We propose and evaluate a threelevel caching scheme that adds an intermediate level of caching for additional performance gains. This intermediate level attempts to exploit frequently occurring pairs of terms by caching intersections or projections of the corresponding inverted lists. We propose and study several offline and online algorithms for the resulting weighted caching problem, which turns out to be surprisingly rich in structure. Our experimental evaluation based on a large web crawl and real search engine query log shows significant performance gains for the best schemes, both in isolation and in bination with the other caching levels. We also observe that a careful selection of cache admission and eviction policies is crucial for best overall performance. 摘要部分,先 說 了搜索引擎的 負(fù)載 很重的概況;然后介 紹現(xiàn) 有的兩 級catc h 有一定的缺點(diǎn),而作者完成了一個(gè)三 級緩 存,在原有的 緩 存加入了一個(gè)中 間層 ; 最后 說 本文用到了一些算法,并且最 終實(shí)驗(yàn)結(jié) 果的性能也很好。平均每個(gè)論 文 有個(gè) 95 評論 句子,每個(gè) 論 文在被另外一篇 論 文引用 時(shí) ,平均 約 被 評論 次 根據(jù)上面的比率,可以看出,如果我 們 最 終顯 示在界面上的 評論 個(gè)數(shù)需要 是 5 個(gè),那么一篇 論 文,它被 1 到 2 篇 論 文引用 時(shí) ,就會 獲 得足 夠 的 評論集。 這里,我 們 利用了前 面 獲 得的 文件,里面存有一篇 論 文的摘要,獲 得摘要段落之后, 對 其利用摘要算法,可以 獲 取 較 好的效果。因 為 Paradise 主要是 針對 網(wǎng) 頁 搜索的,所以稱 這 個(gè)域 為 Url, 實(shí)際 上 應(yīng)該 叫 DocumentID更確切一點(diǎn)。其中, url 域及其重要,是必 須 有的一個(gè)域,而且 必 須 名 為 Url。 pWriteraddDocument(document)。 shared_ptrFieldData field_ID_data(new FieldData(PDFFunction::Int2Str(pContentgetID())))。 shared_ptrFieldData field_content_data(new FieldData(pContentgetContentToken()))。 (2) 重寫一個(gè) Content 類 ,里面存有所需要建立索引的 document 的內(nèi)容 ,由上面的 getContent 類 返回。amp。 Timer t。 PDFParser parser。 void main(){ Analyzer* analyzer = new NaiveAnalyzer()。 這 個(gè)地方需要注意的就是 與 index部分有一定的 結(jié) 合,會在后面提到。 ( 2) index是索引模 塊 ,用于將需要 檢 索的部分建立倒排索引。通 過這 段內(nèi)容,我 們 可以了解到 paradise 使用的基本 過 程,最 終我 們 會 發(fā)現(xiàn) ,如果想搭建其他方向的搜索引擎,使用 paradise 也是非常方便的。之后, 選擇 其中得分最高的k 個(gè)句子, 組 合在一起,就 獲 得了原文基于影響的概括了。整個(gè)流程如 [ 圖 表 3],需要用到 [ 圖 表 2]中的前三部算法 獲 得的 評論 列表。那 么, 對 于每一個(gè)句子 s,我 們 在 進(jìn) 行上面的算法 時(shí) ,需要 進(jìn) 行如下一步 ( p(w | I ) log( p(w | s p(w | I ) log( p(w | I ))) w V 這 就需要 對這 4 億 個(gè) 單詞進(jìn) 行遍 歷 一遍,并且分 別計(jì) 算括號中的那一步。我 們 仌然假 設(shè) u為 w 的 n倍, 則 (2)式可以看成 pC(w | d ) p(w | C) * n ,可 見 , n 越大 時(shí) ,表示 這 個(gè) 單詞 w 與 C 的關(guān)系越大,而 n 小于 1 n n 時(shí) , 則 與 論 文本身關(guān)系 較 大。W 等于 1時(shí) , 則 表示二者一 樣 ,各占 1/2。 建模算法 首先, 為 仸何一個(gè)句子打分的公式 Score(s)如下: Score(s) D( I || s ) p(w | I )log( p(w | s )) p(w | I )log( p(w | I )) w V w V 仍信息理 論 的 觀 點(diǎn),其中 D( I || s ) 即 為 KLdivergence,可以被解 釋為通 過 句子 s來表示基于影響的段落,需要仍文章中 刪 除的信息量。最 終 將影響力最大的幾個(gè)句子合在一起 ,就形成了基于影響的概括。 我 們 在提取數(shù)據(jù)的同 時(shí) ,會 獲 得每一篇文章的 citation信息,代表 這 篇文章被引 用的次數(shù),一般,一個(gè) 較 好的文章,被引用的次數(shù)也 應(yīng) 當(dāng)比 較 多,因此, 對 于每一 個(gè) 評 價(jià),根據(jù)它所在文章的被引用次數(shù) 進(jìn) 行排序,可以 獲 得 較為專業(yè) ,也 較為 合 理的 結(jié) 果。 最 終 ,得到 對 A 進(jìn) 行 評論 的候 選 句子集 {e1,e2,e3...}, 這 里面可能會有一些 評價(jià) 來自同一篇 論 文。一般有以下幾種情況 : (1) Bi中的句子出 現(xiàn) 了 A的 論 文名 (2) Bi中的句子出 現(xiàn) 了 A的作者名 (3) 在 Bi 的 reference 列表中,如果 A 出 現(xiàn) 在第 k 個(gè)位置,那么通常在文 章中會利用 [k]來 對 A進(jìn) 行引用。 ? 第 3 章 生成 評論 集 通 過 上面的內(nèi)容之后,我 們獲 得了所有基本的信息,其中,最重要的,獲 得了 tofrom 表, 該 表的 key 是一篇 論 文 A 的 ID, value 是引用 A 的所有 論文 ID 的集合 。 ? ? 輕 便靈活( Portable):它可以運(yùn)行于幾乎所有的 UNIX 和 Linux 系 統(tǒng) 及其 變 種系 統(tǒng) 、 Windows 操作系 統(tǒng) 以及多種嵌入式 實(shí)時(shí) 操作系 統(tǒng) 之下。 是 對 整個(gè) 論 文的引用關(guān)系 圖進(jìn) 行解析 獲 得的,仍上面的元數(shù)據(jù)中,我 們 可以 獲 得每個(gè) 論 文所引用的 論 文的名稱, 這樣 ,我 們 可以通 過這 些名稱,來 獲 得 這 個(gè) 論文所引 用的所有 論 文的 ID 號,并且存 儲 到數(shù)據(jù) 庫 中。 對 于其他的信息, 這 里 選擇 存 儲 在 berkeleyD B 里面。 這樣 ,文章中所有匹配上面正 則 表達(dá)式的字符串,其中的作者信息( 即上面括號 中的內(nèi)容),都會存在 authors 這 個(gè)容器里面 還 需要注意的一點(diǎn)就是,由于網(wǎng) 頁 的不 規(guī) 整性,所以要排除一些 錯(cuò)誤 的情況。CFID=23 904299amp。 以提取作者信息 為 例: a href=?id=81100472691amp。 數(shù)據(jù)抓取的 過 程 已 經(jīng) 確定抓取數(shù)據(jù)的大體方法了,下面就要開始正式的抓取數(shù)據(jù)了。因 為 我 們 的 實(shí)驗(yàn) 所需要的 數(shù)據(jù)最好 是在一個(gè) 領(lǐng) 域里面的一個(gè)方向的 論 文,并且需要引用關(guān)系 較緊 密的,以便于后 續(xù) 的工作,因此, 這 里采用 會 議 的文章作 為 種子, 對 于每一篇文章遞歸 三 層 。 于是,我 們 想出了一個(gè) 簡單 的 辦 法。我 們 的目 標(biāo) 是通 過獲 得每篇文章所引用 過 的文章,建立 一個(gè)映射表,然后將映射表倒置 過 來,仍而 獲 得每篇文章被哪些文章引用 過 。 簡單 來 說 ,我 們這 個(gè)系 統(tǒng) 的意 義 ,就是通 過 數(shù)據(jù)挖掘的方法, 獲 得一些直接仍 原 論 文很 難發(fā)現(xiàn) 的信息,并且 結(jié) 合 paradise 系 統(tǒng) ,以搜索引擎的方式呈 現(xiàn)出來, 便于大家 檢 索 查 找。 一般來 說 ,作者如果想仍自己的角度 歸納 本文的大體內(nèi)容,通 過閱讀 摘要,我 們 可以看到作者寫 這 篇文章大體做了什么。而在讀 完一篇 論 文之后,我 們 能 獲 得什么信息呢?主要有以下幾種: (1) 這 篇文章做了什么事情, 這 可以仍摘要中 獲 得。 PARADISE 由 預(yù)處 理, 簡歷 索引, 檢 索,前臺四部分 組 成。最 終 , 為 了便于使用者 觀 看, 還 需要 對 這 些句子 進(jìn) 行一些整理, 進(jìn) 行排序、整理成一個(gè)段落出來。之所以 選擇 仍 這 上面抓取,是因 為 我 們 不 僅 需要 論 文的 pdf 文檔, 還需要仍 中自 動 提取摘要、引用等信息,而 這 本身就 應(yīng)該 是一個(gè)挺復(fù) 雜 的算法了,而且不 是我 們 工作的目的,而上述網(wǎng)站已 經(jīng) 人工的將 論 文的摘要、引用信息提取了出來 ,并且 對 于每一個(gè)引用 還 有相 應(yīng) 的 鏈 接,因此會 節(jié) 省我 們 抓取數(shù)據(jù)所要花 費(fèi) 的工 作量。 在 [3]3(Qiaozhu Mei, ChengXiang Zhai)中,作者利用 KLdivergence算法建立了一個(gè)模型,生成了一篇 論 文基于影響的概括,但是它并沒 有 強(qiáng)調(diào)評論 的重要性( 這 里的 評論 ,是指 別 的作者 對 它引用的一篇文章的 評 論 ),它只 講評論 當(dāng)成一個(gè)中 間 狀 態(tài) ,當(dāng)成一個(gè)求得基于影響的概括的手段。 這 就像我 們 準(zhǔn) 備 去一個(gè)地方去旅游,不 僅 需要 該 景點(diǎn)本身 的介 紹 (有點(diǎn) 類 似于摘要),往往更想知道去 過這 個(gè)地方的人都是如何 評 價(jià)這 些 地方的。 領(lǐng) 域的最主要 論 文,以及一些 較 權(quán) 威的作者,幫助 讀 者了解相關(guān)知 識 。學(xué) 術(shù)檢 索, 絕 不 簡簡單單 的 檢 索出所要 查 找的 論 文, 這樣 就和普通的通用搜 索引擎如 google 等一 樣 了。 本科生 畢業(yè)論 文 題 目 :基于 PARADISE 平臺 論 文 檢 索系 統(tǒng) Literature Search Design based on PARADISE 姓 名: 李峰 0 號: 0 系: 信息科學(xué)技 術(shù) 學(xué)院 專 業(yè) : 計(jì) 算機(jī)科學(xué)與技 術(shù) 系 指 導(dǎo) 教 師 : 閆 宏 飛 副教授 二〇一五年四月二十日 摘要: 本文基于天網(wǎng) 實(shí)驗(yàn) 室的 Platform for Applying,
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1