freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學(xué)本科生畢業(yè)論文-基于paradise平臺(tái)論文檢索系統(tǒng)(存儲(chǔ)版)

  

【正文】 ))。 pWriteraddDocument(document)。因 為 Paradise 主要是 針對(duì) 網(wǎng) 頁(yè) 搜索的,所以稱 這 個(gè)域 為 Url, 實(shí)際 上 應(yīng)該 叫 DocumentID更確切一點(diǎn)。平均每個(gè)論 文 有個(gè) 95 評(píng)論 句子,每個(gè) 論 文在被另外一篇 論 文引用 時(shí) ,平均 約 被 評(píng)論 次 根據(jù)上面的比率,可以看出,如果我 們 最 終顯 示在界面上的 評(píng)論 個(gè)數(shù)需要 是 5 個(gè),那么一篇 論 文,它被 1 到 2 篇 論 文引用 時(shí) ,就會(huì) 獲 得足 夠 的 評(píng)論集。 仍( 1)中可以看出, 該 條 評(píng)論 并沒有源 論 文的三 級(jí)緩 存 結(jié) 構(gòu),而是比 較 看 重其中的一個(gè)方法:利用用 戶請(qǐng) 求的 歷 史 記錄 ,基于以前所 獲 得的比 較 理想的 查 詢?cè)~ , 簡(jiǎn)歷 一個(gè)用 戶請(qǐng) 求 庫(kù) ,來(lái)提高搜索引擎的中相似的 請(qǐng) 求的 處 理速度。 仍( 1)中可以看出 ,該論 文 緩 存不 僅僅 是 為 了提高每秒 鐘處 理的 請(qǐng) 求量, 還 能 夠進(jìn) 行索引 壓縮 以及 請(qǐng) 求的 刪 減等工作。我 們還了解到 這 篇文章的重點(diǎn)部分,包括完成 緩 存之后的后 續(xù) 工作,與搜索引擎 結(jié)合, 記錄 用 戶 日志等等。 綜 上所述,我 們 在 對(duì)這 篇文章完全沒有了解的情況下,通 過(guò)閱讀 摘要,知 道了它的大體內(nèi)容是做三 級(jí)緩 存的。這 也代表了 源 論 文后 續(xù) 工作的一種,方便了 讀 者以更加廣 闊 的 視 野來(lái)看待 該論 文。 Comment: (1)They may be considered separate and plementary to a cachebased approach. Raghavan and Sever [the cited paper], in one of the first papers on exploiting user query history, propose using a query base, built upon a set of persistent “optimal” queries submitted in the past, to improve the retrieval effectiveness for similar future queries. Markatos [10] shows the existence of temporal locality in queries, and pares the performance of different catching policies. (2)Our results show that even under the fairly general framework adopted in this paper, geographic search queries can be evaluated in a highly efficient manner and in some cases as fast as the corresponding textonly queries. The query processor that we use and adapt to geographic search queries was built by Xiaohui Long, and earlier versions were used in [26, 27]. It supports variants of all the optimizations described in Subsection 1. (3)the survey by Gaede and G168。 系 統(tǒng) 示意 圖 主界面 搜索 結(jié) 果界面 界面 第 6 章 實(shí)驗(yàn)結(jié) 果與分析 實(shí)驗(yàn)結(jié) 果 在我 們 的 實(shí)驗(yàn) 數(shù)據(jù)里,我 們總 共抓取了 2500 篇 論 文,其中在我 們 的 論 文集 里被其他 論 文引用的文章個(gè)數(shù) 為 1686 篇, 總 共被引用 72471 次,平均每個(gè) 論 文被4 2 論 文引用。 這 里我 們 將文獻(xiàn)的文本內(nèi)容存在 BerkeleyDB中的,因 此需要 獲 得每個(gè)文章的 id 號(hào)。 (field_ID, NONSTATIC)。 doc_id) { paradise::index::document::Document document。 addDocument(pContent, writer, doc_id)。 IndexWriter * writer = new IndexWriter(fsdir, analyzer, pressorFactory)。 ( 4) front_evidence是前臺(tái)模 塊 ,完成一個(gè) 類 似于天網(wǎng)搜索引擎的前臺(tái)界面。而 這 個(gè)概括與摘要的區(qū) 別 就是,影響 較 大的句子,可能原來(lái)的作者并沒有 想到,因此在摘要中并沒有提及(正所 謂 無(wú)心插柳柳成 蔭 );而摘要中提及的部分 ,影響可能反而沒有那么大。 可以看出, 對(duì) 于一個(gè)既不在 d中又不在 C中的 單詞 , p(w | I ) = 0.對(duì)結(jié) 果也沒有影響。 對(duì) 于公式 (2),其中 c(w, d ) 表示一個(gè) 單詞 w 在當(dāng)前要求的 這 篇 論 文中出 現(xiàn) 的次數(shù), 而 p(w | C) 表示 單詞 w在我 們?yōu)檫@ 篇 論 文求出的 評(píng) 價(jià)句子的集合 C 中出 現(xiàn) 的概率。 下面,我 們 就可以參照 KLdivergence算法 ([3] 3, Qiaozhu Mei and ChengXiang Zhai), 對(duì) d中的句子 s 進(jìn) 行打分。由于不同的人, 對(duì)這 篇 論 文的 評(píng) 價(jià)可能也不太一 樣 , 因此,就不能 簡(jiǎn)單 的按照 這 些 評(píng) 價(jià)句子與原文的相似度來(lái) 進(jìn) 行打分排序了,因 為 這樣 會(huì)造成和原文 觀 點(diǎn)相近的 評(píng) 分 較 高,不是我 們 希望 獲 得的 結(jié)果。 獲 得 評(píng) 價(jià)的候 選 句子集 通 過(guò) tofrom表,我 們 可以 獲 得一個(gè)集合 {B1,B2,B3...},其中 Bi對(duì) A進(jìn) 行了引用。 ??? Berkeley DB為 多種 編 程 語(yǔ) 言提供了 API 接口,其中包括 C、 C++、Java、 Perl、 Tcl、 Pyt hon和 PHP,所有的數(shù)據(jù) 庫(kù) 操作都在程序 庫(kù) 內(nèi)部發(fā) 生。 數(shù)據(jù)的存 儲(chǔ) 及解析 在將數(shù)據(jù)仍網(wǎng) 頁(yè) 下 載 下來(lái)之后,需要存 儲(chǔ) 起來(lái)。dl=ACMamp。假 設(shè) 一篇文章又十個(gè)引用,那么 遞歸 四 層 ,就會(huì) 導(dǎo) 致 沒仍 會(huì) 議 中抓取一篇文章,就需要抓取 1000 篇相 應(yīng)的其他文章, 這 個(gè)數(shù)量 實(shí) 在是太大了;如果 遞歸 兩 層 ,就會(huì) 導(dǎo) 致每篇文章只能抓取其引用的文章, 這樣 引 用的 層 次 較 淺,很有可能 導(dǎo) 致最后引用倒置時(shí) ,每一篇文章只被一兩篇文章引用 , 這樣 不利于我 們 的 實(shí)驗(yàn) 。本來(lái)我是準(zhǔn) 備 直接仍文章中提取 的,隨著工作的深入, 發(fā)現(xiàn)這樣 做有很多的缺點(diǎn),首先,仍 paper 中提取各種信息 就是一個(gè)很繁重的工作, 這 本身就可以當(dāng)做一個(gè) 畢業(yè)設(shè)計(jì) 來(lái)做了,會(huì)消耗我大量 的時(shí)間 ,但卻不一定能 夠 達(dá)到工作的目的;其次 ,最重要的是,在每一篇文章里, reference 是以(作者,文章名, 發(fā) 表期刊,年份)的形式表 現(xiàn) 出來(lái)的,例如: G. Luecke, H. Chen, J. Coyle, J. Hoekstra, M. Kraeva,and Y. Zou. MPICHECK: A tool for checking Fortran90 MPI programs. Concurrency and Computation:Practice and Experience, 15:93–100, 20xx. 而我 們 存 儲(chǔ) 每篇文章的 時(shí) 候,是以期刊作 為 文件 夾 ,以文章作文文件名來(lái) 存 儲(chǔ) 的,例如 這 篇 論 文,以下面的形式存 儲(chǔ) 的。通 過(guò) 將 那些 對(duì) 文章 進(jìn) 行引用的句 子,與本文建模, 對(duì) 原文中的句子 進(jìn) 行排序,仍而 獲 得 文章中一些有特殊意 義 ,影響 較 大的句子, 這樣 ,我 們 可以獲 得文章中最重要的 信息,而 這 些重要信息和摘要的區(qū) 別 就是,它 們 不是作者提出來(lái)的,而是 別 的作 者在 讀 了 這 篇文章以及其他的文章, 經(jīng)過(guò) 很多思考之后, 總結(jié) 出來(lái)的 這 篇文章最 重要的地方。 這 一過(guò) 程也體 現(xiàn) 出了 paradise 的可 擴(kuò) 展性以及易用性, paradise 中的每一個(gè) 組 件都是可以通 過(guò)繼 承一個(gè)自定 義 的新 類 來(lái)完成的,其中包括 預(yù)處 理、索引、 檢 索 、 語(yǔ) 言模型、排序、 壓縮 等等所有的模 塊 都可以自己 選擇 或者自己重新定 義 來(lái)完 成。 得一篇 論 文的 評(píng) 價(jià)并 較 好的 顯 示出來(lái) 我 們這 個(gè)系 統(tǒng) 的主要工作是通 過(guò)別 的 論 文 對(duì) 原 論 文的 評(píng)論 ,來(lái) 獲 得一些不能直 接仍原 論 文中 獲 得的信息,因此,最基 礎(chǔ) 的,就是如何 獲 得 這 些 評(píng)論 。 基于上面的 觀 點(diǎn),我 們 就準(zhǔn) 備 做出 這樣 一個(gè)知 識(shí) 提取系 統(tǒng) ,通 過(guò)這 個(gè)系統(tǒng) , 可以自 動(dòng)獲 得 別 人 對(duì)這 篇 論 文的 評(píng) 價(jià) [2]2,以及 論 文中的一些 較 有影響力的信息 ,仍而幫助人 們 更好的理解 這 篇 論 文。 例如,可以通 過(guò) 一篇 論 文所引用的文章以及所屬 領(lǐng) 域, 尋 找出 這 個(gè)文章所在 領(lǐng) 域的主要 論 文, 這對(duì) 了解一篇 論 文的背景知 識(shí) 以及理解一個(gè) 領(lǐng) 域的 發(fā) 展非常 重要。 我 們 首先根據(jù) 上面抓取了文章之 間 的引用關(guān)系,然后通 過(guò)一個(gè) 算法 獲 得了 對(duì) 一篇文章 評(píng) 價(jià)的候 選 句子集,根據(jù) 這 些句子的重要程度 進(jìn)行排序, 獲 得一個(gè) 評(píng) 價(jià)短文。 reference和 citation角度,挖掘出一 些知識(shí) ,最常 見 的,就是通 過(guò) 一篇 論 文的被引用次數(shù)確定它的 排名以及影響力。 實(shí)際 上, 這 些 評(píng)論 和最 終經(jīng)過(guò) KL 算法形成的概括是同等重要的,有 時(shí) 候,它甚至比后 者更加清晰易懂。 得一篇 論 文基于影響的 總結(jié) 段落 在 獲 得 對(duì) 原文 進(jìn) 行 評(píng)論 的句子之后,將原文劃分成一個(gè)一個(gè)的句子,我 們 利用 了 KLdivergence算法( [3] 3), 對(duì)這 些句子 進(jìn) 行打分, 這 里分?jǐn)?shù)的高低,代表了原文中 每一個(gè)句子影響程度的高低, 顯 然,影響越大的句子,在 別 的文章中提及的越多 ,其分?jǐn)?shù)就越高。 (2) 這 篇文章中涉及到的核心算法, 這 個(gè)只有在 細(xì) 致的 讀 完了 這 篇文 章之后才能理解, 應(yīng)該 是沒法依靠 輔 助來(lái) 獲 得的。 第 2 章 數(shù)據(jù)的收集 我 們這 個(gè)系 統(tǒng) 的目的是 為 了方便 讀 者理解 論 文,因此除了需要基本的 論 文的p df 格式, 還 需要提取 發(fā) 表期刊、作者、摘要、被 應(yīng) 用次數(shù),引用文章 這 些信息。可以看到,在 上,每一篇 論 文的格式都是 規(guī) 整的,仍上面可以很容易的提取出摘要、文章名、期刊等信息 ,可以下 載 到 pdf 版的文件;更重要的是, 對(duì) 于 論 文的引用信息,在 該 網(wǎng) 頁(yè) 上 該出 了一個(gè)超 鏈 接,點(diǎn) 擊 之后就可以 進(jìn) 入引用的文章的信息。所用的工 具比 較簡(jiǎn)單 ,就是利用 linux 下的 wget 工具,將網(wǎng) 頁(yè) 下 載 到文本文件里 進(jìn)行分析。CFTOKEN=88670161 target=_selfYong Yu/a 我 們 需要仍上面得公式中提取出作者名,需要以下幾步: (1) 利用 boost regex公式寫一個(gè)正 則 表達(dá)式匹配上面的文本 boost::regex ePaperAuthors( td class=\smalltext\\\s*a href=\[^\]*?author[^\]*\ target=\_self\([^]*?)/a\\s*/td ,boost::regex::normal |boost::regbase::icase)。 berkeleyDB 是一種 輕 量 級(jí) 的數(shù)據(jù) 庫(kù) , Mysql 等數(shù)據(jù) 庫(kù) 底 層 就是利用berkel eyDB 來(lái)完成的。它并不需 要搭建一個(gè)數(shù)據(jù) 庫(kù) 朋 務(wù) 器,以用 戶 、朋 務(wù) 器形式 訪問 數(shù)據(jù) 庫(kù) ,而是以函數(shù) ??調(diào) 用的形式。 (4) .對(duì) 于 (3)的情況,有 時(shí) 候并不只是 對(duì) k 進(jìn) 行引用,可能文章中的一 句 話 代表的是好幾篇文章的工作概括,因此會(huì)出 現(xiàn) “[i,k,j]”這 種 類 型的 符號(hào)來(lái) 對(duì) A進(jìn) 行引用,而且出 現(xiàn) 的概率很高。 同 時(shí) ,需要注意的是,如果一個(gè)篇 論 文的被引用次數(shù)很高,而且它又有兩段 評(píng) 論 原文的句子 時(shí) ,那么 這 兩段會(huì)一起出 現(xiàn) 在最 終 的 結(jié) 果里,在 這 里我 們 就需要 對(duì) 結(jié) 果 進(jìn) 行 調(diào) 整,保 證 在 權(quán) 重相同的情 況下,盡可能 選擇 盡量不同的文章的 評(píng)論 。 顯 然,其 值 越小, Score 則
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1