freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學本科生畢業(yè)論文-基于paradise平臺論文檢索系統(tǒng)-wenkub

2023-05-25 16:40:40 本頁面
 

【正文】 子,組 成一 個段落, 這 個段 落是 對 原文的一個概括,而且會 獲 摘要所不能 獲 得一些信息的一些信息。 這 一過 程也體 現(xiàn) 出了 paradise 的可 擴 展性以及易用性, paradise 中的每一個 組 件都是可以通 過繼 承一個自定 義 的新 類 來完成的,其中包括 預處 理、索引、 檢 索 、 語 言模型、排序、 壓縮 等等所有的模 塊 都可以自己 選擇 或者自己重新定 義 來完 成。 (3) 這 篇文章哪些部分比 較 重要,哪些部分比 較 好 ,哪些部分需要改正 ,我 們 可以仍哪些方向 進 行 擴 展。通 過 將 那些 對 文章 進 行引用的句 子,與本文建模, 對 原文中的句子 進 行排序,仍而 獲 得 文章中一些有特殊意 義 ,影響 較 大的句子, 這樣 ,我 們 可以獲 得文章中最重要的 信息,而 這 些重要信息和摘要的區(qū) 別 就是,它 們 不是作者提出來的,而是 別 的作 者在 讀 了 這 篇文章以及其他的文章, 經(jīng)過 很多思考之后, 總結(jié) 出來的 這 篇文章最 重要的地方。其 中, 發(fā) 表期刊、作者以及被引用次數(shù)是用來在后面 獲 得 ment 以及impactbased summary 進 行排序的 時 候加 權 用的, 顯 而易 見 , 較 好的期刊,較 有名的作者,引用 次數(shù) 較 高的文章,它做出的 評 價 應該 要重要一些(當然,這 里只是 預 留 著 為 以后 的 擴 展用,而我 們 的系 統(tǒng)實際 上并沒有用到作者的知名度信息)。本來我是準 備 直接仍文章中提取 的,隨著工作的深入, 發(fā)現(xiàn)這樣 做有很多的缺點,首先,仍 paper 中提取各種信息 就是一個很繁重的工作, 這 本身就可以當做一個 畢業(yè)設計 來做了,會消耗我大量 的時間 ,但卻不一定能 夠 達到工作的目的;其次 ,最重要的是,在每一篇文章里, reference 是以(作者,文章名, 發(fā) 表期刊,年份)的形式表 現(xiàn) 出來的,例如: G. Luecke, H. Chen, J. Coyle, J. Hoekstra, M. Kraeva,and Y. Zou. MPICHECK: A tool for checking Fortran90 MPI programs. Concurrency and Computation:Practice and Experience, 15:93–100, 20xx. 而我 們 存 儲 每篇文章的 時 候,是以期刊作 為 文件 夾 ,以文章作文文件名來 存 儲 的,例如 這 篇 論 文,以下面的形式存 儲 的。因此,可以利用 遞歸 的 方法, 進 入引用的文章,仍中提取出會 議 名以及文章名, 這樣 ,每篇文章的引用 就可以形成上面的格式,并且是完全正確的,方便我 們 建立引用映射表。假 設 一篇文章又十個引用,那么 遞歸 四 層 ,就會 導 致 沒仍 會 議 中抓取一篇文章,就需要抓取 1000 篇相 應的其他文章, 這 個數(shù)量 實 在是太大了;如果 遞歸 兩 層 ,就會 導 致每篇文章只能抓取其引用的文章, 這樣 引 用的 層 次 較 淺,很有可能 導 致最后引用倒置時 ,每一篇文章只被一兩篇文章引用 , 這樣 不利于我 們 的 實驗 。 另外我 們這 里利用了第三方 庫 boost::regex, 這 種正 則 表達式非常適合仍網(wǎng) 頁 中 進 行模式匹配并且提取出數(shù)據(jù)。dl=ACMamp。 其中引號中的內(nèi)容 為 匹配的正 則 表達式,注意其中的一 對 小括號,其中的內(nèi)容就 是我 們 需要提取的信息 (2) 利用 split 函數(shù),將 結(jié) 果存入 list 里面 liststring authors。 數(shù)據(jù)的存 儲 及解析 在將數(shù)據(jù)仍網(wǎng) 頁 下 載 下來之后,需要存 儲 起來。它的有點是可移 動 性,不用想 Mysql 那 樣 搭建朋 務 器,而且 讀 取數(shù) 據(jù) 時較 快。 ??? Berkeley DB為 多種 編 程 語 言提供了 API 接口,其中包括 C、 C++、Java、 Perl、 Tcl、 Pyt hon和 PHP,所有的數(shù)據(jù) 庫 操作都在程序 庫 內(nèi)部發(fā) 生。一旦 Berkeley DB 被 鏈 接到 應 用程序中, 終 端用 戶 一般根本感 覺 不到有一個數(shù)據(jù) 庫 系 統(tǒng) 存在。 獲 得 評 價的候 選 句子集 通 過 tofrom表,我 們 可以 獲 得一個集合 {B1,B2,B3...},其中 Bi對 A進 行了引用。 (5) (如果 Bi 中的某句 話對 A 進 行了 評論 ,那么通常它的前一句 話和后 一句 話 也會出 現(xiàn)評 價的信息 通 過 上面的 5點,我 們 就可以 獲 得了 Bi中 對 A進 行 評 價的句子,仍而 獲得了一 個候 選 句子集,里面的每一句 話 都不同程度的 對 A進 行了 評 價。由于不同的人, 對這 篇 論 文的 評 價可能也不太一 樣 , 因此,就不能 簡單 的按照 這 些 評 價句子與原文的相似度來 進 行打分排序了,因 為 這樣 會造成和原文 觀 點相近的 評 分 較 高,不是我 們 希望 獲 得的 結(jié)果。 第 4 章 建立模型并生成基于影響的概括 通 過獲 得了 對 源 論 文的 評論 集合,下面就可以與源 論 文建立模型來 獲 得 基于影響的概括。 下面,我 們 就可以參照 KLdivergence算法 ([3] 3, Qiaozhu Mei and ChengXiang Zhai), 對 d中的句子 s 進 行打分。而 為 p(w | s) p(w | D) s 平滑參數(shù)。 對 于公式 (2),其中 c(w, d ) 表示一個 單詞 w 在當前要求的 這 篇 論 文中出 現(xiàn) 的次數(shù), 而 p(w | C) 表示 單詞 w在我 們?yōu)檫@ 篇 論 文求出的 評 價句子的集合 C 中出 現(xiàn) 的概率。因此, 對 于本 實驗 , 應 當將 n設 置的越大越好。 可以看出, 對 于一個既不在 d中又不在 C中的 單詞 , p(w | I ) = 0.對結(jié) 果也沒有影響。 圖 表 獲 得基于影響的概括 通 過 上面的模型,可以 對 A 中的每個句子 進 行打分,然后根據(jù)所打得分數(shù) 進行 仍打到小排序。而 這 個概括與摘要的區(qū) 別 就是,影響 較 大的句子,可能原來的作者并沒有 想到,因此在摘要中并沒有提及(正所 謂 無心插柳柳成 蔭 );而摘要中提及的部分 ,影響可能反而沒有那么大。其功能有點 類 似于 lucene 系 統(tǒng) ,與其不 同的是 paradise 是用 c++編 寫的。 ( 4) front_evidence是前臺模 塊 ,完成一個 類 似于天網(wǎng)搜索引擎的前臺界面。 壓縮 的 時 候,可以 選擇 vint、 pfordelta 等等各種 壓縮 算法para dise 系 統(tǒng) 接口 設計 得非常好,當需要 對 上面仸何一個模 塊進 行 修改 時 ,不需要修 改源代 碼 ,只需要自己重寫一些 繼 承的 類 就可以了。 IndexWriter * writer = new IndexWriter(fsdir, analyzer, pressorFactory)。 begin。 addDocument(pContent, writer, doc_id)。}} } 在上面的 這 段代 碼 中,可以看出,首先建立了一個分析模 塊 ,然后 選擇壓 縮 方式 為 pfordata,然后建立一個 IndexWriter, 這 個是建立索引的 類 。 doc_id) { paradise::index::document::Document document。 (field_content, NONSTATIC)。 (field_ID, NONSTATIC)。 } 上面的代 碼 中,首先建立一個 Content 域,內(nèi)容 為 我 們 的文獻全文形成的 字符串。 這 里我 們 將文獻的文本內(nèi)容存在 BerkeleyDB中的,因 此需要 獲 得每個文章的 id 號。我 們 知道,不可 能 對 整篇文章 進 行摘要算法,那 樣 會耗 費 大量的 時間 ,最 終 會 導 致前段所耗 費 的 時間 比后端 檢 索所花 費 的 時間還 多, 這顯 然是用 戶 無法接受的。 系 統(tǒng) 示意 圖 主界面 搜索 結(jié) 果界面 界面 第 6 章 實驗結(jié) 果與分析 實驗結(jié) 果 在我 們 的 實驗 數(shù)據(jù)里,我 們總 共抓取了 2500 篇 論 文,其中在我 們 的 論 文集 里被其他 論 文引用的文章個數(shù) 為 1686 篇, 總 共被引用 72471 次,平均每個 論 文被4 2 論 文引用。 具體分析 為 了很好的 說 明我 們 所做的 這 個系 統(tǒng) 的效果,下面隨即 選 取一篇 評論較 多論 文 為 例,來 說 明我 們獲 得的 這 些 評論 以及概括的作用。 Comment: (1)They may be considered separate and plementary to a cachebased approach. Raghavan and Sever [the cited paper], in one of the first papers on exploiting user query history, propose using a query base, built upon a set of persistent “optimal” queries submitted in the past, to improve the retrieval effectiveness for similar future queries. Markatos [10] shows the existence of temporal locality in queries, and pares the performance of different catching policies. (2)Our results show that even under the fairly general framework adopted in this paper, geographic search queries can be evaluated in a highly efficient manner and in some cases as fast as the corresponding textonly queries. The query processor that we use and adapt to geographic search queries was built by Xiaohui Long, and earlier versions were used in [26, 27]. It supports variants of all the optimizations described in Subsection 1. (3)the survey by Gaede and G168。 仍( 2)中可以看出, 該 條 評論說 明了它利用了源 論 文中的 請 求 處 理器,來 搭建了一個地理搜索引擎。這 也代表了 源 論 文后 續(xù) 工作的一種,方便了 讀 者以更加廣 闊 的 視 野來看待 該論 文。 仍( 2)中可以看出, 這 篇 論 文是基于網(wǎng) 頁 抓取以及真 實 得 搜索引擎 請求的 日志來 進 行 評測 的,在 單 獨 處 理以及與其他的 結(jié) 合方面都很好, 這 是 這篇 論 文的 成果。 綜 上所述,我 們 在 對這 篇文章完全沒有了解的情況下,通 過閱讀 摘要,知 道了它的大體內(nèi)容是做三 級緩 存的。 如果我 們 是在 閱讀 了 這 篇文章之后,再 閱讀 以上的 這 些信息,那么可能更加有助 于我 們對這 篇文章的理解,除了站在作者的角度考 慮他 對 自己的文章中那些部 分比 較側(cè) 重, 還 可以仍 別 的 專 家 對這 篇文章的 評論中 獲 得 這 篇文章 還 有那些更 加 值 得我 們 注意的和學 習 的地方。我 們還了解到 這 篇文章的重點部分,包括完成 緩 存之后的后 續(xù) 工作,與搜索引擎 結(jié)合, 記錄 用 戶 日志等等。 仍( 4)中可以看出, 這篇 論 文 為 了 實現(xiàn)緩 存 結(jié) 構,需要 對請 求的性 質(zhì)進 行 描述,并 計 算出一些概率方面的只是。 仍( 1)中可以看出 ,該論 文 緩 存不 僅僅 是 為 了提高每秒 鐘處 理的 請 求量, 還 能 夠進 行索引 壓縮 以及 請 求的 刪 減等工作。源 論 文并不 僅僅 在三 級緩 存 結(jié) 構上有研究,其 請 求 處理模型很可能用 處 更大。 仍( 1)中可以看出, 該 條 評論 并沒有源 論 文的三 級緩 存 結(jié) 構,而是比 較 看 重其中的一個方法:利用用 戶請 求的 歷 史 記錄 ,基于以前所 獲 得的比 較 理想的 查 詢詞 , 簡歷 一個用 戶請
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1