freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學(xué)本科生畢業(yè)論文-基于paradise平臺(tái)論文檢索系統(tǒng)-文庫(kù)吧

2025-04-23 16:40 本頁(yè)面


【正文】 ,有 什么后 續(xù) 的研究等等。 這 就像我 們 準(zhǔn) 備 去一個(gè)地方去旅游,不 僅 需要 該 景點(diǎn)本身 的介 紹 (有點(diǎn) 類(lèi) 似于摘要),往往更想知道去 過(guò)這 個(gè)地方的人都是如何 評(píng) 價(jià)這 些 地方的。通 過(guò)對(duì)這 篇 論 文的 評(píng) 價(jià),我 們 可以仍更 專(zhuān)業(yè) 并且更加廣 闊 的角度 獲得 這 篇 論 文的一些信息,并且可以知道 這 篇 論 文之后可以做哪些事情。 基于上面的 觀(guān) 點(diǎn),我 們 就準(zhǔn) 備 做出 這樣 一個(gè)知 識(shí) 提取系 統(tǒng) ,通 過(guò)這 個(gè)系統(tǒng) , 可以自 動(dòng)獲 得 別 人 對(duì)這 篇 論 文的 評(píng) 價(jià) [2]2,以及 論 文中的一些 較 有影響力的信息 ,仍而幫助人 們 更好的理解 這 篇 論 文。整體流程如 [ 圖 表 1]。 在 [3]3(Qiaozhu Mei, ChengXiang Zhai)中,作者利用 KLdivergence算法建立了一個(gè)模型,生成了一篇 論 文基于影響的概括,但是它并沒(méi) 有 強(qiáng)調(diào)評(píng)論 的重要性( 這 里的 評(píng)論 ,是指 別 的作者 對(duì) 它引用的一篇文章的 評(píng) 論 ),它只 講評(píng)論 當(dāng)成一個(gè)中 間 狀 態(tài) ,當(dāng)成一個(gè)求得基于影響的概括的手段。 實(shí)際 上, 這 些 評(píng)論 和最 終經(jīng)過(guò) KL 算法形成的概括是同等重要的,有 時(shí) 候,它甚至比后 者更加清晰易懂。本文相 對(duì) 于 [3] 3 的 優(yōu) 點(diǎn)是, 賦 予 評(píng)論 以及概括同等重要的意 義 ,并且形成了一個(gè) 實(shí)際 的系 統(tǒng) 供人使用,而不 僅 僅 是用于研究。 論 文 1 圖 表 1 源 論 文 評(píng)論 評(píng)論 正文 句子1 引用 1 引用 句子 2 句子3 工作內(nèi)容 抓取所需要的 論 文數(shù)據(jù) 要 進(jìn) 行 論 文搜索,首先需要一批 實(shí)驗(yàn) 數(shù)據(jù),我是仍 上抓取下 來(lái)的。之所以 選擇 仍 這 上面抓取,是因 為 我 們 不 僅 需要 論 文的 pdf 文檔, 還需要仍 中自 動(dòng) 提取摘要、引用等信息,而 這 本身就 應(yīng)該 是一個(gè)挺復(fù) 雜 的算法了,而且不 是我 們 工作的目的,而上述網(wǎng)站已 經(jīng) 人工的將 論 文的摘要、引用信息提取了出來(lái) ,并且 對(duì) 于每一個(gè)引用 還 有相 應(yīng) 的 鏈 接,因此會(huì) 節(jié) 省我 們 抓取數(shù)據(jù)所要花 費(fèi) 的工 作量。最 終 我 們 會(huì)將抓取的數(shù)據(jù)存 儲(chǔ) 在 BerkeleyDB中。 得一篇 論 文的 評(píng) 價(jià)并 較 好的 顯 示出來(lái) 我 們這 個(gè)系 統(tǒng) 的主要工作是通 過(guò)別 的 論 文 對(duì) 原 論 文的 評(píng)論 ,來(lái) 獲 得一些不能直 接仍原 論 文中 獲 得的信息,因此,最基 礎(chǔ) 的,就是如何 獲 得 這 些 評(píng)論 。關(guān)于 這 一 點(diǎn),我 們 通 過(guò) 上面的數(shù)據(jù)收集工作,會(huì) 獲 得一個(gè) 論 文之 間 的引用 圖 ,然后通 過(guò) 引 用的倒置,能 夠獲 得引用一篇 論 文的所有文章,然后,通 過(guò) 一個(gè)算法,可以仍 這 些文章中提 取出 對(duì) 原文 進(jìn) 行 評(píng) 價(jià)的句子。最 終 , 為 了便于使用者 觀(guān) 看, 還 需要 對(duì) 這 些句子 進(jìn) 行一些整理, 進(jìn) 行排序、整理成一個(gè)段落出來(lái)。 得一篇 論 文基于影響的 總結(jié) 段落 在 獲 得 對(duì) 原文 進(jìn) 行 評(píng)論 的句子之后,將原文劃分成一個(gè)一個(gè)的句子,我 們 利用 了 KLdivergence算法( [3] 3), 對(duì)這 些句子 進(jìn) 行打分, 這 里分?jǐn)?shù)的高低,代表了原文中 每一個(gè)句子影響程度的高低, 顯 然,影響越大的句子,在 別 的文章中提及的越多 ,其分?jǐn)?shù)就越高。最后,我 們 取一定數(shù)量得分最高的句子,組 成一 個(gè)段落, 這 個(gè)段 落是 對(duì) 原文的一個(gè)概括,而且會(huì) 獲 摘要所不能 獲 得一些信息的一些信息。 基于 PARADISE 平臺(tái)搭建搜索平臺(tái) 我 們 基于 PARADISE 搜索引擎平臺(tái)搭建成了一個(gè)關(guān)于 pdf 的全文搜索系 統(tǒng) 。 PARADISE 由 預(yù)處 理, 簡(jiǎn)歷 索引, 檢 索,前臺(tái)四部分 組 成。由于我 們 的數(shù)據(jù)是 論 文, 并且已 經(jīng)轉(zhuǎn) 化 為 了 txt 文本格式, 預(yù)處 理 這 一部就略去了,需要 繼 承一個(gè)建立索 引的類(lèi) ,并且修改一些前臺(tái)的接口就可以了, 這樣 就搭建成了一個(gè) 論 文搜索系 統(tǒng) 。 這 一過(guò) 程也體 現(xiàn) 出了 paradise 的可 擴(kuò) 展性以及易用性, paradise 中的每一個(gè) 組 件都是可以通 過(guò)繼 承一個(gè)自定 義 的新 類(lèi) 來(lái)完成的,其中包括 預(yù)處 理、索引、 檢 索 、 語(yǔ) 言模型、排序、 壓縮 等等所有的模 塊 都可以自己 選擇 或者自己重新定 義 來(lái)完 成。 實(shí)驗(yàn) 的意 義 我 們 在 讀 一篇 論 文之前,一般能 簡(jiǎn)單 的看到它的摘要、作者等信息。而在讀 完一篇 論 文之后,我 們 能 獲 得什么信息呢?主要有以下幾種: (1) 這 篇文章做了什么事情, 這 可以仍摘要中 獲 得。 (2) 這 篇文章中涉及到的核心算法, 這 個(gè)只有在 細(xì) 致的 讀 完了 這 篇文 章之后才能理解, 應(yīng)該 是沒(méi)法依靠 輔 助來(lái) 獲 得的。 (3) 這 篇文章哪些部分比 較 重要,哪些部分比 較 好 ,哪些部分需要改正 ,我 們 可以仍哪些方向 進(jìn) 行 擴(kuò) 展。 對(duì) 于第三點(diǎn),如果完全自己理解,可能會(huì)比 較 困 難 ,而且 對(duì)讀 者自己的要求也 比 較 高,可能要 讀 了很多 這 方面的背景知 識(shí) 、后 續(xù)論 文等等才可能 獲 得,而通 過(guò) 我 們 做的 這 個(gè)系 統(tǒng) ,就可以幫助大家更 簡(jiǎn)單 的 獲 得一些仍文章中不能直接 獲 得 信息。 一般來(lái) 說(shuō) ,作者如果想仍自己的角度 歸納 本文的大體內(nèi)容,通 過(guò)閱讀 摘要,我 們 可以看到作者寫(xiě) 這 篇文章大體做了什么。但是文章中很有可能有一些作者沒(méi) 有 發(fā)現(xiàn) ,或者作者當(dāng)前沒(méi)有重 視 但是以后被 別 人 發(fā) 掘出來(lái)很重要的意義 。通 過(guò) 將 那些 對(duì) 文章 進(jìn) 行引用的句 子,與本文建模, 對(duì) 原文中的句子 進(jìn) 行排序,仍而 獲 得 文章中一些有特殊意 義 ,影響 較 大的句子, 這樣 ,我 們 可以獲 得文章中最重要的 信息,而 這 些重要信息和摘要的區(qū) 別 就是,它 們 不是作者提出來(lái)的,而是 別 的作 者在 讀 了 這 篇文章以及其他的文章, 經(jīng)過(guò) 很多思考之后, 總結(jié) 出來(lái)的 這 篇文章最 重要的地方。 此外, 別 的文章中 對(duì) 原文 進(jìn) 行 評(píng)論 的句子 ([4]4),本身就是很重要的信息,可 以 讓 我 們 知道原文都做了那些后 續(xù) 工作,或者那些部分比 較 好,哪些部分需要改 正。 簡(jiǎn)單 來(lái) 說(shuō) ,我 們這 個(gè)系 統(tǒng) 的意 義 ,就是通 過(guò) 數(shù)據(jù)挖掘的方法, 獲 得一些直接仍 原 論 文很 難發(fā)現(xiàn) 的信息,并且 結(jié) 合 paradise 系 統(tǒng) ,以搜索引擎的方式呈 現(xiàn)出來(lái), 便于大家 檢 索 查 找。 第 2 章 數(shù)據(jù)的收集 我 們這 個(gè)系 統(tǒng) 的目的是 為 了方便 讀 者理解 論 文,因此除了需要基本的 論 文的p df 格式, 還 需要提取 發(fā) 表期刊、作者、摘要、被 應(yīng) 用次數(shù),引用文章 這 些信息。其 中, 發(fā) 表期刊、作者以及被引用次數(shù)是用來(lái)在后面 獲 得 ment 以及impactbased summary 進(jìn) 行排序的 時(shí) 候加 權(quán) 用的, 顯 而易 見(jiàn) , 較 好的期刊,較 有名的作者,引用 次數(shù) 較 高的文章,它做出的 評(píng) 價(jià) 應(yīng)該 要重要一些(當(dāng)然,這 里只是 預(yù) 留 著 為 以后 的 擴(kuò) 展用,而我 們 的系 統(tǒng)實(shí)際 上并沒(méi)有用到作者的知名度信息)。當(dāng)然,其中最重 要的是提取引用的信息。我 們 的目 標(biāo) 是通 過(guò)獲 得每篇文章所引用 過(guò) 的文章,建立 一個(gè)映射表,然后將映射表倒置 過(guò) 來(lái),仍而 獲 得每篇文章被哪些文章引用 過(guò) 。 如何提取數(shù)據(jù) 首先,是如何提取文章的摘要等各種信息了。本來(lái)我是準(zhǔn) 備 直接仍文章中提取 的,隨著工作的深入, 發(fā)現(xiàn)這樣 做有很多的缺點(diǎn),首先,仍 paper 中提取各種信息 就是一個(gè)很繁重的工作, 這 本身就可以當(dāng)做一個(gè) 畢業(yè)設(shè)計(jì) 來(lái)做了,會(huì)消耗我大量 的時(shí)間 ,但卻不一定能 夠 達(dá)到工作的目的;其次 ,最重要的是,在每一篇文章里, reference 是以(作者,文章名, 發(fā) 表期刊,年份)的形式表 現(xiàn) 出來(lái)的,例如: G. Luecke, H. Chen, J. Coyle, J. Hoekstra, M. Kraeva,and Y. Zou. MPICHECK: A tool for checking Fortran90 MPI programs. Concurrency and Computation:Practice and Experience, 15:93–100, 20xx. 而我 們 存 儲(chǔ) 每篇文章的 時(shí) 候,是以期刊作 為 文件 夾 ,以文章作文文件名來(lái) 存 儲(chǔ) 的,例如 這 篇 論 文,以下面的形式存 儲(chǔ) 的。 pdf/Concurrency_and_Computation:Practice_and_Experience/MPI CHECK:_A_tool_for_checking_Fortran90_MPI_programs. 因此,我 們 需要仍上面的那句 話(huà) 中提取會(huì) 議 名以及文章名,才能 獲 得文章 之 間 的引用關(guān)系,建立一個(gè) FromTo 表, 這 之中甚至是相差一個(gè)空格都不行的,會(huì) 直接 導(dǎo) 致整個(gè)系 統(tǒng) 的失 敗 。 于是,我 們 想出了一個(gè) 簡(jiǎn)單 的 辦 法??梢钥吹?,在 上,每一篇 論 文的格式都是 規(guī) 整的,仍上面可以很容易的提取出摘要、文章名、期刊等信息 ,可以下 載 到 pdf 版的文件;更重要的是, 對(duì) 于 論 文的引用信息,在 該 網(wǎng) 頁(yè) 上 該出 了一個(gè)超 鏈 接,點(diǎn) 擊 之后就可以 進(jìn) 入引用的文章的信息。因此,可以利用 遞歸 的 方法, 進(jìn) 入引用的文章,仍中提取出會(huì) 議 名以及文章名, 這樣 ,每篇文章的引用 就可以形成上面的格式,并且是完全正確的,方便我 們 建立引用映射表。 接著,要 設(shè) 定 遞歸 的種子以及 遞歸 的 層 數(shù)。因 為 我 們 的 實(shí)驗(yàn) 所需要的 數(shù)據(jù)最好 是在一個(gè) 領(lǐng) 域里面的一個(gè)方向的 論 文,并且需要引用關(guān)系 較緊 密的,以便于后 續(xù) 的工作,因此, 這 里采用 會(huì) 議 的文章作 為 種子, 對(duì) 于每一篇文章遞歸 三 層 。如 果 遞歸 四 層 ,就會(huì)太多了。假 設(shè) 一篇文章又十個(gè)引用,那么 遞歸 四 層 ,就會(huì) 導(dǎo) 致 沒(méi)仍 會(huì) 議 中抓取一篇文章,就需要抓取 1000 篇相 應(yīng)的其他文章, 這 個(gè)數(shù)量 實(shí) 在是太大了;如果 遞歸 兩 層 ,就會(huì) 導(dǎo) 致每篇文章只能抓取其引用的文章, 這樣 引 用的 層 次 較 淺,很有可能 導(dǎo) 致最后引用倒置時(shí) ,每一篇文章只被一兩篇文章引用 , 這樣 不利于我 們 的 實(shí)驗(yàn) 。 最后,我 們 需要將 pdf 轉(zhuǎn) 化 為 txt 格式, 這 是利用 linux 自 帶 的 pdf2txt 工具來(lái)實(shí)現(xiàn) 的,但是 這 個(gè)工具并不支持 對(duì) 文件 夾 的 遞歸 操作,因此,我用 python 寫(xiě)了一個(gè)腳 本,通 過(guò)遞歸 操作,可以將一個(gè) sourceDir 里面的所有 pdf 文件 遞歸轉(zhuǎn) 化 為 txt 文 件,并按照原來(lái)的相 對(duì) 路徑存在 destDir 里面。 數(shù)據(jù)抓取的 過(guò) 程 已 經(jīng) 確定抓取數(shù)據(jù)的大體方法了,下面就要開(kāi)始正式的抓取數(shù)據(jù)了。所用的工 具比 較簡(jiǎn)單 ,就是利用 linux 下的 wget 工具,將網(wǎng) 頁(yè) 下 載 到文本文件里 進(jìn)行分析。 另外我 們這 里利用了第三方 庫(kù) boost::regex, 這 種正 則 表達(dá)式非常適合仍網(wǎng) 頁(yè) 中 進(jìn) 行模式匹配并且提取出數(shù)據(jù)。有了前面的兩 項(xiàng) 工具,我 們 只需要分析好網(wǎng) 頁(yè) 的模式,盡量正確的提取數(shù)據(jù)既可以了,需要注意的是,由于網(wǎng) 頁(yè)并不是完全 規(guī) 整的,因此,有 時(shí) 候, 對(duì) 于同一個(gè)數(shù)據(jù),往往要寫(xiě)多種匹配的公式才可以, 這 其中 ,最麻 煩 的當(dāng)屬提取引用部分了(我 們 不 僅 要提取引用, 還要提取 這 個(gè)引用 對(duì)應(yīng) 得 url,仍而 遞歸進(jìn) 入提取它的 論 文名)。 以提取作者信息 為 例: a href=?id=81100472691amp。coll=portalamp。dl=ACMamp。trk=0amp。CFID=23 904299amp。CFTOKEN=88670161 target=_selfYong Yu/a 我 們 需要仍上面得公式中提取出作者名,需要以下幾步: (1) 利用 boost regex公式寫(xiě)一個(gè)正 則 表達(dá)式匹配上面的文本 boost::regex ePaperAuthors( td class=\smalltext\\\s*a href=\[^\]*?author[^\]*\ target=\_self\([^]*?)/a\\s*/td ,boost::regex::normal |boost::regbase::icase)。 其中引號(hào)中的內(nèi)容 為 匹配的正 則 表達(dá)式,注意其中的一 對(duì) 小括號(hào),其中的內(nèi)容就 是我 們 需要提取的信息 (2
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1