freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學(xué)本科生畢業(yè)論文-基于paradise平臺論文檢索系統(tǒng)-在線瀏覽

2025-08-06 16:40本頁面
  

【正文】 文之后可以做哪些事情。整體流程如 [ 圖 表 1]。 實(shí)際 上, 這 些 評論 和最 終經(jīng)過 KL 算法形成的概括是同等重要的,有 時(shí) 候,它甚至比后 者更加清晰易懂。 論 文 1 圖 表 1 源 論 文 評論 評論 正文 句子1 引用 1 引用 句子 2 句子3 工作內(nèi)容 抓取所需要的 論 文數(shù)據(jù) 要 進(jìn) 行 論 文搜索,首先需要一批 實(shí)驗(yàn) 數(shù)據(jù),我是仍 上抓取下 來的。最 終 我 們 會將抓取的數(shù)據(jù)存 儲 在 BerkeleyDB中。關(guān)于 這 一 點(diǎn),我 們 通 過 上面的數(shù)據(jù)收集工作,會 獲 得一個(gè) 論 文之 間 的引用 圖 ,然后通 過 引 用的倒置,能 夠獲 得引用一篇 論 文的所有文章,然后,通 過 一個(gè)算法,可以仍 這 些文章中提 取出 對 原文 進(jìn) 行 評 價(jià)的句子。 得一篇 論 文基于影響的 總結(jié) 段落 在 獲 得 對 原文 進(jìn) 行 評論 的句子之后,將原文劃分成一個(gè)一個(gè)的句子,我 們 利用 了 KLdivergence算法( [3] 3), 對這 些句子 進(jìn) 行打分, 這 里分?jǐn)?shù)的高低,代表了原文中 每一個(gè)句子影響程度的高低, 顯 然,影響越大的句子,在 別 的文章中提及的越多 ,其分?jǐn)?shù)就越高。 基于 PARADISE 平臺搭建搜索平臺 我 們 基于 PARADISE 搜索引擎平臺搭建成了一個(gè)關(guān)于 pdf 的全文搜索系 統(tǒng) 。由于我 們 的數(shù)據(jù)是 論 文, 并且已 經(jīng)轉(zhuǎn) 化 為 了 txt 文本格式, 預(yù)處 理 這 一部就略去了,需要 繼 承一個(gè)建立索 引的類 ,并且修改一些前臺的接口就可以了, 這樣 就搭建成了一個(gè) 論 文搜索系 統(tǒng) 。 實(shí)驗(yàn) 的意 義 我 們 在 讀 一篇 論 文之前,一般能 簡單 的看到它的摘要、作者等信息。 (2) 這 篇文章中涉及到的核心算法, 這 個(gè)只有在 細(xì) 致的 讀 完了 這 篇文 章之后才能理解, 應(yīng)該 是沒法依靠 輔 助來 獲 得的。 對 于第三點(diǎn),如果完全自己理解,可能會比 較 困 難 ,而且 對讀 者自己的要求也 比 較 高,可能要 讀 了很多 這 方面的背景知 識 、后 續(xù)論 文等等才可能 獲 得,而通 過 我 們 做的 這 個(gè)系 統(tǒng) ,就可以幫助大家更 簡單 的 獲 得一些仍文章中不能直接 獲 得 信息。但是文章中很有可能有一些作者沒 有 發(fā)現(xiàn) ,或者作者當(dāng)前沒有重 視 但是以后被 別 人 發(fā) 掘出來很重要的意義 。 此外, 別 的文章中 對 原文 進(jìn) 行 評論 的句子 ([4]4),本身就是很重要的信息,可 以 讓 我 們 知道原文都做了那些后 續(xù) 工作,或者那些部分比 較 好,哪些部分需要改 正。 第 2 章 數(shù)據(jù)的收集 我 們這 個(gè)系 統(tǒng) 的目的是 為 了方便 讀 者理解 論 文,因此除了需要基本的 論 文的p df 格式, 還 需要提取 發(fā) 表期刊、作者、摘要、被 應(yīng) 用次數(shù),引用文章 這 些信息。當(dāng)然,其中最重 要的是提取引用的信息。 如何提取數(shù)據(jù) 首先,是如何提取文章的摘要等各種信息了。 pdf/Concurrency_and_Computation:Practice_and_Experience/MPI CHECK:_A_tool_for_checking_Fortran90_MPI_programs. 因此,我 們 需要仍上面的那句 話 中提取會 議 名以及文章名,才能 獲 得文章 之 間 的引用關(guān)系,建立一個(gè) FromTo 表, 這 之中甚至是相差一個(gè)空格都不行的,會 直接 導(dǎo) 致整個(gè)系 統(tǒng) 的失 敗 ??梢钥吹?,在 上,每一篇 論 文的格式都是 規(guī) 整的,仍上面可以很容易的提取出摘要、文章名、期刊等信息 ,可以下 載 到 pdf 版的文件;更重要的是, 對 于 論 文的引用信息,在 該 網(wǎng) 頁 上 該出 了一個(gè)超 鏈 接,點(diǎn) 擊 之后就可以 進(jìn) 入引用的文章的信息。 接著,要 設(shè) 定 遞歸 的種子以及 遞歸 的 層 數(shù)。如 果 遞歸 四 層 ,就會太多了。 最后,我 們 需要將 pdf 轉(zhuǎn) 化 為 txt 格式, 這 是利用 linux 自 帶 的 pdf2txt 工具來實(shí)現(xiàn) 的,但是 這 個(gè)工具并不支持 對 文件 夾 的 遞歸 操作,因此,我用 python 寫了一個(gè)腳 本,通 過遞歸 操作,可以將一個(gè) sourceDir 里面的所有 pdf 文件 遞歸轉(zhuǎn) 化 為 txt 文 件,并按照原來的相 對 路徑存在 destDir 里面。所用的工 具比 較簡單 ,就是利用 linux 下的 wget 工具,將網(wǎng) 頁 下 載 到文本文件里 進(jìn)行分析。有了前面的兩 項(xiàng) 工具,我 們 只需要分析好網(wǎng) 頁 的模式,盡量正確的提取數(shù)據(jù)既可以了,需要注意的是,由于網(wǎng) 頁并不是完全 規(guī) 整的,因此,有 時(shí) 候, 對 于同一個(gè)數(shù)據(jù),往往要寫多種匹配的公式才可以, 這 其中 ,最麻 煩 的當(dāng)屬提取引用部分了(我 們 不 僅 要提取引用, 還要提取 這 個(gè)引用 對應(yīng) 得 url,仍而 遞歸進(jìn) 入提取它的 論 文名)。coll=portalamp。trk=0amp。CFTOKEN=88670161 target=_selfYong Yu/a 我 們 需要仍上面得公式中提取出作者名,需要以下幾步: (1) 利用 boost regex公式寫一個(gè)正 則 表達(dá)式匹配上面的文本 boost::regex ePaperAuthors( td class=\smalltext\\\s*a href=\[^\]*?author[^\]*\ target=\_self\([^]*?)/a\\s*/td ,boost::regex::normal |boost::regbase::icase)。 boost::regex_split(std::back_inserter(authors), content, ePaperAuthors)。 還 有一些文章,確 實(shí) 沒有摘要、引用或者其他信息( 這 些文章多出 現(xiàn) 在引用 鏈 的 頂層 ,主要是一些 書 籍等參考 資 料,所以也比 較 正常),遇到 這 些情況我 們 就不抓 取下來了。首先, 對 于 pdf 的格式,只能存 在文件系 統(tǒng) 里,按正常的方式存 儲 。 berkeleyDB 是一種 輕 量 級 的數(shù)據(jù) 庫 , Mysql 等數(shù)據(jù) 庫 底 層 就是利用berkel eyDB 來完成的。 對 于每一篇文章的基本信息 metadata,按照【表格 1】中的形式存入 berkeleyDB中: 表格 1 Key int64_t 的一個(gè)整數(shù) 字符流 ,存 儲 元數(shù)據(jù)信息,按如下格式: **************************************************name **************************************************source Value **************************************************abstract **************************************************citationCount **************************************************authors **************************************************references **************************************************referenceName **************************************************url 獲 得 這 些基本信息之后,我 們還 要根據(jù) 這 些元信息, 陸續(xù) 建立一些berkeley DB 文件,用于存 儲 其他信息,如 [ 表格 2]: 表格 2 文件名 Key Value int64_t 的整數(shù), 論 文 ID 這 篇 論 文的全部文本內(nèi)容 int64_t 的整數(shù), 論 文 ID 用于存 儲 一篇 論 文所引用 的所有文章 int64_t 的整數(shù), 論 文 ID 用于存 儲 一篇 論 文被哪些 文章所引用 int64_t 的整數(shù), 論 文 ID 存 儲 最 終 要 顯 示在 頁 面上 的文章的 評 價(jià) int64_t 的整數(shù), 論 文 ID 存 儲 最 終 要 顯 示在 頁 面上 的基于影響的文章的概括 其中 是通 過 將 pdf 格式 轉(zhuǎn) 化 為 txt 之后 獲 得的。 獲 得 之后,對 其 進(jìn) 行倒 置,就可以 獲 得 的內(nèi)容 這 里之所以 選擇 BerkeleyDB進(jìn) 行 存 儲 ,是因 為 它有以下 這 些 優(yōu) 點(diǎn): ? 嵌入式( Embedded):它直接 鏈 接到 應(yīng) 用程序中,與 應(yīng) 用程序運(yùn)行于同 樣 的 地址空 間 中,因此,無 論 是在網(wǎng) 絡(luò) 上不同 計(jì) 算機(jī)之 間還 是在同一臺 計(jì) 算機(jī) 的不同 進(jìn) 程之 間 ,數(shù)據(jù) 庫 操作并不要求 進(jìn) 程 間 通 訊 。 對 于我 們這 個(gè)系 統(tǒng) , 后臺程序是由 c++完成,而前臺程序是由python完成,他 們 都會共同 訪問 一些文件,通 過 存 儲 在 BerkeleyDB進(jìn)行存 儲 ,就解決了不同 語 言之 間 兼容 的 問題 。它并不需 要搭建一個(gè)數(shù)據(jù) 庫 朋 務(wù) 器,以用 戶 、朋 務(wù) 器形式 訪問 數(shù)據(jù) 庫 ,而是以函數(shù) ??調(diào) 用的形式。 這樣 提高了我 們 的系 統(tǒng) 的 實(shí) 用性,當(dāng)用 戶 需要自己搭建一個(gè)我 們 的 論 文系 統(tǒng)時(shí) ,不用再去搭建數(shù)據(jù) 庫 朋務(wù) 器, 進(jìn) 行各種繁 瑣 的配置 。下面我 們 就要 結(jié) 合前面 獲 得的數(shù)據(jù),包括 論 文的文本、元數(shù)據(jù),來 獲 得一篇 論 文的 評論 集。我 們 相信,如果 Bi對 A進(jìn) 行了引用,那么 Bi中可能會有一些句子 對 A進(jìn) 行了 評 價(jià)。 (4) .對 于 (3)的情況,有 時(shí) 候并不只是 對 k 進(jìn) 行引用,可能文章中的一 句 話 代表的是好幾篇文章的工作概括,因此會出 現(xiàn) “[i,k,j]”這 種 類 型的 符號來 對 A進(jìn) 行引用,而且出 現(xiàn) 的概率很高。 圖 表 2 如 [ 圖 表 2]所示流程,具體 實(shí)現(xiàn) 的 時(shí) 候,先要將 Bi按句子 進(jìn) 行劃分 為 一個(gè)句子序列 {Bis1, Bis2,Bis3.....},然后遍 歷這 個(gè)句子序列, 對 于每一個(gè)句子,按照上面的前四條 規(guī)則進(jìn) 行 評 判,如果 滿 足其中仸意一條, 則這 個(gè)句子是候 選 句子集合中的一個(gè), 并將其前后兩個(gè)句子也合到一起,添加的候 選 句子 集合中。 獲 得 評論 段落 獲 得了候 選 句子集之后,我 們 需要 對 其 進(jìn) 行適當(dāng)?shù)呐判颍灾?選 出 較 好的幾個(gè) 句子,最 終顯 示在 頁 面上。 實(shí)際 上,有 時(shí) 候越是和原文的 觀 點(diǎn)不同,反而可能越重要,它可能是 對這 篇文章的批判,也 有可能是原 文的作者并在寫 paper 是并沒有 發(fā)現(xiàn) 的一些問題 , 這對 我 們尋 找后 續(xù) 工作 時(shí) 可能會非常重要。 同 時(shí) ,需要注意的是,如果一個(gè)篇 論 文的被引用次數(shù)很高,而且它又有兩段 評 論 原文的句子 時(shí) ,那么 這 兩段會一起出 現(xiàn) 在最 終 的 結(jié) 果里,在 這 里我 們 就需要 對 結(jié) 果 進(jìn) 行 調(diào) 整,保 證 在 權(quán) 重相同的情 況下,盡可能 選擇 盡量不同的文章的 評論 。所 謂 基于影響的概括, 簡單 來 說 ,就是某句 話 與 評論 之 間 的關(guān) 系越 緊 密,那么 這 句 話 的影響力就越大。 建模之前我 們 所有的數(shù)據(jù) 在建模之前,我 們 先來看看我 們 已 經(jīng)獲 得了哪些數(shù)據(jù): (1)所有 論 文集合 D,以及 D 里所出 現(xiàn) 的所有 單詞 ,構(gòu)成一個(gè) 單詞 表 V,并且可以統(tǒng) 計(jì) 出 每個(gè) 單詞 w 出 現(xiàn) 的次數(shù) C(w,D) (2)對 于一篇 論 文 d,將其劃分 為 多個(gè)句子 {s1, s2, s3……} (3)已 經(jīng)獲 得了 這 片 論 文 進(jìn) 行 評論 的所有句子 {e1, e2, e3……}, 把他 們 的集合成 為 C( Citation Context)。 這 里的打分,主要是基于 詞頻以及相似度來做的 。 顯 然,其 值 越小, Score 則 越大,它也越能代表文章以及其他文章 對 它的 評 價(jià)的意思(因 為 它只 要 刪 除 較 少的信息) 可以看出,公式中最重要的是求出 p(w | I )和 p(w | s ) (1) p(w | S ) c(w, s) s * p(w
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1