freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大學(xué)本科生畢業(yè)論文-基于paradise平臺(tái)論文檢索系統(tǒng)(編輯修改稿)

2025-07-02 16:40 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 ) 利用 split 函數(shù),將 結(jié) 果存入 list 里面 liststring authors。 boost::regex_split(std::back_inserter(authors), content, ePaperAuthors)。 這樣 ,文章中所有匹配上面正 則 表達(dá)式的字符串,其中的作者信息( 即上面括號(hào) 中的內(nèi)容),都會(huì)存在 authors 這 個(gè)容器里面 還 需要注意的一點(diǎn)就是,由于網(wǎng) 頁(yè) 的不 規(guī) 整性,所以要排除一些 錯(cuò)誤 的情況。 還 有一些文章,確 實(shí) 沒(méi)有摘要、引用或者其他信息( 這 些文章多出 現(xiàn) 在引用 鏈 的 頂層 ,主要是一些 書(shū) 籍等參考 資 料,所以也比 較 正常),遇到 這 些情況我 們 就不抓 取下來(lái)了。 數(shù)據(jù)的存 儲(chǔ) 及解析 在將數(shù)據(jù)仍網(wǎng) 頁(yè) 下 載 下來(lái)之后,需要存 儲(chǔ) 起來(lái)。首先, 對(duì) 于 pdf 的格式,只能存 在文件系 統(tǒng) 里,按正常的方式存 儲(chǔ) 。 對(duì) 于其他的信息, 這 里 選擇 存 儲(chǔ) 在 berkeleyD B 里面。 berkeleyDB 是一種 輕 量 級(jí) 的數(shù)據(jù) 庫(kù) , Mysql 等數(shù)據(jù) 庫(kù) 底 層 就是利用berkel eyDB 來(lái)完成的。它的有點(diǎn)是可移 動(dòng) 性,不用想 Mysql 那 樣 搭建朋 務(wù) 器,而且 讀 取數(shù) 據(jù) 時(shí)較 快。 對(duì) 于每一篇文章的基本信息 metadata,按照【表格 1】中的形式存入 berkeleyDB中: 表格 1 Key int64_t 的一個(gè)整數(shù) 字符流 ,存 儲(chǔ) 元數(shù)據(jù)信息,按如下格式: **************************************************name **************************************************source Value **************************************************abstract **************************************************citationCount **************************************************authors **************************************************references **************************************************referenceName **************************************************url 獲 得 這 些基本信息之后,我 們還 要根據(jù) 這 些元信息, 陸續(xù) 建立一些berkeley DB 文件,用于存 儲(chǔ) 其他信息,如 [ 表格 2]: 表格 2 文件名 Key Value int64_t 的整數(shù), 論 文 ID 這 篇 論 文的全部文本內(nèi)容 int64_t 的整數(shù), 論 文 ID 用于存 儲(chǔ) 一篇 論 文所引用 的所有文章 int64_t 的整數(shù), 論 文 ID 用于存 儲(chǔ) 一篇 論 文被哪些 文章所引用 int64_t 的整數(shù), 論 文 ID 存 儲(chǔ) 最 終 要 顯 示在 頁(yè) 面上 的文章的 評(píng) 價(jià) int64_t 的整數(shù), 論 文 ID 存 儲(chǔ) 最 終 要 顯 示在 頁(yè) 面上 的基于影響的文章的概括 其中 是通 過(guò) 將 pdf 格式 轉(zhuǎn) 化 為 txt 之后 獲 得的。 是 對(duì) 整個(gè) 論 文的引用關(guān)系 圖進(jìn) 行解析 獲 得的,仍上面的元數(shù)據(jù)中,我 們 可以 獲 得每個(gè) 論 文所引用的 論 文的名稱, 這樣 ,我 們 可以通 過(guò)這 些名稱,來(lái) 獲 得 這 個(gè) 論文所引 用的所有 論 文的 ID 號(hào),并且存 儲(chǔ) 到數(shù)據(jù) 庫(kù) 中。 獲 得 之后,對(duì) 其 進(jìn) 行倒 置,就可以 獲 得 的內(nèi)容 這 里之所以 選擇 BerkeleyDB進(jìn) 行 存 儲(chǔ) ,是因 為 它有以下 這 些 優(yōu) 點(diǎn): ? 嵌入式( Embedded):它直接 鏈 接到 應(yīng) 用程序中,與 應(yīng) 用程序運(yùn)行于同 樣 的 地址空 間 中,因此,無(wú) 論 是在網(wǎng) 絡(luò) 上不同 計(jì) 算機(jī)之 間還 是在同一臺(tái) 計(jì) 算機(jī) 的不同 進(jìn) 程之 間 ,數(shù)據(jù) 庫(kù) 操作并不要求 進(jìn) 程 間 通 訊 。 ??? Berkeley DB為 多種 編 程 語(yǔ) 言提供了 API 接口,其中包括 C、 C++、Java、 Perl、 Tcl、 Pyt hon和 PHP,所有的數(shù)據(jù) 庫(kù) 操作都在程序 庫(kù) 內(nèi)部發(fā) 生。 對(duì) 于我 們這 個(gè)系 統(tǒng) , 后臺(tái)程序是由 c++完成,而前臺(tái)程序是由python完成,他 們 都會(huì)共同 訪問(wèn) 一些文件,通 過(guò) 存 儲(chǔ) 在 BerkeleyDB進(jìn)行存 儲(chǔ) ,就解決了不同 語(yǔ) 言之 間 兼容 的 問(wèn)題 。 ? ? 輕 便靈活( Portable):它可以運(yùn)行于幾乎所有的 UNIX 和 Linux 系 統(tǒng) 及其 變 種系 統(tǒng) 、 Windows 操作系 統(tǒng) 以及多種嵌入式 實(shí)時(shí) 操作系 統(tǒng) 之下。它并不需 要搭建一個(gè)數(shù)據(jù) 庫(kù) 朋 務(wù) 器,以用 戶 、朋 務(wù) 器形式 訪問(wèn) 數(shù)據(jù) 庫(kù) ,而是以函數(shù) ??調(diào) 用的形式。一旦 Berkeley DB 被 鏈 接到 應(yīng) 用程序中, 終 端用 戶 一般根本感 覺(jué) 不到有一個(gè)數(shù)據(jù) 庫(kù) 系 統(tǒng) 存在。 這樣 提高了我 們 的系 統(tǒng) 的 實(shí) 用性,當(dāng)用 戶 需要自己搭建一個(gè)我 們 的 論 文系 統(tǒng)時(shí) ,不用再去搭建數(shù)據(jù) 庫(kù) 朋務(wù) 器, 進(jìn) 行各種繁 瑣 的配置 。 ? 第 3 章 生成 評(píng)論 集 通 過(guò) 上面的內(nèi)容之后,我 們獲 得了所有基本的信息,其中,最重要的,獲 得了 tofrom 表, 該 表的 key 是一篇 論 文 A 的 ID, value 是引用 A 的所有 論文 ID 的集合 。下面我 們 就要 結(jié) 合前面 獲 得的數(shù)據(jù),包括 論 文的文本、元數(shù)據(jù),來(lái) 獲 得一篇 論 文的 評(píng)論 集。 獲 得 評(píng) 價(jià)的候 選 句子集 通 過(guò) tofrom表,我 們 可以 獲 得一個(gè)集合 {B1,B2,B3...},其中 Bi對(duì) A進(jìn) 行了引用。我 們 相信,如果 Bi對(duì) A進(jìn) 行了引用,那么 Bi中可能會(huì)有一些句子 對(duì) A進(jìn) 行了 評(píng) 價(jià)。一般有以下幾種情況 : (1) Bi中的句子出 現(xiàn) 了 A的 論 文名 (2) Bi中的句子出 現(xiàn) 了 A的作者名 (3) 在 Bi 的 reference 列表中,如果 A 出 現(xiàn) 在第 k 個(gè)位置,那么通常在文 章中會(huì)利用 [k]來(lái) 對(duì) A進(jìn) 行引用。 (4) .對(duì) 于 (3)的情況,有 時(shí) 候并不只是 對(duì) k 進(jìn) 行引用,可能文章中的一 句 話 代表的是好幾篇文章的工作概括,因此會(huì)出 現(xiàn) “[i,k,j]”這 種 類 型的 符號(hào)來(lái) 對(duì) A進(jìn) 行引用,而且出 現(xiàn) 的概率很高。 (5) (如果 Bi 中的某句 話對(duì) A 進(jìn) 行了 評(píng)論 ,那么通常它的前一句 話和后 一句 話 也會(huì)出 現(xiàn)評(píng) 價(jià)的信息 通 過(guò) 上面的 5點(diǎn),我 們 就可以 獲 得了 Bi中 對(duì) A進(jìn) 行 評(píng) 價(jià)的句子,仍而 獲得了一 個(gè)候 選 句子集,里面的每一句 話 都不同程度的 對(duì) A進(jìn) 行了 評(píng) 價(jià)。 圖 表 2 如 [ 圖 表 2]所示流程,具體 實(shí)現(xiàn) 的 時(shí) 候,先要將 Bi按句子 進(jìn) 行劃分 為 一個(gè)句子序列 {Bis1, Bis2,Bis3.....},然后遍 歷這 個(gè)句子序列, 對(duì) 于每一個(gè)句子,按照上面的前四條 規(guī)則進(jìn) 行 評(píng) 判,如果 滿 足其中仸意一條, 則這 個(gè)句子是候 選 句子集合中的一個(gè), 并將其前后兩個(gè)句子也合到一起,添加的候 選 句子 集合中。 最 終 ,得到 對(duì) A 進(jìn) 行 評(píng)論 的候 選 句子集 {e1,e2,e3...}, 這 里面可能會(huì)有一些 評(píng)價(jià) 來(lái)自同一篇 論 文。 獲 得 評(píng)論 段落 獲 得了候 選 句子集之后,我 們 需要 對(duì) 其 進(jìn) 行適當(dāng)?shù)呐判?,仍?選 出 較 好的幾個(gè) 句子,最 終顯 示在 頁(yè) 面上。由于不同的人, 對(duì)這 篇 論 文的 評(píng) 價(jià)可能也不太一 樣 , 因此,就不能 簡(jiǎn)單 的按照 這 些 評(píng) 價(jià)句子與原文的相似度來(lái) 進(jìn) 行打分排序了,因 為 這樣 會(huì)造成和原文 觀 點(diǎn)相近的 評(píng) 分 較 高,不是我 們 希望 獲 得的 結(jié)果。 實(shí)際 上,有 時(shí) 候越是和原文的 觀 點(diǎn)不同,反而可能越重要,它可能是 對(duì)這 篇文章的批判,也 有可能是原 文的作者并在寫 paper 是并沒(méi)有 發(fā)現(xiàn) 的一些問(wèn)題 , 這對(duì) 我 們尋 找后 續(xù) 工作 時(shí) 可能會(huì)非常重要。 我 們 在提取數(shù)據(jù)的同 時(shí) ,會(huì) 獲 得每一篇文章的 citation信息,代表 這 篇文章被引 用的次數(shù),一般,一個(gè) 較 好的文章,被引用的次數(shù)也 應(yīng) 當(dāng)比 較 多,因此, 對(duì) 于每一 個(gè) 評(píng) 價(jià),根據(jù)它所在文章的被引用次數(shù) 進(jìn) 行排序,可以 獲 得 較為專業(yè) ,也 較為 合 理的 結(jié) 果。 同 時(shí) ,需要注意的是,如果一個(gè)篇 論 文的被引用次數(shù)很高,而且它又有兩段 評(píng) 論 原文的句子 時(shí) ,那么 這 兩段會(huì)一起出 現(xiàn) 在最 終 的 結(jié) 果里,在 這 里我 們 就需要 對(duì) 結(jié) 果 進(jìn) 行 調(diào) 整,保 證 在 權(quán) 重相同的情 況下,盡可能 選擇 盡量不同的文章的 評(píng)論 。 第 4 章 建立模型并生成基于影響的概括 通 過(guò)獲 得了 對(duì) 源 論 文的 評(píng)論 集合,下面就可以與源 論 文建立模型來(lái) 獲 得 基于影響的概括。所 謂 基于影響的概括, 簡(jiǎn)單 來(lái) 說(shuō) ,就是某句 話 與 評(píng)論 之 間 的關(guān) 系越 緊 密,那么 這 句 話 的影響力就越大。最 終 將影響力最大的幾個(gè)句子合在一起 ,就形成了基于影響的概括。 建模之前我 們 所有的數(shù)據(jù) 在建模之前,我 們 先來(lái)看看我 們 已 經(jīng)獲 得了哪些數(shù)據(jù): (1)所有 論 文集合 D,以及 D 里所出 現(xiàn) 的所有 單詞 ,構(gòu)成一個(gè) 單詞 表 V,并且可以統(tǒng) 計(jì) 出 每個(gè) 單詞 w 出 現(xiàn) 的次數(shù) C(w,D) (2)對(duì) 于一篇 論 文 d,將其劃分 為 多個(gè)句子 {s1, s2, s3……} (3)已 經(jīng)獲 得了 這 片 論 文 進(jìn) 行 評(píng)論 的所有句子 {e1, e2, e3……}, 把他 們 的集合成 為 C( Citation Context)。 下面,我 們 就可以參照 KLdivergence算法 ([3] 3, Qiaozhu Mei and ChengXiang Zhai), 對(duì) d中的句子 s 進(jìn) 行打分。 這 里的打分,主要是基于 詞頻以及相似度來(lái)做的 。 建模算法 首先, 為 仸何一個(gè)句子打分的公式 Score(s)如下: Score(s) D( I || s ) p(w | I )log( p(w | s )) p(w | I )log( p(w | I )) w V w V 仍信息理 論 的 觀 點(diǎn),其中 D( I || s ) 即 為 KLdivergence,可以被解 釋為通 過(guò) 句子 s來(lái)表示基于影響的段落,需要仍文章中 刪 除的信息量。 顯 然,其 值 越小, Score 則 越大,它也越能代表文章以及其他文章 對(duì) 它的 評(píng) 價(jià)的意思(因 為 它只 要 刪 除 較 少的信息) 可以看出,公式中最重要的是求出 p(w | I )和 p(w | s ) (1) p(w | S ) c(w, s) s * p(w | D) | s | s (2) p(w | I ) c(w, d ) C p(w | C) | d | C 對(duì) 于公式( 1),其中, c(w, s) 表示一個(gè) 單詞 w 在句子 s 中出 現(xiàn) 的次數(shù), p(w | D) 表示 單詞 w 出 現(xiàn) 在所有 論 文空 間 中出 現(xiàn) 的概率, D 為 我 們 的整 個(gè) 論 文空 間 。而 為 p(w | s) p(w | D) s 平滑參數(shù)。我 們 假 設(shè) s 為 |s|的 n倍, 則 (1)式可以看成是 * n ,可 n n 見(jiàn) , s 越大,表示 w與整個(gè) 論 文空 間 的關(guān)系越大,而與 這 個(gè)句子的關(guān)系 則較 少。W 等于 1時(shí) , 則 表示二者一 樣 ,各占 1/2。我在 這 里將 s 設(shè) 置 為 了 1。 對(duì) 于公式 (2),其中 c(w, d ) 表示一個(gè) 單詞 w 在當(dāng)前要求的 這 篇 論 文中出 現(xiàn) 的次數(shù), 而 p(w | C) 表示 單詞 w在我 們?yōu)檫@ 篇
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1