freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號與信息處理專業(yè)畢業(yè)論文-基于統(tǒng)計滾雪球模型的知識挖掘理論與方法(已修改)

2025-06-19 07:42 本頁面
 

【正文】 中國科學技術(shù)大學 博士學位論文 基于統(tǒng)計滾雪球 模型 的知識挖掘 理論與方法 作者姓名: 劉曉江 學科專業(yè): 信號與信息處理 導師姓名: 俞能海 教授 李明鏡 教授 完成時間: 二○一一年 六月 三 日 University of Science and Technology of China A dissertation for doctor’s degree Author: Xiaojiang Liu Major: Signal and Information Processing Advisor: Prof. Nenghai Yu Prof. Mingjing Li Finished time: June 3rd, 2021 Knowledge Mining Based on Statistical Snowball Models 基于統(tǒng)計滾雪球模型的知識挖掘理論與方法 二六系 劉曉江 中國科學技術(shù) 大學 摘 要 I 中國科學技術(shù)大學學位論文原創(chuàng)性聲明 本人聲明所呈交的學位論文 ,是本人在導師指導下進行研究工作所取得的成果。除已特別加以標注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的貢獻均已在論文中作了明確的說明。 作者簽名: ___________ 簽字日期: _______________ 中國科學技術(shù)大學學位論文授權(quán)使用聲明 作為申請學位的條件之一,學位論文著作權(quán)擁有者授權(quán)中國科學技術(shù)大學擁有學位論文的部分使用權(quán),即:學校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或機構(gòu)送交論文的復印件和電子版,允許論文被查閱和借閱,可以將學位論文編入 《中國學位論文全文數(shù)據(jù)庫》等 有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。 保密的學位論文在解密后也遵守此規(guī)定。 □公開 □保密( ____年) 作者簽名: _______________ 導師簽名: _______________ 簽字日期: _______________ 簽字日期: _______________ 摘 要 II 摘 要 隨著 互聯(lián)網(wǎng)技術(shù) 的 迅猛 發(fā)展,互聯(lián)網(wǎng) 已 成為一個巨大的信息源, 其中 含有大量的關(guān)于現(xiàn)實世界命名實體的信息。這些 命名實體包括機構(gòu)、地點和人 物等 ,既 涵蓋 了 名人 也涉及 日常生活中 的 普通人。 命名 實體搜索引擎從 大量的網(wǎng)頁中挖掘出命名實體,并總結(jié)出與 用戶查詢的命名實體相關(guān) 的 知識 , 直接返回給用戶。與普通搜索引擎 返回的非結(jié)構(gòu)化網(wǎng)頁 相比,這種搜索引擎更 快捷 、 更 直觀,已成為工業(yè)界和學術(shù)界關(guān)注的 熱點 之一 。 要構(gòu)建既快又準的 命名 實體搜索引擎,就必須對命名實體知識進行 深度 挖掘。 從網(wǎng)頁中自動識別命名實體、對命名實體 進行 摘要和為命名實體建立聯(lián)系并挖掘出其關(guān)系是實體知識挖掘的三個 關(guān)鍵 科學 問題。本文圍繞構(gòu)建命名實體搜索中的這三個 科學 問題 展開 了深入的 研究,提出了一個 基于統(tǒng)計學習的 自學習模型 —— 統(tǒng)計滾雪球模型 ,彌補 了 現(xiàn)有自學習模型的不足 。具體來說,本文的主要研究 成果 和創(chuàng)新之處如下: 1. 分析 互聯(lián)網(wǎng)搜索的需求,充分調(diào)研了 互聯(lián)網(wǎng)知識挖掘的特點, 重點討論了基于自然語言特征的有監(jiān)督學習模型 和 基于模板的自學習模型 的知識挖掘算法 ; 分析了 這 兩類方法的基本思想, 討論了 每類模型 代表性的工作 , 并發(fā)現(xiàn) 了 其中的不足 之處 。 2. 提出了一種基于自學習的關(guān)系抽取模型:統(tǒng)計滾雪球模型。 該模型使 用基于統(tǒng)計的模板評價函數(shù)替代 傳統(tǒng)的基于手動構(gòu)造的模板評價函數(shù) , 使之 能采用 更高效的模板特征 ;同時 采用 馬爾可夫邏輯網(wǎng)絡(luò)作為底層的統(tǒng)計模型 ,從而 融入各級 關(guān)系 聯(lián)合抽取, 充分地利用信息 達到 提高抽取性能 的目的 。在互聯(lián)網(wǎng)真實數(shù)據(jù)上的關(guān)系抽取實驗 表明,相對于傳統(tǒng) 的 自學習方法,統(tǒng)計滾雪球方法能在保持相同準確率 的 前提 下, 明顯提升 抽取的召回率 。 3. 提出了一種迭代式命名實體識別和關(guān)系抽取 的 聯(lián)合 抽取 模型。 該模型 擴展了 實體識別 的條件隨機場模型,將基于關(guān)系抽取的特征加入 到 實體識別的過程中, 從而 提高實體識別的 性能 ;同時采用 迭代 挖掘 的方法,在 命名實體識別和關(guān)系抽取兩個 任務(wù)之間建立聯(lián)系,使各自 的 結(jié)果能被 另一個任務(wù)在決策時使用 。在互聯(lián)網(wǎng)真實數(shù)據(jù)下的實驗表明,相對于 傳統(tǒng)的順序式知識挖掘 模型, 聯(lián)合挖掘模型 對 實體識別和關(guān)系抽取 任務(wù) 的 性能都有 較大 提高。 摘 要 III 4. 提出了一種基于統(tǒng)計滾雪球模型的命名實體摘要模型:摘要滾雪球。 該模型充分利用 互聯(lián)網(wǎng)數(shù)據(jù)中命名實體 的 事實 與摘要 之間的對偶性, 同時 完成命名實體的 事實 挖掘 與摘要 排序 ;同時 采用自學 習統(tǒng)計滾雪球框 架,可以從少量種子出發(fā),迭代式地 同時增加 命名實體事實與摘要 。 在互聯(lián)網(wǎng)真實數(shù)據(jù)上的實驗 和用戶調(diào)研表明, 該 模型在 事實挖掘與摘要排序 問題 上 都 取得了明顯 改進 ,也證明了統(tǒng)計滾雪球模型具有很廣的 適用性 。 5. 構(gòu)建了 基于 10 億 網(wǎng)頁的中文命名實體搜索引擎人立方和 基于 30 億網(wǎng)頁的英文命名實體搜索引擎 EntityCube。 這兩個命名實體搜索引擎能夠 在大規(guī)模 互聯(lián)網(wǎng)數(shù)據(jù)中挖掘出關(guān)于命名實體的各種 有用 信息,獲得了巨大的成功和很好的反響 。本文提出 的 關(guān)系抽取方法已經(jīng)應(yīng)用到 實際系統(tǒng)之中 , 其 它方法 也 都 經(jīng)過了 真實 系統(tǒng) 數(shù)據(jù) 的驗證 。 最后,對全文工作進行了總結(jié),并對下一步的研究方向進行了展望。 關(guān)鍵詞 : 知識挖掘,命名實體搜索, 自 學習,關(guān)系抽取,命名 實體識別 , 命名實體摘要Abstract IV ABSTRACT With the rapid development of Inter technologies, the World Wide Web has been growing rapidly as a huge knowledge repository, containing various kinds of valuable information about realworld named entities. These named entities contain anizations, locations and persons, covering from celebrities to the everyday individuals. Named entity search engines automatically mine the named entities from Web pages, and summarize knowledge for them based on the their Web appearances, which could be directly returned to users. Compared with the general search engines which can only return the unstructured Web pages, this type of search engines provides faster and more direct user experience, and has bee a great research and development area in both industry and research area. In order to build a fast and accurate named entity search engine, deep knowledge mining on named entities from the Web is required. There are three key knowledge mining problems in building named entity search engines: named entity recognition, named entity summarization and named entity relationship mining. Focusing on these three key problems, this dissertation proposes a statistical unsupervised learning framework named StatSnowball, which has overe the disadvantage of stateoftheart unsupervised learning models. The main contents and contributions of this dissertation are as follows: 1. Discuss the stateoftheart Webscale knowledge mining systems. Mainly focus on supervised methods based on the natural language features and the stateoftheart selfsupervised methods based on the extraction patterns. These methods have been widely used in different tasks of knowledge mining. The emphasis of our analysis is the basic idea behind these two types of methods, and typical models. 2. Propose an unsupervised learning model: StatSnowball (Statistical Snowball) for the relationship extraction. Our model adopts the bootstrapping framework and uses the general statistical model Markov logic works as the underlying extraction model. By using the statistical pattern evaluation and selection me thods, StatSnowball can incorporate all kinds of patterns. By adopting MLN, StatSnowball acplishes various levels of joint inference in relationship Abstract V extraction. Experiments on both small but fully labeled data and large scale Web data have shown the effectiveness of our methods. 3. Propose a uniform named entity recognition and relation extraction model based on iterative framework: EntSum. Our model extends conditional random field model used by named entity recognition, which enables relationship features to be added to the model. Joint model adopts the iterative framework to build bidirectional connection between two tasks, in which both results can be used in the other’s decision making process. Experiments on the real Web data have shown the increase to the performance on both two tasks. 4. Propose an entity summarization model: BioSnowball, which can be considere
點擊復制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1