freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號與信息處理專業(yè)畢業(yè)論文-基于統(tǒng)計(jì)滾雪球模型的知識挖掘理論與方法-免費(fèi)閱讀

2025-07-05 07:42 上一頁面

下一頁面
  

【正文】 這種網(wǎng)絡(luò)結(jié)構(gòu)不僅能方便用戶更好 地 了解所查詢的命名實(shí)體的各方面信息,也能建立關(guān)系圖和六度關(guān)系這類應(yīng)用。自學(xué)習(xí)模型利用互聯(lián)網(wǎng)信息的重復(fù)性,在很少監(jiān)督的條件下自動學(xué)習(xí) 抽取特征 并進(jìn)行抽取。 在互聯(lián)網(wǎng)真實(shí) 數(shù)據(jù)上的實(shí)驗(yàn)和用戶調(diào)研表明,模型在事實(shí)抽取 與摘要排序問題 上 都取得 明顯改進(jìn)。 深入 討論 命名實(shí)體識別與關(guān)系抽取聯(lián)合挖掘 的方法。在抓取的 10 億中文網(wǎng)頁和 30 億英文網(wǎng)頁上分別構(gòu)建 中 、 英文 命名實(shí)體搜索, 涵蓋 人 物 、 地點(diǎn)和機(jī)構(gòu)三種實(shí)體。這些方法大多基于無監(jiān)督的自學(xué)習(xí)的方法,使用自定義的特征 評價 方法 以 適用于某個問題。 本文 將圍繞這三個科學(xué)問題展開深入的研究。 其中有三個關(guān)鍵問題是需要深入研究的 : 1) 命名實(shí)體識別 問題 : 是指從網(wǎng)頁中自動 地 識別出 所需 類別的命名實(shí)體。當(dāng)用戶僅僅是要對其做初步了解時 或者有目的的獲取某個信息時,這類 信息 非常有用。語義網(wǎng)絡(luò)希望改變現(xiàn)在互聯(lián)網(wǎng)無結(jié)構(gòu)化數(shù)據(jù)的現(xiàn)狀,能夠在 互聯(lián)網(wǎng)所有網(wǎng)絡(luò)信息之間以唯一標(biāo)示的實(shí)體來建立聯(lián)系。 但是 滾雪球 方法有 以下 三個明顯的不足,使得它們無法被應(yīng)用到大規(guī)模知識挖掘任務(wù)上 : 1) 滾雪球方法 效率低。相對于普通的文本學(xué)習(xí)算法,這類算法利用了更多的信息,也取得了不錯的效果。互聯(lián)網(wǎng)數(shù)據(jù)來自于不同的創(chuàng)建者,網(wǎng)站結(jié)構(gòu)的樣式 和 文本風(fēng)格都 不一樣。不同于結(jié)構(gòu)化的數(shù)據(jù)庫和 無 結(jié)構(gòu) 化 的普通文本,互聯(lián)網(wǎng) 數(shù)據(jù) 兼有兩者的特性。 在這種背景下, 大規(guī)模數(shù)據(jù)集下 的 自動知識挖掘,也就是從互聯(lián)網(wǎng)海量數(shù)據(jù)中自動 地 為現(xiàn)實(shí)世界中的實(shí)體總結(jié)出信息,成為了一個很有前景的研究方向。因?yàn)閿?shù)據(jù)全面,信息豐富,觀點(diǎn)中立,維基百科已經(jīng)成為互聯(lián)網(wǎng)上人們查找知名人物 、 機(jī)構(gòu) 、 產(chǎn)品的第一去處。 這類網(wǎng)站還有另一個缺點(diǎn):信息可能帶有偏見性。從圖中可以看出,普通搜索引擎將信息看作一個普通的文本段,呈現(xiàn)給用戶的是很多網(wǎng)頁的鏈接,而在右圖的實(shí)體級別搜索中,關(guān)于查詢 實(shí)體的信息都已經(jīng)整理好,以條目的形式呈現(xiàn)給用戶,用戶能更快,更全 的找到信息。比如,用戶 在搜索引擎上 輸入“劉德華生日 ” ,搜索引擎 會 返回很多同時包含“劉德華”和“生日 ” 的網(wǎng)頁,并按照網(wǎng)頁的重要性排序。首先,系統(tǒng)將網(wǎng)頁 看作 一個文本串,去除其中的 HTML 標(biāo)記 。 本章首先 將 討論命名實(shí)體知識挖掘的研究背景和研究意義。 5. 構(gòu)建了 基于 10 億 網(wǎng)頁的中文命名實(shí)體搜索引擎人立方和 基于 30 億網(wǎng)頁的英文命名實(shí)體搜索引擎 EntityCube。 該模型使 用基于統(tǒng)計(jì)的模板評價函數(shù)替代 傳統(tǒng)的基于手動構(gòu)造的模板評價函數(shù) , 使之 能采用 更高效的模板特征 ;同時 采用 馬爾可夫邏輯網(wǎng)絡(luò)作為底層的統(tǒng)計(jì)模型 ,從而 融入各級 關(guān)系 聯(lián)合抽取, 充分地利用信息 達(dá)到 提高抽取性能 的目的 。這些 命名實(shí)體包括機(jī)構(gòu)、地點(diǎn)和人 物等 ,既 涵蓋 了 名人 也涉及 日常生活中 的 普通人。 中國科學(xué)技術(shù)大學(xué) 博士學(xué)位論文 基于統(tǒng)計(jì)滾雪球 模型 的知識挖掘 理論與方法 作者姓名: 劉曉江 學(xué)科專業(yè): 信號與信息處理 導(dǎo)師姓名: 俞能海 教授 李明鏡 教授 完成時間: 二○一一年 六月 三 日 University of Science and Technology of China A dissertation for doctor’s degree Author: Xiaojiang Liu Major: Signal and Information Processing Advisor: Prof. Nenghai Yu Prof. Mingjing Li Finished time: June 3rd, 2021 Knowledge Mining Based on Statistical Snowball Models 基于統(tǒng)計(jì)滾雪球模型的知識挖掘理論與方法 二六系 劉曉江 中國科學(xué)技術(shù) 大學(xué) 摘 要 I 中國科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文 ,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成果。 命名 實(shí)體搜索引擎從 大量的網(wǎng)頁中挖掘出命名實(shí)體,并總結(jié)出與 用戶查詢的命名實(shí)體相關(guān) 的 知識 , 直接返回給用戶。在互聯(lián)網(wǎng)真實(shí)數(shù)據(jù)上的關(guān)系抽取實(shí)驗(yàn) 表明,相對于傳統(tǒng) 的 自學(xué)習(xí)方法,統(tǒng)計(jì)滾雪球方法能在保持相同準(zhǔn)確率 的 前提 下, 明顯提升 抽取的召回率 。 這兩個命名實(shí)體搜索引擎能夠 在大規(guī)模 互聯(lián)網(wǎng)數(shù)據(jù)中挖掘出關(guān)于命名實(shí)體的各種 有用 信息,獲得了巨大的成功和很好的反響 。然后給出了 其中的 關(guān)鍵問題,以及論文的研究任務(wù)。這個文本串就作為網(wǎng)頁的標(biāo)識, 系統(tǒng)對它們使用過濾停用詞 、分詞、 取詞根等算法, 將它們 分成有用的詞。實(shí)際上,用戶還是需要閱讀返回的網(wǎng)頁,從網(wǎng)頁中自己總結(jié)出問題的答案, 這個過程 浪費(fèi)了用戶的時間。 根據(jù)垂直搜索 引擎 索引的 實(shí)體規(guī)模 的大小,網(wǎng)站所使用的技術(shù)有很大的區(qū)別。網(wǎng)站的信息(比如報(bào)價 、 排名等)容易受到不中立的因素影響,比如廣告商等, 用戶容易對網(wǎng)站信息產(chǎn)生不信任 。但 是,由于中立觀點(diǎn)編輯 準(zhǔn)則的限制,維基百科類的協(xié)同編輯很難擴(kuò)展到普通人上面,因?yàn)槠胀ㄈ送挥泻苌俚娜肆私?,擁?很少編輯者都共同知道的知識,頁面很難達(dá)到平衡。工業(yè)界和 研究界都完成了一 些嘗試性 的系統(tǒng),比如 人物搜索 Spock 和 Pipl, 研究原型 YAGO[65]和 TextRunner[76]等,它們自動 地 從網(wǎng)頁中挖掘信息:自動 地 識別人名或者實(shí)體名,并且為這些實(shí)體之間建立聯(lián)系,但是這些網(wǎng)站僅僅為物體建立中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 4 一個 含有 較少 信息 的 頁 面,比如相關(guān)的網(wǎng)頁或新聞等。 首先, 互聯(lián)網(wǎng)是有結(jié)構(gòu)的網(wǎng)頁樹, 每個 網(wǎng)頁的每個 元素 都是樹上的一個節(jié)點(diǎn)。這給數(shù)據(jù)挖掘帶來了一定的難度,因?yàn)檎业揭粋€統(tǒng)一的模板或者從一個小采樣數(shù)據(jù)中訓(xùn)練模型變得不現(xiàn)實(shí)。有些研究者也將學(xué)習(xí)算法應(yīng)用到模板學(xué)中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 5 習(xí)上,使用一些訓(xùn)練樣本,自動 地 學(xué)習(xí)模板或者封裝器 [39,35,47]。滾雪球方法 使用的是嚴(yán)格的關(guān)鍵字匹配模板,這種模板通常有很高的準(zhǔn)確率,但是召回率一般很低,能挖掘到的關(guān)系很少。 Freebase 希望通過解析網(wǎng)頁與協(xié)作編輯為互聯(lián)網(wǎng)信息建立聯(lián)系,并且提供了許多 API 讓各個網(wǎng)站能夠引用已經(jīng)被編輯好的物體,并希望通過 Freebase 數(shù)據(jù)庫在互聯(lián)網(wǎng)中構(gòu)建“橋梁”,使得信息更結(jié)構(gòu)化。 2) 命名實(shí)體摘要 :比如人的生平介紹,或者機(jī)構(gòu)的簡介等。這是構(gòu)建實(shí)體搜索的關(guān)鍵問題,只有準(zhǔn)確 、 無遺漏 地 從數(shù)據(jù)中識別出 所需 的命名實(shí)體才能為實(shí)體建立索引,建立實(shí)體之間的聯(lián)系和為實(shí)體完成摘要。 研究任務(wù) 本文 深入 研究如何在命名實(shí)體搜索中更好 地 對命名實(shí)體進(jìn)行知識挖掘,提高大規(guī)模命名實(shí)體知識挖掘的性能 , 提出 了 統(tǒng)計(jì)滾雪球模型,該模型基于無監(jiān)督的自學(xué)習(xí)模型,利用互聯(lián)網(wǎng)上知識的重復(fù)性 自動 地 進(jìn)行知識挖掘 。在這些方法的基礎(chǔ)上,本文 提出了一種基于統(tǒng)計(jì)模型的統(tǒng)一的大規(guī)模知識挖掘 框架 , 該框架具有抽取精度高、召回率高、適用范圍廣、 覆蓋問題多等特點(diǎn)。為用戶提供 具有 關(guān)鍵詞實(shí)體檢索 、 相關(guān)實(shí)體 網(wǎng)絡(luò)瀏覽 、 事實(shí)查找、摘要排序 、 關(guān)系查詢等 功能 的命名實(shí)體搜索。基于對數(shù)據(jù)的觀察,提出了 迭代式 聯(lián)合抽取模型 EntSum。 第 5 章 命名實(shí)體搜索系統(tǒng) 基于 研究成果,構(gòu)建 了 真實(shí) 的 命名實(shí)體搜索系統(tǒng) : 人立方和 EntityCube。 本章首先將詳細(xì)分析大規(guī)模數(shù)據(jù)條件下知識挖掘的難點(diǎn),并討 論現(xiàn)有自學(xué)習(xí)模型的不足之處。關(guān)系抽取任務(wù)就是完成這類知識的挖掘:給定兩個 相關(guān)的命名實(shí)體,找到標(biāo)簽標(biāo)識 它們的關(guān)系。 關(guān)系抽取任務(wù)介紹 自動 地 從互聯(lián)網(wǎng)數(shù)據(jù)中為命名實(shí)體建立聯(lián)系是命名實(shí)體搜索中非常重要的一部分,建立聯(lián)系后的命名實(shí)體能自動形成網(wǎng)狀關(guān)系網(wǎng)絡(luò)。對于大規(guī)模的知識挖掘,研究人員更多采用基于無監(jiān)督的自學(xué)習(xí)模型。 該 模型 改進(jìn) 統(tǒng)計(jì)滾雪球框架,使其能同時解決兩個 相關(guān) 問題,并應(yīng)用到自動摘要和信息抽取任務(wù)上。 第 3 章 實(shí)體與關(guān)系的 聯(lián)合 抽取 研究 實(shí)體挖掘中的命名實(shí)體識別問題。 ? 利用研究成果構(gòu)建大規(guī)模命名實(shí)體 搜索 引擎 利用互聯(lián)網(wǎng)數(shù)據(jù)及前面的算法成果,構(gòu)建真實(shí)環(huán)境下的命名實(shí)體搜索引擎。 具體的研究任務(wù) 可以歸納為以下幾個方面: ? 提出一種統(tǒng)一的大規(guī)模知識挖掘框架 大規(guī)模知識挖掘已經(jīng)得到了廣泛的研究,研究者對知識挖掘領(lǐng)域的很多問題提出了各種模型和方法,取得了相當(dāng)多的成果。 關(guān)系抽取 不僅 能夠?yàn)槊麑?shí)體提供更多的信息,構(gòu)建的關(guān)系網(wǎng)絡(luò) 還能 供 用戶在實(shí)體之間瀏覽 和支持基于關(guān)系網(wǎng)的應(yīng)用 。六度理論表明任意兩個人之間都可以通過不多于六個人聯(lián)系起來,利用這個網(wǎng)絡(luò), 系 統(tǒng) 能夠?yàn)槿我鈨蓚€命名實(shí)體之間建立聯(lián)系。這類關(guān)于命名實(shí)體的信息或者事實(shí)( fact)能 讓 用戶對命名實(shí)體 有 快速 、 直接的了解。從網(wǎng)頁中自動挖掘出人 物 、 地點(diǎn)及機(jī)構(gòu)的信息,并且為這些實(shí)體完成知識挖掘,除了能夠?qū)⒅R建立索引 并 提供搜索服務(wù),極大地 減少 用戶在網(wǎng)頁之間自己尋找信息的時間,還能夠?yàn)檎Z義網(wǎng)絡(luò) [8]的實(shí)現(xiàn)提 供很多基礎(chǔ)。 Snowball 系統(tǒng)更進(jìn)一步將這種思想總結(jié)為滾雪球方法 [1],并系統(tǒng) 地 提出了這種方法的一般架構(gòu),給出了考慮模板之間相關(guān)性的模板衡量方法。另一類算法考慮網(wǎng)頁的結(jié)構(gòu)化信息,比如網(wǎng)頁樹上節(jié)點(diǎn)的特征,利用這些結(jié)構(gòu)特征,使用如 SVM、 條件隨機(jī)場 、 二維條件隨機(jī)場 [83,49]等模型優(yōu)化學(xué)習(xí)算法。 3) 互聯(lián)網(wǎng)數(shù)據(jù)風(fēng)格多樣。相對于普通的知識挖掘 , 互聯(lián)網(wǎng)知識挖掘有其特殊 之處 : 1) 互聯(lián)網(wǎng)數(shù)據(jù)是半結(jié)構(gòu)化的。但是由于數(shù)據(jù)的隱私性 和法律 約束 ,很難在網(wǎng)站以外獲得 并使用 這些數(shù)據(jù),無法實(shí)現(xiàn)真正意義上的大規(guī)模命名實(shí)體搜索 。基于這種協(xié)同編輯平臺,英文的維基百科已經(jīng)有超過三百萬 的 物體頁面。這類網(wǎng)站的不足 之處 在于 它們 只能應(yīng)用于實(shí)體規(guī)模較小 的領(lǐng)域, 而 在一些 實(shí)體規(guī)模很大的領(lǐng)域 , 比如互聯(lián)網(wǎng)上所有的人 物 、 地點(diǎn) 和 機(jī)構(gòu)等 , 這類方法 往往無法實(shí)用 。 圖 顯示了查詢“ Bill Gates”在普通搜索引擎和實(shí)體級別搜 索引擎的對比圖。這就使得用戶獲得了 返回中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 2 的結(jié) 果 后需要自己對網(wǎng)頁進(jìn)行理解 和 總結(jié)才能獲得想要的信息。這些搜索引擎利用爬蟲將網(wǎng)頁從各個網(wǎng)站 中抓取 到本地服 務(wù)器上,然后對 這些 網(wǎng)頁進(jìn)行分析。與普通搜索引擎返回的 無 結(jié)構(gòu)化網(wǎng)頁 鏈接 相比,這種搜索引擎更 快捷 、 更 直觀,已成為工業(yè)界和學(xué)術(shù)界關(guān)注的一個熱點(diǎn)。 在互聯(lián)網(wǎng)真實(shí)數(shù)據(jù)上的實(shí)驗(yàn) 和用戶調(diào)研表明, 該 模型在 事實(shí)挖掘與摘要排序 問題 上 都 取得了明顯 改進(jìn) ,也證明了統(tǒng)計(jì)滾雪球模型具有很廣的 適用性 。 2. 提出了一種基于自學(xué)習(xí)的關(guān)系抽取模型:統(tǒng)計(jì)滾雪球模型。 □公開 □保密( ____年) 作者簽名: _______________ 導(dǎo)師簽名: _______________ 簽字日期: _______________ 簽字日期: _______________ 摘 要 II 摘 要 隨著 互聯(lián)網(wǎng)技術(shù) 的 迅猛 發(fā)展,互聯(lián)網(wǎng) 已 成為一個巨大的信息源, 其中 含有大量的關(guān)于現(xiàn)實(shí)世界命名實(shí)體的信息。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與普通搜索引擎 返回的非結(jié)構(gòu)化網(wǎng)頁 相比,這種搜索引擎更 快捷 、 更 直觀,已成為工業(yè)界和學(xué)術(shù)界關(guān)注的 熱點(diǎn) 之一 。 3. 提出了一種迭代式命名實(shí)體識別和關(guān)系抽取 的 聯(lián)合 抽取 模型。本文提出 的 關(guān)系抽取方法已經(jīng)應(yīng)用到 實(shí)際系統(tǒng)之中 , 其 它方法 也 都 經(jīng)過了 真實(shí) 系統(tǒng) 數(shù)據(jù) 的驗(yàn)證 。最后提出了論文的研究內(nèi)容與 結(jié)構(gòu) 安排。為了能夠快速 地 進(jìn)行索引,系統(tǒng)為每個詞建立倒排索引,索引到每個詞出現(xiàn)的網(wǎng)頁的標(biāo)記。 基于 這類需求,互聯(lián)網(wǎng)出現(xiàn)了 一類 新的搜索引擎: 實(shí)體級別垂直搜索 ( ObjectLevel Vertical Search) 。中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 3 當(dāng)索引的實(shí)體 規(guī)模較小 時,比如產(chǎn)品、酒店等,網(wǎng)站大多 采用 基于 手動標(biāo)記或者模板方法。 Web 網(wǎng)站允許用戶貢獻(xiàn)信息,在這個環(huán)境下誕生了兩類用戶參與構(gòu)建的大規(guī)模知識系統(tǒng)。 近些年互聯(lián)網(wǎng)非常流行的社交網(wǎng)絡(luò)( Social Network Service, SNS)也成為Web 時代的 一個 關(guān)于人物的巨大 信息 源,特別是關(guān)于普通用戶。從這些網(wǎng)站和研究原型上很難獲得像 維基百科 那樣 豐富 快捷 的用戶體驗(yàn) ,無法滿足用戶的需求 。這些節(jié)點(diǎn)之間有聯(lián)系 ,比如網(wǎng)頁表
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1