freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號與信息處理專業(yè)畢業(yè)論文-基于統(tǒng)計滾雪球模型的知識挖掘理論與方法-資料下載頁

2025-06-03 07:42本頁面
  

【正文】 場 、 二維條件隨機場 [83,49]等模型優(yōu)化學(xué)習(xí)算法。相對于普通的文本學(xué)習(xí)算法,這類算法利用了更多的信息,也取得了不錯的效果。有些研究者也將學(xué)習(xí)算法應(yīng)用到模板學(xué)中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 5 習(xí)上,使用一些訓(xùn)練樣本,自動 地 學(xué)習(xí)模板或者封裝器 [39,35,47]。但是這類從訓(xùn)練樣本出 發(fā),利用自動機器學(xué)習(xí)算法標(biāo)記的方法,只能應(yīng)用到與訓(xùn)練樣板類似的數(shù)據(jù)集上,在不同類別或者不同風(fēng)格的數(shù)據(jù) 集 上 使用 時 往往效果很差。所以這類算法也難以被應(yīng)用到數(shù)據(jù)量巨大,數(shù)據(jù)種類豐富多樣的互聯(lián)網(wǎng)數(shù)據(jù)上。 基于 弱監(jiān)督( weaklysupervised) 、 無監(jiān)督 ( unsupervised)或者自舉式( bootstrapping)的方法 利用互聯(lián)網(wǎng)信息 量 大 而且具有 重復(fù)性 的特點, 減少對標(biāo)記數(shù)據(jù)的依賴,被成功地 運用到互聯(lián)網(wǎng)的 知識挖掘 上 [11,1,23,58]。 該 方法的基本思想是從人工標(biāo)記的少量種子 知識 [1]或者種子模板 [23]出發(fā),首先自動 地 找到新的抽取模板, 根據(jù) 準(zhǔn)則濾掉不可信的模板,然后利用可信的模板進行抽取,挖掘到的新的抽取被 用于 去找更多的模板,這樣一個過程不斷地 循環(huán)下去就能找到更多的抽取和模板。 DIPRE 系統(tǒng)首先提出了模板和抽取之間的對偶性思想 [11],并利用這種思想抽取作者和書籍的關(guān)系 。 Snowball 系統(tǒng)更進一步將這種思想總結(jié)為滾雪球方法 [1],并系統(tǒng) 地 提出了這種方法的一般架構(gòu),給出了考慮模板之間相關(guān)性的模板衡量方法。 但是 滾雪球 方法有 以下 三個明顯的不足,使得它們無法被應(yīng)用到大規(guī)模知識挖掘任務(wù)上 : 1) 滾雪球方法 效率低。滾雪球方法 使用的是嚴(yán)格的關(guān)鍵字匹配模板,這種模板通常有很高的準(zhǔn)確率,但是召回率一般很低,能挖掘到的關(guān)系很少。 2) 滾雪球方法 可移植性差。 滾雪球方法使用了手工設(shè)計的模板衡量方法,一旦我們更換了模板 或者 更換 了應(yīng)用場景 ,這種衡量方法很有可能不適用,或者無法最大發(fā)揮作用; 3) 滾雪球方法 難以利用先驗知識。 很多知識挖掘的應(yīng)用中會有先驗知識或者專家的指導(dǎo),可以用來提高知識挖掘的效率,但是這些知識很難被加入到現(xiàn)有的滾雪球模型中 。 本 論文 希望能彌補現(xiàn)有大規(guī)模知識挖掘 方法的 不足 ,提出 實用 的 大規(guī)模知識挖掘 自學(xué)習(xí)模型,提高現(xiàn)有模 型的性能 和適用性 。 從應(yīng)用上來說,我們的研究能夠提供更好的搜索和幫助互聯(lián)網(wǎng)實現(xiàn)信息結(jié)構(gòu)化。從網(wǎng)頁中自動挖掘出人 物 、 地點及機構(gòu)的信息,并且為這些實體完成知識挖掘,除了能夠?qū)⒅R建立索引 并 提供搜索服務(wù),極大地 減少 用戶在網(wǎng)頁之間自己尋找信息的時間,還能夠為語義網(wǎng)絡(luò) [8]的實現(xiàn)提 供很多基礎(chǔ)。語義網(wǎng)絡(luò)希望改變現(xiàn)在互聯(lián)網(wǎng)無結(jié)構(gòu)化數(shù)據(jù)的現(xiàn)狀,能夠在 互聯(lián)網(wǎng)所有網(wǎng)絡(luò)信息之間以唯一標(biāo)示的實體來建立聯(lián)系。 Freebase 希望通過解析網(wǎng)頁與協(xié)作編輯為互聯(lián)網(wǎng)信息建立聯(lián)系,并且提供了許多 API 讓各個網(wǎng)站能夠引用已經(jīng)被編輯好的物體,并希望通過 Freebase 數(shù)據(jù)庫在互聯(lián)網(wǎng)中構(gòu)建“橋梁”,使得信息更結(jié)構(gòu)化。由于互聯(lián)網(wǎng)信息量的巨大,完全手動的方法只能解決一部分有名的信息。大規(guī)模的數(shù)據(jù)挖掘能中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 6 夠 為信息進行抽取、分類 提供一個很好的起點,幫助實現(xiàn)結(jié)構(gòu)化的語義網(wǎng)絡(luò)。 關(guān)鍵問題與研究任務(wù) 關(guān)鍵問題 本文 的目標(biāo)是 構(gòu)建 包含人 物 、 地點 、 機構(gòu)這三類實體 的 大規(guī)模 命名實體搜索。為了達到這個目標(biāo),需要 為 在 互聯(lián)網(wǎng)上出現(xiàn)一定次數(shù)的這三類命名實體自動 地 建立百科頁面,用戶能從這 個頁面上獲取 盡可能多的 關(guān)于 命名實體 的 信 息?;谶@樣的需求, 我們 總結(jié) 出 以下這些 用戶希望了解的關(guān)于命名實體的信息: 1) 命名實體基本信息 :比如關(guān)于“劉德華” ,用戶可能希望 最先了解他的職業(yè)是歌手,他的生日或者他的專輯。這類關(guān)于命名實體的信息或者事實( fact)能 讓 用戶對命名實體 有 快速 、 直接的了解。當(dāng)用戶僅僅是要對其做初步了解時 或者有目的的獲取某個信息時,這類 信息 非常有用。 2) 命名實體摘要 :比如人的生平介紹,或者機構(gòu)的簡介等。這類信息能提供給用戶 關(guān)于命名實體 更 詳實 的介紹 , 當(dāng)用戶希望對命名實體有深入了解時需要這些信息。 3) 命名實體的相關(guān)實體及其關(guān)系 :比如與“劉德華” 關(guān)系 最緊密的人,“劉德華”的妻子是誰等。這種命名實體之間的相關(guān)信息不僅能夠提供給用戶關(guān)于這個命名實體更 全面 、 立體 的信息,而且能夠為命名實體之間建立關(guān)系網(wǎng)絡(luò),形成關(guān)系圖或六度網(wǎng)絡(luò) ,讓用戶可以在 實體之間 進行瀏覽 。 4) 命名實體相關(guān)新聞 :用戶總是希望獲得關(guān)于命名實體最新的 信息 ,為用戶自動 地 歸納出 相關(guān) 新聞能夠保持系統(tǒng)的及時有效性。 5) 命名實體的關(guān)系網(wǎng)絡(luò) :如果能夠構(gòu)建出所有索引的命名實體之間的關(guān)系網(wǎng)絡(luò),那么能夠完成很多有意義的功能。六度理論表明任意兩個人之間都可以通過不多于六個人聯(lián)系起來,利用這個網(wǎng)絡(luò), 系 統(tǒng) 能夠為任意兩個命名實體之間建立聯(lián)系。 其中有三個關(guān)鍵問題是需要深入研究的 : 1) 命名實體識別 問題 : 是指從網(wǎng)頁中自動 地 識別出 所需 類別的命名實體。這是構(gòu)建實體搜索的關(guān)鍵問題,只有準(zhǔn)確 、 無遺漏 地 從數(shù)據(jù)中識別出 所需 的命名實體才能為實體建立索引,建立實體之間的聯(lián)系和為實體完成摘要。 2) 命名實體摘要問題 :是指從網(wǎng)頁中自動 地 為命名實體產(chǎn)生摘要和事實。中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 7 這是為命名實體挖掘信息的 關(guān)鍵 問題,摘要是 讓 用戶最好 地 了解命名實體的方式。只有準(zhǔn)確 、 盡可能多的為所有實體提供摘要才能為實體建立豐富的百科頁面。 3) 命名實體關(guān)系抽取問題 :是指從網(wǎng)頁中自動為相關(guān)命名實體抽取 關(guān)系。這是 為 命名實體構(gòu)建聯(lián)系網(wǎng)的 關(guān)鍵 問題。 關(guān)系抽取 不僅 能夠為命名實體提供更多的信息,構(gòu)建的關(guān)系網(wǎng)絡(luò) 還能 供 用戶在實體之間瀏覽 和支持基于關(guān)系網(wǎng)的應(yīng)用 。 本文 將圍繞這三個科學(xué)問題展開深入的研究。 研究任務(wù) 本文 深入 研究如何在命名實體搜索中更好 地 對命名實體進行知識挖掘,提高大規(guī)模命名實體知識挖掘的性能 , 提出 了 統(tǒng)計滾雪球模型,該模型基于無監(jiān)督的自學(xué)習(xí)模型,利用互聯(lián)網(wǎng)上知識的重復(fù)性 自動 地 進行知識挖掘 。在 此模型 的基礎(chǔ)上 ,展開了多項 深入的知識挖掘 研究工作。首先,使用統(tǒng)計滾雪球模型 完成 關(guān)系抽取。然后,將命名實體 識別 與關(guān)系抽取迭代式 地 聯(lián)合挖掘 。最后,改進模型并應(yīng)用在命名實體 摘要 和 事實抽取問題上 。在本論文的最后 ,我們 將 詳細討論 作者參與 構(gòu)建的 兩個已經(jīng)發(fā)布的 大規(guī)模 命名實體搜索 引擎 。 具體的研究任務(wù) 可以歸納為以下幾個方面: ? 提出一種統(tǒng)一的大規(guī)模知識挖掘框架 大規(guī)模知識挖掘已經(jīng)得到了廣泛的研究,研究者對知識挖掘領(lǐng)域的很多問題提出了各種模型和方法,取得了相當(dāng)多的成果。這些方法大多基于無監(jiān)督的自學(xué)習(xí)的方法,使用自定義的特征 評價 方法 以 適用于某個問題。在這些方法的基礎(chǔ)上,本文 提出了一種基于統(tǒng)計模型的統(tǒng)一的大規(guī)模知識挖掘 框架 , 該框架具有抽取精度高、召回率高、適用范圍廣、 覆蓋問題多等特點。該 框架使用統(tǒng)計模型自動 地計算特征(或模板)的權(quán)重,并自動 地丟棄置信度低 的特征,極大 地 減輕 了 人為因素在挖掘中的影響。 ? 基于該框架研究 命名實體 知識挖掘 中的三個科學(xué)問題: 關(guān)系抽取 ﹑ 實體識別和實體摘要 將 本文提出的 統(tǒng)一的 大規(guī)模挖掘框架 運用到解決命名實體搜索中的三個科學(xué)問題上。首先, 研究 命名實體的關(guān)系抽取問題,提出 使用馬爾可夫邏輯網(wǎng)絡(luò) 作為統(tǒng)計滾雪球的底層挖掘模型,并提出了多關(guān)系聯(lián)合 抽取;其次,利用關(guān)系抽取的結(jié)果,與命名 實體識別 進行聯(lián)合抽取,在這兩個問題上都 獲 得提高; 最后 , 修中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 8 改 框架中的統(tǒng)計模型,使其能同時解決兩類問題:命名實體摘要和命名事實抽取?;谶@樣一個統(tǒng)一的框架,在這三個科學(xué)問題上 都取得很好的效果。 從模型上來看, 解決這 三個問題 對應(yīng)的 模型實際上代表了對框架的三種不同的改進,代表了知識挖掘中的三類問題,比如:關(guān)系抽取中我們使用的是基本的統(tǒng)計滾雪球模型;在命名實體 識別 和實體摘要問題中我們使用兩種不同的思路解決知識挖掘中聯(lián)合抽取的問題:一種是 迭代求解 的方法,另一種是 多任務(wù)聯(lián)合的方法 。 ? 利用研究成果構(gòu)建大規(guī)模命名實體 搜索 引擎 利用互聯(lián)網(wǎng)數(shù)據(jù)及前面的算法成果,構(gòu)建真實環(huán)境下的命名實體搜索引擎。在抓取的 10 億中文網(wǎng)頁和 30 億英文網(wǎng)頁上分別構(gòu)建 中 、 英文 命名實體搜索, 涵蓋 人 物 、 地點和機構(gòu)三種實體。為用戶提供 具有 關(guān)鍵詞實體檢索 、 相關(guān)實體 網(wǎng)絡(luò)瀏覽 、 事實查找、摘要排序 、 關(guān)系查詢等 功能 的命名實體搜索。 研究內(nèi)容與結(jié)構(gòu)安排 圖 論文的內(nèi)容組織 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 9 圖 給出了本文的主要研究內(nèi)容 、 研究內(nèi)容之間的聯(lián)系和對應(yīng)的章節(jié)。 本論文其 它 章節(jié)組織如下: 第 2 章 統(tǒng)計滾雪球模型 研究 實體挖掘中的關(guān)系抽取問題 。深入 討論 命名實體關(guān)系抽取的方法, 提出了一種基于無監(jiān)督的自學(xué)習(xí)知識挖掘模型 —— 統(tǒng)計滾雪球模型。 使用馬爾可夫邏輯網(wǎng)絡(luò)作為統(tǒng)計滾雪球的底層模型, 并 應(yīng)用到關(guān)系抽取問題上。 在互聯(lián)網(wǎng)真實數(shù)據(jù)上的關(guān)系抽取實驗表明, 相對于傳統(tǒng)自學(xué)習(xí)方法,統(tǒng)計滾雪球方法能在保持相同準(zhǔn)確率 的 條件下,提高抽取的召回率。 第 3 章 實體與關(guān)系的 聯(lián)合 抽取 研究 實體挖掘中的命名實體識別問題。 深入 討論 命名實體識別與關(guān)系抽取聯(lián)合挖掘 的方法?;趯?shù)據(jù)的觀察,提出了 迭代式 聯(lián)合抽取模型 EntSum。模型以基于條件隨機場的實體識別和基于統(tǒng)計滾雪球的關(guān)系抽取作 為基礎(chǔ) ,并 進行相應(yīng) 擴展 ,使其能利用另一個任務(wù)的輸出。采用迭代式的方法使兩個任務(wù)能互相受益。 在 大規(guī)模數(shù)據(jù)上的實驗證明 了 迭代式聯(lián)合方法對性能的提升 。 第 4 章 摘要滾雪球模型 研 究 實體挖掘中的命名實體摘要問題。 深入 討論 命名實體自動摘要及 事實 抽取的方法,提出 多任務(wù)聯(lián)合知識挖掘模型 —— 摘要滾雪球模型。 該 模型 改進 統(tǒng)計滾雪球框架,使其能同時解決兩個 相關(guān) 問題,并應(yīng)用到自動摘要和信息抽取任務(wù)上。 在互聯(lián)網(wǎng)真實 數(shù)據(jù)上的實驗和用戶調(diào)研表明,模型在事實抽取 與摘要排序問題 上 都取得 明顯改進。 第 5 章 命名實體搜索系統(tǒng) 基于 研究成果,構(gòu)建 了 真實 的 命名實體搜索系統(tǒng) : 人立方和 EntityCube。這兩個大規(guī)模命名實體搜索引擎自動 地 從大規(guī)模網(wǎng)頁中識別命名實體,并為命名實體總結(jié)信息。 本章將 詳 細討論 它們的功能及架構(gòu) ,并著重介紹了作者參與完成的關(guān)系挖掘部分算法 。 本文 所 提出 的 關(guān)系抽取方法已經(jīng)應(yīng)用到這些系統(tǒng)中, 其它 方法也都經(jīng)過了真實系統(tǒng)數(shù)據(jù)的驗證。 第 6 章 總結(jié)與展望 總結(jié)了前面各章的工作, 指出 本文主 要的學(xué)術(shù)貢獻,對全文的研究做了全面的總結(jié),并對未來需要繼續(xù)開展的工作做了展望。 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 10 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 2章 統(tǒng)計滾雪球模型 11 第 2 章 統(tǒng)計滾雪球模型 在互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)下的知識挖掘是 構(gòu)建 命名實體搜索中非常重要的一部分。對于大規(guī)模的知識挖掘,研究人員更多采用基于無監(jiān)督的自學(xué)習(xí)模型。自學(xué)習(xí)模型利用互聯(lián)網(wǎng)信息的重復(fù)性,在很少監(jiān)督的條件下自動學(xué)習(xí) 抽取特征 并進行抽取。 本章首先將詳細分析大規(guī)模數(shù)據(jù)條件下知識挖掘的難點,并討 論現(xiàn)有自學(xué)習(xí)模型的不足之處。在這些討論的基礎(chǔ)上,提出統(tǒng)計滾雪球模型 。相對于現(xiàn)有的自學(xué)習(xí)模型的手動設(shè)計模板評價算法,統(tǒng)計滾雪球模型基 于統(tǒng)計算法自動對模板進行評價和過濾,使模型能使用更 高 效的特征。將該模型應(yīng)用到關(guān)系挖掘問題上,并采用馬爾可夫邏輯網(wǎng)絡(luò)作為底層統(tǒng)計模型,能夠完成多個級別的聯(lián)合推理。 在互聯(lián)網(wǎng)真實數(shù)據(jù)上的關(guān)系抽取實驗表明,相對于傳統(tǒng)自學(xué)習(xí)方法,統(tǒng)計滾雪球方法能在保持相同準(zhǔn)確率 的 條件下,提高抽取的召回率。 簡介 本節(jié) 將首先討論 大規(guī)模數(shù)據(jù)條件下的關(guān)系抽取任務(wù) ,然后 著重研究自學(xué)習(xí)的關(guān)系抽取 模型,包括 原理與相關(guān)模型,并對其優(yōu)缺點進行詳細的分析。 關(guān)系抽取任務(wù)介紹 自動 地 從互聯(lián)網(wǎng)數(shù)據(jù)中為命名實體建立聯(lián)系是命名實體搜索中非常重要的一部分,建立聯(lián)系后的命名實體能自動形成網(wǎng)狀關(guān)系網(wǎng)絡(luò)。這種網(wǎng)絡(luò)結(jié)構(gòu)不僅能方便用戶更好 地 了解所查詢的命名實體的各方面信息,也能建立關(guān)系圖和六度關(guān)系這類應(yīng)用。關(guān)系抽取任務(wù)就是完成這類知識的挖掘:給定兩個 相關(guān)的命名實體,找到標(biāo)簽標(biāo)識 它們的關(guān)系。圖 顯示了我們的命名實體系統(tǒng) EntityCube[22]對查詢“ Britney Spears”的相關(guān)人物 結(jié)果,從圖中可以看出,系統(tǒng)將與所查詢命名實體最相關(guān)的命名實體置于左側(cè),并嘗試為每個相關(guān)人物找到關(guān)系標(biāo)簽,顯示在名字的右側(cè),用戶可以點擊標(biāo)簽查看信息來源。 關(guān)系抽取是知識挖掘中一個常見的子問題,最早是在信息理解會議( Message Understanding Confer
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1