freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號(hào)與信息處理專業(yè)畢業(yè)論文-基于統(tǒng)計(jì)滾雪球模型的知識(shí)挖掘理論與方法(存儲(chǔ)版)

2025-07-13 07:42上一頁面

下一頁面
  

【正文】 格 中的一行是兄弟節(jié)點(diǎn)等。 最初的知識(shí)挖掘大多基于封裝器( wrapper), 手工 對(duì)某個(gè)網(wǎng)站或某些類型的網(wǎng)頁構(gòu)造封裝器 [39]。但是這類從訓(xùn)練樣本出 發(fā),利用自動(dòng)機(jī)器學(xué)習(xí)算法標(biāo)記的方法,只能應(yīng)用到與訓(xùn)練樣板類似的數(shù)據(jù)集上,在不同類別或者不同風(fēng)格的數(shù)據(jù) 集 上 使用 時(shí) 往往效果很差。 2) 滾雪球方法 可移植性差。由于互聯(lián)網(wǎng)信息量的巨大,完全手動(dòng)的方法只能解決一部分有名的信息。這類信息能提供給用戶 關(guān)于命名實(shí)體 更 詳實(shí) 的介紹 , 當(dāng)用戶希望對(duì)命名實(shí)體有深入了解時(shí)需要這些信息。 2) 命名實(shí)體摘要問題 :是指從網(wǎng)頁中自動(dòng) 地 為命名實(shí)體產(chǎn)生摘要和事實(shí)。在 此模型 的基礎(chǔ)上 ,展開了多項(xiàng) 深入的知識(shí)挖掘 研究工作。該 框架使用統(tǒng)計(jì)模型自動(dòng) 地計(jì)算特征(或模板)的權(quán)重,并自動(dòng) 地丟棄置信度低 的特征,極大 地 減輕 了 人為因素在挖掘中的影響。 研究內(nèi)容與結(jié)構(gòu)安排 圖 論文的內(nèi)容組織 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 9 圖 給出了本文的主要研究內(nèi)容 、 研究內(nèi)容之間的聯(lián)系和對(duì)應(yīng)的章節(jié)。模型以基于條件隨機(jī)場(chǎng)的實(shí)體識(shí)別和基于統(tǒng)計(jì)滾雪球的關(guān)系抽取作 為基礎(chǔ) ,并 進(jìn)行相應(yīng) 擴(kuò)展 ,使其能利用另一個(gè)任務(wù)的輸出。這兩個(gè)大規(guī)模命名實(shí)體搜索引擎自動(dòng) 地 從大規(guī)模網(wǎng)頁中識(shí)別命名實(shí)體,并為命名實(shí)體總結(jié)信息。在這些討論的基礎(chǔ)上,提出統(tǒng)計(jì)滾雪球模型 。圖 顯示了我們的命名實(shí)體系統(tǒng) EntityCube[22]對(duì)查詢“ Britney Spears”的相關(guān)人物 結(jié)果,從圖中可以看出,系統(tǒng)將與所查詢命名實(shí)體最相關(guān)的命名實(shí)體置于左側(cè),并嘗試為每個(gè)相關(guān)人物找到關(guān)系標(biāo)簽,顯示在名字的右側(cè),用戶可以點(diǎn)擊標(biāo)簽查看信息來源。 簡介 本節(jié) 將首先討論 大規(guī)模數(shù)據(jù)條件下的關(guān)系抽取任務(wù) ,然后 著重研究自學(xué)習(xí)的關(guān)系抽取 模型,包括 原理與相關(guān)模型,并對(duì)其優(yōu)缺點(diǎn)進(jìn)行詳細(xì)的分析。 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 10 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 2章 統(tǒng)計(jì)滾雪球模型 11 第 2 章 統(tǒng)計(jì)滾雪球模型 在互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)下的知識(shí)挖掘是 構(gòu)建 命名實(shí)體搜索中非常重要的一部分。 深入 討論 命名實(shí)體自動(dòng)摘要及 事實(shí) 抽取的方法,提出 多任務(wù)聯(lián)合知識(shí)挖掘模型 —— 摘要滾雪球模型。 在互聯(lián)網(wǎng)真實(shí)數(shù)據(jù)上的關(guān)系抽取實(shí)驗(yàn)表明, 相對(duì)于傳統(tǒng)自學(xué)習(xí)方法,統(tǒng)計(jì)滾雪球方法能在保持相同準(zhǔn)確率 的 條件下,提高抽取的召回率。 從模型上來看, 解決這 三個(gè)問題 對(duì)應(yīng)的 模型實(shí)際上代表了對(duì)框架的三種不同的改進(jìn),代表了知識(shí)挖掘中的三類問題,比如:關(guān)系抽取中我們使用的是基本的統(tǒng)計(jì)滾雪球模型;在命名實(shí)體 識(shí)別 和實(shí)體摘要問題中我們使用兩種不同的思路解決知識(shí)挖掘中聯(lián)合抽取的問題:一種是 迭代求解 的方法,另一種是 多任務(wù)聯(lián)合的方法 。在本論文的最后 ,我們 將 詳細(xì)討論 作者參與 構(gòu)建的 兩個(gè)已經(jīng)發(fā)布的 大規(guī)模 命名實(shí)體搜索 引擎 。這是 為 命名實(shí)體構(gòu)建聯(lián)系網(wǎng)的 關(guān)鍵 問題。 5) 命名實(shí)體的關(guān)系網(wǎng)絡(luò) :如果能夠構(gòu)建出所有索引的命名實(shí)體之間的關(guān)系網(wǎng)絡(luò),那么能夠完成很多有意義的功能?;谶@樣的需求, 我們 總結(jié) 出 以下這些 用戶希望了解的關(guān)于命名實(shí)體的信息: 1) 命名實(shí)體基本信息 :比如關(guān)于“劉德華” ,用戶可能希望 最先了解他的職業(yè)是歌手,他的生日或者他的專輯。 從應(yīng)用上來說,我們的研究能夠提供更好的搜索和幫助互聯(lián)網(wǎng)實(shí)現(xiàn)信息結(jié)構(gòu)化。 DIPRE 系統(tǒng)首先提出了模板和抽取之間的對(duì)偶性思想 [11],并利用這種思想抽取作者和書籍的關(guān)系 。這類算法忽略網(wǎng)頁的結(jié)構(gòu),僅僅把網(wǎng)頁當(dāng)作文本的集合,而且需要很復(fù)雜的深度自然語言特征,基本適用于小數(shù)據(jù)集上的挖掘,不太適用于大規(guī)模數(shù)據(jù)。在這么大 的 數(shù)據(jù)量下,算法復(fù)雜性必須得到控制,否則很難真正被應(yīng)用到實(shí)際中?;ヂ?lián)網(wǎng)知識(shí)挖掘是指從互聯(lián)網(wǎng)的網(wǎng)頁或者文本中挖掘出所需要的信息的過程。 LinkedIn 也擁有 1 億的賬戶, 很多賬戶 里面包含了大量 用戶 的職業(yè)信息。用戶可以隨意 增加 或 刪減 內(nèi)容 ,直到頁面 在各個(gè)貢獻(xiàn)者之間 達(dá)到平衡。在抓取到有限網(wǎng)站的網(wǎng)頁后,垂直搜索會(huì)使用模板對(duì)這些網(wǎng)站的信息進(jìn)行抽取,獲得較高準(zhǔn)確率的信息, 并將這些結(jié)構(gòu)化之后的知識(shí) 加以 整合后 返回給用戶 。 垂直 搜索 在各個(gè)領(lǐng)域都獲得了很好的用戶體驗(yàn)和商業(yè)成功,比如 IT 產(chǎn)品 網(wǎng)站 —— 中關(guān)村在線,飯店評(píng)價(jià)網(wǎng)站 —— 大眾 點(diǎn)評(píng)網(wǎng)等。但是,在這些系統(tǒng)中,網(wǎng)頁 僅僅 被看作是文本串, 系統(tǒng)僅 對(duì)文本進(jìn)行了分詞,并 建立 索引, 并 沒有用到其中 的語義 信息。由此產(chǎn)生了很多互聯(lián)網(wǎng)搜索引擎,比如必應(yīng)[9]、 谷歌 [27]及百度 [84]等, 它們 都取得了 非常大 的成功。 命名實(shí)體搜索引擎從 大量的網(wǎng)頁中 識(shí)別 出命名實(shí)體,并 自動(dòng) 總結(jié)出與用戶查詢的命名實(shí)體相關(guān)的 知識(shí),直接返回給用戶。 該模型充分利用 互聯(lián)網(wǎng)數(shù)據(jù)中命名實(shí)體 的 事實(shí) 與摘要 之間的對(duì)偶性, 同時(shí) 完成命名實(shí)體的 事實(shí) 挖掘 與摘要 排序 ;同時(shí) 采用自學(xué) 習(xí)統(tǒng)計(jì)滾雪球框 架,可以從少量種子出發(fā),迭代式地 同時(shí)增加 命名實(shí)體事實(shí)與摘要 。具體來說,本文的主要研究 成果 和創(chuàng)新之處如下: 1. 分析 互聯(lián)網(wǎng)搜索的需求,充分調(diào)研了 互聯(lián)網(wǎng)知識(shí)挖掘的特點(diǎn), 重點(diǎn)討論了基于自然語言特征的有監(jiān)督學(xué)習(xí)模型 和 基于模板的自學(xué)習(xí)模型 的知識(shí)挖掘算法 ; 分析了 這 兩類方法的基本思想, 討論了 每類模型 代表性的工作 , 并發(fā)現(xiàn) 了 其中的不足 之處 。 保密的學(xué)位論文在解密后也遵守此規(guī)定。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn)均已在論文中作了明確的說明。 要構(gòu)建既快又準(zhǔn)的 命名 實(shí)體搜索引擎,就必須對(duì)命名實(shí)體知識(shí)進(jìn)行 深度 挖掘。 該模型 擴(kuò)展了 實(shí)體識(shí)別 的條件隨機(jī)場(chǎng)模型,將基于關(guān)系抽取的特征加入 到 實(shí)體識(shí)別的過程中, 從而 提高實(shí)體識(shí)別的 性能 ;同時(shí)采用 迭代 挖掘 的方法,在 命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè) 任務(wù)之間建立聯(lián)系,使各自 的 結(jié)果能被 另一個(gè)任務(wù)在決策時(shí)使用 。 最后,對(duì)全文工作進(jìn)行了總結(jié),并對(duì)下一步的研究方向進(jìn)行了展望。 研究背景與研究意義 研究背景 近 些 年 來, 互聯(lián)網(wǎng)技術(shù)飛速發(fā)展 , 從僅僅少數(shù)用戶能創(chuàng)造內(nèi)容的 Web 到任何 用戶 都能發(fā)布信息的 Web ,互聯(lián)網(wǎng) 已經(jīng) 成為 一個(gè)巨大的信息源 。當(dāng)用戶 發(fā)出一個(gè)查詢 請(qǐng)求 時(shí),搜 索引擎會(huì)用查詢中的每個(gè)詞去倒排索引中查找其 出現(xiàn)的網(wǎng)頁,并將這些網(wǎng)頁的交集作為結(jié)果返回給用戶。 圖 普通搜索引 擎與實(shí)體級(jí)別搜索引擎對(duì)比 實(shí)體級(jí)別 垂直搜索是這樣一類搜索,它們專注 于 某個(gè)領(lǐng)域,比如機(jī)票 、 酒店 、人物 、 學(xué)術(shù)論文等, 構(gòu)建關(guān)于實(shí)體的知識(shí)庫, 為用戶提供直接、 快捷 的知識(shí)回答。 手動(dòng)標(biāo)記是指網(wǎng)站雇傭人手工地收集 、 標(biāo)記數(shù)據(jù) 。 一類是協(xié)同編輯平臺(tái),最成功的例子是維基百科 [71]。比較成功的有起源于大學(xué)、 后來擴(kuò)展到所有人的 Facebook[24]和 職業(yè)社交網(wǎng)站 LinkedIn[41]。 并且這類系統(tǒng)的查詢?cè)~只能是實(shí)體名字,不能是任意的關(guān)鍵字,所以并不是真正意義上的搜索。同時(shí)網(wǎng)頁節(jié)點(diǎn)上的文本 是普通文本 ,所以互聯(lián)網(wǎng)數(shù)據(jù)呈現(xiàn)半結(jié)構(gòu)化。這類方法能夠獲得很準(zhǔn)確的信息,但是適用的范圍很窄,只適用于某個(gè)或某類網(wǎng)站。所以這類算法也難以被應(yīng)用到數(shù)據(jù)量巨大,數(shù)據(jù)種類豐富多樣的互聯(lián)網(wǎng)數(shù)據(jù)上。 滾雪球方法使用了手工設(shè)計(jì)的模板衡量方法,一旦我們更換了模板 或者 更換 了應(yīng)用場(chǎng)景 ,這種衡量方法很有可能不適用,或者無法最大發(fā)揮作用; 3) 滾雪球方法 難以利用先驗(yàn)知識(shí)。大規(guī)模的數(shù)據(jù)挖掘能中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 6 夠 為信息進(jìn)行抽取、分類 提供一個(gè)很好的起點(diǎn),幫助實(shí)現(xiàn)結(jié)構(gòu)化的語義網(wǎng)絡(luò)。 3) 命名實(shí)體的相關(guān)實(shí)體及其關(guān)系 :比如與“劉德華” 關(guān)系 最緊密的人,“劉德華”的妻子是誰等。中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文 第 1章 緒論 7 這是為命名實(shí)體挖掘信息的 關(guān)鍵 問題,摘要是 讓 用戶最好 地 了解命名實(shí)體的方式。首先,使用統(tǒng)計(jì)滾雪球模型 完成 關(guān)系抽取。 ? 基于該框架研究 命名實(shí)體 知識(shí)挖掘 中的三個(gè)科學(xué)問題: 關(guān)系抽取 ﹑ 實(shí)體識(shí)別和實(shí)體摘要 將 本文提出的 統(tǒng)一的 大規(guī)模挖掘框架 運(yùn)用到解決命名實(shí)體搜索中的三個(gè)科學(xué)問題上。 本論文其 它 章節(jié)組織如下: 第 2 章 統(tǒng)計(jì)滾雪球模型 研究 實(shí)體挖掘中的關(guān)系抽取問題 。采用迭代式的方法使兩個(gè)任務(wù)能互相受益。 本章將 詳 細(xì)討論 它們的功能及架構(gòu) ,并著重介紹了作者參與完成的關(guān)系挖掘部分算法 。相對(duì)于現(xiàn)有的自學(xué)習(xí)模型的手動(dòng)設(shè)計(jì)模板評(píng)價(jià)算法,統(tǒng)計(jì)滾雪球模型基 于統(tǒng)計(jì)算法自動(dòng)對(duì)模板進(jìn)行評(píng)價(jià)和過濾,使模型能使用更 高 效的特征。 關(guān)系抽取是知識(shí)挖掘中一個(gè)常見的子問題,最早是在信息理解會(huì)議( Message Understanding Confer。 在互聯(lián)網(wǎng)真實(shí)數(shù)據(jù)上的關(guān)系抽取實(shí)驗(yàn)表明,相對(duì)于傳統(tǒng)自學(xué)習(xí)方法,統(tǒng)計(jì)滾雪球方法能在保持相同準(zhǔn)確率 的 條件下,提高抽取的召回率。 第 6 章 總結(jié)與展望 總結(jié)了前面各章的工作, 指出 本文主 要的學(xué)術(shù)貢獻(xiàn),對(duì)全文的研究做了全面的總結(jié),并對(duì)未來需要繼續(xù)開展的工作做了展望。 第 4 章 摘要滾雪球模型 研 究 實(shí)體挖掘中的命名實(shí)體摘要問題。 使用馬爾可夫邏輯網(wǎng)絡(luò)作為統(tǒng)計(jì)滾雪球的底層模型, 并 應(yīng)用到關(guān)系抽取問題上?;谶@樣一個(gè)統(tǒng)一的框架,在這三個(gè)科學(xué)問題上 都取得很好的效果。最后,改進(jìn)模型并應(yīng)用在命名實(shí)體 摘要 和 事實(shí)抽取問題上 。 3) 命名實(shí)體關(guān)系抽取問題 :是指從網(wǎng)頁中自動(dòng)為相關(guān)命名實(shí)體抽取 關(guān)系。 4) 命名實(shí)體相關(guān)新聞 :用戶總是希望獲得關(guān)于命名實(shí)體最新的 信息 ,為用戶自動(dòng) 地 歸納出 相關(guān) 新聞能夠保持系統(tǒng)的及時(shí)有效性。為了達(dá)到這個(gè)目標(biāo),需要 為 在 互聯(lián)網(wǎng)上出現(xiàn)一定次數(shù)的這三類命名實(shí)體自動(dòng) 地 建立百科頁面,用戶能從這 個(gè)頁面上獲取 盡可能多的 關(guān)于 命名實(shí)體 的 信 息。 本 論文 希望能彌補(bǔ)現(xiàn)有大規(guī)模知識(shí)挖掘 方法的 不足 ,提出 實(shí)用 的 大規(guī)模知識(shí)挖掘 自學(xué)習(xí)模型,提高現(xiàn)有模 型的性能 和適用性 。 該 方法的基本思想是從人工標(biāo)記的少量種子 知識(shí) [1]或者種子模板 [23]出發(fā),首先自動(dòng) 地 找到新的抽取模板, 根據(jù) 準(zhǔn)則濾掉不可信的模板,然后利用可信的模板進(jìn)行抽取,挖掘到的新的抽取被 用于 去找更多的模板,這樣一個(gè)過程不斷地 循環(huán)下去就能找到更多的抽取和模板。很多方法使用了自然語言理解領(lǐng)域的算法,使用基于隱式馬爾可夫模型[61],規(guī)則學(xué)習(xí) [63]或者條件隨機(jī)場(chǎng)模型 [46]的算法,從一些文本中訓(xùn)練 出 命名 實(shí)體識(shí)別 ,關(guān)系抽取或者實(shí)體相關(guān)的各種信息。在互聯(lián)網(wǎng)出現(xiàn)以前,普通文本知識(shí) 挖掘數(shù)據(jù)量很 小 ,基本是在百萬級(jí)別以下,而 互聯(lián)網(wǎng) 上 的網(wǎng)頁都是 10 億級(jí)別的,是以前處理 的 數(shù)據(jù) 規(guī)模 的幾千倍。 從 研究 方法上來說,我們的研究 可以 彌補(bǔ)現(xiàn)在互聯(lián)網(wǎng)知識(shí)挖掘算法的不足。根據(jù) Facebook 的統(tǒng)計(jì),到 2021 年 1 月,F(xiàn)acebook 上賬戶數(shù)量已經(jīng)達(dá)到 6 億,其中 97%的用戶使用了全名。在這個(gè)頁面上可以為物體添加各類信息 、 介紹 、 圖片等[34]。 與普通 搜索引擎 會(huì)對(duì)整個(gè)互聯(lián)網(wǎng) 進(jìn)行 抓取 不同 , 這類網(wǎng)站只會(huì) 定向 地 抓取一些 該 領(lǐng)域相關(guān)的網(wǎng)站。這些信息包括 作者的所屬機(jī)構(gòu) 、 作者發(fā)表的論文 、 最經(jīng)常與作者一起合作的研究者 、作者論文的引用情況和 作 者領(lǐng)域的排名等。 利用上述基本算法加上 大規(guī)模分布式運(yùn)算平臺(tái),現(xiàn)在的商業(yè)搜索引擎能索引十億,甚至百億級(jí)別的網(wǎng)頁,并在毫秒級(jí)別 將結(jié)果 返回給用戶,基本滿足了用戶的查詢需求。如何能從 如此 巨大的信息庫中快速 地 找到用戶需要的信息成為一個(gè)巨大的挑戰(zhàn)。這些命名實(shí)體包括機(jī)構(gòu) 、 地點(diǎn)和人物等 , 既涵蓋了每天談?wù)摰拿艘采婕?日常生活中 的 普通人。 摘 要 III 4. 提出了一種基于統(tǒng)計(jì)滾雪球模型的命名實(shí)體摘要模型:摘要滾雪球。本文圍繞構(gòu)建命名實(shí)體搜索中的這三個(gè) 科學(xué) 問題 展開 了深入的 研究,提出了一個(gè) 基于統(tǒng)計(jì)學(xué)習(xí)的 自學(xué)習(xí)模型 —— 統(tǒng)計(jì)滾雪球模型 ,彌補(bǔ) 了 現(xiàn)有自學(xué)習(xí)模型的不足 。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。 作者簽名: ___________ 簽字日期: _______________ 中國科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明 作為申請(qǐng)學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入 《中國學(xué)位論文全文數(shù)據(jù)庫》等 有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。 從網(wǎng)頁中自動(dòng)識(shí)別命名實(shí)體、對(duì)命名實(shí)體 進(jìn)行 摘要和為命名實(shí)體建立聯(lián)系并挖掘出其關(guān)系是實(shí)體知識(shí)挖掘的三個(gè) 關(guān)鍵 科學(xué) 問題。在互聯(lián)網(wǎng)真實(shí)數(shù)據(jù)下的實(shí)驗(yàn)表明,相對(duì)于 傳統(tǒng)的順序式知識(shí)挖掘 模型, 聯(lián)合挖掘模型 對(duì) 實(shí)體識(shí)別和關(guān)系抽取 任務(wù) 的 性能都有 較大 提高。 關(guān)鍵詞 : 知識(shí)挖掘,命名實(shí)體搜索, 自 學(xué)習(xí),關(guān)系抽取,命名 實(shí)體識(shí)別 , 命名實(shí)體摘要Abstract IV ABSTRACT With the rapid d
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1