freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁文本對(duì)象抽取實(shí)現(xiàn)技術(shù)本科畢業(yè)論文-文庫吧

2025-06-14 13:33 本頁面


【正文】 ............................................................................... 21 算法的測(cè)試和評(píng)估 ........................................................................................................ 24 博客正文抽取算法的意義和思考 ................................................................................ 25 4. 基于博客正文抽取的 Geeseek 搜索引擎 .......................................................................... 27 Geeseek 系統(tǒng)介紹 .......................................................................................................... 27 博客正文抽取模塊 ......................................................................................................... 28 博客正文抽取模塊簡介 ......................................................................................... 28 博客正文抽取模塊的主要數(shù)據(jù)類 ......................................................................... 29 博客正文抽取模塊的實(shí)現(xiàn)思路 ............................................................................. 30 系統(tǒng)展示 ......................................................................................................................... 33 5. 總結(jié) ..................................................................................................................................... 36 致 謝 ...................................................................................................................................... 37 參考文獻(xiàn) .................................................................................................................................. 39 湖南大學(xué)畢業(yè)論文 第 1 頁 湖南大學(xué)軟件學(xué)院 1. 緒論 本章介紹了課題的背景和研究現(xiàn)狀,并 對(duì)全 文的內(nèi)容和結(jié)構(gòu) 作了概括 。 課題 背景 及目的 為了應(yīng)對(duì)信息爆炸帶來的挑戰(zhàn),迫切需要一些自動(dòng)化的技術(shù)幫助人們?cè)诤A啃畔⒅醒杆僬业阶约赫嬲枰男畔ⅰP畔⒊槿?( Information Extraction, IE)正是解決這個(gè)問題的一種方法。 信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實(shí)等信息 , 形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個(gè)數(shù)據(jù)庫 , 供用戶查詢和使用的過程。也就是從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系 , 被抽取出來的信息以結(jié)構(gòu) 化的形式描述 , 然后存儲(chǔ)在數(shù)據(jù)庫中 , 為情報(bào)分析和檢測(cè)、比價(jià)購物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)。廣義上信息抽取技術(shù)的抽取對(duì)象并不局限于文本 , 其他形式存在的信息也可以作為信息抽取的對(duì)象 , 而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。廣義上信息抽取的過程如圖 。 圖 信息抽取示意圖 [1] 從自然語言文本中獲取結(jié)構(gòu)化信息的研究最早開始于 20世紀(jì) 60年代中期,這被看作是信息抽取技術(shù)的初始研究,它以兩個(gè)長期的、研究性的自然語言處理項(xiàng)目為代表。 美國紐約大學(xué)開展的 Linguistic String項(xiàng)目開始 于 60年代中期并一直延續(xù)到 80年代。該項(xiàng)目的主要研究內(nèi)容是建立一個(gè)大規(guī)模的英語計(jì)算語法,與之相關(guān)的應(yīng)用是從醫(yī)療領(lǐng)域的 X光報(bào)告和醫(yī)院出院記錄中抽取信息格式( Information Formats),這種信息格式實(shí)際上就是現(xiàn)在所說的模板( Templates)。 湖南大學(xué)畢業(yè)論文 第 2 頁 湖南大學(xué)軟件學(xué)院 另一個(gè)相關(guān)的長期項(xiàng)目是由耶魯大學(xué) Roger Schank及其同事在 20世紀(jì) 70年代開展的有關(guān)故事理解的研究。由他的學(xué)生 Gerald De Jong設(shè)計(jì)實(shí)現(xiàn)的 FRUMP系統(tǒng)是根據(jù)故事腳本理論建立的一個(gè)信息抽取系統(tǒng)。該系統(tǒng)從新聞報(bào)道中抽取信息,內(nèi)容涉及地震 、工人罷工等很多領(lǐng)域或場景。該系統(tǒng)采用了期望驅(qū)動(dòng)( topdown,腳本)與數(shù)據(jù)驅(qū)動(dòng)( bottomup,輸入文本)相結(jié)合的處理方法。這種方法被后來的許多信息抽取系統(tǒng)采用。 從 20世紀(jì) 80年代末開始,信息抽取研究蓬勃開展起來,這主要得益于消息理解系列會(huì)議( MUC, Message Understanding Conference)的召開。正是 MUC系列會(huì)議使信息抽取發(fā)展成為自然語言處理領(lǐng)域一個(gè)重要分支,并一直推動(dòng)這一領(lǐng)域的研究向前發(fā)展。 [2] 目前,隨著對(duì)信息抽取技術(shù)的不斷發(fā)展,各種抽取系統(tǒng)也層出不窮。當(dāng)前 的發(fā)展趨勢(shì)在慢慢減少人工標(biāo)記的分量,而采用非標(biāo)記的訓(xùn)練模型來實(shí)現(xiàn) Web信息抽取。根據(jù)這一趨勢(shì),信息抽取系統(tǒng)可以分成四類:人工構(gòu)造的抽取系統(tǒng)、基于指導(dǎo)的抽取系統(tǒng)、半指導(dǎo)的抽取系統(tǒng)以及非指導(dǎo)的抽取系統(tǒng)。 [3] 互聯(lián)網(wǎng)多年的自由發(fā)展使得大量無結(jié)構(gòu)信息的積累成為現(xiàn)實(shí),這些信息為互聯(lián)網(wǎng)用戶帶來更多選擇的同時(shí)極大地增大了人們獲得所需信息的復(fù)雜度。網(wǎng)絡(luò)搜索引擎的發(fā)明在一定程度上緩解了這種窘境,通過網(wǎng)絡(luò)搜索引擎服務(wù)商對(duì)信息的收集和篩選,人們能夠方便地獲得某些所需信息。 這樣就出現(xiàn)了 一項(xiàng) 與信息抽取密切相關(guān)的研究 —— 信息檢索 ( Information Retrieval, IR) 技術(shù)。 信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程 。 信息抽取與信息檢索存在差異,主要表現(xiàn)在三個(gè)方面: 功能不同。信息檢索系統(tǒng)主要是從大量的文檔集合中找到與用戶需求相關(guān)的文檔列表;而信息抽取系統(tǒng)則旨在從文本中直接獲得用戶感興趣的事實(shí)信息。 處理技術(shù)不同。信息檢索系統(tǒng)通常利用統(tǒng)計(jì)及關(guān)鍵詞匹配等技術(shù),把文本看成詞的集合( bags of words),不需要對(duì)文本進(jìn)行深入分析理解;而信息抽取往往要借助自然語言處 理技術(shù),通過對(duì)文本中的句子以及篇章進(jìn)行分析處理后才能完成。 適用領(lǐng)域不同。由于采用的技術(shù)不同,信息檢索系統(tǒng)通常是領(lǐng)域無關(guān)的,而信息抽取系統(tǒng)則是領(lǐng)域相關(guān)的,只能抽取系統(tǒng)預(yù)先設(shè)定好的有限種類的事實(shí)信息。 雖然信息抽取與信息檢索有區(qū)別 , 但兩種技術(shù)是互補(bǔ)的。為了處理海量文本,信息抽取系統(tǒng)通常以信息檢索系統(tǒng)(如文本過濾)的輸出作為輸入;而信息抽取技術(shù)又可以 湖南大學(xué)畢業(yè)論文 第 3 頁 湖南大學(xué)軟件學(xué)院 用來提高信息檢索系統(tǒng)的性能。二者的結(jié)合能夠更好地服務(wù)于用戶的信息處理需求。 [2] 信息抽取技術(shù)對(duì)于搜索引擎的發(fā)展有著重大的意義,它推動(dòng)著通用搜索引擎向新型的垂直搜索引擎發(fā)展,從而 能夠更好地滿足用戶的需要,讓搜索變得更快、更直接、更有效。 通用的搜索引擎是基于網(wǎng)頁級(jí)別的,因此有時(shí)候無法直接獲得想要的信息,而是需要點(diǎn)開很多個(gè)鏈接,分別在這些網(wǎng)頁中去找尋所需要的信息。很多時(shí)候, 用戶 得到的信息往往不是事先所期望的,或者信息非常雜亂而零散。通用搜索引擎在這些方面的不足讓人們開始了對(duì)搜索引擎更深層、更細(xì)致的研究。如今,新型的搜索引擎把研究單元定格在了對(duì)象級(jí)別?;ヂ?lián)網(wǎng)快速增長的海量資源使得人們對(duì)于搜索引擎的查詢結(jié)果有了更高的要求,鑒于 PageRank的成功,如何基于文本信息 抽取的方法,結(jié)合 HTML網(wǎng)頁不同于純文本的各種特征進(jìn)行網(wǎng)頁信息(包括文本、圖片、音頻和視頻等)的分析和抽取,以改進(jìn)網(wǎng)絡(luò)搜索引擎,成為互聯(lián)網(wǎng)信息檢索研究者關(guān)注的重要問題?;ヂ?lián)網(wǎng)信息抽取技術(shù)通過將無結(jié)構(gòu)或半結(jié)構(gòu)的互聯(lián)網(wǎng)數(shù)據(jù)結(jié)構(gòu)化,為理解用戶查詢與網(wǎng)絡(luò)文檔之間以及不同網(wǎng)絡(luò)文檔之間的相關(guān)性提供了基礎(chǔ),從而為改進(jìn)搜索效率和搜索方式提供了良好的理論依據(jù)。對(duì)象級(jí)別的搜索引擎的一個(gè)顯著優(yōu)點(diǎn)是可以利用對(duì)象的語義信息,采用直接或者聚合的結(jié)果來響應(yīng)復(fù)雜查詢,將具體的搜索結(jié)果清晰明了地呈獻(xiàn)給用戶。 本課題研究的目的旨在 傳統(tǒng)信息抽 取 思想的 基礎(chǔ)上 , 提出 一 種互聯(lián)網(wǎng)網(wǎng)頁文本對(duì)象的抽取實(shí)現(xiàn)方法 , 為解決當(dāng)前 博客垂直搜索的 問題提供一種切實(shí)可行的方式。 國內(nèi)外 研究 狀 況 關(guān)于 信息抽取 的研究在國內(nèi)外已經(jīng) 開展了相當(dāng)一段時(shí)間,本節(jié) 簡要介紹了 國內(nèi)外 信息抽取技術(shù) 研究 的 進(jìn)展。 國內(nèi) 研究現(xiàn)狀 國內(nèi)對(duì)中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實(shí)體識(shí)別方面,遵照 MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。 Intel中國研究中心在 ACL20xx上演示了他們開發(fā)的一個(gè)抽取中文命名實(shí)體以及實(shí)體間關(guān)系的系統(tǒng)。在 MUC6和MUC7上 , 增加 了中文系統(tǒng)的評(píng)測(cè)項(xiàng)目,國立臺(tái)灣大學(xué) ( National Taiwan University)和新加坡肯特崗數(shù)字實(shí)驗(yàn)室參加了 MUC7中文命名實(shí)體識(shí)別任務(wù)的評(píng)測(cè) , 測(cè)試了中文命名實(shí)體 ( 人名、地名、時(shí)間、事件等名詞性短語 ) 的識(shí)別,取得了與英文命名實(shí)體識(shí)別 湖南大學(xué)畢業(yè)論文 第 4 頁 湖南大學(xué)軟件學(xué)院 系統(tǒng)相近的性能。當(dāng)然這只是對(duì)中文信息提取作了比較初步的工作,并不能真正進(jìn)行中文信息提取。另外,北京大學(xué)計(jì)算語言所對(duì)中文信息提取也作了比較早的和比較系統(tǒng)的探討,承擔(dān)了兩個(gè)有關(guān)中文信息提取項(xiàng)目的工作,即自然科學(xué)基金項(xiàng)目 “ 中文信息提取技術(shù)研究 ” 和 IBM——北大創(chuàng)新研究院項(xiàng) 目 “ 中文信息提取系統(tǒng)的設(shè)計(jì)與開發(fā) ” 。其目標(biāo)是研究中文信息提取中的一些基礎(chǔ)性和關(guān)鍵性的問題,為開發(fā)實(shí)用的信息提取技術(shù)提供理論指導(dǎo),并具體探討信息提取系統(tǒng)設(shè)計(jì)的各個(gè)環(huán)節(jié) 。 [4] Intel中國研究中心的 Zhang Yimin等人在 ACL20xx上演示了他們開發(fā)的一個(gè)抽取中文命名實(shí)體及其關(guān)系的信息抽取系統(tǒng)。該系統(tǒng)利用基于記憶學(xué)習(xí) ( MemoryBased Learning,MBL) 算法獲取規(guī)則從而實(shí)現(xiàn)信息抽取。這些系統(tǒng)在中文命名實(shí)體的自動(dòng)識(shí)別方面取得了一些成績。車萬翔等人使用基于特征向量的有監(jiān)督的機(jī)器學(xué)習(xí)算法 ( SVM和 Winnow) 對(duì)實(shí)體關(guān)系進(jìn)行抽取。兩種算法都選擇命名實(shí)體左右兩個(gè)詞為特征詞 , 并得出結(jié)論 : 信息抽取系統(tǒng)若需要追求抽取的高性能 , 則選擇 SVM算法 ; 若需要追求高的學(xué)習(xí)效率 , 則選擇 Winnow算法。 [1] 國外 研究現(xiàn)狀 信息抽取的前身是文本理解,最早開始于 20世紀(jì) 60年代中期,主要是從自然語言文本中獲取結(jié)構(gòu)化信息的研究,這被看作是信息抽取技術(shù)的初始研究。 從 20世紀(jì) 80年代末開始,信息抽取研究蓬勃開展起來,這主要有兩個(gè)因素對(duì)其發(fā)展有重要的影響:一是在線和離線文本數(shù)量的幾何級(jí)增加,另一個(gè)是 “ 消息理 解研討會(huì) ”( MUC, Message Understanding Conference) 。 從 1987年開始到 1998年共舉行了七屆會(huì)議對(duì)該領(lǐng)域的關(guān)注和推動(dòng)。 MUC由美國國防高級(jí)研究計(jì)劃委員會(huì)( DARPA, the Defense Advanced Research Projects Agency)資助,其顯著特點(diǎn)并不是會(huì)議本身,而在于對(duì)信息抽取系統(tǒng)的評(píng)測(cè)。近幾年,信息抽取技術(shù)的研究與應(yīng)用更為活躍。在研究方面,主要側(cè)重于以下幾方面:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文 本處理能力、 WEB信息抽?。?Wrapper)以及對(duì)時(shí)間信息的處理等等。在應(yīng)用方面,信息抽取應(yīng)用的領(lǐng)域更加廣泛,除自成系統(tǒng)以外,還往往與其他文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)。至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有: Cymfony公司、 Bhasha公司、 Linguamatics公司、Revsolutions公司等。 目前,除了強(qiáng)烈的應(yīng)用需求外,正在推動(dòng)信息抽取研究進(jìn)一步發(fā)展的動(dòng)力主要來自 湖南大學(xué)畢業(yè)論文 第 5 頁 湖南大學(xué)軟件學(xué)院
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1