freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計-基于java的校園在線訂餐網(wǎng)站的設(shè)計和實現(xiàn)-wenkub

2022-12-14 19:29:46 本頁面
 

【正文】 ,將相似的句子聚到一起 ,從而去除冗余信息 ,這種方法據(jù)上下文信息確定語義 ,提高了文本單元相似度計算精度 ,但它的效果依賴于上下文信 息 ,過于稀疏的語料不能很好的體現(xiàn)其潛在的語義 。 關(guān)于摘要生成 :不 同的文本單元 ,生成方法不同 ,有的研究工作基于段落單元 ,通過找到主要的信息段落 ,按與檢索的相關(guān)程度 ,或者說按照信息量的多少進(jìn)行排序輸出 。 第三章 主要是介紹了本軟件開發(fā)的目的、應(yīng)用情景、相關(guān)需求以及總體設(shè)計。 圖 11 論文組織結(jié)構(gòu) 第一章緒論 第二章技術(shù)介紹 第三章需求分析與總體設(shè)計 第四章詳細(xì)設(shè)計與系統(tǒng)實現(xiàn) 結(jié)束語 第五章系統(tǒng)演示與測試 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 5 第二章 技術(shù)介紹 所謂自動文本摘要就是利用計算機(jī)自動地從原始文獻(xiàn)中提取文摘,文 摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容地簡單連貫的短文。輸入模塊用來接收讀者的輸入信息(輸入感興趣的新聞文本);文本摘要模塊用來根據(jù)文本摘要算法,處理用戶的輸入,得 出新聞?wù)?,因此該模塊是整個系統(tǒng)最重要的核心模塊;輸出模塊主要負(fù)責(zé)文本摘要的輸出。所謂查詢相關(guān)式文本摘要,即與一般的摘要不同,希望給定用戶查詢條件,然后抽取出的文摘摘要不僅要體現(xiàn)文章主旨,還要和用戶查詢密切相關(guān)。它通常分 4 步進(jìn)行: (1)計算詞的權(quán)值; (2)計算句子的權(quán)值; (3)對原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句; (4)將所有文摘句按照它們在原文中的出現(xiàn)順序輸出??紤]到新聞信息繁雜多樣,領(lǐng)域不可限定以及生成速度等方面的因素,本文使用的文摘生成策略便是基于該方法得到的。 理解型自動文摘采用了復(fù)雜的深層語言處理方法 [13],對于特定的領(lǐng)域來說,生成的文摘效果很好,具有較強的可讀性,語言簡練并且能夠全面完整的概述原始文檔 中的內(nèi)容以及中心思想。信息抽取型文摘也稱為模版型文摘,該類文摘一般有一個定義好的框架,文摘的生成只需從原始文檔中將文摘模板所要求的內(nèi)容以及特 征詞摘錄出來 [14],填入對應(yīng)的文摘模板中即可,再利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為通順符合語法的句子輸出來便得到了自動文摘。在生成階段,利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為文摘輸出。 該類自動文摘的生成對文摘框架的依賴性特別高,而不同類型,不同領(lǐng)域的文本需要有不同的文摘框架,所以此類文摘的生成還是要受限于領(lǐng)域、類別等因素的。但是語言學(xué)對于篇章結(jié)構(gòu)的研究還很不夠,可用的形式規(guī)則就更少了,這使得基于結(jié)構(gòu)的自動文摘到目前為止還沒有一套成熟的方法,不同學(xué)者用來識別篇章結(jié)構(gòu)的手段也有很大差別。對于日新月異的新聞文摘的生成還存在一定的局限。 這種方法將系統(tǒng)生成的文摘與“理想摘要”進(jìn)行比較。內(nèi) 部評價還有幾個比較重要的指標(biāo)或參數(shù)來衡量文摘的質(zhì)量。 內(nèi)部評價方法的優(yōu)點比較有針對性,有利于系統(tǒng)的改進(jìn),但是也存在主觀性強,不適 用于大規(guī)模的文本處理,針對內(nèi)部評價方法的不足,一些研究者又提出了外部評價方法。同時評價的標(biāo)準(zhǔn)太多,不利于形成統(tǒng)一的標(biāo)準(zhǔn)。這里我們使用了斯坦福語言處理包,具體的實現(xiàn)在第四章會進(jìn)行詳細(xì)的介紹。這樣,一方面省去了很多不必要的工作量,提高了系統(tǒng)的運行速度。 詞語權(quán)重計算可以考慮的因素很多,其中主要的可以分為以下 5 個形式特征。 (3) 位置 (Location):句子、詞語在文章中的位置也能有效的影響它們的作用,如首段、末段、段首、段末等,句子權(quán)重應(yīng)提升。某一特定詞語的 IDF,南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 10 可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到,單詞的 IDF 值越高,說明該詞具有很好的文檔區(qū)分能力。 (2)多文檔 ? ?? )( ID F iT F iSW (式 25) 其中 SW 代表句子權(quán)重, TFi 代表單詞 i 的詞頻權(quán)重, IDFi 代表單詞 i 的逆文檔頻率,查詢詞的權(quán)重要設(shè)為所有分詞結(jié)果里 TF*IDF 的最大值。使用余弦距離作為衡量兩個句子向量之間的差異。給定三角形的三條邊,可以使用余弦定理求出三角形各個角的角度。例如 :“西紅柿是什么顏色 ?”“番茄是什么顏色 ?”他們表達(dá)的應(yīng)該是完全相同的意思 ,因為“西紅柿”和“番茄”在語義上是等 價的 .由于 TFIDF 方法沒有考慮這種語義信息 ,所以傳統(tǒng)的 TFIDF 方法具有一定的局限性。對于單文檔摘要,我們根據(jù)候選句子在原文中的位置來重新排列句子,組南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 12 成摘要輸出。斯坦福工具包是一個集成框架,它的目的是讓我們能夠輕松的對一段文本進(jìn)行一系列邏輯分析。 斯坦福工具包集成了許多自然語言處理工具,包括詞性標(biāo)注標(biāo)簽、命名實體識別、分析、同義詞分辨系統(tǒng),情感分析工具等。 自動摘錄方法實現(xiàn)簡單,它通常分 4 步進(jìn)行: (1)計算詞的權(quán)值; (2)計算句子的權(quán)值; (3)對原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句; (4)將所有文摘句按照它們在原文中的出現(xiàn)順序輸出。但由于該方法沒有對文本領(lǐng)域的要求,性能需求也較小,所以比較適合本次新聞?wù)到y(tǒng)。人們迫切需要一個可以對大量新聞信息進(jìn)行提煉、壓縮的工具,自動文本摘要技術(shù)由于其可以提煉濃縮文本,減小用戶的瀏覽壓力,同時又可以為其他文本技術(shù)提供支持,因而得到了廣泛的關(guān)注。對于用戶查詢詞的輸入也有一定的限制,必須是和主題相關(guān)的關(guān)鍵詞,如果查詢詞在文章中不存在或者出現(xiàn)頻率較低不適合作為關(guān)鍵詞,那 么系統(tǒng)也要提醒用戶輸入的查詢詞有誤。其中單文檔使用詞頻作為句子權(quán)重,根據(jù)摘要句子的位置判斷是否存在冗余;多文檔則使用詞頻和逆文檔頻率的乘積作為句子權(quán)重,使用余弦相似性判斷句子的冗余。其中手工輸入是人工編輯新聞輸入到一個文本域內(nèi),當(dāng)然為了提供效率,該文本域?qū)崿F(xiàn)了文 本的復(fù)制粘貼功能。表示變換主要是 根據(jù)新聞的文本特征來提取新聞文本的關(guān)鍵詞,計算出各句子的重要程度,按句子權(quán)重生成臨時摘要。 本章主要介紹軟件的需求分析,從功能需求,運行需求等方面進(jìn)行全面的分析。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 16 第四章 設(shè)計與實現(xiàn) 摘要分類 在設(shè)計和實現(xiàn)新聞?wù)K之前,我們首先需要進(jìn)行對用戶摘要類型的判斷,系統(tǒng)使用了四個 boolean 變量來標(biāo)注當(dāng)前摘要類型。 //是否是英文摘要 private boolean stateChinese = false。 JFileChooser fileChooser = new JFileChooser()。 int i = (getContentPane())。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 17 圖 41 自動摘要結(jié)構(gòu)框架圖 摘要步驟如下: 文本預(yù)處理首先是統(tǒng)計詞頻,這里我們使用一個映射來存儲詞頻: ListHashMapString, Double termFrequency 其中 list 是為了區(qū)分多條新聞, map 則是一個單詞和詞頻的鍵值對。 if (((index).get(word)) == null) { (index).put(word, )。 } } } 由于是多文檔,每一條新聞的長度不一樣,所以說如果只是統(tǒng)計詞出現(xiàn)的次數(shù),那么摘要會偏向文章內(nèi)容較長的新聞,所以我們在多文檔的情況下并不是直接使用單詞出現(xiàn)的次數(shù)作為詞頻,而是使用相對詞頻,可以避免摘要偏向于文章內(nèi)容較長的新聞 ,相對詞頻的計算如式 41: 文章的總次數(shù) 次數(shù)某個詞在文章中出現(xiàn)的)詞頻( ?TF (式 41) 統(tǒng)計完相對詞頻后,我們需要過濾掉停用詞,首先我們從本地讀入停用詞文本文件,然后使用一個集合工具類 Arrarlist 存儲停用詞。 for (String line = ()。 } ()。 i++) { HashMapString, Double tempFre = (i)。 if ((str)) { ()。如果這三個詞在一篇文章的出現(xiàn)次數(shù)一樣多,有理由認(rèn)為, 蜜蜂 和 養(yǎng)殖 的重要程度要大于 中國 ,也就是說 ,在關(guān)鍵詞排序上面, 蜜蜂 和 養(yǎng)殖 應(yīng)該排在 中國的前面。這里我們還是先暫時用中文表示,最常見的詞( 的 、 是 、 在 )給予最小的權(quán)重,較常見的詞( 中國 )給予較小的權(quán)重,較少見的詞( 蜜蜂 、 養(yǎng)殖 )給予較大的權(quán)重。 log 表示對得到的值取對數(shù)。 for (int i = 0。 (document)。 if ((word) || (word)) { containNews++。需要注意的是,我們在遍歷新聞中每個句子,判斷某個句子是否包含某個單詞的時候,因為英文單詞存在分詞形式的變化,所以需要對匹配的單詞進(jìn)行詞形還原,不能簡單的使用 Java的 String 類提供的 contain 方法。 while (()) { String, Double entry = (EntryString, Double) ()。 (key, word_TF * word_IDF)。 i++) { if ((i + 1) (i)) max = (i + 1)。 Annotation document = new Annotation(text)。 String lemma = ()。 } } } 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 21 } 這里程序?qū)懙牟皇呛芤?guī)范,出現(xiàn)了 goto 語句,但是因為涉及到三層循環(huán),如果使用標(biāo)志位來判斷,邏輯上有點復(fù)雜,所以直接使用了 goto 語句。 IteratorEntryString, Double itrWordTF_IDF = ().iterator()。 String lemma = ()。 ((), sentenceValue)。如果不考慮長度的話,摘要會偏向于長句,這會影響摘要的生成質(zhì)量。 ((0))。首先對句子按權(quán)重排序 (sentenceKeys, new ComparatorObject(){..})。 ((), sentenceValue)。 sentenceValue = (())。 String word = ()。對于句子的權(quán)重,初始時句子權(quán)重為 0,我們是統(tǒng)計該句子包含了 那些有意義的單詞,進(jìn)行對應(yīng)的權(quán)重求和。 (queryWord, max)。 ListCoreMap sentences = ()。 i ()。 for (int i = 0。 Double word_TF = ()。所以,自動提取關(guān)鍵詞的算法 就很清楚了,就是計算出文檔的每個詞的 TFIDF 值,然后按降序排列,取排在最前面的幾個詞。 } } } } word_IDF = ( * () / (containNews))。 ok: for (CoreMap sentence : sentences) { for (CoreLabel token : ()) { String wordtemp = ()。 i++) { String news = (i)。 int containNews = 0。 IDF 的定義如式 42: 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(論文) 19 )1(l og)( ?? 包含該詞的文檔數(shù) 語料庫的文檔總數(shù)逆文檔頻率 ID F (式 42) 如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近 0。如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?顯然不是這樣。 IteratorString itr = ()。 for (int i = 0。 line = ()) { String word = ()。 String filePath = new String()。 count++。 for (CoreLabel token : ()) { words_count++。 對應(yīng)于摘要的不同分類,項目中使用了四個類分別處理 對應(yīng)的摘要類型,但是由于摘要類型比較形似,所以這里介紹最為復(fù)雜的多文檔查詢相關(guān)摘要類型。 FileFilter filter = new FileNameExtensionFilter(文本文件 , txt)。 stateEnglish 用來指示是否是生成英文摘要, stateChinese 用來指示是否是生成中文摘要,由于進(jìn)度問題,暫時沒有實現(xiàn)對中文的自動文章。 //是否是單文檔
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1