freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于java的校園在線訂餐網(wǎng)站的設(shè)計(jì)和實(shí)現(xiàn)-wenkub

2022-12-14 19:29:46 本頁(yè)面
 

【正文】 ,將相似的句子聚到一起 ,從而去除冗余信息 ,這種方法據(jù)上下文信息確定語(yǔ)義 ,提高了文本單元相似度計(jì)算精度 ,但它的效果依賴于上下文信 息 ,過(guò)于稀疏的語(yǔ)料不能很好的體現(xiàn)其潛在的語(yǔ)義 。 關(guān)于摘要生成 :不 同的文本單元 ,生成方法不同 ,有的研究工作基于段落單元 ,通過(guò)找到主要的信息段落 ,按與檢索的相關(guān)程度 ,或者說(shuō)按照信息量的多少進(jìn)行排序輸出 。 第三章 主要是介紹了本軟件開發(fā)的目的、應(yīng)用情景、相關(guān)需求以及總體設(shè)計(jì)。 圖 11 論文組織結(jié)構(gòu) 第一章緒論 第二章技術(shù)介紹 第三章需求分析與總體設(shè)計(jì) 第四章詳細(xì)設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn) 結(jié)束語(yǔ) 第五章系統(tǒng)演示與測(cè)試 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 5 第二章 技術(shù)介紹 所謂自動(dòng)文本摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘,文 摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容地簡(jiǎn)單連貫的短文。輸入模塊用來(lái)接收讀者的輸入信息(輸入感興趣的新聞文本);文本摘要模塊用來(lái)根據(jù)文本摘要算法,處理用戶的輸入,得 出新聞?wù)虼嗽撃K是整個(gè)系統(tǒng)最重要的核心模塊;輸出模塊主要負(fù)責(zé)文本摘要的輸出。所謂查詢相關(guān)式文本摘要,即與一般的摘要不同,希望給定用戶查詢條件,然后抽取出的文摘摘要不僅要體現(xiàn)文章主旨,還要和用戶查詢密切相關(guān)。它通常分 4 步進(jìn)行: (1)計(jì)算詞的權(quán)值; (2)計(jì)算句子的權(quán)值; (3)對(duì)原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句; (4)將所有文摘句按照它們?cè)谠闹械某霈F(xiàn)順序輸出??紤]到新聞信息繁雜多樣,領(lǐng)域不可限定以及生成速度等方面的因素,本文使用的文摘生成策略便是基于該方法得到的。 理解型自動(dòng)文摘采用了復(fù)雜的深層語(yǔ)言處理方法 [13],對(duì)于特定的領(lǐng)域來(lái)說(shuō),生成的文摘效果很好,具有較強(qiáng)的可讀性,語(yǔ)言簡(jiǎn)練并且能夠全面完整的概述原始文檔 中的內(nèi)容以及中心思想。信息抽取型文摘也稱為模版型文摘,該類文摘一般有一個(gè)定義好的框架,文摘的生成只需從原始文檔中將文摘模板所要求的內(nèi)容以及特 征詞摘錄出來(lái) [14],填入對(duì)應(yīng)的文摘模板中即可,再利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為通順?lè)险Z(yǔ)法的句子輸出來(lái)便得到了自動(dòng)文摘。在生成階段,利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為文摘輸出。 該類自動(dòng)文摘的生成對(duì)文摘框架的依賴性特別高,而不同類型,不同領(lǐng)域的文本需要有不同的文摘框架,所以此類文摘的生成還是要受限于領(lǐng)域、類別等因素的。但是語(yǔ)言學(xué)對(duì)于篇章結(jié)構(gòu)的研究還很不夠,可用的形式規(guī)則就更少了,這使得基于結(jié)構(gòu)的自動(dòng)文摘到目前為止還沒(méi)有一套成熟的方法,不同學(xué)者用來(lái)識(shí)別篇章結(jié)構(gòu)的手段也有很大差別。對(duì)于日新月異的新聞文摘的生成還存在一定的局限。 這種方法將系統(tǒng)生成的文摘與“理想摘要”進(jìn)行比較。內(nèi) 部評(píng)價(jià)還有幾個(gè)比較重要的指標(biāo)或參數(shù)來(lái)衡量文摘的質(zhì)量。 內(nèi)部評(píng)價(jià)方法的優(yōu)點(diǎn)比較有針對(duì)性,有利于系統(tǒng)的改進(jìn),但是也存在主觀性強(qiáng),不適 用于大規(guī)模的文本處理,針對(duì)內(nèi)部評(píng)價(jià)方法的不足,一些研究者又提出了外部評(píng)價(jià)方法。同時(shí)評(píng)價(jià)的標(biāo)準(zhǔn)太多,不利于形成統(tǒng)一的標(biāo)準(zhǔn)。這里我們使用了斯坦福語(yǔ)言處理包,具體的實(shí)現(xiàn)在第四章會(huì)進(jìn)行詳細(xì)的介紹。這樣,一方面省去了很多不必要的工作量,提高了系統(tǒng)的運(yùn)行速度。 詞語(yǔ)權(quán)重計(jì)算可以考慮的因素很多,其中主要的可以分為以下 5 個(gè)形式特征。 (3) 位置 (Location):句子、詞語(yǔ)在文章中的位置也能有效的影響它們的作用,如首段、末段、段首、段末等,句子權(quán)重應(yīng)提升。某一特定詞語(yǔ)的 IDF,南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 10 可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到,單詞的 IDF 值越高,說(shuō)明該詞具有很好的文檔區(qū)分能力。 (2)多文檔 ? ?? )( ID F iT F iSW (式 25) 其中 SW 代表句子權(quán)重, TFi 代表單詞 i 的詞頻權(quán)重, IDFi 代表單詞 i 的逆文檔頻率,查詢?cè)~的權(quán)重要設(shè)為所有分詞結(jié)果里 TF*IDF 的最大值。使用余弦距離作為衡量?jī)蓚€(gè)句子向量之間的差異。給定三角形的三條邊,可以使用余弦定理求出三角形各個(gè)角的角度。例如 :“西紅柿是什么顏色 ?”“番茄是什么顏色 ?”他們表達(dá)的應(yīng)該是完全相同的意思 ,因?yàn)椤拔骷t柿”和“番茄”在語(yǔ)義上是等 價(jià)的 .由于 TFIDF 方法沒(méi)有考慮這種語(yǔ)義信息 ,所以傳統(tǒng)的 TFIDF 方法具有一定的局限性。對(duì)于單文檔摘要,我們根據(jù)候選句子在原文中的位置來(lái)重新排列句子,組南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 12 成摘要輸出。斯坦福工具包是一個(gè)集成框架,它的目的是讓我們能夠輕松的對(duì)一段文本進(jìn)行一系列邏輯分析。 斯坦福工具包集成了許多自然語(yǔ)言處理工具,包括詞性標(biāo)注標(biāo)簽、命名實(shí)體識(shí)別、分析、同義詞分辨系統(tǒng),情感分析工具等。 自動(dòng)摘錄方法實(shí)現(xiàn)簡(jiǎn)單,它通常分 4 步進(jìn)行: (1)計(jì)算詞的權(quán)值; (2)計(jì)算句子的權(quán)值; (3)對(duì)原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句; (4)將所有文摘句按照它們?cè)谠闹械某霈F(xiàn)順序輸出。但由于該方法沒(méi)有對(duì)文本領(lǐng)域的要求,性能需求也較小,所以比較適合本次新聞?wù)到y(tǒng)。人們迫切需要一個(gè)可以對(duì)大量新聞信息進(jìn)行提煉、壓縮的工具,自動(dòng)文本摘要技術(shù)由于其可以提煉濃縮文本,減小用戶的瀏覽壓力,同時(shí)又可以為其他文本技術(shù)提供支持,因而得到了廣泛的關(guān)注。對(duì)于用戶查詢?cè)~的輸入也有一定的限制,必須是和主題相關(guān)的關(guān)鍵詞,如果查詢?cè)~在文章中不存在或者出現(xiàn)頻率較低不適合作為關(guān)鍵詞,那 么系統(tǒng)也要提醒用戶輸入的查詢?cè)~有誤。其中單文檔使用詞頻作為句子權(quán)重,根據(jù)摘要句子的位置判斷是否存在冗余;多文檔則使用詞頻和逆文檔頻率的乘積作為句子權(quán)重,使用余弦相似性判斷句子的冗余。其中手工輸入是人工編輯新聞?shì)斎氲揭粋€(gè)文本域內(nèi),當(dāng)然為了提供效率,該文本域?qū)崿F(xiàn)了文 本的復(fù)制粘貼功能。表示變換主要是 根據(jù)新聞的文本特征來(lái)提取新聞文本的關(guān)鍵詞,計(jì)算出各句子的重要程度,按句子權(quán)重生成臨時(shí)摘要。 本章主要介紹軟件的需求分析,從功能需求,運(yùn)行需求等方面進(jìn)行全面的分析。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 16 第四章 設(shè)計(jì)與實(shí)現(xiàn) 摘要分類 在設(shè)計(jì)和實(shí)現(xiàn)新聞?wù)K之前,我們首先需要進(jìn)行對(duì)用戶摘要類型的判斷,系統(tǒng)使用了四個(gè) boolean 變量來(lái)標(biāo)注當(dāng)前摘要類型。 //是否是英文摘要 private boolean stateChinese = false。 JFileChooser fileChooser = new JFileChooser()。 int i = (getContentPane())。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 17 圖 41 自動(dòng)摘要結(jié)構(gòu)框架圖 摘要步驟如下: 文本預(yù)處理首先是統(tǒng)計(jì)詞頻,這里我們使用一個(gè)映射來(lái)存儲(chǔ)詞頻: ListHashMapString, Double termFrequency 其中 list 是為了區(qū)分多條新聞, map 則是一個(gè)單詞和詞頻的鍵值對(duì)。 if (((index).get(word)) == null) { (index).put(word, )。 } } } 由于是多文檔,每一條新聞的長(zhǎng)度不一樣,所以說(shuō)如果只是統(tǒng)計(jì)詞出現(xiàn)的次數(shù),那么摘要會(huì)偏向文章內(nèi)容較長(zhǎng)的新聞,所以我們?cè)诙辔臋n的情況下并不是直接使用單詞出現(xiàn)的次數(shù)作為詞頻,而是使用相對(duì)詞頻,可以避免摘要偏向于文章內(nèi)容較長(zhǎng)的新聞 ,相對(duì)詞頻的計(jì)算如式 41: 文章的總次數(shù) 次數(shù)某個(gè)詞在文章中出現(xiàn)的)詞頻( ?TF (式 41) 統(tǒng)計(jì)完相對(duì)詞頻后,我們需要過(guò)濾掉停用詞,首先我們從本地讀入停用詞文本文件,然后使用一個(gè)集合工具類 Arrarlist 存儲(chǔ)停用詞。 for (String line = ()。 } ()。 i++) { HashMapString, Double tempFre = (i)。 if ((str)) { ()。如果這三個(gè)詞在一篇文章的出現(xiàn)次數(shù)一樣多,有理由認(rèn)為, 蜜蜂 和 養(yǎng)殖 的重要程度要大于 中國(guó) ,也就是說(shuō) ,在關(guān)鍵詞排序上面, 蜜蜂 和 養(yǎng)殖 應(yīng)該排在 中國(guó)的前面。這里我們還是先暫時(shí)用中文表示,最常見的詞( 的 、 是 、 在 )給予最小的權(quán)重,較常見的詞( 中國(guó) )給予較小的權(quán)重,較少見的詞( 蜜蜂 、 養(yǎng)殖 )給予較大的權(quán)重。 log 表示對(duì)得到的值取對(duì)數(shù)。 for (int i = 0。 (document)。 if ((word) || (word)) { containNews++。需要注意的是,我們?cè)诒闅v新聞中每個(gè)句子,判斷某個(gè)句子是否包含某個(gè)單詞的時(shí)候,因?yàn)橛⑽膯卧~存在分詞形式的變化,所以需要對(duì)匹配的單詞進(jìn)行詞形還原,不能簡(jiǎn)單的使用 Java的 String 類提供的 contain 方法。 while (()) { String, Double entry = (EntryString, Double) ()。 (key, word_TF * word_IDF)。 i++) { if ((i + 1) (i)) max = (i + 1)。 Annotation document = new Annotation(text)。 String lemma = ()。 } } } 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 21 } 這里程序?qū)懙牟皇呛芤?guī)范,出現(xiàn)了 goto 語(yǔ)句,但是因?yàn)樯婕暗饺龑友h(huán),如果使用標(biāo)志位來(lái)判斷,邏輯上有點(diǎn)復(fù)雜,所以直接使用了 goto 語(yǔ)句。 IteratorEntryString, Double itrWordTF_IDF = ().iterator()。 String lemma = ()。 ((), sentenceValue)。如果不考慮長(zhǎng)度的話,摘要會(huì)偏向于長(zhǎng)句,這會(huì)影響摘要的生成質(zhì)量。 ((0))。首先對(duì)句子按權(quán)重排序 (sentenceKeys, new ComparatorObject(){..})。 ((), sentenceValue)。 sentenceValue = (())。 String word = ()。對(duì)于句子的權(quán)重,初始時(shí)句子權(quán)重為 0,我們是統(tǒng)計(jì)該句子包含了 那些有意義的單詞,進(jìn)行對(duì)應(yīng)的權(quán)重求和。 (queryWord, max)。 ListCoreMap sentences = ()。 i ()。 for (int i = 0。 Double word_TF = ()。所以,自動(dòng)提取關(guān)鍵詞的算法 就很清楚了,就是計(jì)算出文檔的每個(gè)詞的 TFIDF 值,然后按降序排列,取排在最前面的幾個(gè)詞。 } } } } word_IDF = ( * () / (containNews))。 ok: for (CoreMap sentence : sentences) { for (CoreLabel token : ()) { String wordtemp = ()。 i++) { String news = (i)。 int containNews = 0。 IDF 的定義如式 42: 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 19 )1(l og)( ?? 包含該詞的文檔數(shù) 語(yǔ)料庫(kù)的文檔總數(shù)逆文檔頻率 ID F (式 42) 如果一個(gè)詞越常見,那么分母就越大,逆文檔頻率就越小越接近 0。如果某個(gè)詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?顯然不是這樣。 IteratorString itr = ()。 for (int i = 0。 line = ()) { String word = ()。 String filePath = new String()。 count++。 for (CoreLabel token : ()) { words_count++。 對(duì)應(yīng)于摘要的不同分類,項(xiàng)目中使用了四個(gè)類分別處理 對(duì)應(yīng)的摘要類型,但是由于摘要類型比較形似,所以這里介紹最為復(fù)雜的多文檔查詢相關(guān)摘要類型。 FileFilter filter = new FileNameExtensionFilter(文本文件 , txt)。 stateEnglish 用來(lái)指示是否是生成英文摘要, stateChinese 用來(lái)指示是否是生成中文摘要,由于進(jìn)度問(wèn)題,暫時(shí)沒(méi)有實(shí)現(xiàn)對(duì)中文的自動(dòng)文章。 //是否是單文檔
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1