freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于java的校園在線訂餐網(wǎng)站的設(shè)計(jì)和實(shí)現(xiàn)(文件)

 

【正文】 private boolean stateOfMulti = false。運(yùn)行需求中對(duì)主要的界面及其 出現(xiàn)故障時(shí)的處理情況。處理臨時(shí)摘要中的冗余信息,按照句子在原文的位置排序和顯示摘要。 新聞處理模塊 新聞處理模塊分為單文檔處理和多文檔處理,使用的是基于 TFIDF 算法的自動(dòng)摘錄型文摘方法,該算法的數(shù)據(jù)流圖如圖 32 所示 圖 32 新聞處理模塊數(shù)據(jù)流圖 新聞 處理 新聞自動(dòng)摘要系統(tǒng) 摘要輸出 新聞?shì)斎? 文件 導(dǎo)入 手工輸入入 單新聞處理 多新聞處理 單新聞或多新聞 原文分析 表示變換 摘要生成 摘要 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 15 整個(gè)處理過(guò)程分為原文分析、表示變換和摘要生成三個(gè)階段。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 14 根據(jù)系統(tǒng)的需求,初步擬定的系統(tǒng)架構(gòu)總體設(shè)計(jì)如圖 31: 圖 31 系統(tǒng)結(jié)構(gòu)圖 據(jù)圖 31 所示,根據(jù)該課題任務(wù)及進(jìn)行的調(diào)研,將新聞自動(dòng)摘要系統(tǒng)分為三個(gè)模塊,分別為新聞?shì)斎?、新聞處理和摘要輸出? 系統(tǒng)根據(jù)摘要的分類,即是否是查詢相關(guān)、是否是多文檔生成文檔摘要,顯示在輸出界面的文本域內(nèi)。 系統(tǒng)首先需要用戶設(shè)置摘要類型,即是否是查詢相關(guān)、是否是多文檔類型,接下來(lái)要求用戶選擇新聞?shì)斎敕绞?,然后根?jù)是否是查詢相關(guān)摘要要求用戶輸入查詢?cè)~,最后要求用戶輸入摘要句子長(zhǎng)度。海量的信息在極大的豐富人們?nèi)粘I畹耐瑫r(shí)也出現(xiàn)了許多問題,互聯(lián)網(wǎng)上存在大量的冗余、虛假信息。雖然該方法存在種種不足,例如:摘要內(nèi)容的不全面,摘要不夠簡(jiǎn)潔。 本章小結(jié) 本章主要介紹了文本摘要技術(shù),包括文本摘要技術(shù)的定義、分類以及四種主流的方法,包括:自動(dòng)摘錄、基于理解的自動(dòng)文摘、信息抽取和基于結(jié)構(gòu)的自動(dòng)文摘。它被設(shè)計(jì)成高度靈活和可擴(kuò)展的。 斯坦福工具包是一組自然語(yǔ)言分析工具的集合,該工具可以接受原始文本作為輸入,給出單詞的原型,詞性,不論它們是公司的名字,還是人名等等。由于新聞信息包含的內(nèi)容涉及各個(gè)方面,同時(shí)傳統(tǒng)的自然語(yǔ)言現(xiàn)在并沒有取得突破性的進(jìn)展,通過(guò)語(yǔ)義判斷句子相似實(shí)現(xiàn)較困難,所以本系統(tǒng)使用余弦相似性來(lái)消除冗余句子。舉一個(gè)具南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 11 體的例子,假如新聞 X 和新聞 Y 對(duì)應(yīng)向量分別是: ( x1, x2, ..., x6400)和( y1, y2, ..., y6400) 則,它們之間的余弦距離可以用它們之間夾角的余弦值來(lái)表示: ? ?????6 4 0 01 1226 4 0 01 )(c o snii yxyixi? (式 28) 當(dāng)兩條新聞向量夾角余弦等于 1 時(shí),這兩條新聞完全重復(fù);當(dāng)夾角的余弦值接近于 1 時(shí),兩條新聞相似(可以用作文本分類);夾角的余弦越小,兩條新聞越不相關(guān)如圖 21,22。而要確定兩個(gè)向量方向是否一致,這就要用到余弦定理計(jì)算向量的夾角。目前 主要存在兩種方法,分別是基于向量空間模的 TFIDF 的方法和句子語(yǔ)義相似度分析。本文的句子權(quán)重計(jì)算如式 24, 25所示。 (5) 提示詞 (Clue):句子中有些詞或短語(yǔ)本身不是關(guān)鍵詞,但它們能起提示作用,告訴讀者此句含有重要信息,如:“有重大意義的是”,“本文提出了”,“由此” ,“綜上所述”等。根據(jù)文本中特征詞出現(xiàn)的次數(shù)可以計(jì)算句子的權(quán)值。停用詞的過(guò)濾可以使用現(xiàn)有的一些中文停用詞 的詞表,然后將分詞內(nèi)容與詞表進(jìn)行對(duì)照,如果匹配,則將該詞去除,從而實(shí)現(xiàn)停用詞的有效過(guò)濾。 停用詞是指經(jīng)常使用的一些沒有實(shí)際意義的詞語(yǔ),如: a,the,an 等等。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 9 基于特征信息提取的自動(dòng)文摘處理過(guò)程為首先對(duì)文本進(jìn)行預(yù)處理,通過(guò)對(duì)詞語(yǔ)、句子的出現(xiàn)頻率以及位置等因素的考慮來(lái)實(shí)現(xiàn)特征詞的提取,進(jìn)而組合成候選語(yǔ)句,經(jīng)過(guò)句子相似度計(jì)算等進(jìn)一步加工后生成文摘語(yǔ)句輸出,便實(shí)現(xiàn)了文摘的自動(dòng)生成 [20]。例如利用文摘系統(tǒng)對(duì)每篇文檔生成一篇一般性的摘要,評(píng)測(cè)者根據(jù)該摘要對(duì)文本進(jìn)行分類,以分類的準(zhǔn)確性和花費(fèi)的時(shí)間作為評(píng)測(cè)指標(biāo)等。 (1) 召回率和準(zhǔn)確率 準(zhǔn)確率是指系統(tǒng)準(zhǔn)確識(shí)別的比率,召回率是指系統(tǒng)覆蓋全面內(nèi)容的比率,設(shè)Mk 為生成的“理想文摘”的句子數(shù), Ms為系統(tǒng)生成的句子數(shù)目,則 Mks為系統(tǒng)摘要和“理想摘要”的公共句子數(shù)目,則系統(tǒng)的召回率和準(zhǔn)確率如式 21, 22: kks MMca ll /Re ? (式 21) sks MMec isio n /Pr ? (式 22) (2) FMeasure 通過(guò)觀察可以發(fā)現(xiàn),召回率和準(zhǔn)確率兩者之間有一種微妙的平衡和關(guān)聯(lián),一般如果一個(gè)系統(tǒng)的準(zhǔn)確率提高了,其召回率就會(huì)下降,反之亦然。與“理想摘要”相似度越高的文摘,則質(zhì)量越高。即便如此,國(guó)內(nèi)外還是在這方面做了很多的研究,形成了一些普遍的觀點(diǎn)。 與其他的文摘的生成相比,結(jié)構(gòu)型的自動(dòng)文摘適用于科技文獻(xiàn)的文摘的編寫規(guī)范以及長(zhǎng)文檔、多文檔的文本生成文摘的要求。 篇章是一個(gè)有機(jī)的結(jié)構(gòu)體,篇章中的不同部分承擔(dān)著不同的功能, 各部分之間存在著錯(cuò)綜復(fù)雜的關(guān)系。英國(guó) Lancaster 大學(xué)Paice 等人在 1993 年提出的選擇與生成文摘法,實(shí)質(zhì)上就是信息抽取方法。文摘框架是一張申請(qǐng)單,它以空槽的形式提出應(yīng)從原文中獲取的各項(xiàng)內(nèi)容。 基于理解的文摘方法需要對(duì)文章進(jìn)行全面的分析,生成詳盡的語(yǔ)義表達(dá),這對(duì)于大規(guī)模真實(shí)文本而言是很難實(shí)現(xiàn)的。這種方法與自動(dòng)摘錄的明顯區(qū)別在于對(duì)知識(shí)的利用,首先借助詞典中的 語(yǔ)言學(xué)知識(shí)對(duì)原文中的句子進(jìn)行語(yǔ)法分析,獲得語(yǔ)法結(jié)構(gòu)樹;然后運(yùn)用知識(shí)庫(kù)中的語(yǔ)義知識(shí)將語(yǔ)法結(jié)構(gòu)描述轉(zhuǎn)換成以邏輯和意義為基礎(chǔ)的語(yǔ)義表示;接著根據(jù)知識(shí)庫(kù)中預(yù)先存放的領(lǐng)域知識(shí)在上下文中進(jìn)行推理,并將提取出來(lái)的關(guān)鍵內(nèi)容存入一張信息表;最后將信息表中的內(nèi)容轉(zhuǎn)換為一段完整連貫的文字輸出。 由于該方法依據(jù)的是淺層 文本特征,因此,該方法不受領(lǐng)域等其他因素的限制,幾乎適用于任何文檔,并且具有速度快,摘要長(zhǎng)度靈活等優(yōu)點(diǎn)。 現(xiàn)有的自動(dòng)文摘方法大概可分為四種:自動(dòng)摘錄、基于理解的自動(dòng)文摘、信息抽取和基于結(jié)構(gòu)的自動(dòng)文摘 [11],下面我們逐一介紹這 4 種主要的文摘方法。多文檔文摘需要考慮文檔之間的相互關(guān)聯(lián)性以及是否有相同的信息或相同的特征詞,需要在多個(gè)文檔中去除冗余,提取指定的信息,相對(duì)來(lái)講,多文檔文摘需要用到的技術(shù)以及實(shí)現(xiàn)過(guò)程要更具挑戰(zhàn)性。在一次新聞瀏覽的事務(wù)中,同一主題的新聞數(shù)量和新聞內(nèi)容的冗雜都會(huì)困擾讀者,摘要系統(tǒng)就面對(duì)了使用者,也就是用戶,稱為目標(biāo)用戶,自動(dòng)摘要系統(tǒng)的當(dāng)前任務(wù)就是根據(jù)一定的算法,給出用戶摘要信息。 第五章是對(duì)軟件的實(shí)際測(cè)試情況的分析與探索。 本文共分為五章,以下幾章內(nèi)容概要如圖 所示: 第一章主要內(nèi)容為緒論內(nèi)容,介紹了本次畢業(yè)設(shè)計(jì)課題的要求,目的和意義及論文組織結(jié)構(gòu)如圖 11 所示。有的學(xué)者 ,以詞為研究單元 ,日本東京大學(xué)的學(xué)者就通過(guò)兩個(gè)參數(shù) ,計(jì)算出中心主題和局部主題的詞 ,通過(guò)找到以這些詞作主語(yǔ)和賓語(yǔ)的句子 ,并把這些句子作為摘要句 ,根據(jù)它們之間的聯(lián)結(jié)關(guān)系生成摘要 [10]。 信息的提取工作 ,以段落為單元的研究己沒有更多的余地 ,因?yàn)橐远温錇閱卧獣?huì)包含許多冗余信息。 另外 ,美國(guó)密歇根大學(xué)的 Drgaomir 、卡耐基梅隆大學(xué)的 Jdae GoldStein等人 ,他們?cè)诙辔谋咀詣?dòng)摘要領(lǐng)域也做了很多的工作。 。 Newsblaster 是哥倫比 亞大學(xué)在多文本摘要方面的一個(gè)科研成果 ,它是一個(gè)新聞跟蹤的工具 ,并可以為每天的主要新聞做出相關(guān)的摘要。 多文本自動(dòng)摘要的研究工作最早在 80 年代開始 ,那時(shí)的研究工作還不具有普遍性 ,triger 在科技文章中通過(guò) 80 多種關(guān)系描述對(duì)多文本集合描述 ,科技文章的結(jié)構(gòu)南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 3 化統(tǒng)一些 ,比較好刻畫 ,但這種描述是受限域的 ,不利于推廣。得一定科研成果的單位主要有哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、上海復(fù)旦大學(xué)、北京郵電大學(xué)、東北大學(xué)等。最后運(yùn)用自頂向下的分析器 TRUMPET(TRUMP Expectation Tool)從概念表示中提取預(yù)期的內(nèi)容 [6][7]。該系統(tǒng)輸出的摘要比其它任何一個(gè)計(jì)算機(jī)摘要產(chǎn)生系統(tǒng)輸出的摘要更接近于手工編寫的摘要 [5]。 俄亥俄州立大學(xué)的 Ruhs 和 MathiS 等人對(duì)摘要自動(dòng)生成系統(tǒng)進(jìn)行了深入研究[3][4],他們的系統(tǒng)名字為 ADAM(Automatic Document Abstracting Method),其重要特征是研制了 種種規(guī)則和程序來(lái)識(shí)別和排除原始文獻(xiàn)中那些不應(yīng)該摘出的句子 ,強(qiáng)調(diào)的是排除指標(biāo)而不是選擇規(guī)則。 Luhn 在 1958 年 發(fā)表的關(guān)于自動(dòng)編制摘要的文章 [2],開創(chuàng)了一種樣板性研究方南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 案 ,Luhn 將詞匯分為兩大類 :通用詞和內(nèi)容詞。 對(duì)自動(dòng)編制摘要的研究開始于本世紀(jì)五 十年代初期 ,它是計(jì)算機(jī)技術(shù)和機(jī)器翻譯這兩大發(fā)展潮流自然匯合在一起的結(jié)果。摘要應(yīng)包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容 ,并以語(yǔ)意連貫的段落乃至篇章形式輸出 ,其目標(biāo)是致力于將信息全面的、簡(jiǎn)潔的文本直接呈現(xiàn)給用戶 ,提 高用戶獲取信息效率。在給新聞擬定摘要或者標(biāo)題的時(shí)候,面對(duì) 數(shù)量巨大、內(nèi)容繁雜的新聞,每條新聞或者同類型的新聞都由編輯人員人工提煉,那將導(dǎo)致媒體新聞發(fā)布的效率低下,用戶很有可能會(huì)轉(zhuǎn)向同行業(yè)的競(jìng)爭(zhēng)對(duì)手,這將直接導(dǎo)致媒體公司的競(jìng)爭(zhēng)力下降。s browsing pressure, but also provides support for other text technology, which has been widespread concern . The main objective of this paper is automatic summarization technology of news text,after consulting related summary technology on the basis of the algorithm in the academic, it emphasizes on the use of the external features of news text and TFIDF algorithm to generate the summary of single news text and multidocument project cited English language processing tools Stanford CoreNLP to tokenizes the text,splits a sequence of tokens into sentences,and generates the word lemmas for all tokens in the design and implement this system in Java on the Eclipse platform. Key Words:Automatic Text Summarization; TFIDF; Termweighting; Feature information extraction; Cosine similarity III 目 錄 第一章 緒論 .............................................................................................1 課題研究背景和意義 .......................................................................................... 1 課題研究現(xiàn)狀 ...................................................................................................... 1 單文本自動(dòng)摘要 ........................................................................................ 1 多文本自動(dòng)摘要 ............................
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1