freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于java的校園在線訂餐網(wǎng)站的設(shè)計(jì)和實(shí)現(xiàn)-文庫(kù)吧資料

2024-12-11 19:29本頁(yè)面
  

【正文】 :句子中有些詞或短語(yǔ)本身不是關(guān)鍵詞,但它們能起提示作用,告訴讀者此句含有重要信息,如:“有重大意義的是”,“本文提出了”,“由此” ,“綜上所述”等。 (3) 位置 (Location):句子、詞語(yǔ)在文章中的位置也能有效的影響它們的作用,如首段、末段、段首、段末等,句子權(quán)重應(yīng)提升。根據(jù)文本中特征詞出現(xiàn)的次數(shù)可以計(jì)算句子的權(quán)值。 詞語(yǔ)權(quán)重計(jì)算可以考慮的因素很多,其中主要的可以分為以下 5 個(gè)形式特征。停用詞的過(guò)濾可以使用現(xiàn)有的一些中文停用詞 的詞表,然后將分詞內(nèi)容與詞表進(jìn)行對(duì)照,如果匹配,則將該詞去除,從而實(shí)現(xiàn)停用詞的有效過(guò)濾。這樣,一方面省去了很多不必要的工作量,提高了系統(tǒng)的運(yùn)行速度。 停用詞是指經(jīng)常使用的一些沒(méi)有實(shí)際意義的詞語(yǔ),如: a,the,an 等等。這里我們使用了斯坦福語(yǔ)言處理包,具體的實(shí)現(xiàn)在第四章會(huì)進(jìn)行詳細(xì)的介紹。 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 9 基于特征信息提取的自動(dòng)文摘處理過(guò)程為首先對(duì)文本進(jìn)行預(yù)處理,通過(guò)對(duì)詞語(yǔ)、句子的出現(xiàn)頻率以及位置等因素的考慮來(lái)實(shí)現(xiàn)特征詞的提取,進(jìn)而組合成候選語(yǔ)句,經(jīng)過(guò)句子相似度計(jì)算等進(jìn)一步加工后生成文摘語(yǔ)句輸出,便實(shí)現(xiàn)了文摘的自動(dòng)生成 [20]。同時(shí)評(píng)價(jià)的標(biāo)準(zhǔn)太多,不利于形成統(tǒng)一的標(biāo)準(zhǔn)。例如利用文摘系統(tǒng)對(duì)每篇文檔生成一篇一般性的摘要,評(píng)測(cè)者根據(jù)該摘要對(duì)文本進(jìn)行分類,以分類的準(zhǔn)確性和花費(fèi)的時(shí)間作為評(píng)測(cè)指標(biāo)等。 內(nèi)部評(píng)價(jià)方法的優(yōu)點(diǎn)比較有針對(duì)性,有利于系統(tǒng)的改進(jìn),但是也存在主觀性強(qiáng),不適 用于大規(guī)模的文本處理,針對(duì)內(nèi)部評(píng)價(jià)方法的不足,一些研究者又提出了外部評(píng)價(jià)方法。 (1) 召回率和準(zhǔn)確率 準(zhǔn)確率是指系統(tǒng)準(zhǔn)確識(shí)別的比率,召回率是指系統(tǒng)覆蓋全面內(nèi)容的比率,設(shè)Mk 為生成的“理想文摘”的句子數(shù), Ms為系統(tǒng)生成的句子數(shù)目,則 Mks為系統(tǒng)摘要和“理想摘要”的公共句子數(shù)目,則系統(tǒng)的召回率和準(zhǔn)確率如式 21, 22: kks MMca ll /Re ? (式 21) sks MMec isio n /Pr ? (式 22) (2) FMeasure 通過(guò)觀察可以發(fā)現(xiàn),召回率和準(zhǔn)確率兩者之間有一種微妙的平衡和關(guān)聯(lián),一般如果一個(gè)系統(tǒng)的準(zhǔn)確率提高了,其召回率就會(huì)下降,反之亦然。內(nèi) 部評(píng)價(jià)還有幾個(gè)比較重要的指標(biāo)或參數(shù)來(lái)衡量文摘的質(zhì)量。與“理想摘要”相似度越高的文摘,則質(zhì)量越高。 這種方法將系統(tǒng)生成的文摘與“理想摘要”進(jìn)行比較。即便如此,國(guó)內(nèi)外還是在這方面做了很多的研究,形成了一些普遍的觀點(diǎn)。對(duì)于日新月異的新聞文摘的生成還存在一定的局限。 與其他的文摘的生成相比,結(jié)構(gòu)型的自動(dòng)文摘適用于科技文獻(xiàn)的文摘的編寫規(guī)范以及長(zhǎng)文檔、多文檔的文本生成文摘的要求。但是語(yǔ)言學(xué)對(duì)于篇章結(jié)構(gòu)的研究還很不夠,可用的形式規(guī)則就更少了,這使得基于結(jié)構(gòu)的自動(dòng)文摘到目前為止還沒(méi)有一套成熟的方法,不同學(xué)者用來(lái)識(shí)別篇章結(jié)構(gòu)的手段也有很大差別。 篇章是一個(gè)有機(jī)的結(jié)構(gòu)體,篇章中的不同部分承擔(dān)著不同的功能, 各部分之間存在著錯(cuò)綜復(fù)雜的關(guān)系。 該類自動(dòng)文摘的生成對(duì)文摘框架的依賴性特別高,而不同類型,不同領(lǐng)域的文本需要有不同的文摘框架,所以此類文摘的生成還是要受限于領(lǐng)域、類別等因素的。英國(guó) Lancaster 大學(xué)Paice 等人在 1993 年提出的選擇與生成文摘法,實(shí)質(zhì)上就是信息抽取方法。在生成階段,利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為文摘輸出。文摘框架是一張申請(qǐng)單,它以空槽的形式提出應(yīng)從原文中獲取的各項(xiàng)內(nèi)容。信息抽取型文摘也稱為模版型文摘,該類文摘一般有一個(gè)定義好的框架,文摘的生成只需從原始文檔中將文摘模板所要求的內(nèi)容以及特 征詞摘錄出來(lái) [14],填入對(duì)應(yīng)的文摘模板中即可,再利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為通順?lè)险Z(yǔ)法的句子輸出來(lái)便得到了自動(dòng)文摘。 基于理解的文摘方法需要對(duì)文章進(jìn)行全面的分析,生成詳盡的語(yǔ)義表達(dá),這對(duì)于大規(guī)模真實(shí)文本而言是很難實(shí)現(xiàn)的。 理解型自動(dòng)文摘采用了復(fù)雜的深層語(yǔ)言處理方法 [13],對(duì)于特定的領(lǐng)域來(lái)說(shuō),生成的文摘效果很好,具有較強(qiáng)的可讀性,語(yǔ)言簡(jiǎn)練并且能夠全面完整的概述原始文檔 中的內(nèi)容以及中心思想。這種方法與自動(dòng)摘錄的明顯區(qū)別在于對(duì)知識(shí)的利用,首先借助詞典中的 語(yǔ)言學(xué)知識(shí)對(duì)原文中的句子進(jìn)行語(yǔ)法分析,獲得語(yǔ)法結(jié)構(gòu)樹(shù);然后運(yùn)用知識(shí)庫(kù)中的語(yǔ)義知識(shí)將語(yǔ)法結(jié)構(gòu)描述轉(zhuǎn)換成以邏輯和意義為基礎(chǔ)的語(yǔ)義表示;接著根據(jù)知識(shí)庫(kù)中預(yù)先存放的領(lǐng)域知識(shí)在上下文中進(jìn)行推理,并將提取出來(lái)的關(guān)鍵內(nèi)容存入一張信息表;最后將信息表中的內(nèi)容轉(zhuǎn)換為一段完整連貫的文字輸出??紤]到新聞信息繁雜多樣,領(lǐng)域不可限定以及生成速度等方面的因素,本文使用的文摘生成策略便是基于該方法得到的。 由于該方法依據(jù)的是淺層 文本特征,因此,該方法不受領(lǐng)域等其他因素的限制,幾乎適用于任何文檔,并且具有速度快,摘要長(zhǎng)度靈活等優(yōu)點(diǎn)。它通常分 4 步進(jìn)行: (1)計(jì)算詞的權(quán)值; (2)計(jì)算句子的權(quán)值; (3)對(duì)原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句; (4)將所有文摘句按照它們?cè)谠闹械某霈F(xiàn)順序輸出。 現(xiàn)有的自動(dòng)文摘方法大概可分為四種:自動(dòng)摘錄、基于理解的自動(dòng)文摘、信息抽取和基于結(jié)構(gòu)的自動(dòng)文摘 [11],下面我們逐一介紹這 4 種主要的文摘方法。所謂查詢相關(guān)式文本摘要,即與一般的摘要不同,希望給定用戶查詢條件,然后抽取出的文摘摘要不僅要體現(xiàn)文章主旨,還要和用戶查詢密切相關(guān)。多文檔文摘需要考慮文檔之間的相互關(guān)聯(lián)性以及是否有相同的信息或相同的特征詞,需要在多個(gè)文檔中去除冗余,提取指定的信息,相對(duì)來(lái)講,多文檔文摘需要用到的技術(shù)以及實(shí)現(xiàn)過(guò)程要更具挑戰(zhàn)性。輸入模塊用來(lái)接收讀者的輸入信息(輸入感興趣的新聞文本);文本摘要模塊用來(lái)根據(jù)文本摘要算法,處理用戶的輸入,得 出新聞?wù)?,因此該模塊是整個(gè)系統(tǒng)最重要的核心模塊;輸出模塊主要負(fù)責(zé)文本摘要的輸出。在一次新聞瀏覽的事務(wù)中,同一主題的新聞數(shù)量和新聞內(nèi)容的冗雜都會(huì)困擾讀者,摘要系統(tǒng)就面對(duì)了使用者,也就是用戶,稱為目標(biāo)用戶,自動(dòng)摘要系統(tǒng)的當(dāng)前任務(wù)就是根據(jù)一定的算法,給出用戶摘要信息。 圖 11 論文組織結(jié)構(gòu) 第一章緒論 第二章技術(shù)介紹 第三章需求分析與總體設(shè)計(jì) 第四章詳細(xì)設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn) 結(jié)束語(yǔ) 第五章系統(tǒng)演示與測(cè)試 南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 5 第二章 技術(shù)介紹 所謂自動(dòng)文本摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘,文 摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容地簡(jiǎn)單連貫的短文。 第五章是對(duì)軟件的實(shí)際測(cè)試情況的分析與探索。 第三章 主要是介紹了本軟件開(kāi)發(fā)的目的、應(yīng)用情景、相關(guān)需求以及總體設(shè)計(jì)。 本文共分為五章,以下幾章內(nèi)容概要如圖 所示: 第一章主要內(nèi)容為緒論內(nèi)容,介紹了本次畢業(yè)設(shè)計(jì)課題的要求,目的和意義及論文組織結(jié)構(gòu)如圖 11 所示。 關(guān)于摘要生成 :不 同的文本單元 ,生成方法不同 ,有的研究工作基于段落單元 ,通過(guò)找到主要的信息段落 ,按與檢索的相關(guān)程度 ,或者說(shuō)按照信息量的多少進(jìn)行排序輸出 。有的學(xué)者 ,以詞為研究單元 ,日本東京大學(xué)的學(xué)者就通過(guò)兩個(gè)參數(shù) ,計(jì)算出中心主題和局部主題的詞 ,通過(guò)找到以這些詞作主語(yǔ)和賓語(yǔ)的句子 ,并把這些句子作為摘要句 ,根據(jù)它們之間的聯(lián)結(jié)關(guān)系生成摘要 [10]??的螤柎髮W(xué)的研究者借助于隱含語(yǔ)義索引方法 ,判斷相似的句子 ,將相似的句子聚到一起 ,從而去除冗余信息 ,這種方法據(jù)上下文信息確定語(yǔ)義 ,提高了文本單元相似度計(jì)算精度 ,但它的效果依賴于上下文信 息 ,過(guò)于稀疏的語(yǔ)料不能很好的體現(xiàn)其潛在的語(yǔ)義 。 信息的提取工作 ,以段落為單元的研究己沒(méi)有更多的余地 ,因?yàn)橐远温錇閱卧獣?huì)包含許多冗余信息。但總的來(lái)說(shuō) ,相關(guān)的文章發(fā)表得不多。 另外 ,美國(guó)密歇根大學(xué)的 Drgaomir 、卡耐基梅隆大學(xué)的 Jdae GoldStein等人 ,他們?cè)诙辔谋咀詣?dòng)摘要領(lǐng)域也做了很多的工作。 MMR 方法來(lái)去除冗余信息。 。 NeATS 是南加州大學(xué)最近在多文本摘要技術(shù)上的成果 ,該系統(tǒng)參加了 DUCZO01 的評(píng)測(cè) ,成績(jī)名列前茅。 Newsblaster 是哥倫比 亞大學(xué)在多文本摘要方面的一個(gè)科研成果 ,它是一個(gè)新聞跟蹤的工具 ,并可以為每天的主要新聞做出相關(guān)的摘要。 在國(guó)外 ,多文本摘要的研究工作開(kāi)展得比較火熱。 多文本自動(dòng)摘要的研究工作最早在 80 年代開(kāi)始 ,那時(shí)的研究工作還不具有普遍性 ,triger 在科技文章中通過(guò) 80 多種關(guān)系描述對(duì)多文本集合描述 ,科技文章的結(jié)構(gòu)南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 3 化統(tǒng)一些 ,比較好刻畫(huà) ,但這種描述是受限域的 ,不利于推廣。另外隨著自然語(yǔ)言處理技術(shù)的發(fā)展 ,應(yīng)用于文本自動(dòng)摘要的方法也會(huì)越來(lái)越多。得一定科研成果的單位主要有哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、上海復(fù)旦大學(xué)、北京郵電大學(xué)、東北大學(xué)等。隨著計(jì)算機(jī)在我國(guó)的普及 ,以及網(wǎng)絡(luò)時(shí)代對(duì)信 息流通處理的需求 ,中文自動(dòng)摘要的研究在 20 世紀(jì) 90 年代才如火如茶的發(fā)展起來(lái)。最后運(yùn)用自頂向下的分析器 TRUMPET(TRUMP Expectation Tool)從概念表示中提取預(yù)期的內(nèi)容 [6][7]。 美國(guó)伍研究與開(kāi)發(fā)中心 等人研制的 SCISOR(System for Conceputal Inorrmaiton Summarization,Organization and Retrieval)系統(tǒng)是理解型摘要 ,她處理的對(duì)象是有關(guān)“公司合并”的新聞報(bào)道 ,SCISOR 首先用關(guān)鍵詞過(guò)濾和模式匹配方法對(duì)待處理文獻(xiàn)進(jìn)行主題分析 ,以便判斷所處理報(bào) 道是否和“公司合并”有關(guān) 。該系統(tǒng)輸出的摘要比其它任何一個(gè)計(jì)算機(jī)摘要產(chǎn)生系統(tǒng)輸出的摘要更接近于手工編寫的摘要 [5]。根據(jù) WCL 收錄的提示詞的語(yǔ)義權(quán)值 ,給每個(gè)句子指定正權(quán)值或負(fù)權(quán)值 ,采用修正過(guò)的位置加權(quán)法和詞頻標(biāo)準(zhǔn) ,并考慮摘要的連貫性。 俄亥俄州立大學(xué)的 Ruhs 和 MathiS 等人對(duì)摘要自動(dòng)生成系統(tǒng)進(jìn)行了深入研究[3][4],他們的系統(tǒng)名字為 ADAM(Automatic Document Abstracting Method),其重要特征是研制了 種種規(guī)則和程序來(lái)識(shí)別和排除原始文獻(xiàn)中那些不應(yīng)該摘出的句子 ,強(qiáng)調(diào)的是排除指標(biāo)而不是選擇規(guī)則。采用頻率和位置兩個(gè)指標(biāo)來(lái)測(cè)量句子的重要性 ,重要性高的句子作為摘要候選句。 Luhn 在 1958 年 發(fā)表的關(guān)于自動(dòng)編制摘要的文章 [2],開(kāi)創(chuàng)了一種樣板性研究方南京郵電大學(xué)通達(dá)學(xué)院 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 案 ,Luhn 將詞匯分為兩大類 :通用詞和內(nèi)容詞。他于 1952 年提出可以用計(jì)算機(jī)來(lái)進(jìn)行文獻(xiàn)的壓縮 [1]。 對(duì)自動(dòng)編制摘要的研究開(kāi)始于本世紀(jì)五 十年代初期 ,它是計(jì)算機(jī)技術(shù)和機(jī)器翻譯這兩大發(fā)展潮流自然匯合在一起的結(jié)果。面向新聞的摘要系統(tǒng)就是將 Inter 上的繁雜的新聞以全面的、簡(jiǎn)潔的文檔直接呈現(xiàn)給用戶,降低用戶獲取信息的時(shí)間。摘要應(yīng)包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容 ,并以語(yǔ)意連貫的段落乃至篇章形式輸出 ,其目標(biāo)是致力于將信息全面的、簡(jiǎn)潔的文本直接呈現(xiàn)給用戶 ,提 高用戶獲取信息效率。于是,自動(dòng)文摘技術(shù)的研究成為了一個(gè)重要的研究課題。在給新聞擬定摘要或者標(biāo)題的時(shí)候,面對(duì) 數(shù)量巨大、內(nèi)容繁雜的新聞,每條新聞或者同類型的新聞都由編輯人員人工提煉,那將導(dǎo)致媒體新聞發(fā)布的效率低下,用戶很有可能會(huì)轉(zhuǎn)向同行業(yè)的競(jìng)爭(zhēng)對(duì)手,這將直接導(dǎo)致媒體公司的競(jìng)爭(zhēng)力下降。另一方面也帶來(lái)了一些問(wèn)題,主要就是新聞數(shù)量的巨大和新聞內(nèi)容的冗雜,大部分新聞僅僅包含著少量重要信息,給用戶瀏覽帶來(lái)了不便。s browsing pressure, but also provides support for other text technology, which has been widespread concern . The main objective of this paper is automatic summarization technology of news text,after consulting related summary technology on the basis of the algorithm in the academic, it emphasizes on the use of the external features of news text and TFIDF algorithm to generate the summary of single news text and multidocument project cited English language processing tools Stanford CoreNLP to tokenizes the text,splits a sequence of tokens into sentences,and
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1