freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

紅樓夢(mèng)文本分析(存儲(chǔ)版)

2025-07-18 12:38上一頁面

下一頁面
  

【正文】 型,類卡方距離與相關(guān)系數(shù)等等)利用以上信息,作者推斷出結(jié)論:《紅樓夢(mèng)》前八十回是曹雪芹據(jù)《石頭記》增刪而成,其中插入他早年著的《金瓶梅》式小說《風(fēng)月寶鑒》,并增寫了具有深刻內(nèi)涵的許多內(nèi)容。故該用模型確立作者的行文風(fēng)格有可行性。八、模型的評(píng)價(jià)與推廣 運(yùn)用系統(tǒng)聚類的方法來描述人物間的聯(lián)系,通過生成水平樹形圖可以非常清楚地看到人物的分層合并,并且與直接分析文本所得到的人物間聯(lián)系吻合的效果很好。文本層次劃分由于特征詞的選用是根據(jù)《紅樓夢(mèng)》文本的標(biāo)題決定的,該文本標(biāo)題是全文內(nèi)容的概括,出現(xiàn)人名就是故事主要人物,但這類文本不具有普遍性,故幾乎不可用于其他文本結(jié)構(gòu)分析上,不具有普遍性。close all。Can not open the file39。 % 字典freq = zeros(size(dict,1),1)。,num2str(freq(i))]) end fclose(fid)。賈珍39。)。九、參考文獻(xiàn)[1]維基百科 主成分分析法詞條[2]賴國毅 陳超, 常用功能與應(yīng)用實(shí)例精講,北京;電子工業(yè)出版社,[3]林鴻飛 戰(zhàn)學(xué)剛 姚天順,文本層次分析與文本瀏覽,中 文 信 息 學(xué) 報(bào),第13 卷第4 期,1998[4]百度百科 計(jì)算風(fēng)格學(xué)詞條附錄:三個(gè)樣本基于主成分分析法的協(xié)方差矩陣:漢字頻數(shù)統(tǒng)計(jì)——Matlab程序% 讀取漢字% 讀取的漢字在and中顯示可能會(huì)亂碼,需要修改字體。該文本識(shí)別模型從物理結(jié)構(gòu)與邏輯結(jié)構(gòu)兩個(gè)方面分析文本,得到了作者行文風(fēng)格、段落劃分及文本結(jié)構(gòu)和人物關(guān)系的結(jié)論。并且對(duì)各虛詞的使用沒有特定的偏好;后40回中作者的虛詞使用頻率較低,對(duì)‘何’,‘若’,‘為’,‘也’,‘因’等部分虛詞有使用上的偏好。從而推斷出前80回的作者的行文風(fēng)格不同于后40回的作者。 (4)十個(gè)表示轉(zhuǎn)折、程度、比較等意的虛字:可、便、就、但、越、再、更、比、很、偏。陳炳藻將《紅樓夢(mèng)》一百二十回本按順序編成三組,每組四十回。樣本三從圖中可以看出,寶玉只在前5段中出現(xiàn),而賈珍只在6段之后出現(xiàn),由實(shí)際對(duì)《紅樓夢(mèng)》第八十八回的閱讀,不難發(fā)現(xiàn),在11段之后描寫的是和賈珍有密切關(guān)系的人,所以可以得到1至5段為第一層,6至19段為第二層,從而驗(yàn)證了層次分析中的結(jié)論。從聚類圖中可以得出的人物關(guān)系與從文本內(nèi)容概述的得出的關(guān)系相符合。寶玉給賈母送蟈蟈解悶。寶玉深感郁悶喝醉回房,趁酒意大罵李嬤嬤。六、三個(gè)文本模型成果與檢驗(yàn)文本1人物關(guān)系層次分析從聚類分析得到的聚類圖中也可以得到寶釵、寶玉、黛玉之間有密切關(guān)系。除了使用詞語頻率的方法以外,許多文本信息都可供使用。 能夠區(qū)別文學(xué)作品的特征主要有:用詞、句式、修辭手法、中心意象、主題等等;能利用的特征有:語音、字、詞、句子、段落等等語篇結(jié)構(gòu)的信息。則有如下遞推公式: E( S 0 ( n , K , c K) ) = Mi n{ E( S 0 ( i K 1 , K 1 , c K 1) + D ( i K , n) ) }文本層數(shù)的確定關(guān)系到文本邏輯結(jié)構(gòu)的建立,它可以通過如下方法確定最優(yōu)層次劃分的數(shù)目,一是給定閥值ε, 當(dāng)| E( S ( n , K + 1) ) E( S ( n , K) ) ≤ε時(shí), 則最優(yōu)層數(shù)為K。針對(duì)《紅樓夢(mèng)》樣本的實(shí)際分析,我們從一到四十回、四十一到八十回、八十一到一百二十回分別選取一回作為研究樣本,由于作者已給出沒一回的標(biāo)題,從標(biāo)題中我們可以得到該回描述的主題思想(根據(jù)標(biāo)題可分為兩部分),為了讓讀者能清晰、準(zhǔn)確、方便地找出樣本正文中的層次,我們采取有序聚類的方式來劃分文本的層次,保證每一個(gè)層次都由若干連續(xù)的互不交叉的自然段組成,從而達(dá)到識(shí)別樣本的目的。2). 距離的計(jì)算距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。1). 聚類要素的數(shù)據(jù)處理假設(shè)有m 個(gè)聚類的對(duì)象,每一個(gè)聚類對(duì)象都有 個(gè)要素構(gòu)成。特征值是各主成分的方差,它的大小反映了各個(gè)主成分的影響力。[1]人為主要人物往往帶有主觀性,必須對(duì)所選文件的特征值用數(shù)理統(tǒng)計(jì)方法,由上所得的相關(guān)系數(shù)矩陣經(jīng)過正交化處理,將文本所確立的人名特征值轉(zhuǎn)化為少數(shù)幾個(gè)綜合人名后的新指標(biāo)(即主成分),其中每個(gè)主成分都是原始變量的線性組合,各主成分之間相互正交,從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊,把復(fù)雜問題簡單化。由于紅樓夢(mèng)中主要人物過多,我們要對(duì)特征值進(jìn)行降維處理,再考慮人物關(guān)系。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。對(duì)于問題三,分別選取三個(gè)樣本中的虛詞頻率和人物分析進(jìn)行比較。(2)分別估計(jì)3個(gè)模型的參數(shù),并對(duì)模型進(jìn)行檢驗(yàn)。在分析問題是我們了解到目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。最后說明模型的優(yōu)缺點(diǎn)及需要改進(jìn)的地方。通過系統(tǒng)聚類分析,我們得到了聚類圖,從中得出了主演人物之間的關(guān)系。2013高教社杯全國大學(xué)生數(shù)學(xué)建模競(jìng)賽(選拔賽)承 諾 書我們仔細(xì)閱讀了中國大學(xué)生數(shù)學(xué)建模競(jìng)賽的競(jìng)賽規(guī)則.我們完全明白,在競(jìng)賽開始后參賽隊(duì)員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊(duì)外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。通過運(yùn)用主成分分析法對(duì)文本進(jìn)行的分析我們得出自變量與常數(shù)項(xiàng)幾乎不相關(guān),因此不需要采取主成分回歸分析。通過計(jì)算同一個(gè)人物在不同樣本中的頻數(shù)(以黛玉為例),我們得出各個(gè)樣本由于主題思想的不同主要人物也有差異。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。我們要解決的問題是:(1)從第一回第四十回,第四十一回第八十回,第八十一回第一百二十回分別選取3段文字(每段不少于2000字,指出開始,結(jié)束的頁碼和行數(shù))作為3個(gè)樣本,對(duì)這3個(gè)樣本提出文本分析的角度,特征項(xiàng)的選取及數(shù)量表征,并建立數(shù)學(xué)模型。在模型檢驗(yàn)方面,我們由人為讀出的結(jié)論與模型得到的人物關(guān)系進(jìn)行大致方向上的比較,由分段后主要人物在各層次所占比重判斷層次分析的精確性,作者行文風(fēng)格通過所得結(jié)論與專家推斷比較檢驗(yàn)。因此,必須對(duì)文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出對(duì)文本特征類別最具代表性的文本特征。與分別表示與兩個(gè)特征值的頻數(shù)特征向量。由于主成分分析依賴所給數(shù)據(jù),所以數(shù)據(jù)的準(zhǔn)確性對(duì)分析結(jié)果影響很大。因?yàn)镽是正定矩陣,所以其特征值λi都為正數(shù),將其按大小順序排列,即λ1≥λ2≥…≥λi≥0,其對(duì)應(yīng)的特征向量為。由于我們選用對(duì)人物名頻數(shù)計(jì)算比較的方法,在人物關(guān)系上我們選用系統(tǒng)聚類分析法。④ 極差的標(biāo)準(zhǔn)化經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。同一層次的若干自然段,由于共同支持該層次所表達(dá)主題思想,因此在選用的詞匯上以及用詞的頻率上往往具有很大的相同之處,可。設(shè)S 0 ( n , K , c K) 是使總體誤差函數(shù)達(dá)到最小的分法,其中c K 是上述最佳分法的分割點(diǎn)i K 。這種風(fēng)格可在一定程度上通過數(shù)量特征來刻畫。最常用的方法是字、詞頻率統(tǒng)計(jì)。在分別就每一個(gè)虛詞的使用分析確定作者的行文風(fēng)格。正巧黛玉來了,見寶玉,寶釵在一起,心下不悅,黛玉借尋雁送手爐趁機(jī)奚落寶釵。李紈與賈母打雙陸。從聚類分析的聚類圖中可以看出惜春與鴛鴦間有密切聯(lián)系,從聚類圖的每一次類的合并情況來看賈璉與惜春為一類后與賈珍合并為一類,再與賈母合并為一類,可得出賈珍與賈璉之間存在聯(lián)系,而賈母又與這些人物有著關(guān)聯(lián);從圖中還可以看出賈蕓與鳳姐之間有著聯(lián)系。(2)樣本二從圖中可以看出在前8段中,鳳姐
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1