正文內容

紅樓夢文本分析(存儲版)

2025-07-18 12:38上一頁面

下一頁面

　　

【正文】型，類卡方距離與相關系數(shù)等等)利用以上信息，作者推斷出結論：《紅樓夢》前八十回是曹雪芹據(jù)《石頭記》增刪而成，其中插入他早年著的《金瓶梅》式小說《風月寶鑒》，并增寫了具有深刻內涵的許多內容。故該用模型確立作者的行文風格有可行性。八、模型的評價與推廣運用系統(tǒng)聚類的方法來描述人物間的聯(lián)系，通過生成水平樹形圖可以非常清楚地看到人物的分層合并，并且與直接分析文本所得到的人物間聯(lián)系吻合的效果很好。文本層次劃分由于特征詞的選用是根據(jù)《紅樓夢》文本的標題決定的，該文本標題是全文內容的概括，出現(xiàn)人名就是故事主要人物，但這類文本不具有普遍性，故幾乎不可用于其他文本結構分析上，不具有普遍性。close all。Can not open the file39。 % 字典freq = zeros(size(dict,1),1)。,num2str(freq(i))]) end fclose(fid)。賈珍39。)。九、參考文獻[1]維基百科主成分分析法詞條[2]賴國毅陳超，常用功能與應用實例精講，北京；電子工業(yè)出版社，[3]林鴻飛　戰(zhàn)學剛　姚天順，文本層次分析與文本瀏覽，中　文　信　息　學　報，第13 卷第4 期，1998[4]百度百科計算風格學詞條附錄:三個樣本基于主成分分析法的協(xié)方差矩陣:漢字頻數(shù)統(tǒng)計——Matlab程序% 讀取漢字% 讀取的漢字在and中顯示可能會亂碼，需要修改字體。該文本識別模型從物理結構與邏輯結構兩個方面分析文本，得到了作者行文風格、段落劃分及文本結構和人物關系的結論。并且對各虛詞的使用沒有特定的偏好；后40回中作者的虛詞使用頻率較低，對‘何’，‘若’，‘為’，‘也’，‘因’等部分虛詞有使用上的偏好。從而推斷出前80回的作者的行文風格不同于后40回的作者。 (4)十個表示轉折、程度、比較等意的虛字:可、便、就、但、越、再、更、比、很、偏。陳炳藻將《紅樓夢》一百二十回本按順序編成三組，每組四十回。樣本三從圖中可以看出，寶玉只在前5段中出現(xiàn)，而賈珍只在6段之后出現(xiàn)，由實際對《紅樓夢》第八十八回的閱讀，不難發(fā)現(xiàn)，在11段之后描寫的是和賈珍有密切關系的人,所以可以得到1至5段為第一層，6至19段為第二層，從而驗證了層次分析中的結論。從聚類圖中可以得出的人物關系與從文本內容概述的得出的關系相符合。寶玉給賈母送蟈蟈解悶。寶玉深感郁悶喝醉回房，趁酒意大罵李嬤嬤。六、三個文本模型成果與檢驗文本1人物關系層次分析從聚類分析得到的聚類圖中也可以得到寶釵、寶玉、黛玉之間有密切關系。除了使用詞語頻率的方法以外，許多文本信息都可供使用。能夠區(qū)別文學作品的特征主要有：用詞、句式、修辭手法、中心意象、主題等等；能利用的特征有：語音、字、詞、句子、段落等等語篇結構的信息。則有如下遞推公式: E( S 0 ( n , K , c K) ) = Mi n{ E( S 0 ( i K 1 , K 1 , c K 1) + D ( i K , n) ) }文本層數(shù)的確定關系到文本邏輯結構的建立,它可以通過如下方法確定最優(yōu)層次劃分的數(shù)目,一是給定閥值ε, 當| E( S ( n , K + 1) ) E( S ( n , K) ) ≤ε時, 則最優(yōu)層數(shù)為K。針對《紅樓夢》樣本的實際分析，我們從一到四十回、四十一到八十回、八十一到一百二十回分別選取一回作為研究樣本，由于作者已給出沒一回的標題，從標題中我們可以得到該回描述的主題思想（根據(jù)標題可分為兩部分），為了讓讀者能清晰、準確、方便地找出樣本正文中的層次，我們采取有序聚類的方式來劃分文本的層次，保證每一個層次都由若干連續(xù)的互不交叉的自然段組成,從而達到識別樣本的目的。2). 距離的計算距離是事物之間差異性的測度，差異性越大，則相似性越小，所以距離是系統(tǒng)聚類分析的依據(jù)和基礎。1). 聚類要素的數(shù)據(jù)處理假設有m 個聚類的對象，每一個聚類對象都有個要素構成。特征值是各主成分的方差，它的大小反映了各個主成分的影響力。[1]人為主要人物往往帶有主觀性，必須對所選文件的特征值用數(shù)理統(tǒng)計方法，由上所得的相關系數(shù)矩陣經過正交化處理，將文本所確立的人名特征值轉化為少數(shù)幾個綜合人名后的新指標（即主成分），其中每個主成分都是原始變量的線性組合，各主成分之間相互正交，從而這些主成分能夠反映始變量的絕大部分信息，且所含的信息互不重疊，把復雜問題簡單化。由于紅樓夢中主要人物過多，我們要對特征值進行降維處理，再考慮人物關系。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。對于問題三，分別選取三個樣本中的虛詞頻率和人物分析進行比較。(2)分別估計3個模型的參數(shù)，并對模型進行檢驗。在分析問題是我們了解到目前有關文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。最后說明模型的優(yōu)缺點及需要改進的地方。通過系統(tǒng)聚類分析，我們得到了聚類圖，從中得出了主演人物之間的關系。2013高教社杯全國大學生數(shù)學建模競賽（選拔賽）承諾書我們仔細閱讀了中國大學生數(shù)學建模競賽的競賽規(guī)則.我們完全明白，在競賽開始后參賽隊員不能以任何方式（包括電話、電子郵件、網(wǎng)上咨詢等）與隊外的任何人（包括指導教師）研究、討論與賽題有關的問題。通過運用主成分分析法對文本進行的分析我們得出自變量與常數(shù)項幾乎不相關，因此不需要采取主成分回歸分析。通過計算同一個人物在不同樣本中的頻數(shù)（以黛玉為例），我們得出各個樣本由于主題思想的不同主要人物也有差異。由于文本是非結構化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉化為可處理的結構化形式。我們要解決的問題是：(1)從第一回第四十回，第四十一回第八十回，第八十一回第一百二十回分別選取3段文字（每段不少于2000字,指出開始,結束的頁碼和行數(shù)）作為3個樣本，對這3個樣本提出文本分析的角度,特征項的選取及數(shù)量表征，并建立數(shù)學模型。在模型檢驗方面，我們由人為讀出的結論與模型得到的人物關系進行大致方向上的比較，由分段后主要人物在各層次所占比重判斷層次分析的精確性，作者行文風格通過所得結論與專家推斷比較檢驗。因此,必須對文本向量做進一步凈化處理,在保證原文含義的基礎上,找出對文本特征類別最具代表性的文本特征。與分別表示與兩個特征值的頻數(shù)特征向量。由于主成分分析依賴所給數(shù)據(jù)，所以數(shù)據(jù)的準確性對分析結果影響很大。因為R是正定矩陣，所以其特征值λi都為正數(shù)，將其按大小順序排列，即λ1≥λ2≥…≥λi≥0，其對應的特征向量為。由于我們選用對人物名頻數(shù)計算比較的方法，在人物關系上我們選用系統(tǒng)聚類分析法。④ 極差的標準化經過這種標準化所得的新數(shù)據(jù)，各要素的極大值為1，極小值為0，其余的數(shù)值均在0與1之間。同一層次的若干自然段,由于共同支持該層次所表達主題思想,因此在選用的詞匯上以及用詞的頻率上往往具有很大的相同之處,可。設S 0 ( n , K , c K) 是使總體誤差函數(shù)達到最小的分法,其中c K 是上述最佳分法的分割點i K 。這種風格可在一定程度上通過數(shù)量特征來刻畫。最常用的方法是字、詞頻率統(tǒng)計。在分別就每一個虛詞的使用分析確定作者的行文風格。正巧黛玉來了，見寶玉，寶釵在一起，心下不悅，黛玉借尋雁送手爐趁機奚落寶釵。李紈與賈母打雙陸。從聚類分析的聚類圖中可以看出惜春與鴛鴦間有密切聯(lián)系，從聚類圖的每一次類的合并情況來看賈璉與惜春為一類后與賈珍合并為一類，再與賈母合并為一類，可得出賈珍與賈璉之間存在聯(lián)系，而賈母又與這些人物有著關聯(lián)；從圖中還可以看出賈蕓與鳳姐之間有著聯(lián)系。（2）樣本二從圖中可以看出在前8段中，鳳姐

點擊復制文檔內容

規(guī)章制度相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

紅樓夢文本分析(存儲版)

紅樓夢主要人物及其性格分析-資料下載頁

紅樓夢人物分析合集5篇-資料下載頁

紅樓夢人物分析之林黛玉-資料下載頁

紅樓夢林黛玉人物分析-資料下載頁

紅樓夢之薛寶釵(人物分析)-資料下載頁

紅樓夢人物分析[最終版]-資料下載頁

紅樓夢人物分析內容提要-資料下載頁

紅樓夢章回概述-資料下載頁

紅樓夢人物年齡-資料下載頁

紅樓夢章節(jié)梗概-資料下載頁

紅樓夢章回概括-資料下載頁

讀紅樓夢-資料下載頁

紅樓夢-講稿-資料下載頁

漫步紅樓——讀紅樓夢有感-資料下載頁

紅樓夢諧音word版-資料下載頁

紅樓夢文本分析-文庫吧在線文庫

紅樓夢文本分析(完整版)

紅樓夢文本分析(更新版)

紅樓夢文本分析(專業(yè)版)

紅樓夢文本分析(留存版)