【正文】
同。李紈與賈母打雙陸。師傅讓對對子,賈環(huán)對不了,寶玉幫他對,他買蟈蟈謝寶玉;賈蘭對好了,寶玉夸賈蘭。賈珍、賈璉怒打鬧仗的周瑞、何三和鮑二。賈蕓給鳳姐送東西,鳳姐不收;賈蕓把鳳姐不要的東西給小紅兩件。從聚類分析的聚類圖中可以看出惜春與鴛鴦間有密切聯(lián)系,從聚類圖的每一次類的合并情況來看賈璉與惜春為一類后與賈珍合并為一類,再與賈母合并為一類,可得出賈珍與賈璉之間存在聯(lián)系,而賈母又與這些人物有著關(guān)聯(lián);從圖中還可以看出賈蕓與鳳姐之間有著聯(lián)系。得到的分層結(jié)果如下:樣本一(第八回)1至13自然段可劃分為第一層,主題為薛寶釵小恙梨香院;14自然段到本回結(jié)束為第二層,主題為賈寶玉大醉絳蕓軒。下表為標題中出現(xiàn)的人物名在各段落中出現(xiàn)的頻率:鳳姐1351157201102123327平兒0007313205347423312樣本二層次一層次二段落18段落1段落9段落8 ........... ......... 樣本三(第八十八回)1至5自然段為第一層,主題為博庭歡寶玉贊孤兒;第6至10自然段為第二層,主題為正家法賈珍鞭悍仆。 h ( Pi ) = 0 ,若Pi 在H1 、H2中的劃分不一致。(2)樣本二從圖中可以看出在前8段中,鳳姐與平兒出現(xiàn)頻數(shù)波動幅度較大,并且兩者變動趨勢大致相同,而后10段鳳姐與平兒的頻數(shù)均相對穩(wěn)定,且平兒的頻數(shù)明顯大于鳳姐,由此可以得出1至8段為第一層,9至18段為第二層,從而驗證層次分析中的結(jié)論。以下是對我們所選取的是三個樣本中虛詞使用情況的模型結(jié)果與分析三個文本的總字數(shù)分別為6586676670計算虛詞使用頻率為從上述圖表中我們可以看出在虛詞使用頻率方面,前80回的作者對虛詞的使用大致占總文本的2%,而后40回的作者使用虛詞的頻率較低,%。樣本樣本樣本3中虛詞使用頻率圖樣本3中各虛詞使用情況分布圖在上述圖表中,我們可以看出各文本中虛詞‘也’的使用頻率最高,文本1中各虛詞使用頻率分布集中,文本2中除去虛詞‘也’之外的虛詞使用情況也很集中,而文本3中的虛詞使用情況較為分散,較為集中的使用幾個虛詞。1970年,趙岡提出了使用“的”、“了”、“在”、“幾”、“著”5個字的出現(xiàn)頻率來研究《紅樓夢》的作者問題,得出了前80回和后40回出自不同人之手的結(jié)論。陳炳藻教授的研究結(jié)果1986年,陳炳藻教授公開發(fā)表了《電腦在文學上的應用:〈紅樓夢〉與〈兒女英雄傳〉兩書作者用詞的比較》一文;之后又出版了《電腦紅學:論〈紅樓夢〉作者》的專著。并將《兒女英雄傳》作為第四組進行比較研究。結(jié)果發(fā)現(xiàn)《紅樓夢》%,而《紅樓夢》與《兒女英雄傳》%。李賢平的分析論點1987李賢平發(fā)表了《〈紅樓夢〉成書新說》作者選擇了四十七個虛字的出現(xiàn)頻率,有時還用到句長分布。(3)十三個常用的白話虛字:了、的、著、一、不、把、讓、向、往、是、在、別、好。(5)后綴于名詞的“兒”字和后綴于副詞、形容詞和動詞的“兒”字。《紅樓夢》后四十回是曹家親友在曹雪芹全書尚未完成就突然去世之后,搜集整理原稿并加工補寫而成。高鶚校勘異文補遺訂訛。并且對各虛詞的使用沒有特定的偏好;后40回中作者的虛詞使用頻率較低,對‘何’,‘若’,‘為’,‘也’,‘因’等部分虛詞有使用上的偏好。與專家趙岡、李賢平的分析結(jié)果相同,但是與陳炳藻教授的研究結(jié)果不同。七、基于所建模型的三個樣本的分析比較 ? 文本結(jié)構(gòu)均分為兩個層次,即文本結(jié)構(gòu)不變性; ?文本通過聚類分析后我們發(fā)現(xiàn),主要人物的活動范圍幾乎不變;例如人物寶玉,寶玉與寶釵、黛玉關(guān)系的緊密性不變(人物頻數(shù)變化大致相同),而同時與襲人、茜雪、晴雯的關(guān)系為上下級關(guān)系,因為寶玉出現(xiàn)后,上述三人均會出現(xiàn),并且位于下一類,由下圖顯示:?前80回作者的行文風格相同前80回的作者在寫作中對虛詞的使用頻率較高,大致為2%。?人物出現(xiàn)頻數(shù)的變化,可以分析出人物的狀況。?作者的行文風格前后發(fā)生變化前80回的作者在寫作中對虛詞的使用頻率較高,大致為2%。從而推斷出前80回的作者的行文風格不同于后40回的作者。用人名作特征值既具有代表性,又可以很簡化的統(tǒng)計出人物關(guān)系。文本結(jié)構(gòu)分析運用層次分析法鮮明的表現(xiàn)出了文本結(jié)構(gòu),在特征值的選取上,根據(jù)紅樓夢文本標題的概括性提取出故事主要人物,以此為特征值使結(jié)論中結(jié)構(gòu)分析簡易化、精確化。我們根據(jù)語言單位之間的數(shù)量關(guān)系,對不同的比率進行比較,歸入不同的類型(虛詞),確定文章風格的差異。在特征詞量化方面,由于中文含義上的多樣性,存在人名用代詞替換的情況,使頻數(shù)出現(xiàn)誤差;同名不同義的特征詞出現(xiàn)也會造成頻數(shù)誤差(如:寶玉、通靈寶玉)。張首映指出,單個作家的“語言風格”是不可求證的,(文學自由談,1988(4))單個作家的“語言風格”,無論在時間之軸上,還是在空間之維中,都必定不可能產(chǎn)生。因此計算起來可能很難。計算風格學的量化指標都只能作相對參考。% 依次打開file→preference→Fonts→Custom % 經(jīng)比較發(fā)現(xiàn)這種Microsoft JHengHei的字體是漢字顯示最好的一種,不會出現(xiàn)亂碼,又最美觀clc。 % % 比較一下英文和中文其實,沒有本質(zhì)的區(qū)別。39。r39。 if fid == 1 disp(39。)。end dict= char(39。,39。)。 %頻率 while (~feof(fid)) aLine = fgetl(fid)。 % strfind,可以返回所有的待查找詞語的位置% re的長度表示了詞語的個數(shù) freq(i) = freq(i) + length(re)。 出現(xiàn)次數(shù): 39。批處理去除虛詞echo off setlocal enabledelayedexpansioncd d:\for /f delims= %%a in ()do ( set aa=%%a set aa=!aa:而= ! set aa=!aa:何= ! set aa=!aa:乎= ! set aa=!aa:乃= ! set aa=!aa:其= ! set aa=!aa:且= ! set aa=!aa:若= ! set aa=!aa:所= ! set aa=!aa:為= ! set aa=!aa:焉= ! set aa=!aa:也= ! set aa=!aa:以= ! set aa=!aa:因= ! set aa=!aa:于= ! set aa=!aa:與= ! set aa=!aa:則= ! set aa=!aa:者= ! set aa=!aa:之= ! echo !aa!)%del %%ren %if exist echo succeedif not exist echo failedpause紅樓夢人物關(guān)系圖