freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

紅樓夢(mèng)文本分析-文庫(kù)吧資料

2025-06-24 12:38本頁(yè)面
  

【正文】 產(chǎn)生聯(lián)系。賈蕓和小紅在鳳姐外相見(jiàn)戲笑。賈環(huán)、賈蘭給賈母表安來(lái)了。寶玉給賈母送蟈蟈解悶。第八十八回概述:賈母八十一大壽時(shí),鴛鴦叫惜春寫(xiě)經(jīng)。第44回主要講的是鳳姐過(guò)生日,喝醉了酒,就叫平兒扶她回房間,沒(méi)想到走到院子里的時(shí)候看見(jiàn)一個(gè)丫頭一看見(jiàn)鳳姐就沒(méi)命的跑,鳳姐很生氣,逼問(wèn)那個(gè)丫頭,那個(gè)丫頭就說(shuō)賈璉和鮑二媳婦在屋里偷情,鳳姐一氣之下沖進(jìn)院里,站在窗外偷聽(tīng),聽(tīng)賈璉和鮑二媳婦說(shuō)要毒死她,把平兒扶正,鳳姐聽(tīng)了生氣,就打了平兒一耳光,沖進(jìn)屋內(nèi),大喊大嚷,又打又鬧,平兒感覺(jué)很委屈,也去打鮑二媳婦,賈璉很生氣,就拿劍要?dú)ⅧP姐,鳳姐就沖到賈母屋里告狀,賈母就要賈璉狠狠罵了一頓,要他跟鳳姐道歉,也要鳳姐跟平兒道歉.從概述里可以看出在這回中,主要的矛盾沖突存在于鳳姐和平兒間,賈母與賈璉之間,以及這四個(gè)人物間關(guān)系糾葛。黛玉因看到寶釵與寶玉在一起而心生不悅,從而引出三人之間的情感聯(lián)系。寶玉深感郁悶喝醉回房,趁酒意大罵李嬤嬤。寶玉也要過(guò)寶釵佩帶的金鎖來(lái)看,發(fā)現(xiàn)金鎖上銘文:不離不棄,芳齡永繼。故事分別圍繞這六個(gè)人展開(kāi)。文本3人物關(guān)系從聚類(lèi)分析的聚類(lèi)圖中可以看出惜春與鴛鴦間有密切聯(lián)系,從聚類(lèi)圖的每一次類(lèi)的合并情況來(lái)看賈璉與惜春為一類(lèi)后與賈珍合并為一類(lèi),再與賈母合并為一類(lèi),可得出賈珍與賈璉之間存在聯(lián)系,而賈母又與這些人物有著關(guān)聯(lián);從圖中還可以看出賈蕓與鳳姐之間有著聯(lián)系。六、三個(gè)文本模型成果與檢驗(yàn)文本1人物關(guān)系層次分析從聚類(lèi)分析得到的聚類(lèi)圖中也可以得到寶釵、寶玉、黛玉之間有密切關(guān)系。首先統(tǒng)計(jì)全文字?jǐn)?shù),再分別統(tǒng)計(jì)出各虛詞在文本每一自然段中的使用頻數(shù),對(duì)三個(gè)樣本中的虛詞使用比率進(jìn)行比較,分析出作者使用虛詞的總體情況。是值得利用但較困難的。句長(zhǎng)是句子中的單詞數(shù),詞長(zhǎng)是詞中的音節(jié)數(shù),反映作者風(fēng)格的不是單個(gè)詞的詞長(zhǎng)和單個(gè)句子的句長(zhǎng),而是以一定數(shù)量的語(yǔ)料為基礎(chǔ)的平均句長(zhǎng)和平均詞長(zhǎng)。除了使用詞語(yǔ)頻率的方法以外,許多文本信息都可供使用。因此它反映的不是作者想表現(xiàn)的內(nèi)容,而是作者行文中不經(jīng)意間體現(xiàn)出的用詞造句習(xí)慣。[4]能夠區(qū)別文學(xué)作品的特征主要有 用詞、句式、修辭手法、中心意象、主題等等。當(dāng)然要十分謹(jǐn)慎。 能夠區(qū)別文學(xué)作品的特征主要有:用詞、句式、修辭手法、中心意象、主題等等;能利用的特征有:語(yǔ)音、字、詞、句子、段落等等語(yǔ)篇結(jié)構(gòu)的信息。[3]計(jì)算機(jī)設(shè)計(jì)語(yǔ)體風(fēng)格 是人們?cè)谡Z(yǔ)言表達(dá)活動(dòng)中的個(gè)人言語(yǔ)特征,是人格在語(yǔ)言活動(dòng)中的某種體現(xiàn)。計(jì)算總體誤差函數(shù): S ij   ( Cij用來(lái)存儲(chǔ)每次分割點(diǎn))S 1 j = D1 j  j = 1 ,2 , ?, nS ij =, Cij = ,i = 2 ,3 , ?, K , j = i + 1 , ?, n 。這里, 我們?cè)谶\(yùn)行過(guò)程中根據(jù)段落數(shù)目和總體誤差情況給定層數(shù), K 的范圍一般情況下是從2 到6 。則有如下遞推公式: E( S 0 ( n , K , c K) ) = Mi n{ E( S 0 ( i K 1 , K 1 , c K 1) + D ( i K , n) ) }文本層數(shù)的確定關(guān)系到文本邏輯結(jié)構(gòu)的建立,它可以通過(guò)如下方法確定最優(yōu)層次劃分的數(shù)目,一是給定閥值ε, 當(dāng)| E( S ( n , K + 1) ) E( S ( n , K) ) ≤ε時(shí), 則最優(yōu)層數(shù)為K。相當(dāng)把n 個(gè)段落分成兩個(gè)部分{ i1 = 1 , i1 + 1 , ??, i K 1} { i K , ??, n} ,將前一部分進(jìn)行最優(yōu)K 1 分法,然后再考慮后一部分的誤差,由此尋找到最優(yōu)K 分法。有序聚類(lèi)就是尋找一種分法使K 個(gè)層次內(nèi)差異盡可能地小, 而層次間的差異盡可能地大。其中w ij是特征項(xiàng)t j 在第i 段中權(quán)重。針對(duì)《紅樓夢(mèng)》樣本的實(shí)際分析,我們從一到四十回、四十一到八十回、八十一到一百二十回分別選取一回作為研究樣本,由于作者已給出沒(méi)一回的標(biāo)題,從標(biāo)題中我們可以得到該回描述的主題思想(根據(jù)標(biāo)題可分為兩部分),為了讓讀者能清晰、準(zhǔn)確、方便地找出樣本正文中的層次,我們采取有序聚類(lèi)的方式來(lái)劃分文本的層次,保證每一個(gè)層次都由若干連續(xù)的互不交叉的自然段組成,從而達(dá)到識(shí)別樣本的目的。層次具有有序性,是由若干連續(xù)有序的自然段組成。而段落是構(gòu)成文章的最小單位,段落是體現(xiàn)層次的外部形式。我們運(yùn)用歐式距離距離進(jìn)行聚類(lèi)。2). 距離的計(jì)算距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類(lèi)分析的依據(jù)和基礎(chǔ)。 ③ 極大值標(biāo)準(zhǔn)化經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。(點(diǎn)擊顯示該表) 在聚類(lèi)分析中,常用的聚類(lèi)要素的數(shù)據(jù)處理方法有如下幾種。1). 聚類(lèi)要素的數(shù)據(jù)處理假設(shè)有m 個(gè)聚類(lèi)的對(duì)象,每一個(gè)聚類(lèi)對(duì)象都有 個(gè)要素構(gòu)成。聚類(lèi)是把相似的對(duì)象通過(guò)靜態(tài)分類(lèi)的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個(gè)子集中的成員對(duì)象都有相似的一些屬性,常見(jiàn)的包括在坐標(biāo)系中更加短的空間距離等。 第六步:計(jì)算綜合人名后的新指標(biāo),并進(jìn)行降序排列:第七步:主成分與方差貢獻(xiàn)率構(gòu)建出文本中人物關(guān)系模型 ?文本原始人名特征值的主成分分析首先對(duì)三個(gè)文本的原始矩陣進(jìn)行處理得規(guī)范化矩陣(見(jiàn)附錄),然后用matlab并經(jīng)過(guò)一列變換后得評(píng)價(jià)指標(biāo)相關(guān)系數(shù),見(jiàn)下表:上述表顯示自變量幾乎不存在共線性,常數(shù)項(xiàng)(Constant)與變量x中的任何幾個(gè)幾乎均沒(méi)有一致性,因此自變量與常數(shù)項(xiàng)幾乎不相關(guān),不需要采取主成分回歸分析。第五步:建立初始因子載荷矩陣,解釋主成分。特征值是各主成分的方差,它的大小反映了各個(gè)主成分的影響力。解特征方程,求出特征值λi (i=1,2,…,p)。其中,(i,j=1,2,…,p)為原始變量與的相關(guān)系數(shù)。 第二步:為了消除各項(xiàng)理化指標(biāo)之間在量綱化和數(shù)量級(jí)上的差別,用極差標(biāo)準(zhǔn)化法對(duì)指標(biāo)數(shù)據(jù)進(jìn)行規(guī)范化,將其化為0~1間的標(biāo)準(zhǔn)數(shù)據(jù)得到規(guī)范化矩陣。[1]人為主要人物往往帶有主觀性,必須對(duì)所選文件的特征值用數(shù)理統(tǒng)計(jì)方法,由上所得的相關(guān)系數(shù)矩陣經(jīng)過(guò)正交化處理,將文本所確立的人名特征值轉(zhuǎn)化為少數(shù)幾個(gè)綜合人名后的新指標(biāo)(即主成分),其中每個(gè)主成分都是原始變量的線性組合,各主成分之間相互正交,從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊,把復(fù)雜問(wèn)題簡(jiǎn)單化。但是,這也不是一定的,要視具體應(yīng)用而定。這是通過(guò)保留低階主成分,忽略高階主成分做到的。在多元統(tǒng)計(jì)分析中,主成分分析(英語(yǔ):Principal ponents analysis,PCA)是一種分析、簡(jiǎn)化數(shù)據(jù)集的技術(shù)。由于紅樓夢(mèng)中主要人物過(guò)多,我們要對(duì)特征值進(jìn)行降維處理,再考慮人物關(guān)系。這里我們使用在對(duì)變量聚類(lèi)分析時(shí)利用最多的相關(guān)系數(shù)矩陣越接近1,與越相關(guān)或越相近;越接近0,與的相關(guān)性越弱。將人物在文本每一自然段中出現(xiàn)的次數(shù)組合成向量,經(jīng)過(guò)對(duì)不同人物之間的相關(guān)性度量,組合成相關(guān)系數(shù)矩陣,再對(duì)其聚類(lèi)分析得出人物關(guān)聯(lián)度。從人物關(guān)系的分析角度看,由于文本中形容詞的多樣化與詞義分析方面的復(fù)雜性,不從該角度分析。為了解決這個(gè)問(wèn)題,最有效的辦法就是通過(guò)特征選擇來(lái)降維。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來(lái)巨大的計(jì)算開(kāi)銷(xiāo),使整個(gè)處理過(guò)程的效率非常低下,而且會(huì)損害分類(lèi)、聚類(lèi)算法的精確性,從而使所得到的結(jié)果很難令人滿(mǎn)意。四、符號(hào)系統(tǒng)——人物i在第j段中的頻數(shù) T——特征值組成的向量——表示人物i的第j個(gè)特征值的頻數(shù) ——第i自然段五、建立文本識(shí)別模型1)人物關(guān)系:由主要人物每段出現(xiàn)頻數(shù)向量確定人物相關(guān)性;2)文本結(jié)構(gòu)分析:由標(biāo)題詞匯每段出現(xiàn)頻數(shù)比較分層,使層內(nèi)差異達(dá)到最小值;3)行文風(fēng)
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1