freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

紅樓夢文本分析-在線瀏覽

2024-07-29 12:38本頁面
  

【正文】 現(xiàn)對文本的識別,來推斷文本提供者的表述方式,意圖和目的。使用聚類和層次分析法建模。在模型檢驗方面,我們由人為讀出的結(jié)論與模型得到的人物關系進行大致方向上的比較,由分段后主要人物在各層次所占比重判斷層次分析的精確性,作者行文風格通過所得結(jié)論與專家推斷比較檢驗。通過虛詞頻率的比較我們可以大致分析出各四十回中作者的行文風格從而判斷紅樓夢作者是否為一人;而對人物分析方面,對人物與人物之間關聯(lián)度的比較,能大致確立出在整篇文章中的主要人物和與其關聯(lián)密切的人物的關系進展,通過關聯(lián)度相同性與差異性的比較,確立主要人物的日常交際圈和主要人物之間的關系變化。[6]可忽略同名不同義的詞對研究結(jié)果的影響[7]樣本中出現(xiàn)頻率很低的人物名可忽略,對結(jié)果無影響。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。因此,必須對文本向量做進一步凈化處理,在保證原文含義的基礎上,找出對文本特征類別最具代表性的文本特征。紅樓夢通篇是文言文,在進行文本分析時,由于虛詞在文本內(nèi)容角度的無用性我們將虛詞統(tǒng)計次數(shù)后用批處理技術刪除,同時去除的還有停用詞(常用詞如‘了’等和生僻詞)。為使操作簡單化,我們根據(jù)研究的角度,將紅樓夢中主要人物名字設置為特征值,T表示由人名組成的向量,表示第i個人名特征值,n表示人名特征值的個數(shù)為n可將選擇的文本表示為 I表示所選文本,表示文本I中的第i自然段,N表示文本i中共有N個自然段。A表示各特征詞在各段的頻數(shù)矩陣,表示第i個特征詞在第j自然段中的頻數(shù),A矩陣的行與行向量之間對應數(shù)據(jù)關系即可反映在該文本中兩人物之間的聯(lián)系。與分別表示與兩個特征值的頻數(shù)特征向量。人物關系體系建立:利用多元統(tǒng)計分析的主成分分析法、系統(tǒng)聚類分析法將所選主要人物特征值進行簡化歸類。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集中的對方差貢獻最大的特征。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。由于主成分分析依賴所給數(shù)據(jù),所以數(shù)據(jù)的準確性對分析結(jié)果影響很大。?主成分分析法的基本步驟第一步:設估計樣本數(shù)為n,選取的文本人名特征值總數(shù)為p,則由估計樣本的原始數(shù)據(jù)可得矩陣,其中表示第i個特征值在第j段中的頻數(shù)。第三步:根據(jù)規(guī)范化數(shù)據(jù)矩陣建立協(xié)方差矩陣R,是反映標準化后的數(shù)據(jù)之間相關關系密切程度的統(tǒng)計指標,值越大,說明有必要對數(shù)據(jù)進行主成分分析。由數(shù)據(jù)可得是對稱矩陣,其計算公式為:其中第四步:根據(jù)協(xié)方差矩陣R求出特征值、主成分貢獻率和累計方差貢獻率,確定主成分個數(shù)。因為R是正定矩陣,所以其特征值λi都為正數(shù),將其按大小順序排列,即λ1≥λ2≥…≥λi≥0,其對應的特征向量為。主成分 的貢獻率,累計貢獻率為根據(jù)選取主成分個數(shù)的原則,特征值要求大于等于1且累計貢獻率達85%的特征值λ1,λ2,…,λm所對應的1,2,…,m(m≤p),其中整數(shù)m即為主成分的個數(shù)。因子載荷量是主成分與原始指標的相關系數(shù),揭示了主成分與各理化指標之間的相關程度。[2]聚類分析(英語:Cluster analysis,亦稱為群集分析)是對于靜態(tài)數(shù)據(jù)分析的一門技術,在許多領域受到廣泛應用,包括機器學習,數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。由于我們選用對人物名頻數(shù)計算比較的方法,在人物關系上我們選用系統(tǒng)聚類分析法。它們所對應的要素數(shù)據(jù)可用 。① 總和標準化② 標準差標準化 ④ 極差的標準化經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。① 絕對值距離選擇不同的距離,聚類結(jié)果會有所差異。層次是文章思想內(nèi)容的表現(xiàn)次序,它著眼于文章思想內(nèi)容的邏輯關系,是表示意義的結(jié)構(gòu)單位。在一般情況下,層次大于或等于自然段。同一層次的若干自然段,由于共同支持該層次所表達主題思想,因此在選用的詞匯上以及用詞的頻率上往往具有很大的相同之處,可。設樣本T 具有n 個自然段, K 個層次,用H 表示文本層次, P 表示自然段,則有如下組成關系: T = H1 H2 ?HK = { Pi1 ?Pi2 1} { Pi2 ?Pi3 1} ?{ Pik ?Pik + 1 1}其中: i1 = 1 ≤i2 ≤?.≤i K ≤i K + 1 1 = n (為了敘述和書寫方便, P1 , P2 , ?, Pn 簡記為1 ,2 , ??, n)設文本T 的特征項集為{ t1 , t2 , ??, tm } 則設Pi = ( w i1 , wi2 , ??, w im ) 為第i 段的特征向量。將n 個段落劃分為K 個層次,則所有可能的分法共有CK 1n 1種, 設S ( n , K) 是任一種分法,其中S ( n , K) = { i1 = 1 , i1 + 1 , ?, i2 1} , ?, { ij , ij + 1 , ?, ij + 1 1} , ?, { i K , i K + 1 , ?,n} 。設D 表示第j 層內(nèi)的差異量,則總體誤差函數(shù): E( S ( n , K) ) = 為了使上述總體誤差函數(shù)達到最小, 尋求最優(yōu)的K 分法。設S 0 ( n , K , c K) 是使總體誤差函數(shù)達到最小的分法,其中c K 是上述最佳分法的分割點i K 。二是根據(jù)語言學知識和實際經(jīng)驗,預先給定層數(shù)K。具體算法如下:文本的特征矩陣W ==計算層次內(nèi)部差異量: Dij =,其中, i = 1 ,2 , ?, n , j = i , i + 1 , ?, n 。則最佳K 分法為:{ = 1 , + 1 , ??, 1} , {, + 1 , ??, 1} , ??, { , , ??, n}其中: i K = CKn , = Ck 1 , ,= Ck 2 , , ??, i1 = 1 。這種風格可在一定程度上通過數(shù)量特征來刻畫。 計算風格學可被應用來解決“作者考證”這種問題。 如:捷澤等學者關于《靜靜的頓河》的作者考證。但是能用于統(tǒng)計的特征有語音、字、詞、句子、段落,語篇結(jié)構(gòu)等等可以量化考察的信息。最常用的方法是字、詞頻率統(tǒng)計。例如句長和詞長可以代表人們造詞句的風格。平均詞長M=語料中音節(jié)總數(shù)L/單詞總數(shù)N平均句長=語料中音節(jié)總數(shù)L/句子總數(shù)N此外還有作者在同義詞使用中的傾向性。我們在這里選用虛詞這一文言文中的特殊詞匯判定作者行文風格,虛詞是一類特殊的詞匯,它不在文章中有實義,從而虛詞在文言文中的使用情況僅由作者用詞習慣決定,從而可以通過對虛詞的使用情況分析代表作者的一類行文風格。在分別就每一個虛詞的使用分析確定作者的行文風格。文本2人物關系觀察系統(tǒng)聚類分析的樹形圖的每一次類的合并情況,鳳姐和平兒、賈母和賈璉分別合并成一類然后合并成一類。由文章的標題可以確定出三個文本的主要人物分別為薛寶釵、賈寶玉;王熙鳳、平兒;賈寶玉、賈珍。第八回概述:寶玉想起寶釵小病,前去探望,寶釵要看寶玉那塊“落草時銜下來的寶玉”,寶釵只見通靈寶玉上銘文:莫失莫忘,仙壽恒昌。正巧黛玉來了,見寶玉,寶釵在一起,心下不悅,黛玉借尋雁送手爐趁機奚落寶釵。從概述里可以看出寶釵、寶玉、黛玉之間存在著情感關聯(lián),寶釵的金鎖、寶玉的通靈寶玉上的兩句銘文恰好是對仗工整的一副聯(lián)語,也是所謂“金玉良緣”的根據(jù)。從聚類分析得到的聚類圖中也可以得到寶釵、寶玉、黛玉之間有密切關系,與文本內(nèi)容相吻合。觀察系統(tǒng)聚類分析的樹形圖的每一次類的合并情況,鳳姐和平兒、賈母和賈璉分別合并成一類然后合并成一類,與我們對文本分析得到的結(jié)論相
點擊復制文檔內(nèi)容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1