freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

紅樓夢(mèng)文本分析-文庫(kù)吧

2025-06-03 12:38 本頁(yè)面


【正文】 而對(duì)人物分析方面,對(duì)人物與人物之間關(guān)聯(lián)度的比較,能大致確立出在整篇文章中的主要人物和與其關(guān)聯(lián)密切的人物的關(guān)系進(jìn)展,通過關(guān)聯(lián)度相同性與差異性的比較,確立主要人物的日常交際圈和主要人物之間的關(guān)系變化。三、模型假設(shè)[1]每個(gè)樣本擁有獨(dú)立性(不受其他樣本影響也不影響其他樣本);[2]樣本選取是隨機(jī)的,具有普遍性;[3]虛詞的使用頻率的異同可以充分區(qū)分作者的行文風(fēng)格;[4]標(biāo)題中詞匯在整個(gè)文本中具有代表性(標(biāo)題是整個(gè)文本中心思想的概括);[5]3個(gè)樣本在整個(gè)文本各四十回中的人物關(guān)系具有代表性。[6]可忽略同名不同義的詞對(duì)研究結(jié)果的影響[7]樣本中出現(xiàn)頻率很低的人物名可忽略,對(duì)結(jié)果無影響。四、符號(hào)系統(tǒng)——人物i在第j段中的頻數(shù) T——特征值組成的向量——表示人物i的第j個(gè)特征值的頻數(shù) ——第i自然段五、建立文本識(shí)別模型1)人物關(guān)系:由主要人物每段出現(xiàn)頻數(shù)向量確定人物相關(guān)性;2)文本結(jié)構(gòu)分析:由標(biāo)題詞匯每段出現(xiàn)頻數(shù)比較分層,使層內(nèi)差異達(dá)到最小值;3)行文風(fēng)格:統(tǒng)計(jì)虛詞使用情況。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計(jì)算開銷,使整個(gè)處理過程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對(duì)文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出對(duì)文本特征類別最具代表性的文本特征。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。紅樓夢(mèng)通篇是文言文,在進(jìn)行文本分析時(shí),由于虛詞在文本內(nèi)容角度的無用性我們將虛詞統(tǒng)計(jì)次數(shù)后用批處理技術(shù)刪除,同時(shí)去除的還有停用詞(常用詞如‘了’等和生僻詞)。從人物關(guān)系的分析角度看,由于文本中形容詞的多樣化與詞義分析方面的復(fù)雜性,不從該角度分析。為使操作簡(jiǎn)單化,我們根據(jù)研究的角度,將紅樓夢(mèng)中主要人物名字設(shè)置為特征值,T表示由人名組成的向量,表示第i個(gè)人名特征值,n表示人名特征值的個(gè)數(shù)為n可將選擇的文本表示為 I表示所選文本,表示文本I中的第i自然段,N表示文本i中共有N個(gè)自然段。將人物在文本每一自然段中出現(xiàn)的次數(shù)組合成向量,經(jīng)過對(duì)不同人物之間的相關(guān)性度量,組合成相關(guān)系數(shù)矩陣,再對(duì)其聚類分析得出人物關(guān)聯(lián)度。A表示各特征詞在各段的頻數(shù)矩陣,表示第i個(gè)特征詞在第j自然段中的頻數(shù),A矩陣的行與行向量之間對(duì)應(yīng)數(shù)據(jù)關(guān)系即可反映在該文本中兩人物之間的聯(lián)系。,這里我們使用在對(duì)變量聚類分析時(shí)利用最多的相關(guān)系數(shù)矩陣越接近1,與越相關(guān)或越相近;越接近0,與的相關(guān)性越弱。與分別表示與兩個(gè)特征值的頻數(shù)特征向量。由于紅樓夢(mèng)中主要人物過多,我們要對(duì)特征值進(jìn)行降維處理,再考慮人物關(guān)系。人物關(guān)系體系建立:利用多元統(tǒng)計(jì)分析的主成分分析法、系統(tǒng)聚類分析法將所選主要人物特征值進(jìn)行簡(jiǎn)化歸類。在多元統(tǒng)計(jì)分析中,主成分分析(英語:Principal ponents analysis,PCA)是一種分析、簡(jiǎn)化數(shù)據(jù)集的技術(shù)。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中的對(duì)方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。由于主成分分析依賴所給數(shù)據(jù),所以數(shù)據(jù)的準(zhǔn)確性對(duì)分析結(jié)果影響很大。[1]人為主要人物往往帶有主觀性,必須對(duì)所選文件的特征值用數(shù)理統(tǒng)計(jì)方法,由上所得的相關(guān)系數(shù)矩陣經(jīng)過正交化處理,將文本所確立的人名特征值轉(zhuǎn)化為少數(shù)幾個(gè)綜合人名后的新指標(biāo)(即主成分),其中每個(gè)主成分都是原始變量的線性組合,各主成分之間相互正交,從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊,把復(fù)雜問題簡(jiǎn)單化。?主成分分析法的基本步驟第一步:設(shè)估計(jì)樣本數(shù)為n,選取的文本人名特征值總數(shù)為p,則由估計(jì)樣本的原始數(shù)據(jù)可得矩陣,其中表示第i個(gè)特征值在第j段中的頻數(shù)。 第二步:為了消除各項(xiàng)理化指標(biāo)之間在量綱化和數(shù)量級(jí)上的差別,用極差標(biāo)準(zhǔn)化法對(duì)指標(biāo)數(shù)據(jù)進(jìn)行規(guī)范化,將其化為0~1間的標(biāo)準(zhǔn)數(shù)據(jù)得到規(guī)范化矩陣。第三步:根據(jù)規(guī)范化數(shù)據(jù)矩陣建立協(xié)方差矩陣R,是反映標(biāo)準(zhǔn)化后的數(shù)據(jù)之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo),值越大,說明有必要對(duì)數(shù)據(jù)進(jìn)行主成分分析。其中,(i,j=1,2,…,p)為原始變量與的相關(guān)系數(shù)。由數(shù)據(jù)可得是對(duì)稱矩陣,其計(jì)算公式為:其中第四步:根據(jù)協(xié)方差矩陣R求出特征值、主成分貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,確定主成分個(gè)數(shù)。解特征方程,求出特征值λi (i=1,2,…,p)。因?yàn)镽是正定矩陣,所以其特征值λi都為正數(shù),將其按大小順序排列,即λ1≥λ2≥…≥λi≥0,其對(duì)應(yīng)的特征向量為。特征值是各主成分的方差,它的大小反映了各個(gè)主成分的影響力。主成分 的貢獻(xiàn)率,累計(jì)貢獻(xiàn)率為根據(jù)選取主成分個(gè)數(shù)的原則,特征值要求大于等于1且累計(jì)貢獻(xiàn)率達(dá)85%的特征值λ1,λ2,…,λm所對(duì)應(yīng)的1,2,…,m(m≤p),其中整數(shù)m即為主成分的個(gè)數(shù)。第五步:建立初始因子載荷矩陣,解釋主成分。因子載荷量是主成分與原始指標(biāo)的相關(guān)系數(shù),揭示了主成分與各理化指標(biāo)之間的相關(guān)程度。 第六步:計(jì)算綜合人名后的新指標(biāo),并進(jìn)行降序排列:第七步:主成分與方差貢獻(xiàn)率構(gòu)建出文本中人物關(guān)系模型 ?文本原始人名特征值的主成分分析首先對(duì)三個(gè)文本的原始矩陣進(jìn)行處理得規(guī)范化矩陣(見附錄),然后用matlab并經(jīng)過一列變換后得評(píng)價(jià)指標(biāo)相關(guān)系數(shù),見下表:上述表顯示自變量幾乎不存在共線性,常數(shù)項(xiàng)(Constant)與變量x中的任何幾個(gè)幾乎均沒有一致性,因此自變量與常數(shù)項(xiàng)幾乎不相關(guān),不需要采取主成分回歸分析。[2]聚類分析(英語:Cluster analysis,亦稱為群集分析)是對(duì)于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,模式識(shí)別,圖像分析以及生物信息。聚類是把相似的對(duì)象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個(gè)子集中的成員對(duì)象都有相似的一些屬性,常見的包括在坐標(biāo)系中更加短的空間距離等。由于我們選用對(duì)人物名頻數(shù)計(jì)算比較的方法,在人物關(guān)系上我們選用系統(tǒng)聚類分析法。1). 聚類要素的數(shù)據(jù)處理假設(shè)有m 個(gè)聚類的對(duì)象,每一個(gè)聚類對(duì)象都有 個(gè)要素構(gòu)成。它們所對(duì)應(yīng)的要素?cái)?shù)據(jù)可用 。(點(diǎn)擊顯示該表) 在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。① 總和標(biāo)準(zhǔn)化② 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化 ③ 極大值標(biāo)準(zhǔn)化經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。④ 極差的標(biāo)準(zhǔn)化經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。2). 距離的計(jì)算距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。① 絕對(duì)值距離選擇不同的距離,聚類結(jié)果會(huì)有所差異。我們運(yùn)用歐式距離距離進(jìn)行聚類。層次是文章思想內(nèi)容的表現(xiàn)次序,它著眼于文章思想內(nèi)容的邏輯關(guān)系,是表示意義的結(jié)構(gòu)單位。而段落是構(gòu)成文章的最小單位,段落是體現(xiàn)層次的外部形式。在一般情況下,層次大于或等于自然段。層次具有有序性,是由若干連續(xù)有序的自然段組成。同一層次的若干自然段,由于共同支持該層次所表達(dá)主題思想,因此在選用的詞匯上以及用詞的頻率上往往具有很大的相同之處,可。針對(duì)《紅樓夢(mèng)》樣本的實(shí)際分析,我們從一到四十回、四十一到八十回、八十一到一百二十回分別選取一回作為研究樣本,由于作者已給出沒一回的標(biāo)題,從標(biāo)題中我們可以得到
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1