freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

紅樓夢文本分析-免費閱讀

2025-07-12 12:38 上一頁面

下一頁面
  

【正文】 % strfind,可以返回所有的待查找詞語的位置% re的長度表示了詞語的個數(shù) freq(i) = freq(i) + length(re)。end dict= char(39。39。因此計算起來可能很難。文本結(jié)構(gòu)分析運用層次分析法鮮明的表現(xiàn)出了文本結(jié)構(gòu),在特征值的選取上,根據(jù)紅樓夢文本標題的概括性提取出故事主要人物,以此為特征值使結(jié)論中結(jié)構(gòu)分析簡易化、精確化。?人物出現(xiàn)頻數(shù)的變化,可以分析出人物的狀況。高鶚校勘異文補遺訂訛。李賢平的分析論點1987李賢平發(fā)表了《〈紅樓夢〉成書新說》作者選擇了四十七個虛字的出現(xiàn)頻率,有時還用到句長分布。1970年,趙岡提出了使用“的”、“了”、“在”、“幾”、“著”5個字的出現(xiàn)頻率來研究《紅樓夢》的作者問題,得出了前80回和后40回出自不同人之手的結(jié)論。 h ( Pi ) = 0 ,若Pi 在H1 、H2中的劃分不一致。賈蕓給鳳姐送東西,鳳姐不收;賈蕓把鳳姐不要的東西給小紅兩件。觀察系統(tǒng)聚類分析的樹形圖的每一次類的合并情況,鳳姐和平兒、賈母和賈璉分別合并成一類然后合并成一類,與我們對文本分析得到的結(jié)論相同。第八回概述:寶玉想起寶釵小病,前去探望,寶釵要看寶玉那塊“落草時銜下來的寶玉”,寶釵只見通靈寶玉上銘文:莫失莫忘,仙壽恒昌。我們在這里選用虛詞這一文言文中的特殊詞匯判定作者行文風(fēng)格,虛詞是一類特殊的詞匯,它不在文章中有實義,從而虛詞在文言文中的使用情況僅由作者用詞習(xí)慣決定,從而可以通過對虛詞的使用情況分析代表作者的一類行文風(fēng)格。但是能用于統(tǒng)計的特征有語音、字、詞、句子、段落,語篇結(jié)構(gòu)等等可以量化考察的信息。則最佳K 分法為:{ = 1 , + 1 , ??, 1} , {, + 1 , ??, 1} , ??, { , , ??, n}其中: i K = CKn , = Ck 1 , ,= Ck 2 , , ??, i1 = 1 。設(shè)D 表示第j 層內(nèi)的差異量,則總體誤差函數(shù): E( S ( n , K) ) = 為了使上述總體誤差函數(shù)達到最小, 尋求最優(yōu)的K 分法。在一般情況下,層次大于或等于自然段。[2]聚類分析(英語:Cluster analysis,亦稱為群集分析)是對于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機器學(xué)習(xí),數(shù)據(jù)挖掘,模式識別,圖像分析以及生物信息。由數(shù)據(jù)可得是對稱矩陣,其計算公式為:其中第四步:根據(jù)協(xié)方差矩陣R求出特征值、主成分貢獻率和累計方差貢獻率,確定主成分個數(shù)。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。A表示各特征詞在各段的頻數(shù)矩陣,表示第i個特征詞在第j自然段中的頻數(shù),A矩陣的行與行向量之間對應(yīng)數(shù)據(jù)關(guān)系即可反映在該文本中兩人物之間的聯(lián)系。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。使用聚類和層次分析法建模。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項,稱作特征詞。將它們從一個無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可以識別處理的信息,即對文本進行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。對于層次分析,我們通過用Excel對數(shù)據(jù)做出折線圖,對圖形進行分析,得出與用層次分析算法得出的相同的人物關(guān)系結(jié)論。2013高教社杯全國大學(xué)生數(shù)學(xué)建模競賽(選拔賽)編 號 專 用 頁賽區(qū)評閱編號(由賽區(qū)組委會評閱前進行編號):賽區(qū)評閱記錄(可供賽區(qū)評閱時使用):評閱人評分備注全國統(tǒng)一編號(由賽區(qū)組委會送交全國前編號):全國評閱編號(由全國組委會評閱前進行編號):對《紅樓夢》文本的計算機識別方法的研究與設(shè)計摘 要本文通過對文本人物關(guān)系、文本結(jié)構(gòu)分層、作者行文風(fēng)格的分析來分析中文文本。我們鄭重承諾,嚴格遵守競賽規(guī)則,以保證競賽的公正、公平性。最后通過matlab編程統(tǒng)計樣本中虛詞的頻數(shù),并且分別對樣本中虛詞總體和各個虛詞進行統(tǒng)計,運用計算風(fēng)格學(xué)理論,我們得出前八十回與后四十回作者的行文風(fēng)格存在差異。文本是由特定的人制作的,文本的語義不可避免地會反映人的特定立場、觀點、價值和利益。特征項必須具備一定的特性:(1)特征項要能夠確實標識文本內(nèi)容;(2)特征項具有將目標文本與其他文本相區(qū)分的能力;(3)特征項的個數(shù)不能太多;(4)特征項分離要比較容易實現(xiàn)。將上述研究結(jié)果寫成綜合性的研究報告。三、模型假設(shè)[1]每個樣本擁有獨立性(不受其他樣本影響也不影響其他樣本);[2]樣本選取是隨機的,具有普遍性;[3]虛詞的使用頻率的異同可以充分區(qū)分作者的行文風(fēng)格;[4]標題中詞匯在整個文本中具有代表性(標題是整個文本中心思想的概括);[5]3個樣本在整個文本各四十回中的人物關(guān)系具有代表性。從人物關(guān)系的分析角度看,由于文本中形容詞的多樣化與詞義分析方面的復(fù)雜性,不從該角度分析。在多元統(tǒng)計分析中,主成分分析(英語:Principal ponents analysis,PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。 第二步:為了消除各項理化指標之間在量綱化和數(shù)量級上的差別,用極差標準化法對指標數(shù)據(jù)進行規(guī)范化,將其化為0~1間的標準數(shù)據(jù)得到規(guī)范化矩陣。第五步:建立初始因子載荷矩陣,解釋主成分。(點擊顯示該表) 在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。我們運用歐式距離距離進行聚類。其中w ij是特征項t j 在第i 段中權(quán)重。這里, 我們在運行過程中根據(jù)段落數(shù)目和總體誤差情況給定層數(shù), K 的范圍一般情況下是從2 到6 。當(dāng)然要十分謹慎。句長是句子中的單詞數(shù),詞長是詞中的音節(jié)數(shù),反映作者風(fēng)格的不是單個詞的詞長和單個句子的句長,而是以一定數(shù)量的語料為基礎(chǔ)的平均句長和平均詞長。文本3人物關(guān)系從聚類分析的聚類圖中可以看出惜春與鴛鴦間有密切聯(lián)系,從聚類圖的每一次類的合并情況來看賈璉與惜春為一類后與賈珍合并為一類,再與賈母合并為一類,可得出賈珍與賈璉之間存在聯(lián)系,而賈母又與這些人物有著關(guān)聯(lián);從圖中還可以看出賈蕓與鳳姐之間有著聯(lián)系。黛玉因看到寶釵與寶玉在一起而心生不悅,從而引出三人之間的情感聯(lián)系。賈環(huán)、賈蘭給賈母表安來了。下表為標題中出現(xiàn)的人物名在各段落中出現(xiàn)的頻率:寶釵015003142011100000000寶玉3811033232551646562522經(jīng)過文本的層次分析,可以得到文本的邏輯結(jié)構(gòu),它的直觀形式體現(xiàn)為文本的結(jié)構(gòu)樹:樣本一層次二層次一段落18段落14段落1段落13樣本二(第四十四回)1至8自然段為第一層,主題為變生不測鳳姐潑醋;9至本回結(jié)束為第二層,主題為喜出望外平兒理妝。兩個作者為同一個的可能性為(2%—%)/%=%,從中我們可以看出紅樓夢的作者為兩個人。從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,通過計算機程序?qū)@些詞進行編排、統(tǒng)計、比較和處理,進而找出各組相關(guān)程度。采用了各種統(tǒng)計分析方法(主要有主成份分析,典型相關(guān)分析,多維尺度法,廣義線性模
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1