【正文】
量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。因此,由文本內(nèi)容分析,可以推斷文本提供者的表述方式,意圖和目的。通過計(jì)算同一個(gè)人物在不同樣本中的頻數(shù)(以黛玉為例),我們得出各個(gè)樣本由于主題思想的不同主要人物也有差異。針對(duì)問題二,我們對(duì)聚類分析、層次劃分、行文風(fēng)格進(jìn)行了檢驗(yàn)。通過運(yùn)用主成分分析法對(duì)文本進(jìn)行的分析我們得出自變量與常數(shù)項(xiàng)幾乎不相關(guān),因此不需要采取主成分回歸分析。如有違反競(jìng)賽規(guī)則的行為,我們將受到嚴(yán)肅處理。2013高教社杯全國大學(xué)生數(shù)學(xué)建模競(jìng)賽(選拔賽)承 諾 書我們仔細(xì)閱讀了中國大學(xué)生數(shù)學(xué)建模競(jìng)賽的競(jìng)賽規(guī)則.我們完全明白,在競(jìng)賽開始后參賽隊(duì)員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊(duì)外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。我們參賽選擇的題號(hào)是(從A/B/C/D中選擇一項(xiàng)填寫): 我們的參賽報(bào)名號(hào)為(如果賽區(qū)設(shè)置報(bào)名號(hào)的話): 所屬學(xué)校(請(qǐng)?zhí)顚懲暾娜? 參賽隊(duì)員 (打印并簽名) :1. 2. 3. 指導(dǎo)教師或指導(dǎo)教師組負(fù)責(zé)人 (打印并簽名): 日期: 年 月 日賽區(qū)評(píng)閱編號(hào)(由賽區(qū)組委會(huì)評(píng)閱前進(jìn)行編號(hào)):隊(duì)員信息表(必須如實(shí)填寫)學(xué)號(hào)姓名所屬院專業(yè)年級(jí)電話指導(dǎo)教師是否有筆記本201100800277周怡數(shù)學(xué)與統(tǒng)計(jì)學(xué)院統(tǒng)計(jì)學(xué)2011未選定201100820017段熙玉數(shù)學(xué)與統(tǒng)計(jì)學(xué)院統(tǒng)計(jì)學(xué)2011未選定201000800138林陽機(jī)電與信息工程軟件工程2010未選定注:如未選定指導(dǎo)教師可不填寫“指導(dǎo)教師”一欄。通過系統(tǒng)聚類分析,我們得到了聚類圖,從中得出了主演人物之間的關(guān)系。對(duì)于聚類分析的結(jié)果,我們與從對(duì)文本概述的文學(xué)概括分析得到的人物關(guān)系進(jìn)行比較檢驗(yàn),驗(yàn)證了聚類分析結(jié)果是可靠性。最后說明模型的優(yōu)缺點(diǎn)及需要改進(jìn)的地方。文本分析是指對(duì)文本的表示及其特征項(xiàng)的選??;文本分析是文本挖掘、信息檢索的一個(gè)基本問題,它把從文本中抽取出的特征詞進(jìn)行量化來表示文本信息。在分析問題是我們了解到目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。相比較而言,詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。(2)分別估計(jì)3個(gè)模型的參數(shù),并對(duì)模型進(jìn)行檢驗(yàn)。對(duì)于問題一,根據(jù)物理結(jié)構(gòu)和邏輯結(jié)構(gòu)兩個(gè)角度確立我們文本分析角度,物理結(jié)構(gòu)方面,通過計(jì)算文本虛詞使用頻率確定作者的行文風(fēng)格;邏輯結(jié)構(gòu)方面,以紅樓夢(mèng)主要人物名字為特征值對(duì)人物關(guān)系進(jìn)行分析,和以標(biāo)題詞匯為特征值的文本層次分析。對(duì)于問題三,分別選取三個(gè)樣本中的虛詞頻率和人物分析進(jìn)行比較。四、符號(hào)系統(tǒng)——人物i在第j段中的頻數(shù) T——特征值組成的向量——表示人物i的第j個(gè)特征值的頻數(shù) ——第i自然段五、建立文本識(shí)別模型1)人物關(guān)系:由主要人物每段出現(xiàn)頻數(shù)向量確定人物相關(guān)性;2)文本結(jié)構(gòu)分析:由標(biāo)題詞匯每段出現(xiàn)頻數(shù)比較分層,使層內(nèi)差異達(dá)到最小值;3)行文風(fēng)格:統(tǒng)計(jì)虛詞使用情況。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。將人物在文本每一自然段中出現(xiàn)的次數(shù)組合成向量,經(jīng)過對(duì)不同人物之間的相關(guān)性度量,組合成相關(guān)系數(shù)矩陣,再對(duì)其聚類分析得出人物關(guān)聯(lián)度。由于紅樓夢(mèng)中主要人物過多,我們要對(duì)特征值進(jìn)行降維處理,再考慮人物關(guān)系。這是通過保留低階主成分,忽略高階主成分做到的。[1]人為主要人物往往帶有主觀性,必須對(duì)所選文件的特征值用數(shù)理統(tǒng)計(jì)方法,由上所得的相關(guān)系數(shù)矩陣經(jīng)過正交化處理,將文本所確立的人名特征值轉(zhuǎn)化為少數(shù)幾個(gè)綜合人名后的新指標(biāo)(即主成分),其中每個(gè)主成分都是原始變量的線性組合,各主成分之間相互正交,從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊,把復(fù)雜問題簡單化。其中,(i,j=1,2,…,p)為原始變量與的相關(guān)系數(shù)。特征值是各主成分的方差,它的大小反映了各個(gè)主成分的影響力。 第六步:計(jì)算綜合人名后的新指標(biāo),并進(jìn)行降序排列:第七步:主成分與方差貢獻(xiàn)率構(gòu)建出文本中人物關(guān)系模型 ?文本原始人名特征值的主成分分析首先對(duì)三個(gè)文本的原始矩陣進(jìn)行處理得規(guī)范化矩陣(見附錄),然后用matlab并經(jīng)過一列變換后得評(píng)價(jià)指標(biāo)相關(guān)系數(shù),見下表:上述表顯示自變量幾乎不存在共線性,常數(shù)項(xiàng)(Constant)與變量x中的任何幾個(gè)幾乎均沒有一致性,因此自變量與常數(shù)項(xiàng)幾乎不相關(guān),不需要采取主成分回歸分析。1). 聚類要素的數(shù)據(jù)處理假設(shè)有m 個(gè)聚類的對(duì)象,每一個(gè)聚類對(duì)象都有 個(gè)要素構(gòu)成。2). 距離的計(jì)算距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。而段落是構(gòu)成文章的最小單位,段落是體現(xiàn)層次的外部形式。針對(duì)《紅樓夢(mèng)》樣本的實(shí)際分析,我們從一到四十回、四十一到八十回、八十一到一百二十回分別選取一回作為研究樣本,由于作者已給出沒一回的標(biāo)題,從標(biāo)題中我們可以得到該回描述的主題思想(根據(jù)標(biāo)題可分為兩部分),為了讓讀者能清晰、準(zhǔn)確、方便地找出樣本正文中的層次,我們采取有序聚類的方式來劃分文本的層次,保證每一個(gè)層次都由若干連續(xù)的互不交叉的自然段組成,從而達(dá)到識(shí)別樣本的目的。有序聚類就是尋找一種分法使K 個(gè)層次內(nèi)差異盡可能地小, 而層次間的差異盡可能地大。則有如下遞推公式: E( S 0 ( n , K , c K) ) = Mi n{ E( S 0 ( i K 1 , K 1 , c K 1) + D ( i K , n) ) }文本層數(shù)的確定關(guān)系到文本邏輯結(jié)構(gòu)的建立,它可以通過如下方法確定最優(yōu)層次劃分的數(shù)目,一是給定閥值ε, 當(dāng)| E( S ( n , K + 1) ) E( S ( n , K) ) ≤ε時(shí), 則最優(yōu)層數(shù)為K。計(jì)算總體誤差函數(shù): S ij ( Cij用來存儲(chǔ)每次分割點(diǎn))S 1 j = D1 j j = 1 ,2 , ?, nS ij =, Cij = ,i = 2 ,3 , ?, K , j = i + 1 , ?, n 。 能夠區(qū)別文學(xué)作品的特征主要有:用詞、句式、修辭手法、中心意象、主題等等;能利用的特征有:語音、字、詞、句子、段落等等語篇結(jié)構(gòu)的信息。[4]能夠區(qū)別文學(xué)作品的特征主要有 用詞、句式、修辭手法、中心意象、主題等等。除了使用詞語頻率的方法以外,許多文本信息都可供使用。是值得利用但較困難的。六、三個(gè)文本模型成果與檢驗(yàn)文本1人物關(guān)系層次分析從聚類分析得到的聚類圖中也可以得到寶釵、寶玉、黛玉之間有密切關(guān)系。故事分別圍繞這六個(gè)人展開。寶玉深感郁悶喝醉回房,趁酒意大