【導讀】系統(tǒng)結(jié)構(gòu)與工作流程。系統(tǒng)模塊及主要算法。對訓練集、CWT20G文件進行解壓,得到兩個網(wǎng)頁文檔集合:。利用關(guān)鍵詞構(gòu)造正則表達式來去除廣告欄信息和版權(quán)信息;去掉無用的HTML語法標簽信息。抽取網(wǎng)頁標題、關(guān)鍵詞和網(wǎng)頁描述。網(wǎng)頁的主體文本內(nèi)容?;谀嫦蜃铋L匹配的分詞算法。主要思想是,在分詞的基礎(chǔ)上,進一步找出所有的。目的是為了構(gòu)建規(guī)則分類器。根據(jù)實詞詞典和停用詞詞典,去除虛詞和停用詞,超高頻詞與超低頻詞在文本表示模塊中去除。由機器自動完成對分類析取規(guī)則集的學習。規(guī)則由名詞或名詞短語構(gòu)成;析取規(guī)則包括DF和IG;利用規(guī)則集合作為輔助分類器。N-gram算法中,N=2,gram為詞。特征選擇基于IG進行選擇。權(quán)重計算采用了改進的LTC方法。編程語言與開發(fā)平臺:。完善網(wǎng)頁的預處理,提高有效文字抽取的。進一步提高規(guī)則學習效率和規(guī)則的有效性。