freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sewm20xx中文網(wǎng)頁分類系統(tǒng)說明-資料下載頁

2025-09-20 20:07本頁面

【導讀】系統(tǒng)結(jié)構(gòu)與工作流程。系統(tǒng)模塊及主要算法。對訓練集、CWT20G文件進行解壓,得到兩個網(wǎng)頁文檔集合:。利用關(guān)鍵詞構(gòu)造正則表達式來去除廣告欄信息和版權(quán)信息;去掉無用的HTML語法標簽信息。抽取網(wǎng)頁標題、關(guān)鍵詞和網(wǎng)頁描述。網(wǎng)頁的主體文本內(nèi)容?;谀嫦蜃铋L匹配的分詞算法。主要思想是,在分詞的基礎(chǔ)上,進一步找出所有的。目的是為了構(gòu)建規(guī)則分類器。根據(jù)實詞詞典和停用詞詞典,去除虛詞和停用詞,超高頻詞與超低頻詞在文本表示模塊中去除。由機器自動完成對分類析取規(guī)則集的學習。規(guī)則由名詞或名詞短語構(gòu)成;析取規(guī)則包括DF和IG;利用規(guī)則集合作為輔助分類器。N-gram算法中,N=2,gram為詞。特征選擇基于IG進行選擇。權(quán)重計算采用了改進的LTC方法。編程語言與開發(fā)平臺:。完善網(wǎng)頁的預處理,提高有效文字抽取的。進一步提高規(guī)則學習效率和規(guī)則的有效性。

  

【正文】 Lenovo PC機 8臺,配置信息如下: CPU: ; 內(nèi)存: 512M; 硬盤: 160G ? 網(wǎng)頁分類 Lenovo PC機 1臺,配置信息如下: CPU: ; 內(nèi)存: 1G; 硬盤: 80G ? 操作系統(tǒng): Windows XP SP2; ? 編程語言與開發(fā)平臺: Java 2 , JBuilder 9 。 2020/11/4 11 四、總結(jié)和展望 ? 完善網(wǎng)頁的預處理,提高有效文字抽取的精度; ? 深入研究規(guī)則學習算法和文檔特征項,以進一步提高規(guī)則學習效率和規(guī)則的有效性。 2020/11/4 12 匯報完畢! 謝謝大家! 2020/11/4 13
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1