freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于結(jié)構(gòu)與內(nèi)容的網(wǎng)頁主題信息提取研究(參考版)

2025-07-21 19:03本頁面
  

【正文】 謝謝各位專家! 。 總結(jié) 本文結(jié)合 HTML網(wǎng)頁內(nèi)部特征與外部的結(jié)構(gòu)布局,嘗試了采用映 射表這種網(wǎng)頁映射模式對網(wǎng)頁視圖進行變換,基于結(jié)構(gòu)與啟發(fā)式規(guī) 則對網(wǎng)頁進行區(qū)域分割與識別,并利用向量空間模型對網(wǎng)頁內(nèi)容分 析,從而準確得到具有高語義內(nèi)聚性的網(wǎng)頁主題內(nèi)容。 區(qū)域分割與識別錯誤主要是由于網(wǎng)頁 HTML文檔中不含 TABLE及其內(nèi)嵌標記 , 或者使用了此標記 , 但 是由于設計者安排的內(nèi)容有著特殊的作用 , 在主題文本區(qū)域內(nèi)會有 少量噪音 。 評價標準: 采用人工判斷網(wǎng)頁區(qū)域分割與識別結(jié)果和網(wǎng)頁主題信息提取結(jié)果 , 其中 500個網(wǎng)頁一共分割出 4205個區(qū)域 , 平均每個網(wǎng)頁有 8個區(qū)域 。 導航區(qū)過濾:判斷如果區(qū)域 Ai為導航區(qū),直接將其濾除。 非主題相關(guān)標簽過濾:利用公式 ( 2) 分別計算每一個主題標簽區(qū) Ai與 S的相似度 , 把高于相似度閾值的主題標簽區(qū)保留 , 其余濾除 。 假設兩個區(qū)域 U, V, 兩者的相似度可用向量之間的夾角來度量 , 相似度計算如公式 ( 2) 。 向量空間模型 ( VSM)是一種較為常用的信息獲取模型 。 在一個網(wǎng)頁內(nèi),每個區(qū)域可以用 5個變量來表達其語義特征: CountRatio: 區(qū)域內(nèi)有鏈接與無鏈接文本條內(nèi)字符總個數(shù)的比值 LinkAvgCount: 有鏈接文本條內(nèi)字符的平均個數(shù)(均值) FormalDegree: 字符的方差(方差) AvgCountDiff: 無鏈接與有鏈接文本條內(nèi)字符平均個數(shù)的差值 CharMaxCount: 區(qū)域內(nèi)文本條字符的最大個數(shù)。 HTML網(wǎng)頁映射表 表 1 HTML網(wǎng)頁映射表 Mapping table of HTML page 類型 字段名稱
點擊復制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1