freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

適用于大規(guī)模文本處理的動態(tài)密度聚類算法(存儲版)

2025-08-16 13:00上一頁面

下一頁面
  

【正文】 度聚類算法: ?第一步:先用一趟聚類算法對原數(shù)據(jù)集進行聚類,得到大小幾乎相同的初始劃分簇; ?第二步:將第一步中得到的劃分簇看成是 DDBCA算法的聚類對象,對第一步的初始劃分進行歸并,得到第 2階段最終的聚類簇。 1 研究背景 ?從聚類的角度看,文本的分布傾斜和不平衡問題可以看成是數(shù)據(jù)的密度不均勻問題,傳統(tǒng)的基于密度的優(yōu)秀聚類算法可以發(fā)現(xiàn)不同大小和形狀不同的聚類,如 DBSCAN, CURE, Chameleon和 SNN等算法。 ?然而以上算法在 處理海量大規(guī)模高維文本數(shù)據(jù) 時,存在一些實際應用問題: 參數(shù)輸入復雜:算法的輸入?yún)?shù)均為 2個以上,且設置方法復雜對用戶具有較高要求; 算法的時間復雜度高:算法在大規(guī)模高維數(shù)據(jù)集上時間復雜度為 O(n2); 不能處理混合屬性的數(shù)據(jù):實際領(lǐng)域中很多數(shù)據(jù)具有混合屬性 。 TSDDBCA在文本數(shù)據(jù)上的實驗 ?為了驗證算法 TSDDBCA在大規(guī)模文本處理中的聚類效果,分別在 Reuters21578英文文本 語料和 搜狗中文文本語料 上進行實驗驗證,實驗中所有文本特征采用 信息增益方法提取,為了實驗結(jié)果的可比性,所有語料均提取100維 特征,文本使用向量空間模型表示,向量權(quán)重值采用經(jīng)典的 TFIDF方法。 DDBCA,TSDDBCA,SNN算法對比 數(shù)據(jù)集 聚類簇個數(shù) (單位個 ) 聚類精度 執(zhí)行時間 (單位秒 ) SNN DDBCA TSDDBCA SNN DDBCA TSDDBCA SNN DDBCA TSDDBCA Reuters21578 1000 355 421 6 3000 1167 1280 15 5000 1948 2145 15 7000 2793 2906 19 平均 1565 1688 13 搜狗語料 1000 355 382 11
點擊復制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1