freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

適用于大規(guī)模文本處理的動態(tài)密度聚類算法-文庫吧資料

2024-07-30 13:00本頁面
  

【正文】 內(nèi),這表明 TSDDBCA算法對文本語料的聚類結(jié)果趨于穩(wěn)定。選取其中使用較為頻繁的來自 acq、 crude、 earn、interest和 trade共 5個類別的子集從 250篇到 7000篇文本作為實驗語料進行聚類處理。 TSDDBCA在文本數(shù)據(jù)上的實驗 ?為了驗證算法 TSDDBCA在大規(guī)模文本處理中的聚類效果,分別在 Reuters21578英文文本 語料和 搜狗中文文本語料 上進行實驗驗證,實驗中所有文本特征采用 信息增益方法提取,為了實驗結(jié)果的可比性,所有語料均提取100維 特征,文本使用向量空間模型表示,向量權(quán)重值采用經(jīng)典的 TFIDF方法。 直接密度可達(dá):給定數(shù)據(jù)集合 D及閾值 k,如果對象 q滿足: 稱對象 q從對象 p出發(fā)時是直接密度可達(dá)的。 DDBCA算法 ?提出一種簡化的密度定義方法,對某個對象 p,將所有其 k最近鄰與其距離的和的平均值的逆定義為對象 p的密度 ????)(),(1)()(pNqkkqpd i s tpNpd e n s i t y該密度定義直觀反應(yīng)了密度不同的空間聚類,當(dāng) k值一定時,低密度區(qū)域?qū)ο蟮狡?k個最近鄰的距離和的平均值要大于高密度區(qū)域?qū)ο蟮狡?k個最近鄰的距離和的平均值,所對應(yīng)的逆值則前者小于后者,即低密度區(qū)域?qū)ο蟮拿芏戎狄陀诟呙芏葏^(qū)域?qū)ο蟮拿芏戎怠? ?SNN算法改進了密度的定義方法,將對象所有 k最近鄰中與其共享的鄰居個數(shù)總和定義為密度,該密度定義能夠動態(tài)反應(yīng)簇的密度變化,因此能夠識別密度不均勻的簇。 ?然而以上算法在 處理海量大規(guī)模高維文本數(shù)據(jù) 時,存在一些實際應(yīng)用問題: 參數(shù)輸入復(fù)雜:算法的輸入?yún)?shù)均為 2個以上,且設(shè)置方法復(fù)雜對用戶具有較高要求; 算法的時間復(fù)雜度高:算法在大規(guī)模高維數(shù)據(jù)集上時間復(fù)雜度為 O(n2); 不能處理混
點擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1