freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

20xx年文本聚類開題報(bào)告范文(編輯修改稿)

2025-03-15 01:42 本頁面
 

【文章內(nèi)容簡介】 本,這k個(gè)數(shù)據(jù)文本初始地代表了k個(gè)類的數(shù)據(jù)中心。
  2)對剩余的每個(gè)文本計(jì)算其到每個(gè)中心的距離,并把它歸到最近的中心類中。
  3)重新計(jì)算已經(jīng)得到的各個(gè)類的中心,通常計(jì)算中心的準(zhǔn)則函數(shù)采用平方誤差準(zhǔn)則,這個(gè)準(zhǔn)則能夠使生成的結(jié)果類盡可能地獨(dú)立和緊湊。
  4)迭代執(zhí)行第二步和第三步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結(jié)束。
  具體的算法流程如圖1所示。
  2 改進(jìn)的聚類算法
  雖然使用KMean算法進(jìn)行文本聚類時(shí),具有計(jì)算復(fù)雜度低,計(jì)算效率不僅高,而且伸縮性較強(qiáng),適應(yīng)大數(shù)據(jù)集的能力也很強(qiáng)的優(yōu)點(diǎn),但是實(shí)驗(yàn)發(fā)現(xiàn),不僅初始聚類中心的選取對聚類結(jié)果有影響,孤立點(diǎn)的存在對文本的相似性的判斷也有很大的影響,這就導(dǎo)致聚類判斷不穩(wěn)定?;诖耍恼虏捎靡环N改進(jìn)的方法來進(jìn)行文本聚類,改進(jìn)關(guān)鍵點(diǎn)在于聚類中心的計(jì)算,用與原聚類中心相似的文本數(shù)據(jù)來計(jì)算平均值作為該聚類中心。
  改進(jìn)的KMeans算法描述如下所示:
  1)首先給定n個(gè)數(shù)據(jù)文本,從其中任選k個(gè)文本,這k個(gè)數(shù)據(jù)文本初始地代表了k個(gè)類的數(shù)據(jù)中心。
  2)對剩余的每個(gè)文本計(jì)算其到每個(gè)中心的距離,并把它歸到最近的中心類中,記作means。
  3)選擇類中與類中心大于等于(1+a)*means的文本集合{D1,D2,...,Dk},其中a[,],重新計(jì)算新文本集中的類中心。
  4)迭代執(zhí)行第2步和第3步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結(jié)束。
  3 相似度計(jì)算
  文本聚類中涉及文本的相似性計(jì)算,只有相似性大的文本才能聚到同一類中,因此,相似性的度量對文本的聚類很關(guān)鍵。在文本聚類中,相似度度量方式一般有曼哈頓距離、Cosine距離、歐式距離,其中Cosine距離更能體現(xiàn)文本的相似性。本文主要采用Cosine距離,當(dāng)兩個(gè)文本之間的文本相似度越大,它們之間的相關(guān)性越強(qiáng)。文本集用向量空間模型表示后,文本的相似度采用向量之間距離表示:
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1