freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

淺談高中化學(xué)實(shí)驗(yàn)教學(xué)中的不足與改進(jìn)[合集]-資料下載頁

2024-11-15 22:35本頁面
  

【正文】 能算法易于理解且易于實(shí)現(xiàn)幾乎沒有訓(xùn)練過程(只是需要確定K值和必要的預(yù)處理)K值難以確定 目前沒有很好的方法,一般采用先定一個(gè)初始值,然后根據(jù)實(shí)驗(yàn)測試的結(jié)果調(diào)整 K 值。 可解釋性較差,無法給出決策樹那樣的規(guī)則。對于不平衡樣本集比較敏感 采用權(quán)值的方法(增大距離小的鄰居樣本的權(quán)值)當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。北京理工大學(xué)軟件學(xué)院商務(wù)智能三 KNN算法改進(jìn) 基于聚類的KNN算法改進(jìn)對于測試集中每一個(gè)測試文本,都需要計(jì)算它與訓(xùn)練集中每個(gè)文本的距離,然后把距離排序找到離該測試文本最近的k個(gè)文本, 根據(jù)測試文本與訓(xùn)練文本的距離來給該測試文檔的候選類別按公式(1)評分。如果有屬于同一個(gè)類別的,就將該類別中的文本的打分求和作為該類別的得分。最后,將得分排序,測試文本將被分配給得分最高的那個(gè)類別。SCORE(c|x)= Σsim(x,d)I(d,c)x是一個(gè)測試集文本,c是訓(xùn)練集的類別,d是距離x最近的k個(gè)文本之一; sim(x,d)是文本x與文本d的相似度,這里指的是距離;I(d,c)是表示d是否屬于類c,如果屬于類c則為1,否則為0。首先對訓(xùn)練集文本進(jìn)行聚類,采用DBSCAN算法。算法過程如下:第一步:如果文本對象P未被歸入某個(gè)簇或標(biāo)記為噪聲,就檢查它的指定半徑鄰域r,如果指定半徑鄰域內(nèi)包含的對象數(shù)目大于等于給定的值m,就建立新簇C,將p的指定半徑領(lǐng)域r中所有點(diǎn)加入該簇C;第二步:對C中所有尚未被處理(歸入某個(gè)簇或標(biāo)記為噪聲)的對象q,檢查它的指定半徑鄰域,如果該鄰域內(nèi)包含對象數(shù)目大于等于給定的值m,將該鄰域中沒有歸入任何一個(gè)簇的對象加入C;第三步:重復(fù)第二步,繼續(xù)檢查C中未被處理對象,直到?jīng)]有新的對象加入當(dāng)前簇C:第四步:重復(fù)以上步驟,直到所有對象都被處理。其中關(guān)鍵參數(shù)為作為密度計(jì)算的距離表示的半徑,密集點(diǎn)所必需的在指定半徑內(nèi)擁有的最少的其他點(diǎn)的數(shù)目。通過這兩個(gè)參數(shù)我們就可以計(jì)算在任何點(diǎn)周圍的密度值。這樣,訓(xùn)練集中文北京理工大學(xué)軟件學(xué)院商務(wù)智能本就聚為若干個(gè)類了。每個(gè)簇的類別由簇中多數(shù)文本類別而定。然后結(jié)合KNN算法,計(jì)算測試集文本與訓(xùn)練集文本簇之間的距離,這樣可以減少計(jì)算量和個(gè)別孤立點(diǎn)對測試集文本的影響。具體算法:第一步:對于任一個(gè)給定的測試集文本,計(jì)算與訓(xùn)練集中各個(gè)簇的距離,采用(2)式為測試集文本評分SCORE(c|x)= Σsim(x,t)I(t,c)其中x是一個(gè)測試集文本,c是訓(xùn)練集的類別,t是距離x最近的k個(gè)文本簇之一。sim(x,t)是文本x與文本t簇的相似度,這里指的是距離。I(t,c)是表示t簇是否屬于類c,如果屬于類c則為1,否則為0。第二步:根據(jù)評分結(jié)果進(jìn)行排序,選取前k個(gè)簇。第三步:從這些簇中選取n個(gè)與測試集文本最近的文本,按照(1)式評分,判定該測試集文本類別,回歸到傳統(tǒng)的KNN算法。改進(jìn)算法中有領(lǐng)域半徑r,指定鄰域內(nèi)最小文本數(shù)m,選取簇類個(gè)數(shù)k,從k簇中選取距離最小的n個(gè)文本這幾個(gè)參數(shù)。根據(jù)試驗(yàn)表明,這幾個(gè)參數(shù)需要經(jīng)過多次試驗(yàn),得出較優(yōu)取值范圍。 用于文本分類的改進(jìn)KNN算法在文本分類中,KNN 方法通常是建立在VSM 模型上的,其判斷樣本相似度的樣本距離測度通常使用歐氏距離在傳統(tǒng)的歐氏距離中,各特征的權(quán)重相同,也就是認(rèn)定各個(gè)特征對于分類的貢獻(xiàn)是相同的,顯然這是不符合實(shí)際情況的同等的權(quán)重使得特征向量之間相似度計(jì)算不夠準(zhǔn)確, 進(jìn)而影響分類精度。本文采用加權(quán)歐氏距離公式,特征權(quán)重通過靈敏度方法獲得傳統(tǒng)KNN 方法樣本相似度計(jì)算量較大和對樣本庫容量依賴性較強(qiáng)。在KNN 分類算法中,確定待分類樣本類別需要計(jì)算其與訓(xùn)練樣本庫中所有樣本的相似度,才能求得與其距離最近的I個(gè)樣本眾所周知,文本的特征向量空間具有很高的維數(shù), 這樣對于一個(gè)有成千上萬的訓(xùn)練樣本的文本分類系統(tǒng)而言,龐大的計(jì)算量將嚴(yán)重阻礙分類速度,難以達(dá)到用戶的實(shí)際需求,甚至導(dǎo)致KNN 算法在文本分類中失去實(shí)用性本文通過樣本庫的裁減來減少樣本相似度的計(jì)算量, 提高KNN 的分類速度,以提高KNN 在文本分類中的實(shí)用價(jià)值降低樣本相似度計(jì)算量, 加快KNN 算法分類速度的主要改進(jìn)辦法之一就是通過使用小樣本庫代替原來的大樣本庫進(jìn)行分類。北京理工大學(xué)軟件學(xué)院商務(wù)智能這類方法一般是在原來的訓(xùn)練樣本庫中選取一些代表樣本作為新的訓(xùn)練樣本,或刪除原來的訓(xùn)練樣本庫中的某些樣本,將剩下的樣本作為新的訓(xùn)練樣本庫,從而達(dá)到減小訓(xùn)練樣本庫的目的O 這種途徑最主要的方法是Hart 的Condensing 算法。WilSon 的Editing 算法和Devijver 的MultiEdit 算法,Kuncheva 使用遺傳算法在這方面也進(jìn)行了一些研究O 在訓(xùn)練樣本庫中每增加或刪除一個(gè)樣本時(shí), 都要對樣本進(jìn)行一次測試,反復(fù)迭代直到樣本庫不再變化,這對于有成百上千的訓(xùn)練樣本來說,其工作量是非常巨大的O 在本文的裁減訓(xùn)練樣本庫的方法中,首先利用CURE 聚類算法獲得樣本數(shù)據(jù)庫S 的代表樣本庫S1, 然后再用基于Tabu 算法的方法對新的訓(xùn)練樣本庫S1進(jìn)行一步維護(hù)(增加或刪除訓(xùn)練樣本),以得到一個(gè)分類性能較優(yōu)。樣本量較小的訓(xùn)練樣本庫O 本文算法不僅極大縮減樣本庫裁減的工作量, 且在裁減樣本庫的基礎(chǔ)上使KNN 算法的分類速度和分類精度都得到了提高O 實(shí)驗(yàn)結(jié)果表明了這種方法的有效性和實(shí)用性。 改進(jìn)的KNN方法及其在文本分類中的應(yīng)用 文本分類的KNN方法在向量空間模型中,文本的內(nèi)容被形式化為多維空間中的一個(gè)點(diǎn),通過向量的形式給出。正是因?yàn)榘盐臋n以向量的形式定義到實(shí)數(shù)域中,才使得模式識別和其它領(lǐng)域中各種成熟的計(jì)算方法得以采用,極大地提高了自然語言文檔的可計(jì)算 性和可操作性。文檔向量中的各個(gè)維對應(yīng)于用于表征文檔的各個(gè)特征屬性。一般采用經(jīng)典的TFIDF進(jìn)行文檔的特征權(quán)值的表示。KNN方法是一種基于實(shí)例的方本分類方法。首先,對于一個(gè)測試文本,計(jì)算它與訓(xùn)練樣本集中每個(gè)文本的文本相似度,依文本相似度找出k個(gè)最相似的訓(xùn)練文本。然后在此基礎(chǔ)上給每一個(gè)文本類打分,分值是k個(gè)訓(xùn)練文檔中屬于該類的文本與測試文本之間的文檔相似度之和。對這k個(gè)文本所屬類的分值統(tǒng)計(jì)完畢之后,即按分值進(jìn)行排序。為了分類合理,應(yīng)當(dāng)選定一個(gè)閾值,可以認(rèn)為測試文本屬于越過閾值的所有類。通過上面的分析可知道,KNN法的實(shí)質(zhì)就是以特征屬性權(quán)值作為特征空間的坐標(biāo)系測度,先計(jì)算測試文本與訓(xùn)練文本之間在該坐標(biāo)系中的Cosine距離,然后依據(jù)測試文本與訓(xùn)練文本的距離遠(yuǎn)近來確定類別。顯然,它沒有非常顯別地考慮特征屬性關(guān)聯(lián)及其現(xiàn)等因素對文本相似度的影響,可以認(rèn)為北京理工大學(xué)軟件學(xué)院商務(wù)智能恰當(dāng)?shù)目紤]關(guān)聯(lián)與共現(xiàn)等因素,KNN的效果應(yīng)當(dāng)更好。 改進(jìn)的KNN方法根據(jù)語言學(xué)知識,一定層次上的語義是由一定范圍的詞匯共同表達(dá)的,共同表達(dá)的詞匯構(gòu)成語義鏈。語義鏈中不僅有規(guī)范的詞匯,而且有規(guī)范的次序。語義鏈的重現(xiàn),就可以為彼此表達(dá)同一語義,而且能進(jìn)一步認(rèn)為,語義鏈重合量越多,那么語義同一性越大。向量空間中,每一個(gè)元素對應(yīng)一個(gè)經(jīng)過提取之后的文本特征,可以認(rèn)為它就是語義鏈的一個(gè)組成部分。一個(gè)文本中的所有特征,構(gòu)成了文本的整個(gè)語義,特征之間的相互關(guān)聯(lián)和共現(xiàn),對于文本相似度來說是很有意義的。然而,傳統(tǒng)向量空間模型中相似度的計(jì)算沒有很好地考慮到特征詞之間的相互關(guān)聯(lián)與共現(xiàn),使分類結(jié)果不甚理想。四 參考文獻(xiàn)【1】 王煜、張明、王正歐用于文本分類的改進(jìn)KNN算法 2007 【2】 樊東輝基于聚類的KNN算法改進(jìn)【3】 孫麗華一種改進(jìn)的KNN方法及其在文本分類中的應(yīng)用
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1