freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能論文-資料下載頁(yè)

2025-08-04 13:28本頁(yè)面
  

【正文】 文檔表示是指以一定的規(guī)則和描述來(lái)表示文檔或文檔集,是文檔挖掘的基礎(chǔ)。具體如何表示文檔,我了解到的方法有特征向量表示法,也有基于統(tǒng)計(jì)的特征方法。特征向量表示法,文檔被表示為文檔空間的向量,這就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性?;诮y(tǒng)計(jì)的特征方法就很多種了,有TFIDF、交又嫡、互信息(MutualInformation)、信息增益等等,這些方法各有優(yōu)缺,信息增益的定義過(guò)于復(fù)雜,互信息的效果要好于交又嫡,這是因?yàn)榛バ畔⑹菍?duì)不同的主題類(lèi)分別抽取特征詞,而交叉嫡跟特征在全部主題類(lèi)內(nèi)的分布有關(guān),是對(duì)全部主題類(lèi)來(lái)抽取特征詞。這些方法,在英文特征提取方面都有各自的優(yōu)勢(shì),但用于中文文本,并沒(méi)有很高的效率需要指出的是,所以對(duì)于中文文檔來(lái)說(shuō),應(yīng)先進(jìn)行漢語(yǔ)分詞處理后再進(jìn)行上述的構(gòu)造工作。這樣構(gòu)造的二維表表示的是文檔集合的詞條的統(tǒng)計(jì)信息,最終就可進(jìn)行分類(lèi)和聚類(lèi)挖掘。文檔分類(lèi)文檔分類(lèi)是指根據(jù)文檔的內(nèi)容或?qū)傩?,將大量的文檔歸到一個(gè)或多個(gè)主題類(lèi)別的過(guò)程。目前存在的分類(lèi)技術(shù)有:貝葉斯分類(lèi)、決策樹(shù)模型、感知器、最大熵建模、k最近鄰、支持向量機(jī)器、神經(jīng)網(wǎng)絡(luò)、線性最小平方擬合(LSF)、ngram方法、線性分類(lèi)器。這么多分類(lèi)技術(shù),比較熟悉的也就只有老師課上講過(guò)的KNN算法。搜索引擎主要還是采用分類(lèi)技術(shù)對(duì)文檔進(jìn)行分類(lèi),通過(guò)訓(xùn)練整理出比較有特征的詞庫(kù),然后再對(duì)爬蟲(chóng)收錄的文檔進(jìn)行分類(lèi)文檔聚類(lèi)文檔聚類(lèi)的目標(biāo)就是將文檔聚集成類(lèi),使得類(lèi)與類(lèi)之間的相似度盡量小,而類(lèi)內(nèi)的相似度盡量大。文檔聚類(lèi)是一種無(wú)導(dǎo)師機(jī)器學(xué)習(xí)方法。通過(guò)聚類(lèi),可以有效的歸納一些不在定義范圍內(nèi)或者無(wú)法定義的文檔,比如一些新興的詞匯,如火星文這類(lèi)網(wǎng)絡(luò)詞匯。五、結(jié)束語(yǔ)在這個(gè)海量信息的網(wǎng)絡(luò)時(shí)代,可以預(yù)見(jiàn),隨著信息量的幾何增長(zhǎng),當(dāng)前搜索引擎的精確率和匹配率問(wèn)題會(huì)越來(lái)越凸顯。如何將人工智能的技術(shù)更好的引進(jìn)搜索引擎中,將會(huì)成為解決上述問(wèn)題的一個(gè)關(guān)鍵點(diǎn)。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1