freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第九章自動(dòng)標(biāo)引(參考版)

2024-09-05 08:49本頁面
  

【正文】 ? NLM的自動(dòng)標(biāo)引項(xiàng)目 —— 標(biāo)引創(chuàng)始項(xiàng)目( Indexing Initiative, II), 20世紀(jì) 90年代開始實(shí)施,目的是研究出可部分或完全替代當(dāng)前標(biāo)引實(shí)踐工作的方法。 其他內(nèi)容簡(jiǎn)介 ? 矢量空間模型( Vector Space Model,VSM):自動(dòng)標(biāo)引主要依據(jù)的理論。 ?缺點(diǎn): “ 足夠訓(xùn)練 ” 非常難以做到,不可能有足夠的語料庫(kù)進(jìn)行訓(xùn)練,實(shí)用性低。 統(tǒng)計(jì)法 ( Statistical Method) ?依據(jù)兩個(gè)或多個(gè)漢字同時(shí)出現(xiàn)(相鄰出現(xiàn))的概率,利用語料庫(kù)進(jìn)行能夠有監(jiān)督或無監(jiān)督的學(xué)習(xí),得到描述一種語言的 “ 語言模型 ” ,然后通過該模型對(duì)文本進(jìn)行詞語切分。目前報(bào)道的切分準(zhǔn)確率高達(dá) 98%以上。目前使用較多。 ? 關(guān)鍵詞表:系統(tǒng)分詞的主要依據(jù),必須盡量完備。 詞典法 ( Lexical Method) 分詞詞典: ? 停用詞表:文獻(xiàn)中詞頻很高或很低的詞或字 ? 特例詞表:如停用詞 “ 的 ” 、 “ 也 ” 可組成 “ 的士 ” 、 “ 也門 ” 等詞。 詞語自動(dòng)切分的方法 ?詞語自動(dòng)切分的方法有很多,如詞典分詞法、人工神經(jīng)網(wǎng)絡(luò)算法、語料庫(kù)訓(xùn)練分詞方法等。 ? 可廣泛應(yīng)用于自動(dòng)標(biāo)引、智能檢索、自動(dòng)翻譯、自動(dòng)文摘、數(shù)據(jù)挖掘、信息過濾等領(lǐng)域。 給出主題標(biāo)識(shí)符 ?根據(jù)確定的主題詞、副主題詞、特征詞,進(jìn)行組配,給出主題標(biāo)引符號(hào),完成自動(dòng)標(biāo)引。 ? 利用詞匯相似度:大多數(shù)意義相同或相近的詞之間字符全部或部分相同,關(guān)鍵詞與主題詞之間存在一定程度的相似性,可通過某些算法計(jì)算出來,根據(jù)相似性確定相應(yīng)的主題詞。 ?使用一定的方法,將以上提取的關(guān)鍵詞轉(zhuǎn)換為受控詞。 ? 詞頻權(quán)重法:除考慮詞頻外,還考慮詞的位置、詞的詞性、詞本身的價(jià)值、詞的長(zhǎng)度等因素,對(duì)詞進(jìn)行加權(quán),然后根據(jù)權(quán)值大小確定關(guān)鍵詞。 確定關(guān)鍵詞 ?根據(jù)文本詞語切分結(jié)果,以詞語在文本中出現(xiàn)的頻次、位置及詞的詞性等因素為依據(jù),確定可表達(dá)文檔中心內(nèi)容的詞作為該文檔的關(guān)鍵詞。 ? 西方文字有分隔符,切分容易實(shí)現(xiàn)。 ?文檔格式的檢測(cè)與
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1