freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第九章自動標(biāo)引(編輯修改稿)

2024-10-07 08:49 本頁面
 

【文章內(nèi)容簡介】 動標(biāo)引的基本流程 確定標(biāo)引源 輸入標(biāo)引源內(nèi)容 預(yù)處理 分詞處理 確定關(guān)鍵詞 轉(zhuǎn)換為受控詞 給出主題標(biāo)識符 確定標(biāo)引源 ? 即確定標(biāo)引所依據(jù)的文獻(xiàn)內(nèi)容(標(biāo)引源)。標(biāo)引源的選擇是影響標(biāo)引質(zhì)量的一個重要因素。 ? 標(biāo)題是自動標(biāo)引的主要標(biāo)引源,大多數(shù)研究是基于標(biāo)題進(jìn)行的。但僅以標(biāo)題為標(biāo)引源,信息量少,標(biāo)引質(zhì)量差,難以推廣使用。 ? 如果對全文進(jìn)行掃描,則存在數(shù)據(jù)量大和截取詞匯太多等問題,為標(biāo)引帶來許多雜音,影響標(biāo)引質(zhì)量和速度。 確定標(biāo)引源 一般選擇以下內(nèi)容作為標(biāo)引源: :包括文章的主標(biāo)題、章節(jié)標(biāo)題、小結(jié)標(biāo)題等。這是首選標(biāo)引源。 :較標(biāo)題而言,信息量較大,一般能夠完全反應(yīng)文獻(xiàn)討論的主題,但僅利用文摘難以確定 56個最重要的詞。 :科技論文首章節(jié)(引言、問題的提出等)常提出主要內(nèi)容,尾章節(jié)常作總結(jié)。 確定標(biāo)引源 :常反映章節(jié)討論的主題,替代整個章節(jié),節(jié)省大量無效勞動。 :國外有學(xué)者對科技文獻(xiàn)的 200個段落進(jìn)行了主題句的分析,結(jié)果: 85%的段落主題句是段落的第一句,7%的段落主題句是最后一句。用段落首尾句替代整個段落,節(jié)省工作量,免除許多 “ 雜音 ” 。 輸入標(biāo)引源內(nèi)容 ?標(biāo)引源必須按標(biāo)引系統(tǒng)要求的格式輸入系統(tǒng),才可能進(jìn)行自動標(biāo)引。 ?印刷型文獻(xiàn):手工錄入或 OCR(光學(xué)字符識別)輸入 電子文檔( XML、 DOC、 TXT等格式):直接導(dǎo)入 文檔的預(yù)處理 ?字符內(nèi)碼的檢測與轉(zhuǎn)換: BIG5碼與GB碼的自動檢測與轉(zhuǎn)換。 ?文檔格式的檢測與轉(zhuǎn)換:去掉 DOC、XML、 RTF等格式的文件夾雜的許多無意義的格式符號,即將不同格式文件轉(zhuǎn)換成適于自動標(biāo)引的純文本格式。 分詞處理 ? 在確定關(guān)鍵詞之前,必須對文檔進(jìn)行切分,即將語句切分成由詞組成的集合。 ? 西方文字有分隔符,切分容易實現(xiàn)。而漢語采用連寫方式,詞之間沒有自然分隔符,詞語的準(zhǔn)確切分較為困難(研究相當(dāng)長時間),目前自動切分已基本能滿足實際需要。 確定關(guān)鍵詞 ?根據(jù)文本詞語切分結(jié)果,以詞語在
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1