freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)位文字知識探勘--以中文索引典之建構(gòu)及應(yīng)用為例-文庫吧資料

2024-11-01 15:49本頁面
  

【正文】 . 春夏 :2 16. 秋冬 :2 17. 紛紛 :2 18. 設(shè)計 :2 19. 開始 :2 20. 腳上 :2 關(guān)鍵詞自動擷取範例 [Tseng 2020]:直接運用於日文 Keyphrase Extraction: Example The term “mittee” in various erroneous forms (from OCR) was extracted, showing that the algorithm really can extract lexical terms without knowing their semantics (which is both an advantage and a disadvantage) 關(guān)鍵詞擷取成效評估 ? 評估資料: – 100篇臺灣新聞(抓自 2020年 6月 3日中國時報網(wǎng)站) ? 結(jié)果: – 平均每篇文件有 33 個關(guān)鍵詞 – 平均每篇文件有 11 (33%) 個關(guān)鍵詞不在詞庫中(含 123, 226 個詞 ) – 相異的關(guān)鍵詞總共 2197 個 – 其中有 954 個詞( 954/2197 = 43%)不在詞庫中 – 954 個詞中有 79 個是錯誤不合法的詞(人工檢視結(jié)果),錯誤率 % – 整體錯誤率則為 % (=79/2197) 單篇文件關(guān)鍵詞、關(guān)聯(lián)詞擷取範例 BMG Entertainment與 Sony Music計畫在Inter 上銷售 數(shù)位音樂 。無論哪一種都用花編和絨毛做裝飾 ﹐ 充分再現(xiàn)了女孩子愛美之心 ﹐ 也同樣會把行人的目光吸引到穿著漂亮皮靴的腳上。然而自 2020年春夏開始各種大膽型的設(shè)計款式紛紛亮相 ﹐ 穿在腳上的靴子開始受到關(guān)注。秋冬流行款式當然要數(shù)各式各樣的靴子 !今秋東京街頭商店的展窗紛紛擺出出前所未有的獨俱特色的新款式 ﹐ 吸引者趕超時尚的男男女女。 Terms before filtering 1. 設(shè) 計 : 3 2. 資 料 : 3 3. 網(wǎng) 路 : 3 4. 標 準 : 3 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE 的 : 2 8. 三 個 : 2 9. 文 中 : 2 10. 比 較 : 2 11. 它 們 : 2 12. 由 於 : 2 13. 地 理 : 2 14. 成 為 : 2 15. 我 們 : 2 16. 的 支 持 : 2 17. 的 設(shè) 計 目 : 2 18. 格 式 : 2 19. 著 錄 : 2 20. 電 子 : 2 21. 網(wǎng) 際 網(wǎng) 路 : 2 22. 環(huán) 境 : 2 23. 雖 然 : 2 24. 類 似 : 2 Terms after filtering 1. 設(shè) 計 : 3 (design) 2. 資 料 : 3 (data) 3. 網(wǎng) 路 : 3 (work) 4. 標 準 : 3 (standard) 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE : 2 8. 三 個 : 2 (three) 9. 文 中 : 2 (in the article) 10. 比 較 : 2 (parison) 11. 它 們 : 2 (they) 12. 由 於 : 2 (owing to) 13. 地 理 : 2 (geography) 14. 成 為 : 2 (bee) 15. 我 們 : 2 (we) 16. 支 持 : 2 (support) 17. 設(shè) 計 目 : 2 (incorrect term) 18. 格 式 : 2 (format) 19. 著 錄 : 2 (record) 20. 電 子 : 2 (electronics) 21. 網(wǎng) 際 網(wǎng) 路 : 2 (Inter) 22. 環(huán) 境 : 2 (environment) 23. 雖 然 : 2 (although) 24. 類 似 : 2 (similar) Keyword Extraction for Chinese “ 松軟型 ” 和 “ 卷腿型 ” ﹑ 您選擇哪一種 ?! 今秋東京流行靴子新款式! 春夏秋冬 ﹐ 不論是那個季節(jié) ﹐ 只要一換季就會有新的款式出現(xiàn)。由 IETE 的 URI 工作小組所負責的 URC,其原始的設(shè)計目的雖是用來連結(jié) URL 和 URN,但為因應(yīng)電子圖書館時代的要求,其內(nèi)含逐漸擴大,雖然尚在發(fā)展中,但由於有 IETE 的支持,未來成為網(wǎng)際網(wǎng)路上通用標準的可能性極大。 FGDC 的 Digital Geospatial Metadata 是設(shè)計來專門處理地理性資料,由於它有聯(lián)邦行政命令的支持,可說是已成為美國在地理方面的資料著錄國家標準。 – 關(guān)鍵詞的認定是主觀的判斷,不利於電腦的自動處理 – 「重複性」假設(shè): ? 如果文件探討某個主題,那麼應(yīng)該會提到某些特定的字串好幾次 ? 具有客觀性、可自動處理 ? 假設(shè)簡單,可適用於不同領(lǐng)域 關(guān)聯(lián)詞分析:新的方法: [Tseng 2020] ? 第一步:詞彙選擇: – 每篇文件先用 詞庫 (長詞優(yōu)先法)斷詞 – 再由 關(guān)鍵詞擷取演算法 擷取關(guān)鍵詞(至少出現(xiàn) 2次者)(包含新詞) – 以 停用詞 過濾擷取出的關(guān)鍵詞,並依詞頻( term frequency) 高低排序 – 選 詞頻最高的 N 個詞作關(guān)聯(lián)分析 ? 第二步:詞彙關(guān)聯(lián)分析 : – 每篇文件選出來的詞,以 下面公式計算兩個詞彙的 權(quán)重 wgt: where NSi denotes number of all sentence in document i and NS(Tij) denotes in document i the number of sentences in which term Tj occurs. – 關(guān)聯(lián)詞 的權(quán)重超過門檻值( )者,才依下面公式累積其權(quán)重 – 關(guān)聯(lián)詞 的最後相似度定義為: ? 原方法:僅單純累加每對關(guān)聯(lián)詞的權(quán)重 ? 新方法:加入 IDF (inverse document frequency ) 及 詞彙長度 ) ()()( )(2),( iikijikijikij NSTNSTNSTTNSTTw g t ??????? ?? ni ikijkj TTw g tTTs i m 1 ),(),(? ???? ni ikijkkkj TTw g tn dfnwTTs i m 1 ),()l o g ( )l o g (),(關(guān)鍵詞自動擷取方法 比較: ? 詞庫比對法:詞庫需持續(xù)維護更新 ? 統(tǒng)計分析法:容易遺漏統(tǒng)計特徵不足者 ? 文法剖析法:需詞庫、詞性標記等資源與運算 – 適合作為關(guān)鍵詞的名詞片語少於 50% [Arppe 1995] 關(guān)鍵詞自動擷取方法 [Tseng 97, 98, 99, 2020] ? 找出最大重複出現(xiàn)字串( maximally repeated pattern)的演算法 ? token : 一個中文字( character)或英文字( word) ? ntoken: 輸入文字中,任意連續(xù)的 n tokens (與 ngram 類似) ? 演算法三步驟: 步驟一 : 轉(zhuǎn)換輸入文字成 2token 串列 步驟二 : 依合併規(guī)則重複合併 ntokens 成 (n+1)tokens,直到無法合併 步驟三 : 依過濾規(guī)則,過濾不合法的詞彙 依 過濾 規(guī)則 , 過濾 不 合法 的 詞彙 詞頻 關(guān)鍵詞自動擷取過程範例 ? 輸入文字 : “ BACDBCDABACD”, 假設(shè) 門檻值 = 1 ? 步驟一 : 產(chǎn)生 L = (BA:2 AC:2 CD
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1