【正文】
:3 DB:1 BC:1 CD:3 DA:1 AB:1 BA:2 AC:2 CD:3) ? 步驟二 : token 合併 : 第一次 :合併 L 成 L1= (BAC:2 ACD:2 BAC:2 ACD:2) 丟掉 : (BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3) 留住 : (CD:3) 第二次 : 合併 L1 成 L2 = (BACD:2 BACD:2) 丟掉 : (BAC:2 ACD:2 BAC:2 ACD:2) 留住 : (CD:3) 第三次 : 合併 L2 成 L3 = ( ) 丟掉 : ( ) 留住 : (CD:3 BACD:2) ? 步驟三 : 無須過濾 關鍵詞自動擷取範例 [Tseng 2020]: 英文範例 Web Document Clustering: A Feasibility Demonstration Users of Web search engines are often forced to sift through the long ordered list of document returned by the engines. The IR munity has explored document clustering as an alternative method of anizing retrieval results, but clustering has yet to be deployed on the major search engines. The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain. A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines. Surprisingly, we find that clusters based on snippets are almost as good as clusters created using the full text of Web documents. To satisfy the stringent requirements of the Web domain, we introduce an incremental, linear time (in the document collection size) algorithm called Suffix Tree Clustering (STC), which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.? Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2 Terms extracted after filtering 1. clusters based : 3 2. document clustering : 3 3. Web : 3 4. 5. search engines : 3 6. STC : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements : 2 11. returned : 2 關鍵詞自動擷取範例 [Tseng 2020]: 中文範例 Comparison of Three Metadata Related Standards 在本文中,我們介紹了三個跟 metadata 相關的標準,它們分別是 FGDC 的 Digital Geospatial Metadata、 Dublin Core、和 URC。數(shù)位文字知識探勘 以中文索引典之建構及應用為例 ? 文字知識探勘簡介 ? 索引典建構:緣由與目的 ? 相關之研究 ? 關鍵詞自動擷取 ? 關聯(lián)詞自動擷取 ? 應用範例 ? 成效評估 曾元顯 資訊中心 國立臺灣師範大學 近年研究主題演進圖 2020 1997 1998 1999 2020 2020 2020 2020 2020 2020 2020 2020 音樂檢索 關鍵詞擷取 關聯(lián)詞分析 自動分類 自動摘要 自動歸類 知識探勘 主題檢索 自動編目與檢索 第二名 (瑞士舉辦 ) JASIST JASIST SIGIR SIGIR SIGIR 中國圖書館學會會 報 (中國時報 ) IEEE ICME 、 IACIS NTCIR WOCMAT NTCIR NTCIR NTCIR NTCIR IPM NTCIR SIGIR (79) 分類不一致性偵測 專利、學術文獻主題趨勢分析 JIS IRAL SIGIR AIRS ISSI Scientometrics STI 知識探勘 ? 知識探勘 ( knowledge discovery, KD) – 擷取隱晦、有用、未被發(fā)掘、有潛在價值的規(guī)則、資訊或知識的一種過程 – 實務上,運用資訊組織與分析等探勘技術,與使用者互動,反覆探索,發(fā)現(xiàn)訊息或規(guī)律,人工解讀結果,轉換規(guī)律訊息成資訊或知識。 ? 資料探勘 ( data mining, DM) – 處理結構化( structured)資料,即資料間有共同欄位 ? 文字探勘 ( text mining, TM) – 處理非結構化資料,資料常為自由文字 知識探勘步驟與技術 ? 步驟: –資料蒐集 –資料清理 –資料轉換 –探勘技術運用 –結果呈現(xiàn)與解讀 ? 技術: – 關聯(lián)分析( association) – 分類( classification) – 歸類( clustering) – 概略化( generation) – 預測( prediction) – 序列分析( sequence analysis) – 特徵詞彙擷取 – 索引與檢索 – 摘要( summarization) 資訊組織與主題分析 ? 資訊組織與主題分析的技術內容 –資訊檢索 –權威控制 –詞彙關聯(lián) –內容摘要 –主題歸類 –文件分類 ? 圖書館學較重視標準化的作業(yè)與架構 ? 資訊科技較重視自動化技術的運用 索引典自動建構:前言 ? 檢索失敗的主要因素之一: 「 字彙不匹配問題 」 – 「 查詢詞 」 與 「 索引詞 」 不相同的情況 – 例 :「 筆記型電腦 」 與 「 筆記本電腦 」 ,「 行政院長 」 與「 閣揆 」 – 改進方法: 「 查詢擴展 」 、 「 權威檔 」 、 「 索引典 」 ? 「 查詢擴展 」 (query expansion) – 加