freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(文件)

2024-11-17 15:49 上一頁面

下一頁面
 

【正文】 關(guān)聯(lián)詞分析 ? 先前的作法 – 「共現(xiàn)性的單位」為「文件」 – 兩個(gè)詞彙在文件中距離越大,關(guān)係密切的可能性越低 – 需要分析的 詞對(duì)個(gè)數(shù)多 ,許多詞對(duì)的關(guān)聯(lián) 分析徒勞無功 – 計(jì)算量: M2n, M:所有詞彙個(gè)數(shù) , n :所有文件個(gè)數(shù) – 例: n=10,000, M=10,000 (M=1000), 計(jì)算量: 1012 (1010) ? 新的作法 – 「共現(xiàn)性的單位」縮小到「段落」或「句子」 – 需要分析的 詞對(duì)個(gè)數(shù)少 – 計(jì)算量: K2Sn, K:文件關(guān)鍵詞數(shù) , S:文件句子數(shù) , n:同上 – 例: n=10,000, K=30, S=20, 計(jì)算量: 6x106 關(guān)聯(lián)詞分析:新的方法: [Tseng 2020] ? 主要分二個(gè)步驟: – 擷取個(gè)別文件的關(guān)鍵詞 – 關(guān)鍵詞的關(guān)聯(lián)分析與累積 ? 關(guān)鍵詞擷取 – 關(guān)鍵詞:文件內(nèi)有意義且具代表性的詞彙 – 關(guān)鍵詞:呈現(xiàn)文件主題意義的最小單位 – 各種文獻(xiàn)自動(dòng)化處理的必要步驟。 – 關(guān)鍵詞的認(rèn)定是主觀的判斷,不利於電腦的自動(dòng)處理 – 「重複性」假設(shè): ? 如果文件探討某個(gè)主題,那麼應(yīng)該會(huì)提到某些特定的字串好幾次 ? 具有客觀性、可自動(dòng)處理 ? 假設(shè)簡單,可適用於不同領(lǐng)域 關(guān)聯(lián)詞分析:新的方法: [Tseng 2020] ? 第一步:詞彙選擇: – 每篇文件先用 詞庫 (長詞優(yōu)先法)斷詞 – 再由 關(guān)鍵詞擷取演算法 擷取關(guān)鍵詞(至少出現(xiàn) 2次者)(包含新詞) – 以 停用詞 過濾擷取出的關(guān)鍵詞,並依詞頻( term frequency) 高低排序 – 選 詞頻最高的 N 個(gè)詞作關(guān)聯(lián)分析 ? 第二步:詞彙關(guān)聯(lián)分析 : – 每篇文件選出來的詞,以 下面公式計(jì)算兩個(gè)詞彙的 權(quán)重 wgt: where NSi denotes number of all sentence in document i and NS(Tij) denotes in document i the number of sentences in which term Tj occurs. – 關(guān)聯(lián)詞 的權(quán)重超過門檻值( )者,才依下面公式累積其權(quán)重 – 關(guān)聯(lián)詞 的最後相似度定義為: ? 原方法:僅單純累加每對(duì)關(guān)聯(lián)詞的權(quán)重 ? 新方法:加入 IDF (inverse document frequency ) 及 詞彙長度 ) ()()( )(2),( iikijikijikij NSTNSTNSTTNSTTw g t ??????? ?? ni ikijkj TTw g tTTs i m 1 ),(),(? ???? ni ikijkkkj TTw g tn dfnwTTs i m 1 ),()l o g ( )l o g (),(關(guān)鍵詞自動(dòng)擷取方法 比較: ? 詞庫比對(duì)法:詞庫需持續(xù)維護(hù)更新 ? 統(tǒng)計(jì)分析法:容易遺漏統(tǒng)計(jì)特徵不足者 ? 文法剖析法:需詞庫、詞性標(biāo)記等資源與運(yùn)算 – 適合作為關(guān)鍵詞的名詞片語少於 50% [Arppe 1995] 關(guān)鍵詞自動(dòng)擷取方法 [Tseng 97, 98, 99, 2020] ? 找出最大重複出現(xiàn)字串( maximally repeated pattern)的演算法 ? token : 一個(gè)中文字( character)或英文字( word) ? ntoken: 輸入文字中,任意連續(xù)的 n tokens (與 ngram 類似) ? 演算法三步驟: 步驟一 : 轉(zhuǎn)換輸入文字成 2token 串列 步驟二 : 依合併規(guī)則重複合併 ntokens 成 (n+1)tokens,直到無法合併 步驟三 : 依過濾規(guī)則,過濾不合法的詞彙 依 過濾 規(guī)則 , 過濾 不 合法 的 詞彙 詞頻 關(guān)鍵詞自動(dòng)擷取過程範(fàn)例 ? 輸入文字 : “ BACDBCDABACD”, 假設(shè) 門檻值 = 1 ? 步驟一 : 產(chǎn)生 L = (BA:2 AC:2 CD:3 DB:1 BC:1 CD:3 DA:1 AB:1 BA:2 AC:2 CD:3) ? 步驟二 : token 合併 : 第一次 :合併 L 成 L1= (BAC:2 ACD:2 BAC:2 ACD:2) 丟掉 : (BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3) 留住 : (CD:3) 第二次 : 合併 L1 成 L2 = (BACD:2 BACD:2) 丟掉 : (BAC:2 ACD:2 BAC:2 ACD:2) 留住 : (CD:3) 第三次 : 合併 L2 成 L3 = ( ) 丟掉 : ( ) 留住 : (CD:3 BACD:2) ? 步驟三 : 無須過濾 關(guān)鍵詞自動(dòng)擷取範(fàn)例 [Tseng 2020]: 英文範(fàn)例 Web Document Clustering: A Feasibility Demonstration Users of Web search engines are often forced to sift through the long ordered list of document returned by the engines. The IR munity has explored document clustering as an alternative method of anizing retrieval results, but clustering has yet to be deployed on the major search engines. The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain. A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines. Surprisingly, we find that clusters based on snippets are almost as good as clusters created using the full text of Web documents. To satisfy the stringent requirements of the Web domain, we introduce an incremental, linear time (in the document collection size) algorithm called Suffix Tree Clustering (STC), which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.? Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2 Terms extracted after filtering 1. clusters based :
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1