正文內(nèi)容

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(文件)

2024-11-17 15:49 上一頁面

下一頁面

　

【正文】關(guān)聯(lián)詞分析 ? 先前的作法 – 「共現(xiàn)性的單位」為「文件」 – 兩個(gè)詞彙在文件中距離越大，關(guān)係密切的可能性越低 – 需要分析的詞對(duì)個(gè)數(shù)多，許多詞對(duì)的關(guān)聯(lián) 分析徒勞無功 – 計(jì)算量： M2n， M:所有詞彙個(gè)數(shù) , n :所有文件個(gè)數(shù) – 例： n=10,000, M=10,000 (M=1000), 計(jì)算量： 1012 (1010) ? 新的作法 – 「共現(xiàn)性的單位」縮小到「段落」或「句子」 – 需要分析的詞對(duì)個(gè)數(shù)少 – 計(jì)算量： K2Sn， K:文件關(guān)鍵詞數(shù) , S:文件句子數(shù) , n:同上 – 例： n=10,000, K=30, S=20, 計(jì)算量： 6x106 關(guān)聯(lián)詞分析：新的方法： [Tseng 2020] ? 主要分二個(gè)步驟： – 擷取個(gè)別文件的關(guān)鍵詞 – 關(guān)鍵詞的關(guān)聯(lián)分析與累積 ? 關(guān)鍵詞擷取 – 關(guān)鍵詞：文件內(nèi)有意義且具代表性的詞彙 – 關(guān)鍵詞：呈現(xiàn)文件主題意義的最小單位 – 各種文獻(xiàn)自動(dòng)化處理的必要步驟。 – 關(guān)鍵詞的認(rèn)定是主觀的判斷，不利於電腦的自動(dòng)處理 – 「重複性」假設(shè)： ? 如果文件探討某個(gè)主題，那麼應(yīng)該會(huì)提到某些特定的字串好幾次 ? 具有客觀性、可自動(dòng)處理 ? 假設(shè)簡單，可適用於不同領(lǐng)域關(guān)聯(lián)詞分析：新的方法： [Tseng 2020] ? 第一步：詞彙選擇： – 每篇文件先用詞庫（長詞優(yōu)先法）斷詞 – 再由關(guān)鍵詞擷取演算法擷取關(guān)鍵詞（至少出現(xiàn) 2次者）（包含新詞） – 以停用詞過濾擷取出的關(guān)鍵詞，並依詞頻（ term frequency）高低排序 – 選詞頻最高的 N 個(gè)詞作關(guān)聯(lián)分析 ? 第二步：詞彙關(guān)聯(lián)分析 : – 每篇文件選出來的詞，以下面公式計(jì)算兩個(gè)詞彙的權(quán)重 wgt： where NSi denotes number of all sentence in document i and NS(Tij) denotes in document i the number of sentences in which term Tj occurs. – 關(guān)聯(lián)詞的權(quán)重超過門檻值（）者，才依下面公式累積其權(quán)重 – 關(guān)聯(lián)詞的最後相似度定義為： ? 原方法：僅單純累加每對(duì)關(guān)聯(lián)詞的權(quán)重 ? 新方法：加入 IDF (inverse document frequency ) 及詞彙長度 ) ()()( )(2),( iikijikijikij NSTNSTNSTTNSTTw g t ??????? ?? ni ikijkj TTw g tTTs i m 1 ),(),(? ???? ni ikijkkkj TTw g tn dfnwTTs i m 1 ),()l o g ( )l o g (),(關(guān)鍵詞自動(dòng)擷取方法比較： ? 詞庫比對(duì)法：詞庫需持續(xù)維護(hù)更新 ? 統(tǒng)計(jì)分析法：容易遺漏統(tǒng)計(jì)特徵不足者 ? 文法剖析法：需詞庫、詞性標(biāo)記等資源與運(yùn)算 – 適合作為關(guān)鍵詞的名詞片語少於 50% [Arppe 1995] 關(guān)鍵詞自動(dòng)擷取方法 [Tseng 97, 98, 99, 2020] ? 找出最大重複出現(xiàn)字串（ maximally repeated pattern）的演算法 ? token : 一個(gè)中文字（ character）或英文字（ word） ? ntoken: 輸入文字中，任意連續(xù)的 n tokens （與 ngram 類似） ? 演算法三步驟：步驟一 : 轉(zhuǎn)換輸入文字成 2token 串列步驟二 : 依合併規(guī)則重複合併 ntokens 成 (n+1)tokens，直到無法合併步驟三 : 依過濾規(guī)則，過濾不合法的詞彙依過濾規(guī)則，過濾不合法的詞彙詞頻關(guān)鍵詞自動(dòng)擷取過程範(fàn)例 ? 輸入文字 : “ BACDBCDABACD”, 假設(shè) 門檻值 = 1 ? 步驟一 : 產(chǎn)生 L = (BA:2 AC:2 CD:3 DB:1 BC:1 CD:3 DA:1 AB:1 BA:2 AC:2 CD:3) ? 步驟二 : token 合併 : 第一次 :合併 L 成 L1= (BAC:2 ACD:2 BAC:2 ACD:2) 丟掉 : (BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3) 留住 : (CD:3) 第二次 : 合併 L1 成 L2 = (BACD:2 BACD:2) 丟掉 : (BAC:2 ACD:2 BAC:2 ACD:2) 留住 : (CD:3) 第三次 : 合併 L2 成 L3 = ( ) 丟掉 : ( ) 留住 : (CD:3 BACD:2) ? 步驟三 : 無須過濾關(guān)鍵詞自動(dòng)擷取範(fàn)例 [Tseng 2020]：英文範(fàn)例 Web Document Clustering: A Feasibility Demonstration Users of Web search engines are often forced to sift through the long ordered list of document returned by the engines. The IR munity has explored document clustering as an alternative method of anizing retrieval results, but clustering has yet to be deployed on the major search engines. The paper articulates the unique requirements of Web document clustering and reports on the first evaluation of clustering methods in this domain. A key requirement is that the methods create their clusters based on the short snippets returned by Web search engines. Surprisingly, we find that clusters based on snippets are almost as good as clusters created using the full text of Web documents. To satisfy the stringent requirements of the Web domain, we introduce an incremental, linear time (in the document collection size) algorithm called Suffix Tree Clustering (STC), which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.? Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2 Terms extracted after filtering 1. clusters based :

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

以googleearth紮根gis教育之研究-以國中地理課程教學(xué)為例-資料下載頁

【摘要】以GoogleEarth紮根GIS教育之研究-以國中地理課程教學(xué)為例碩專二5098042205許柔婷專題討論(三)StudyofTakesbaseonGISeducationwithGoogleEarth─GeographyCourseTeachingofJuniorHighSchoolasa

2025-09-19 00:51

算法合集之?dāng)?shù)位計(jì)數(shù)問題解法研究-資料下載頁

【摘要】數(shù)位計(jì)數(shù)問題的解法研究北京市清華附中高逸涵引言?數(shù)位計(jì)數(shù)問題–主要與數(shù)的各位數(shù)字構(gòu)成有關(guān)–統(tǒng)計(jì)一段連續(xù)區(qū)間內(nèi)的數(shù)的性質(zhì)–完全模擬題目描述會(huì)嚴(yán)重超時(shí)引言?此類問題的一般性解法：–將整個(gè)區(qū)間劃分為若干子段–對(duì)于每個(gè)子段，通過子段性質(zhì)直接求解–合并各子段結(jié)果，得到總結(jié)果

2025-10-09 18:36

農(nóng)業(yè)推廣典例分析-資料下載頁

【摘要】農(nóng)業(yè)推廣典例分析?張保軍?西北農(nóng)林科技大學(xué)農(nóng)學(xué)院?Tel:029-7092566?M-tel:13991119711?E-mail:前言?關(guān)鍵詞：?一個(gè)名字兩個(gè)“對(duì)不起”?本世紀(jì)30年代16億人口?責(zé)任心求知欲?資源再生資源不可再生資源?農(nóng)業(yè)資源的有限性

2024-12-31 20:18

中文字詞語匯的查找-資料下載頁

【摘要】1中文字詞語彙的查找字詞語彙及其查找途徑一般語文字詞的查找特殊語文字詞的查找不同語文字詞的查找專門學(xué)科語詞的查找2字詞語彙問題分類?字形?字體：甲骨文、小篆、行書、草書….?名家書法：歷代名家各種書法字體?字音?直音、注音符號(hào)、羅馬拼音…?又讀、語音、讀音字義

2025-10-08 20:29

技術(shù)標(biāo)準(zhǔn)與知識(shí)產(chǎn)權(quán)以專利為例-資料下載頁

【摘要】技術(shù)標(biāo)準(zhǔn)與知識(shí)產(chǎn)權(quán)（以專利為例）天馬行空官方博客：；QQ:1318241189；QQ群：175569632主要內(nèi)容天馬行空官方博客：；QQ:1318241189；QQ群：175569632國際基本現(xiàn)狀納入專利的標(biāo)準(zhǔn)主要有兩類：

2025-10-07 00:02

別墅典例分析報(bào)告-資料下載頁

【摘要】：2012年10月24日調(diào)研地點(diǎn)：華東交通大學(xué)孔目湖調(diào)研方式：上網(wǎng)，文字資料項(xiàng)目簡介：以我?？啄亢橹饕兀x擇合適的基地，建造一棟小型住宅，建筑與周邊道路有一定的聯(lián)系，建筑面積在400平米左右，總用地面積在600平米左右。建筑應(yīng)對(duì)空間進(jìn)行整體處理，要求構(gòu)思新穎，解決好功能與形式之間的關(guān)系，處理好空間與空間之間的過渡與統(tǒng)一重視室內(nèi)外環(huán)境，綠地率不小于30%。功能與空間的關(guān)系

2025-03-23 05:38

seo知識(shí)之熱門行業(yè)關(guān)鍵詞的搜索引擎優(yōu)化策略-資料下載頁

【摘要】夏易營銷XIAYI公司高層來源于阿里巴巴、九城、搜狐、4A廣告公司，有著豐富的實(shí)戓經(jīng)驗(yàn)！2021年起步時(shí)，公司靠做醫(yī)療、教育行業(yè)的SEO/SEM，承接4A廣告公司微博營銷起家，其實(shí)戰(zhàn)能力遠(yuǎn)遠(yuǎn)超越同行！公司服務(wù)過大量知名汽車、金融、快消、門戶網(wǎng)站、電商品牌SEO、SEM、IWOM等數(shù)字營銷服務(wù)經(jīng)驗(yàn)，在數(shù)字營銷領(lǐng)域享有盛譽(yù)！

2025-05-15 22:19

以信息化建設(shè)應(yīng)用為先導(dǎo)引領(lǐng)公安工作上水平-資料下載頁

【摘要】第一篇：以信息化建設(shè)應(yīng)用為先導(dǎo)引領(lǐng)公安工作上水平以信息化建設(shè)應(yīng)用為先導(dǎo)引領(lǐng)公安工作上水平 ----德州市公安局運(yùn)河經(jīng)濟(jì)開發(fā)區(qū)分局 2008年以來，運(yùn)河分局在市局黨委的正確領(lǐng)導(dǎo)和市局通信部門...

2024-11-15 23:44

知識(shí)管理在各領(lǐng)域之應(yīng)用實(shí)例-資料下載頁

【摘要】-1-知識(shí)管理在各領(lǐng)域之應(yīng)用實(shí)例天馬行空官方博客：；QQ:1318241189；QQ群：175569632-2-講題內(nèi)容?何謂知識(shí)管理?如何導(dǎo)入知識(shí)管理系統(tǒng)?成功及失敗因素?個(gè)案分析–鋼鐵業(yè)、金屬工業(yè)、農(nóng)業(yè)?ASP模式之知識(shí)管理應(yīng)用?問題與

2025-03-18 20:59

seo知識(shí)之品牌seo：提升品牌在搜索引擎上的聲-資料下載頁

【摘要】夏易營銷XIAYI公司高層來源于阿里巴巴、九城、搜狐、4A廣告公司，有著豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)！2022年起步時(shí)，公司靠做醫(yī)療、教育行業(yè)的SEO/SEM，承接4A廣告公司微博營銷起家，其實(shí)戰(zhàn)能力遠(yuǎn)遠(yuǎn)超越同行！公司服務(wù)過大量知名汽車、金融、快消、門戶網(wǎng)站、電商品牌SEO、SEM、IWOM等數(shù)字營銷服務(wù)經(jīng)驗(yàn)，在數(shù)字營銷領(lǐng)域享有盛譽(yù)！公司背景

2025-04-26 13:05

如何善用語料庫建構(gòu)華文網(wǎng)路教學(xué)環(huán)境以「文國尋寶記」為例-資料下載頁

【摘要】如何善用語料庫建構(gòu)華文網(wǎng)路教學(xué)環(huán)境以「文國尋寶記」為例新加坡全國華文教學(xué)科技研討會(huì)臺(tái)灣元智大學(xué)羅鳳珠電腦輔助教學(xué)的發(fā)展方向從教學(xué)為主以學(xué)習(xí)為主單科教材統(tǒng)整教材知識(shí)建置知識(shí)管理模組化教材自主性的教材教材模組化的教學(xué)教材自主化的教學(xué)自主化教學(xué)的實(shí)踐以「教學(xué)資源中心」的觀念建立教學(xué)素

2025-07-18 20:51

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(文件)

以googleearth紮根gis教育之研究-以國中地理課程教學(xué)為例-資料下載頁

算法合集之?dāng)?shù)位計(jì)數(shù)問題解法研究-資料下載頁

農(nóng)業(yè)推廣典例分析-資料下載頁

中文字詞語匯的查找-資料下載頁

技術(shù)標(biāo)準(zhǔn)與知識(shí)產(chǎn)權(quán)以專利為例-資料下載頁

別墅典例分析報(bào)告-資料下載頁

seo知識(shí)之熱門行業(yè)關(guān)鍵詞的搜索引擎優(yōu)化策略-資料下載頁

以信息化建設(shè)應(yīng)用為先導(dǎo)引領(lǐng)公安工作上水平-資料下載頁

知識(shí)管理在各領(lǐng)域之應(yīng)用實(shí)例-資料下載頁

seo知識(shí)之品牌seo：提升品牌在搜索引擎上的聲-資料下載頁

如何善用語料庫建構(gòu)華文網(wǎng)路教學(xué)環(huán)境以「文國尋寶記」為例-資料下載頁

資料倉儲(chǔ)與資料探勘-資料下載頁

seo知識(shí)之品牌seo提升品牌在搜索引擎上的聲-資料下載頁

數(shù)位典藏與知識(shí)管理整合(ppt45)-資料下載頁

小數(shù)的組成及數(shù)位順序表-資料下載頁

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(存儲(chǔ)版)

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例-文庫吧在線文庫

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(完整版)

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(更新版)

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例(專業(yè)版)