freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)位文字知識探勘--以中文索引典之建構(gòu)及應(yīng)用為例(存儲版)

2024-12-03 15:49上一頁面

下一頁面
  

【正文】 自動化技術(shù)的運用 索引典自動建構(gòu):前言 ? 檢索失敗的主要因素之一: 「 字彙不匹配問題 」 – 「 查詢詞 」 與 「 索引詞 」 不相同的情況 – 例 :「 筆記型電腦 」 與 「 筆記本電腦 」 ,「 行政院長 」 與「 閣揆 」 – 改進方法: 「 查詢擴展 」 、 「 權(quán)威檔 」 、 「 索引典 」 ? 「 查詢擴展 」 (query expansion) – 加入更多與查詢主題相關(guān)的詞彙 , 或更改查詢詞的權(quán)重 ? 「 權(quán)威檔 」 (authority file) – 記錄及解決同義異名詞的工具 – 索引或檢索時 , 將各種同義異名詞對應(yīng)起來 , 視為相同的詞彙處理 索引典自動建構(gòu):前言 ? 「 索引典 」 (thesaurus) – 除同義詞外 , 還有紀(jì)錄廣義詞 、 狹義詞 、 反義詞 、 相關(guān)詞等 – 列舉主題詞彙 , 將詞彙間的語意或主題關(guān)係標(biāo)示出來的知識庫 – 查詢時 , 可互相推薦 , 以擴展或縮小查詢範(fàn)圍 , 或提示相關(guān)概念的不同查詢用語 – 例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」 – 使檢索從「字串比對層次」,提升到「語意比對層次」 – 人工製作索引典 , 準(zhǔn)確度高 , 但召回率低 、 成本大 、 建構(gòu)速度慢 、 事先選用的詞彙可能與後續(xù)或其他新進的文件無關(guān) – 一般目的索引典運用在特定領(lǐng)域的文件檢索上 , 無法提升檢索效能 – 針對每一種文獻領(lǐng)域製作索引典 , 耗時費力 索引典自動建構(gòu):前言 ? 「 共現(xiàn)索引典 」 (cooccurrence thesaurus) – 利用詞彙的「共現(xiàn)性」,自動建構(gòu)「 詞彙關(guān)聯(lián) 」( term association) – 或稱「關(guān)聯(lián)詞庫」 – 成本低 、 建構(gòu)速度快 、 召回率高 、 與館藏文件用詞一致 , 但準(zhǔn)確率低 – 詞彙關(guān)係:主題相關(guān) , 不一定語意相關(guān) ? 例: 「 李登輝 」 與 「 康乃爾 」 、 「 中華電訊 」 與 「 ADSL」 關(guān)聯(lián)檢索研究成果 ? 曾元顯 , 漸進式關(guān)聯(lián)詞庫之建構(gòu)方法 , 中華民國發(fā)明專利,專利號: I 290684 . 有效期: 2020/12/012023/05/08 ? 透過國科會小產(chǎn)學(xué)計畫,技術(shù)移轉(zhuǎn)國內(nèi)廠商 ? 產(chǎn)業(yè)應(yīng)用: – 誠品書店 ( – 政府研究資訊系統(tǒng) GRB智慧搜尋系統(tǒng) ( 38萬筆) 研究方法 ? 文獻探討、技術(shù)瞭解、優(yōu)缺點分析、適用範(fàn)圍分析 ? 歸納重點 ? 提出改進方法 ? 實驗測試 ? 成效比較 – 不同研究之間的比較 – 同一研究內(nèi),對照組之比較 ? 提出適用情況與應(yīng)用方向 ? 持續(xù)評估與改進 相關(guān)研究: Salton ’89 ? Salton 曾提出建構(gòu)共現(xiàn)索引典的架構(gòu): – 算出各個詞彙間的相似度 ? 「相似度」:詞彙在各文件之間,共同出現(xiàn)的情形(或主題相似度) ? 重要的索引詞彙,任兩詞彙皆拿來比對相似度 ? 計算量至少 M2, M : 所有重要詞彙的個數(shù) – 依此相似度將詞彙 歸類 成「索引典類別」 ( thesaurus classes )( 或「主題類別」) ? ??? ???nini ikijni ikijkjddddTTs i m1 1221),(Tj=(d1j, d2j, … , d nj), n: 所有文件的個數(shù) 相關(guān)研究: Salton ’89 ? 歸類方式,主要有: ? Completelink: – 一開始,每個詞?。ㄔ兀?,都單獨視為一類 – 兩個類別之間的相似度,若超過某個門檻值,就結(jié)合並歸成同一類,如此重複歸類 – 兩個類別之間的相似度,定義為跨類別元素之間 相似度最低者 – 易產(chǎn)生多數(shù)個索引典類別( thesaurus class) ,但每類僅有少數(shù)個詞彙 ? Singlelink: – 同上述作法,但 兩個類別之間的相似度,定義為跨類別元素之間相似度最高者 – 易產(chǎn)生少數(shù)個類別 , 但每類都有大量的詞彙 ? 透過共現(xiàn)索引典的查詢擴展,檢索成效的召回率,通??商嵘? 10% 至 20% ? 小結(jié): – 歸類運算量太大,運用在大量文件上,耗時長久 相關(guān)研究: Chen ’96 相關(guān)研究: Chen (JASIS ’95) ? 定義 非對稱 的詞彙相似度 ? 詞彙 Tj 在文件 i 中的權(quán)重 : ? 詞彙 Tj 及 Tk 在文件 i 中的權(quán)重 : ? Cluster_weight(Tj, Tk) ? Cluster_weight(Tk, Tj) ? 若 Tj =「 Artificial Intelligence」 , wj =2 ???????? ???jjijij wdfNtfd log)lo g (lo g11 NdfNddkni ijni ijk??????????????)lo g (lo g11 NdfNddjni ikni i k j?????????????????????? ???jjkijkijk wdfNtfd log相關(guān)研究: Chen (JASIS ’95) ? 從 4714 文件中 (共 8 MB), 產(chǎn)生了 1,708,551 個 詞對 ( cooccurrence pairs ) ? 由於關(guān)聯(lián) 詞對 太多,每個詞,限制其關(guān)聯(lián)詞數(shù)最多 100 個,如此刪除了 60% 的 詞對 , 剩下 709,659 個 詞對 (由 7829 個不同的詞組成) ? 產(chǎn)生上述的詞對,在 Sun Sparc 工作站上要花 CPU 小時、磁碟空間 MB ? 成效評估: – 6個受試者, 16 個預(yù)選的詞,請每個受試者先就每個詞,聯(lián)想出相關(guān)的詞彙;再從系統(tǒng)提示的關(guān)聯(lián)詞,判斷哪些是相關(guān)或不相關(guān) – 兩種結(jié)果比較,召回率分別為 % 與 % ; 精確率為 % 及 % ? 小結(jié): – 人工聯(lián)想精確率高、召回率低;機器產(chǎn)生關(guān)聯(lián)詞較多、準(zhǔn)確度較低 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 概念階層的範(fàn)例: [from Sanderson and Crofts’ paper] 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 目的:從檢出的文件中自動產(chǎn)生 概念階層 ( concept hierarchies),便利使用者瞭解檢出文件的大致內(nèi)容 ? 第一步:詞彙選擇(決定哪些詞彙要列在概念階層中) : – 來源 1: 檢索結(jié)果的前幾篇中比對程度較佳的段落裡,找出常常一起出現(xiàn)的詞彙 – 來源 2: 每一篇檢出文件的最相關(guān)段落裡,取符合下列條件的詞?。? (df_in_retrieved_set / df_in_collection) = 者 – 平均從 TREC 的每個查詢結(jié)果的前 500 篇文件中,擷取出 2430 個詞 ? 第二步:詞彙關(guān)聯(lián)分析 : – 任意兩個詞都拿來做 包含 關(guān)係( subsumption relationship) 比較: – P(Tj | Tk) = 1 and P(Tk | Tj) 1, if Tj (較廣義的詞 ) 包含 Tk (較特定的詞 ) – 由於上述條件太嚴(yán)苛,放寬成: P(Tj | Tk) = and P(Tk | Tj) 1, if Tj 包含 Tk – 平均每個查詢擷取出 200 包含對 ( subsumption pairs) – 由這些 包含對 產(chǎn)生 概念階層 ,即 包含者 為 父節(jié)點 , 被包含者 為其 子節(jié)點 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 成效評估:測試 包含者 與 被包含者 的關(guān)聯(lián)程度( relatedness) – 由 8 個受試者判斷, 67% 包含對 被判斷為相關(guān)( interesting for further exploring) – 比較: 51% 詞彙對 (隨意配對,而非用包含關(guān)係配對者)被判斷為相關(guān) ? 小
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1