freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)位文字知識(shí)探勘--以中文索引典之建構(gòu)及應(yīng)用為例-wenkub

2022-11-04 15:49:08 本頁(yè)面
 

【正文】 「 行政院長(zhǎng) 」 與「 閣揆 」 – 改進(jìn)方法: 「 查詢擴(kuò)展 」 、 「 權(quán)威檔 」 、 「 索引典 」 ? 「 查詢擴(kuò)展 」 (query expansion) – 加入更多與查詢主題相關(guān)的詞彙 , 或更改查詢?cè)~的權(quán)重 ? 「 權(quán)威檔 」 (authority file) – 記錄及解決同義異名詞的工具 – 索引或檢索時(shí) , 將各種同義異名詞對(duì)應(yīng)起來(lái) , 視為相同的詞彙處理 索引典自動(dòng)建構(gòu):前言 ? 「 索引典 」 (thesaurus) – 除同義詞外 , 還有紀(jì)錄廣義詞 、 狹義詞 、 反義詞 、 相關(guān)詞等 – 列舉主題詞彙 , 將詞彙間的語(yǔ)意或主題關(guān)係標(biāo)示出來(lái)的知識(shí)庫(kù) – 查詢時(shí) , 可互相推薦 , 以擴(kuò)展或縮小查詢範(fàn)圍 , 或提示相關(guān)概念的不同查詢用語(yǔ) – 例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」 – 使檢索從「字串比對(duì)層次」,提升到「語(yǔ)意比對(duì)層次」 – 人工製作索引典 , 準(zhǔn)確度高 , 但召回率低 、 成本大 、 建構(gòu)速度慢 、 事先選用的詞彙可能與後續(xù)或其他新進(jìn)的文件無(wú)關(guān) – 一般目的索引典運(yùn)用在特定領(lǐng)域的文件檢索上 , 無(wú)法提升檢索效能 – 針對(duì)每一種文獻(xiàn)領(lǐng)域製作索引典 , 耗時(shí)費(fèi)力 索引典自動(dòng)建構(gòu):前言 ? 「 共現(xiàn)索引典 」 (cooccurrence thesaurus) – 利用詞彙的「共現(xiàn)性」,自動(dòng)建構(gòu)「 詞彙關(guān)聯(lián) 」( term association) – 或稱「關(guān)聯(lián)詞庫(kù)」 – 成本低 、 建構(gòu)速度快 、 召回率高 、 與館藏文件用詞一致 , 但準(zhǔn)確率低 – 詞彙關(guān)係:主題相關(guān) , 不一定語(yǔ)意相關(guān) ? 例: 「 李登輝 」 與 「 康乃爾 」 、 「 中華電訊 」 與 「 ADSL」 關(guān)聯(lián)檢索研究成果 ? 曾元顯 , 漸進(jìn)式關(guān)聯(lián)詞庫(kù)之建構(gòu)方法 , 中華民國(guó)發(fā)明專利,專利號(hào): I 290684 . 有效期: 2020/12/012023/05/08 ? 透過(guò)國(guó)科會(huì)小產(chǎn)學(xué)計(jì)畫,技術(shù)移轉(zhuǎn)國(guó)內(nèi)廠商 ? 產(chǎn)業(yè)應(yīng)用: – 誠(chéng)品書店 ( – 政府研究資訊系統(tǒng) GRB智慧搜尋系統(tǒng) ( 38萬(wàn)筆) 研究方法 ? 文獻(xiàn)探討、技術(shù)瞭解、優(yōu)缺點(diǎn)分析、適用範(fàn)圍分析 ? 歸納重點(diǎn) ? 提出改進(jìn)方法 ? 實(shí)驗(yàn)測(cè)試 ? 成效比較 – 不同研究之間的比較 – 同一研究?jī)?nèi),對(duì)照組之比較 ? 提出適用情況與應(yīng)用方向 ? 持續(xù)評(píng)估與改進(jìn) 相關(guān)研究: Salton ’89 ? Salton 曾提出建構(gòu)共現(xiàn)索引典的架構(gòu): – 算出各個(gè)詞彙間的相似度 ? 「相似度」:詞彙在各文件之間,共同出現(xiàn)的情形(或主題相似度) ? 重要的索引詞彙,任兩詞彙皆拿來(lái)比對(duì)相似度 ? 計(jì)算量至少 M2, M : 所有重要詞彙的個(gè)數(shù) – 依此相似度將詞彙 歸類 成「索引典類別」 ( thesaurus classes )( 或「主題類別」) ? ??? ???nini ikijni ikijkjddddTTs i m1 1221),(Tj=(d1j, d2j, … , d nj), n: 所有文件的個(gè)數(shù) 相關(guān)研究: Salton ’89 ? 歸類方式,主要有: ? Completelink: – 一開始,每個(gè)詞?。ㄔ兀?,都單獨(dú)視為一類 – 兩個(gè)類別之間的相似度,若超過(guò)某個(gè)門檻值,就結(jié)合並歸成同一類,如此重複歸類 – 兩個(gè)類別之間的相似度,定義為跨類別元素之間 相似度最低者 – 易產(chǎn)生多數(shù)個(gè)索引典類別( thesaurus class) ,但每類僅有少數(shù)個(gè)詞彙 ? Singlelink: – 同上述作法,但 兩個(gè)類別之間的相似度,定義為跨類別元素之間相似度最高者 – 易產(chǎn)生少數(shù)個(gè)類別 , 但每類都有大量的詞彙 ? 透過(guò)共現(xiàn)索引典的查詢擴(kuò)展,檢索成效的召回率,通??商嵘? 10% 至 20% ? 小結(jié): – 歸類運(yùn)算量太大,運(yùn)用在大量文件上,耗時(shí)長(zhǎng)久 相關(guān)研究: Chen ’96 相關(guān)研究: Chen (JASIS ’95) ? 定義 非對(duì)稱 的詞彙相似度 ? 詞彙 Tj 在文件 i 中的權(quán)重 : ? 詞彙 Tj 及 Tk 在文件 i 中的權(quán)重 : ? Cluster_weight(Tj, Tk) ? Cluster_weight(Tk, Tj) ? 若 Tj =「 Artificial Intelligence」 , wj =2 ???????? ???jjijij wdfNtfd log)lo g (lo g11 NdfNddkni ijni ijk??????????????)lo g (lo g11 NdfNddjni ikni i k j?????????????????????? ???jjkijkijk wdfNtfd log相關(guān)研究: Chen (JASIS ’95) ? 從 4714 文件中 (共 8 MB), 產(chǎn)生了 1,708,551 個(gè) 詞對(duì) ( cooccurrence pairs ) ? 由於關(guān)聯(lián) 詞對(duì) 太多,每個(gè)詞,限制其關(guān)聯(lián)詞數(shù)最多 100 個(gè),如此刪除了 60% 的 詞對(duì) , 剩下 709,659 個(gè) 詞對(duì) (由 7829 個(gè)不同的詞組成) ? 產(chǎn)生上述的詞對(duì),在 Sun Sparc 工作站上要花 CPU 小時(shí)、磁碟空間 MB ? 成效評(píng)估: – 6個(gè)受試者, 16 個(gè)預(yù)選的詞,請(qǐng)每個(gè)受試者先就每個(gè)詞,聯(lián)想出相關(guān)的詞??;再?gòu)南到y(tǒng)提示的關(guān)聯(lián)詞,判斷哪些是相關(guān)或不相關(guān) – 兩種結(jié)果比較,召回率分別為 % 與 % ; 精確率為 % 及 % ? 小結(jié): – 人工聯(lián)想精確率高、召回率低;機(jī)器產(chǎn)生關(guān)聯(lián)詞較多、準(zhǔn)確度較低 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 概念階層的範(fàn)例: [from Sanderson and Crofts’ paper] 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 目的:從檢出的文件中自動(dòng)產(chǎn)生 概念階層 ( concept hierarchies),便利使用者瞭解檢出文件的大致內(nèi)容 ? 第一步:詞彙選擇(決定哪些詞彙要列在概念階層中) : – 來(lái)源 1: 檢索結(jié)果的前幾篇中比對(duì)程度較佳的段落裡,找出常常一起出現(xiàn)的詞彙 – 來(lái)源 2: 每一篇檢出文件的最相關(guān)段落裡,取符合下列條件的詞?。? (df_in_retrieved_set / df_in_collection) = 者 – 平均從 TREC 的每個(gè)查詢結(jié)果的前 500 篇文件中,擷取出 2430 個(gè)詞 ? 第二步:詞彙關(guān)聯(lián)分析 : – 任意兩個(gè)詞都拿來(lái)做 包含 關(guān)係( subsumption relationship) 比較: – P(Tj | Tk) = 1 and P(Tk | Tj) 1, if Tj (較廣義的詞 ) 包含 Tk (較特定的詞 ) – 由於上述條件太嚴(yán)苛,放寬成: P(Tj | Tk) = and P(Tk | Tj) 1, if Tj 包含 Tk – 平均每個(gè)查詢擷取出 200 包含對(duì) ( subsumption pairs) – 由這些 包含對(duì) 產(chǎn)生 概念階層 ,即 包含者 為 父節(jié)點(diǎn) , 被包含者 為其 子節(jié)點(diǎn) 相關(guān)研究: Sanderson and Croft (SIGIR’99) ? 成效評(píng)估:測(cè)試 包含者 與 被包含者 的關(guān)聯(lián)程度( relatedness) – 由 8 個(gè)受試者判斷, 67% 包含對(duì) 被判斷為相關(guān)( interesting for further exploring) – 比較: 51% 詞彙對(duì) (隨意配對(duì),而非用包含關(guān)係配對(duì)者)被判斷為相關(guān) ? 小結(jié): – 此方法在查詢時(shí)才進(jìn)行,查詢反應(yīng)時(shí)間會(huì)受影響 – 提示的詞彙只限於檢索結(jié)果的前 N篇,不是一個(gè) 全域索引典( global thesaurus) – 隨機(jī)配對(duì),關(guān)聯(lián)度高,顯示詞彙選擇的重要性
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1