freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

資訊檢索與知識(shí)探勘-展示頁

2025-08-10 14:09本頁面
  

【正文】 ? 文件格式、資訊架構(gòu)、作業(yè)環(huán)境 – 需要解各種檔案格式: HTML、 XML、 Office、 PDF、 ZIP、 EMAIL、 BBS … – 資訊來源與權(quán)限控管: File systems、 DBMS、 Web、 Notes … 6 檢索系統(tǒng)的五個(gè)面向 可從這五點(diǎn)瞭解及預(yù)測(cè)核心檢索系統(tǒng)的表現(xiàn) – (未考慮文件格式、權(quán)限控管、資訊架構(gòu)) ? 索引詞模式 ? 檢索模式 ? 權(quán)重模式 ? 索引檔結(jié)構(gòu) ? 查詢模式 7 索引詞模式 ? 檢索系統(tǒng)建構(gòu)索引詞所依據(jù)的方法 ? 關(guān)係系統(tǒng)比對(duì)查詢字串的能力 ? 「以詞彙為主」( wordbased) – 前組合 – 詞庫更新不及、或涵蓋範(fàn)圍不足,會(huì)有找不到資料的情形 ? 「以字元為主」( characterbased) – 後組合 – 「中國」會(huì)索引成「中」及「國」 – 比對(duì)到含「中國」、「國中」或「開發(fā)中的國家」等文件 ? 「 Ngram」索引法 – Ngram為文件中任意 N個(gè)連續(xù)字元 – 「中國社會(huì)」 N=2時(shí)產(chǎn)生「中國」、「國社」、「社會(huì)」三個(gè)索引詞 – 可排除或降低「字元法」中類似「中國」與「國中」的字串順序問題 – 可省去「詞彙法」中維護(hù)詞庫的煩惱 8 檢索模式 ? 系統(tǒng)比對(duì)檢索條件與相關(guān)文件的依據(jù) ? 「布林模式」 – 優(yōu)點(diǎn):速度快、檢索者可完全控制檢索過程,並預(yù)測(cè)檢索結(jié)果 ? 對(duì)需求明確的檢索(如明確的作者名、題名)非常有效 – 缺點(diǎn):結(jié)果沒照符合程度排序、一般使用者較難表達(dá)複雜查詢條件 ? 「向量模式」 – 轉(zhuǎn)換文件及查詢語句到向量空間後比對(duì)相似度,常用餘弦夾角( cosine) – 例:「李遠(yuǎn)哲院長(zhǎng)」、「李院長(zhǎng)遠(yuǎn)哲」兩詞,以(李,遠(yuǎn),哲,院,長(zhǎng),李遠(yuǎn),遠(yuǎn)哲,哲院,院長(zhǎng),李院,長(zhǎng)遠(yuǎn))為維度,得( 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0)與( 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1) – 兩向量餘弦夾角為 7/9 = ,在最高值為 1的度量中,相似度為 – 可允許使用者輸入任意字串,查詢時(shí)不必受資料誤植、錯(cuò)字、冗字的限制 – 可概略稱為「近似字串查詢」、「容錯(cuò)查詢」、或是「模糊搜尋」( fuzzy search) 、「近似自然語言查詢」或「自然語言查詢」 ? 「機(jī)率模式」 – 將查詢?cè)~彙與相關(guān)文件的不確定性,以機(jī)率描述並加以運(yùn)算 – 亦可做到向量模式的查詢效果,兩者不同處在基本假設(shè)與運(yùn)算模式 9 向量權(quán)重模式 ? 指定索引詞與查詢?cè)~權(quán)重的方式 ? 權(quán)重因素 : – term frequency (TF) – inverse document frequency (IDF) – document length (normalization) – positional information – Number of hyperlinks (inwards or outwards) ? 常用乘法原則將這些因素組合(不是很精確的作法) ? 查詢?cè)~:詞長(zhǎng)、詞頻 – tf * (3w1), where w is the length of the term ? 文件詞:詞頻、文長(zhǎng)、文件篇數(shù) – TF*IDF = log(1+ tf ) * log(N/df) – Document length normalization: ? byte size for document terms vs Cosine ?????Tk kjdTk kjkiji qb y t e s i z eqdqdS i mi 12,37 1 ,)(),(???????tk kjtk kitk kjkijiqdqdQDS i m12,12,1 ,),(10 索引檔結(jié)構(gòu) ? 加快檢索的速度、影響檢索的成效 ? 「反向索引檔」 (inverted file) – 記錄每個(gè)索引詞及其出現(xiàn)文件的編號(hào),可直接取得包含某索引詞的所有文件 ? 「特徵檔」( signature file) – 將文件中編碼成 0與 1組成的特徵向量,檢索時(shí),第一階段經(jīng)特徵檔運(yùn)算,過濾掉不可能的文件,第二階段把誤引( false drop)的文件剔除 – 特色:可快速大量非相關(guān)文件的過濾 – 索引建構(gòu)速度快,「漸進(jìn)式索引」( incremental indexing)製作容易 ? 「隱含語意索引法」( latent semantic indexing) – 運(yùn)用向量空間運(yùn)算縮減索引詞維度,並關(guān)連相關(guān)文件的方法 – 文件、檢索條件都以此轉(zhuǎn)換矩陣轉(zhuǎn)換到縮減的向量空間,再運(yùn)算相似度 – 特色:轉(zhuǎn)換後,相關(guān)的詞彙會(huì)經(jīng)由文件所包含的內(nèi)容而產(chǎn)生關(guān)連 ? 特殊的「搜尋樹」 – B 樹:精確比對(duì)、後切截檢索、範(fàn)圍查詢 – PAT樹 ? 後切截檢索、鄰近字串檢索、範(fàn)圍查詢、最常出現(xiàn)的字串檢索,以及常規(guī)式檢索(regular expression search)等功能 ? 適合字典或辭典等較少更新的靜態(tài)資料庫 11 使用者查詢模式的進(jìn)展 ? Boolean model / 布林邏輯 ? Ranking / 重要性排序 ? Fuzzy search / 容錯(cuò)式、 近似字串、 近似自然語言 ? Relevance feedback / 相關(guān)回饋、 漸進(jìn)式查詢、 範(fàn)例查詢 ? Information filtering / 資訊過濾 ? Query by dialog / 個(gè)別化、 對(duì)話式查詢 ? Query by voice / 語音檢索 ? Query by natural language / 自然語言檢索 ? Intelligent search agent / 時(shí)空無礙、 虛擬實(shí)境的檢索精靈 12 檢索的其他策略 ? 相關(guān)詞提示 (Term suggestion) ? 相關(guān)詞回饋 (Term relevance feedback) ? 查詢?cè)~擴(kuò)展 (Query expansion, relevance feedback) 13 相關(guān)詞提示與相關(guān)詞回饋 ? 檢索成效,非常倚賴檢索詞的品質(zhì) ? 從文件資料庫中擷取統(tǒng)計(jì)上重要的詞彙,作為 – 相關(guān)詞提示( term suggestion):由互動(dòng)方式挑取檢索詞 – 相關(guān)回饋 (relevance feedback):檢出文件中挑取重要特徵回饋系統(tǒng) ? 相關(guān)文件回饋( document relevance feedback) ? 相關(guān)詞回饋( term relevance feedback) ? 相關(guān)回饋的優(yōu)點(diǎn) : – 免除使用者選擇檢索語彙與設(shè)計(jì)查詢條件的細(xì)節(jié),允許建構(gòu)有用的檢索條件而不用對(duì)檢索環(huán)境及資料庫有深入瞭解; – 拆解檢索過程成一步步較小的步驟,可以逐漸逼近所要檢索的主題; – 提供一個(gè)控制的查詢修改過程,終端使用者僅需最少的訓(xùn)練就可有效而合理的進(jìn)行檢索 ? 相關(guān)詞提示: – Altavista (LiveTopic, 1996, Javabased Interface)英文單字詞回饋 – Excite : about 1997, keyword selling 14 關(guān)聯(lián)分析 ? 詞彙關(guān)聯(lián):索引典、標(biāo)題表 ? 文件關(guān)聯(lián):歸類 ? 概念關(guān)聯(lián):分類 15 前言 ? 檢索失敗的主要因素之一: 「 字彙不匹配問題 」 – 「 查詢?cè)~ 」 與 「 索引詞 」 不相同的情況 – 例 :「 筆記型電腦 」 與 「 筆記本電腦 」 ,「 行政院長(zhǎng) 」 與「 閣揆 」 – 改進(jìn)方法: 「 查詢擴(kuò)展 」 、 「 權(quán)威檔 」 、 「 索引典 」 ? 「 查詢擴(kuò)展 」 (query expansion) – 加入更多與查詢主題相關(guān)的詞彙 , 或更改查詢?cè)~的權(quán)重 ? 「 權(quán)威檔 」 (authority file) – 記錄及解決同義異名詞的工具 – 索引或檢索時(shí) , 將各種同義異名詞對(duì)應(yīng)起來 , 視為相同的詞彙處理 16 前言 ? 「 索引典 」 (thesaurus) – 除同義詞外 , 還有紀(jì)錄廣義詞 、 狹義詞 、 反義詞 、 相關(guān)詞等 – 列舉主題詞彙 , 將詞彙間的語意或主題關(guān)係標(biāo)示出來的知識(shí)庫 – 查詢時(shí) , 可互相推薦 , 以擴(kuò)展或縮小查詢範(fàn)圍 , 或提示相關(guān)概念的不同查詢用語 – 例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」 – 使檢索從「字串比對(duì)層次」,提升到「語意比對(duì)層次」 – 人工製作索引典 , 準(zhǔn)確度高 , 但召回率低 、 成本大 、 建構(gòu)速度慢 、 事先選用的詞彙可能與後續(xù)或其他新進(jìn)的文件無關(guān) – 一般目的索引典運(yùn)用在特定領(lǐng)域的文件檢索上 , 無法提升檢索效能 – 針對(duì)每一種文獻(xiàn)領(lǐng)域製作索引典 , 耗時(shí)費(fèi)力 17 前言 ? 「 共現(xiàn)索引典 」 (cooccurrence thesaurus) – 利用詞彙的「共現(xiàn)性」,自動(dòng)建構(gòu)「詞彙關(guān)聯(lián)」( term association) – 或稱「關(guān)聯(lián)詞庫」 – 成本低 、 建構(gòu)速度快 、 召回率高 、 與館藏文件用詞一致 , 但準(zhǔn)確率低 – 詞彙關(guān)係:主題相關(guān) , 不一定語意相關(guān) ? 例: 「 李登輝 」 與 「 康乃爾 」 、 「 中華電訊 」 與 「 ADSL」 18 研究方法 ? 文獻(xiàn)探討、技術(shù)瞭解、優(yōu)缺點(diǎn)分析、適用範(fàn)圍分析 ? 歸納重點(diǎn) ? 提出改進(jìn)方法 ? 實(shí)驗(yàn)測(cè)試 ? 成效比較 – 不同研究之間的比較 – 同一研究?jī)?nèi),對(duì)照組之比較 ? 提出適用情況與應(yīng)用方向 ? 持續(xù)評(píng)估與改進(jìn) 19 相關(guān)研究: Salton ?89 ? Salton 曾提出建構(gòu)共現(xiàn)索引典的架構(gòu): – 算出各個(gè)詞彙間的相似度 ? 「相似度」:詞彙在各文件之間,共同出現(xiàn)的情形(或主題相似度) ? 重要的索引詞彙,任兩詞彙皆拿來比對(duì)相似度 ? 計(jì)算量至少 M2, M : 所有重要詞彙的個(gè)數(shù) – 依此相似度將詞彙 歸類 成「索引典類別」 ( thesaurus classes )( 或「主題類別」) ? ??? ???nini ikijni ikijkjddddTTs i m1 1221),(Tj=(d1j, d2j, … , dnj), n: 所有文件的個(gè)數(shù) 20 相關(guān)研究: Salton ?89 ? 歸類方式,主要有: ? Completelink: – 一開始,每個(gè)詞?。ㄔ兀紗为?dú)視為一類 – 兩個(gè)類別之間的相似度,若超過某個(gè)門檻值,就結(jié)合並歸成同一類,如此重複歸類 – 兩個(gè)類別之間的相似度,定義為跨類別元素之間 相似度最低者 – 易產(chǎn)生多數(shù)個(gè)索引典類別( thesaurus class) ,但每類僅有少數(shù)個(gè)詞彙 ? Singlelink: – 同上述作法,但 兩個(gè)類別之間的相似度,定義為跨類別元素之間相似度最高者 – 易產(chǎn)生少數(shù)個(gè)類別 , 但每類都有大量的詞彙 ? 透過共現(xiàn)索引典的查詢擴(kuò)展,檢索成效的召回率,通常可提升 10% 至 20% ? 小結(jié): – 歸類運(yùn)算量太大,運(yùn)用在大量文件上,耗時(shí)長(zhǎng)久 21 相關(guān)研究: Chen ?96 22 相關(guān)研究: Chen (JASIS ?95) ? 定義 非對(duì)稱 的詞彙相似度 ? 詞彙 Tj 在文件 i 中的權(quán)重 : ? 詞彙 Tj 及 Tk 在文件 i 中的權(quán)重 : ? Cluster_weight(Tj, Tk) ? Cluster_weight(Tk, Tj) ? 若 Tj =「 Artificial Intelligence」 , wj =2 ???????? ???jjijij wdfNtfd l o g)l o g(l o g11 NdfNddkni ijni i j k??????????????)l o g(l o g11 NdfNddjni ikni i k j?????????????????????? ???jjki j ki j k wdfNtfd l o g23 相關(guān)研究: Chen (JASIS ?95) ? 從 4714 文件中 (共 8 MB), 產(chǎn)生了 1,708,551 個(gè) 詞對(duì) ( cooccurrence pairs ) ? 由於關(guān)聯(lián) 詞對(duì) 太多,每個(gè)詞,限制其關(guān)聯(lián)詞數(shù)最多 100 個(gè),如此刪除了 60% 的 詞對(duì) , 剩下 709,659 個(gè) 詞對(duì) (由 7829 個(gè)不同的詞組成) ? 產(chǎn)生上述的詞對(duì),在 Sun Sparc 工作站上要花 CPU 小時(shí)、磁碟空間 MB ? 成效評(píng)估: – 6個(gè)受試者, 16 個(gè)預(yù)選的詞,
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1