freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

資訊檢索與知識探勘(編輯修改稿)

2024-08-28 14:09 本頁面
 

【文章內(nèi)容簡介】 , which creates clusters based on phrases shared between documents. We show that STC is faster than standard clustering methods in this domain, and argue that Web document clustering via STC is both feasible and potentially beneficial.? Terms extracted before filtering 1. clusters based on : 3 2. document clustering : 3 3. of Web : 3 4. on the : 3 5. search engines : 3 6. STC is : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements of : 2 11. returned by : 2 Terms extracted after filtering 1. clusters based : 3 2. document clustering : 3 3. Web : 3 4. 5. search engines : 3 6. STC : 2 7. Web document clustering : 2 8. Web search engines : 2 9. clustering methods in this domain : 2 10. requirements : 2 11. returned : 2 34 關(guān)鍵詞自動擷取範(fàn)例 [Tseng 2022]: 中文範(fàn)例 Comparison of Three Metadata Related Standards 在本文中,我們介紹了三個跟 metadata 相關(guān)的標(biāo)準(zhǔn),它們分別是 FGDC 的 Digital Geospatial Metadata、 Dublin Core、和 URC。雖然它們各有自己的設(shè)計目標(biāo)和特質(zhì),但都是假設(shè)其操作環(huán)境為類似網(wǎng)際網(wǎng)路的環(huán)境。FGDC 的 Digital Geospatial Metadata 是設(shè)計來專門處理地理性資料,由於它有聯(lián)邦行政命令的支持,可說是已成為美國在地理方面的資料著錄國家標(biāo)準(zhǔn)。Dublin Core 則比較像是 USMARC 的網(wǎng)路節(jié)縮版,使非專業(yè)人士也能在短時間內(nèi)熟悉和使用此格式來著錄收藏資料,但在現(xiàn)階段祇針對類似傳統(tǒng)印刷品的電子文件。由 IETE 的 URI 工作小組所負(fù)責(zé)的 URC,其原始的設(shè)計目的雖是用來連結(jié) URL 和 URN,但為因應(yīng)電子圖書館時代的要求,其內(nèi)含逐漸擴大,雖然尚在發(fā)展中,但由於有 IETE 的支持,未來成為網(wǎng)際網(wǎng)路上通用標(biāo)準(zhǔn)的可能性極大。在此文中,我們也從幾個不同角度,分析和比較這三個 metadata 格式的異同和優(yōu)缺點。 Terms before filtering 1. 設(shè) 計 : 3 2. 資 料 : 3 3. 網(wǎng) 路 : 3 4. 標(biāo) 準(zhǔn) : 3 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE 的 : 2 8. 三 個 : 2 9. 文 中 : 2 10. 比 較 : 2 11. 它 們 : 2 12. 由 於 : 2 13. 地 理 : 2 14. 成 為 : 2 15. 我 們 : 2 16. 的 支 持 : 2 17. 的 設(shè) 計 目 : 2 18. 格 式 : 2 19. 著 錄 : 2 20. 電 子 : 2 21. 網(wǎng) 際 網(wǎng) 路 : 2 22. 環(huán) 境 : 2 23. 雖 然 : 2 24. 類 似 : 2 Terms after filtering 1. 設(shè) 計 : 3 (design) 2. 資 料 : 3 (data) 3. 網(wǎng) 路 : 3 (work) 4. 標(biāo) 準(zhǔn) : 3 (standard) 5. Dublin Core : 2 6. FGDC 的 Digital Geospatial Metadata : 2 7. IETE : 2 8. 三 個 : 2 (three) 9. 文 中 : 2 (in the article) 10. 比 較 : 2 (parison) 11. 它 們 : 2 (they) 12. 由 於 : 2 (owing to) 13. 地 理 : 2 (geography) 14. 成 為 : 2 (bee) 15. 我 們 : 2 (we) 16. 支 持 : 2 (support) 17. 設(shè) 計 目 : 2 (incorrect term) 18. 格 式 : 2 (format) 19. 著 錄 : 2 (record) 20. 電 子 : 2 (electronics) 21. 網(wǎng) 際 網(wǎng) 路 : 2 (Inter) 22. 環(huán) 境 : 2 (environment) 23. 雖 然 : 2 (although) 24. 類 似 : 2 (similar) 35 關(guān)鍵詞自動擷取範(fàn)例 [Tseng 2022]:直接運用於日文 36 關(guān)鍵詞擷取成效評估 ? 評估資料: – 100篇臺灣新聞(抓自 2022年 6月 3日中國時報網(wǎng)站) ? 結(jié)果: – 平均每篇文件有 33 個關(guān)鍵詞 – 平均每篇文件有 11 (33%) 個關(guān)鍵詞不在詞庫中(含 123, 226 個詞 ) – 相異的關(guān)鍵詞總共 2197 個 – 其中有 954 個詞( 954/2197 = 43%)不在詞庫中 – 954 個詞中有 79 個是錯誤不合法的詞(人工檢視結(jié)果),錯誤率 % – 整體錯誤率則為 % (=79/2197) 37 單篇文件關(guān)鍵詞擷取範(fàn)例 BMG Entertainment與 Sony Music計畫在 Inter 上銷售數(shù)位音樂 。 ( 美國矽谷 /陳美滿 ) 根據(jù) San Jose Mercury News報導(dǎo)指出 ,BMG Entertainment計畫在 6月上旬或中旬開始在 Inter 上銷售數(shù)位音樂 。 消費者將可直接將音樂下載至 PC, 而無需購買 CD或錄音帶 。該公司為執(zhí)行上述計畫已與多家高科技廠商合作 , 包括 IBM、 Liquid Audio 與 Microsoft。 BMG 隸屬於Bertelsmann公司 。 另外, Sony Music也將於下週一宣佈該公司計畫於本月底開 始提供數(shù)位音樂下載。 消費者將可在手提裝置上聆聽下載來的數(shù)位音樂。 此項數(shù)位音樂下載將是市場上首項具有防止盜錄功能的產(chǎn)品。網(wǎng)路音樂市場在過去幾年已顯現(xiàn) 市場潛力,主要拜 MP3規(guī)格之賜。 1 : 音樂 (7) 2 : 數(shù)位音樂 (5) 3 : 下載 (4) 4 : 計畫 (4) 5 : BMG (3) 6 : Music (2) 7 : Sony Music (2) 8 : Entertainment (2) 9 : BMG Entertainment (2) 38 關(guān)聯(lián)詞分析:新的方法: [Tseng 2022] ? 第一步:詞彙選擇: – 每篇文件先用 詞庫 (長詞優(yōu)先法)斷詞 – 再由 關(guān)鍵詞擷取演算法 擷取關(guān)鍵詞(至少出現(xiàn) 2次者)(包含新詞) – 以 停用詞 過濾擷取出的關(guān)鍵詞,並依詞頻( term frequency) 高低排序 – 選 詞頻最高的 N 個詞作關(guān)聯(lián)分析 ? 第二步:詞彙關(guān)聯(lián)分析 : – 每篇文件選出來的詞,以 DICE公式計算兩個詞彙的 權(quán)重 wgt: – 關(guān)聯(lián)詞 的權(quán)重超過門檻值( )者,才依下面公式累積其權(quán)重 – 關(guān)聯(lián)詞 的最後相似度定義為: ? 原方法:僅單純累加每對關(guān)聯(lián)詞的權(quán)重 ? 新方法:加入 IDF (inverse document frequency ) 及 詞彙長度 ???ni ikijkj TTw gtTTs i m 1 ),(),(? ???? ni ikijkkkj TTw g tn dfnwTTs i m 1 ),()l o g ( )l o g (),(39 關(guān)聯(lián)詞擷取效率比較 ? Chen ?95 ?96 的方法: – 4714 文件 , 8 MB, 費時 1,708,551 個關(guān)聯(lián) 詞對 – 限制每個詞的關(guān)聯(lián)詞數(shù)最多 100 個,共刪除了 60% 的 詞對 – 2GB文件,費時 CPU小時,產(chǎn)生 4,000,000個關(guān)聯(lián)詞對 ? Tseng的方法: – 336,067 新聞文件 , 323 MB – 費時約 小時,擷取出 11,490,822 個關(guān)鍵詞 – 全部關(guān)聯(lián)詞數(shù) : 248,613, 平均每個詞有 9個關(guān)聯(lián)詞 – 2022: NTCIR 38萬篇中文新聞文件, 51分鐘 ? 斷詞、索引詞擷取、關(guān)鍵詞擷取、關(guān)聯(lián)詞分析、反向索引檔建立 40 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 1/3) 41 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 2/3) 42 關(guān)聯(lián)詞應(yīng)用範(fàn)例( 3/3) 43 關(guān)聯(lián)詞排序 ? 關(guān)聯(lián)詞可按三種方式排序 – 強度: ? 即關(guān)聯(lián)詞共現(xiàn)性的強度 – 詞頻 : ? 按關(guān)聯(lián)詞出現(xiàn)的文件篇數(shù)( df) 排序, df 越高者,排在越前面 – 時間: ? 按關(guān)聯(lián)詞出現(xiàn)在最近文件的次序排序 ? 目的:讓最近才出現(xiàn)的關(guān)聯(lián)詞不必累積到足夠大的強度,即可排序在前面 ? 如:「李登輝」的關(guān)聯(lián)詞中,出現(xiàn)「康乃爾」,因為李登輝最近又重訪康乃爾 ? 對具有時間事件的文件集可能很重要 ? 關(guān)聯(lián)詞提示的順序不同 , 使用者感覺的關(guān)聯(lián)度不同 44 關(guān)聯(lián)詞排序 查詢詞「古蹟」的關(guān)聯(lián)詞,依「詞頻」 ,「時間」 ,「強度」排序 45 關(guān)聯(lián)詞成效評估 ? 目的 – 瞭解查詢詞與其提示的關(guān)聯(lián)詞之間的關(guān)聯(lián) (relatedness)情況 ? 以兩種方式評估: – 直接計數(shù)前 N( 50) 個被受試者判定為有關(guān)聯(lián)的關(guān)聯(lián)詞數(shù) ? 優(yōu)點:簡單,可回溯比較 ? 缺點:不能細(xì)微區(qū)分排序的差異 – 以精確率與召回率評估哪一種排序方式較好 ? 計算平均精確率的程式為 TREC及 NTCIR用的 trec_eval 程式 ? 評估方式: – 邀請 5位研究所同學(xué),就 30個查詢詞(每人 6個),從系統(tǒng)提示出來的前 50個關(guān)聯(lián)詞中,判斷是否跟查詢詞相關(guān) 46 trec_eval 的部分輸出 Queryid (Num): 4 ( 即 查詢詞 : 「古蹟」) Total number of documents (terms) (for 「古蹟」 ) Retrieved: 50 Relevant: 43 Rel_ret: 35(即 找到且被判斷為相關(guān)者) Interpolated Recall Precision Averages: at at at at at at at at at at at Average precision (noninterpolated) for all rel. terms ( 單一查詢的平均精確率) Precision: At 5 terms: At 10 terms: At 15 terms: At 20 terms: At 30 terms: RPrecision (precision after R (= num_rel for a query) docs retrieved): Exact: 47 關(guān)聯(lián)詞成效評估 ? 從 25233篇新聞文件中擷取關(guān)聯(lián)詞 ? 結(jié)果 : – 排序 詞頻 時間 強度 – 關(guān)聯(lián)比例 48% 59% 69%
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1