freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

農(nóng)業(yè)信息垂直搜索引擎研究報(bào)告-資料下載頁

2024-10-08 04:32本頁面

【導(dǎo)讀】農(nóng)業(yè)信息垂直搜索引擎。所在院系計(jì)算機(jī)技術(shù)與工程學(xué)院。學(xué)科專業(yè)農(nóng)業(yè)信息化

  

【正文】 鍵詞進(jìn)行相關(guān)度計(jì)算 , 評價(jià)過程中的關(guān)鍵詞匹配 算法選用 KMP算法 , 該算法結(jié)構(gòu)簡單 , 效率高 , 時(shí)間復(fù)雜度為 O(m+n) 。 算法利用模式字符串串 T 的 Next 函數(shù) ,求 T 在主字符串串中第 pos 字符之后的位置 , 其中 T 非空 , pos 大于等于 1, 并且 pos 小于等于字符串 S 的長度 , 算法函數(shù)描述如下 。 12 對每個關(guān)鍵詞 , 通過 公式計(jì)算出該關(guān)鍵字的加權(quán)值 , 其中 Ci 表示關(guān)鍵詞表中第 i 個元素在該網(wǎng)頁內(nèi)容中出現(xiàn)的次數(shù) , Wi表示關(guān)鍵詞的權(quán)重 。 對于網(wǎng)頁內(nèi)容信息與農(nóng)業(yè)信息主題的相關(guān)度計(jì)算使用公式 r=t/(t+1), 如果計(jì)算的相關(guān)度數(shù)值大于 時(shí) , 表示該網(wǎng)頁內(nèi)容與農(nóng)業(yè)相關(guān) , 否則視為無關(guān) 。( 4) 信息存儲模塊 上述已經(jīng)完成內(nèi)容相關(guān)度計(jì)算的網(wǎng)頁信息 , 使用倒排的形式建立索引 , 這種索引記錄了關(guān)鍵詞在不同網(wǎng)頁中出現(xiàn)的頻度 , 然后按照相應(yīng)的技術(shù)規(guī)范 , 把索引和網(wǎng)頁相關(guān)信息保存到搜索引擎數(shù)據(jù)庫 , 以便搜索服務(wù)提取數(shù)據(jù) 。 ( 5) Web檢索服務(wù) Web檢索服務(wù)也就是搜索引擎的用戶界面 , 當(dāng)用戶在搜索頁面輸入關(guān)鍵詞查找農(nóng)業(yè)相關(guān)信息時(shí) , 搜索引擎會在上面保存的農(nóng)業(yè)信息數(shù)據(jù)庫中進(jìn)行查找 , 如果找到與用戶請求的內(nèi)容相關(guān)的網(wǎng)站時(shí) , 使用一定的算法根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度計(jì)算出各網(wǎng)頁內(nèi)容信息 的相關(guān)程度 , 然后根據(jù)此信息排序 , 按順序?qū)⑺阉鞯降乃芯W(wǎng)頁鏈接和描述返回給用戶 . 13 第三章 農(nóng)業(yè)信息垂直搜索引擎的關(guān)鍵技術(shù) 垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取 , 也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù) , 然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫 , 進(jìn)行進(jìn)一步的加工處理。整個過程中 , 數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù) , 經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方 式返回給用戶。其核心是信息抽取和信息過濾。 信息抽取技術(shù) 信息抽取技術(shù)也有多種分類方式 , 根據(jù)各種工具采用 的原理可分為基于自然語言處理方式的信息抽取、包裝器處理歸納方式的信息抽取、基于 Ontolgoy 方式的信息抽取和基于 HTML結(jié)構(gòu)的信息抽取 4類。 以下著重介紹一下面向農(nóng)業(yè)主題的信息抽取。對于自由式文檔 , 多數(shù)采用了自然語言處理的方法 , 這些技術(shù)通常以詞性標(biāo)注和語義標(biāo)注作為過濾器 , 來構(gòu)建短語與句子成分間的關(guān)系 , 并以此導(dǎo)出基于句法語義約束條件的過濾規(guī)則。這些約束條件有助于判斷同一個文檔中的相關(guān)信息。以 NLP 為基礎(chǔ)的工具通常適合提取主要由類似電報(bào)風(fēng)格的自由文本組成的網(wǎng)頁 , 例如蔬菜列表、種子出售廣告、研討會通知等。包裝器 的歸納工具從一組訓(xùn)練樣例中歸納出基于分隔符的抽取規(guī)則。這些工具和基于 NLP 的工具之間最大的差別在于 , 它們并不依賴于語言約束 , 而是依賴于數(shù)據(jù)的格式化特征。這個特點(diǎn)決定了這種工具比基于 NLP 的工具更適合于抽取 HTML文檔。基于 Ontolgoy方式的信息抽取結(jié)果準(zhǔn)確 , 僅需要本體庫的構(gòu)建 , 而目前互聯(lián)網(wǎng)上的大多數(shù)網(wǎng)頁都是 HTML, 且基于 HTML 結(jié)構(gòu)的信息抽取又十分容易 。面向農(nóng)業(yè)主題的信息抽取模塊是針對經(jīng)過主題過濾模塊過濾得到的農(nóng)業(yè) HTML 網(wǎng)頁數(shù)據(jù)進(jìn)行信息抽取 , 從網(wǎng)頁的某些非結(jié)構(gòu)化數(shù)據(jù)中抽取出特定的結(jié)構(gòu)化的信息數(shù)據(jù)。大 多數(shù)的農(nóng)業(yè)搜索引擎系統(tǒng)提取數(shù)據(jù)信息分為2 步 。 從網(wǎng)頁中先通過標(biāo)簽將整個網(wǎng)頁信息進(jìn)行簡單提取 (圖 31)。通過農(nóng)業(yè)本體信息抽取來將簡單抽取的數(shù)據(jù)進(jìn)行 3 次信息抽取 , 保證了信息抽取的準(zhǔn)確性 (圖32) 14 圖 31 圖 32 Web文本內(nèi)容過濾有基于內(nèi)容性和實(shí)效性的特點(diǎn) , 基于這 2個特點(diǎn)的衡量信息過濾的標(biāo)準(zhǔn)是過濾精度和過濾速度。目前常用的基本信息過濾方法有 3種。 15 布爾模型 布爾模型 (Boolean)是基于集合論和布爾代數(shù)的一種簡單檢索模型 , Boolean模型定義索引術(shù)語只有出 現(xiàn)或者不出現(xiàn)在某一篇文檔中 2種狀態(tài) , 這樣就導(dǎo)致了索引術(shù)語的權(quán)重都表現(xiàn)為二元性。如 , 通過對文獻(xiàn)標(biāo)識與查詢串的邏輯比較獲取文獻(xiàn) , 是一種常用的嚴(yán)格匹配模型。布爾模型的主要優(yōu)點(diǎn)是實(shí)現(xiàn)簡單、速度快、易于描述結(jié)構(gòu)化信息 。缺點(diǎn)是常常很難將用戶的信息需求轉(zhuǎn)換為布爾表達(dá)式 , 實(shí)際上大多數(shù)檢索用戶發(fā)現(xiàn)在把他們所需的查詢信息轉(zhuǎn)換為布爾時(shí)并不是那么容易。 向量空間模型 向量空間模型 (VSM)自從 Salton等于 20世紀(jì) 60年代末提出并成功地應(yīng)用于著名的 SMART系統(tǒng)之后 , 在文本分類、自動標(biāo)引、信息檢索等許多領(lǐng)域得到了廣 泛的應(yīng)用。向量空間模型是一種文本數(shù)字化表示方法 , 它概念簡單 , 以空間上的相似度表達(dá)語義的相似度 , 成為目前最常用的文本表示方法。在文本分類中 ,向量空間模型是指一篇文本或一類文本用一組特征及其權(quán)值組成的向量表示 , 向量的集合組成向量空間。向量空間模型的優(yōu)點(diǎn)是具有很強(qiáng)的可計(jì)算性和可操作性 。缺點(diǎn)是將會丟失信息。 潛在語義模型 潛在語義分析 (LatentsemantieAnalysis)模型 LSI是一種成功的運(yùn)用于文本分類等很多領(lǐng)域的算法。此模型能在一定程度上解決一詞多譯和多詞一譯問題。LSI把原始的向量 空間轉(zhuǎn)換為潛在語義空間 , 文檔和查詢就在轉(zhuǎn)換后的語義空間上進(jìn)行比較 , 可以通過有效的維數(shù)約減將冗余的信息合并在一起 , 并可以解決一部分文檔噪音。 LSI模型最大的優(yōu)點(diǎn)是這種語義結(jié)構(gòu)反映了數(shù)據(jù)間最主要的聯(lián)系模式 。缺點(diǎn)是對稀有類別很重要的特征可能被過濾掉。在文本信息過濾模型中 ,布爾模型過度依賴關(guān)鍵詞或主題詞來描述用戶的需求 , 布爾邏輯算法的相關(guān)度過濾算法過于依賴文本統(tǒng)計(jì)分析方法 , 缺乏信息質(zhì)量過濾算法語義分析等。另外 ,采用潛在的語義結(jié)構(gòu) , 算法復(fù)雜 , 執(zhí)行速度慢 , 缺乏直觀意義 , 不便理解。與此同時(shí) , 隨著大量新詞的加入 , 會使概念空 間上的查詢、過濾性能下降 , 所以并不適合實(shí)際應(yīng)用。相比較而言 , 空間向量模型的算法在 web 文本內(nèi)容過濾中也是一種性價(jià)比較高的算法 , 而我國農(nóng)業(yè)搜索引擎系統(tǒng)的內(nèi)容過濾算法也經(jīng)常是在空間向量算法基礎(chǔ)上與布爾邏輯算法相結(jié)合進(jìn)行改進(jìn)和優(yōu)化的。 16 結(jié)語 當(dāng)今世界是信息的時(shí)代 , 也是農(nóng)業(yè)信息的時(shí)代。農(nóng)業(yè)搜索引擎在為廣大用戶提供農(nóng)業(yè)信息的查詢方面做出了應(yīng)有的貢獻(xiàn)。各項(xiàng)數(shù)據(jù)表明 , 在查詢農(nóng)業(yè)信息方面 , 農(nóng)業(yè)的專業(yè)搜索引擎的查全率和查準(zhǔn)率優(yōu)于綜合搜索引擎。與此同時(shí) , 農(nóng)業(yè)搜索引擎的搜索功能 , 搜索結(jié)果穩(wěn)定程度信息量等方面還存在不足有待完善。 17 參考文獻(xiàn) [1] 彭玉容 楊捧 高媛 農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究 [J] 安徽農(nóng)業(yè)科學(xué) 2020,38(20) [2] 周鵬 農(nóng)業(yè)搜索引擎系統(tǒng)的關(guān)健技術(shù)研究 [D] 首都師范大學(xué) 2020 [3] 王志國 齊鐵 初秀娟 基于農(nóng)業(yè)信息的搜索引擎結(jié)構(gòu)分析 [J] 綏化學(xué)院學(xué)報(bào)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1