【正文】
當(dāng)現(xiàn)有開(kāi)發(fā)系統(tǒng)被具體化描述時(shí),應(yīng)該不能摒棄該開(kāi)發(fā)系統(tǒng)的精髓和附 加規(guī)范,便可以了解到所開(kāi)發(fā)的系統(tǒng)中各式各樣的變化、適應(yīng)和改動(dòng)。數(shù)據(jù)來(lái)源 (如數(shù)據(jù)庫(kù) )的選擇已不再是個(gè)問(wèn)題,因?yàn)樗阉饕婺軌蛟诿看嗡阉鲿r(shí)可以搜索到整個(gè)數(shù)據(jù)域。 信息存儲(chǔ)、搜索和檢索系統(tǒng)的開(kāi)發(fā)解決了原文數(shù)據(jù)、查詢(xún)方案、資源選擇和組織查詢(xún)結(jié)果等大容量數(shù)據(jù)范圍 (即二十億字節(jié)或更多 )的在線(xiàn)信息檢索系統(tǒng)的基本難題。當(dāng)對(duì)應(yīng)類(lèi)型 1 的用戶(hù)執(zhí)行一次查詢(xún)時(shí),系統(tǒng)為回顧自動(dòng)地運(yùn)用集合 1類(lèi)別,對(duì)應(yīng)于用戶(hù)的那個(gè)特殊類(lèi)型,在由用戶(hù)組織查詢(xún)的結(jié)果。因此,商業(yè)雜志 (即原始記錄 )也許被排序入各種各樣的文件類(lèi)型和這些文件類(lèi)型也許反過(guò)來(lái)被分類(lèi)或被編組入一個(gè)或更多套包含的類(lèi)別, 每個(gè)文件類(lèi)型在一套將典型地被排序入一個(gè)類(lèi)別之內(nèi),但各自的類(lèi)別在每個(gè)集合之內(nèi)從一個(gè)集合將變化到另一個(gè)。 圖 3 說(shuō)明了五種一般的信息源 (即原始記錄 )可以被寫(xiě)入多數(shù)類(lèi)型的文檔,隨后被寫(xiě)入類(lèi)。這樣系統(tǒng)允許用戶(hù)輸入簡(jiǎn)單的詞或詞組,并且需要的他們的信息的描述由“自然”語(yǔ)言組成和依靠系統(tǒng)協(xié)助引起充分的查詢(xún),將包括同義詞和供選擇文詞。 圖 3 是查詢(xún)排序過(guò)程中組織和顯示結(jié)果 5. 該系統(tǒng)的最佳模式 正如 圖 1 所說(shuō)明的那樣,信息檢索系統(tǒng)的開(kāi)發(fā)包括一個(gè)輸入、輸出過(guò)程,一個(gè)查詢(xún)創(chuàng)建過(guò)程,一個(gè)大量數(shù)據(jù)范圍的查詢(xún)過(guò)程 (典型地在多個(gè)千兆字節(jié)范圍 ),一個(gè)用戶(hù)信息的組織過(guò)程,以及一個(gè)辨認(rèn)和描繪在大數(shù)據(jù)領(lǐng)域中文件的類(lèi)型。用戶(hù)可以以多種形式來(lái)檢查查詢(xún)的結(jié)果,并且用戶(hù)可以根據(jù)自己的需要來(lái)查看相關(guān)的文件。 排序或分類(lèi)的過(guò)程是通過(guò)調(diào)用搜索引擎檢索查詢(xún)的結(jié)果,從而為引入各種各樣的基本文件類(lèi)型做準(zhǔn)備,然后組織安排這些容易被理解且與用戶(hù)密切相關(guān)的基本文件類(lèi)型。 搜索的過(guò)程可能利用到所有的索引和搜索引擎技術(shù),包括布爾,傳播媒介,機(jī)率查詢(xún)。該方式提供了搜索大數(shù)據(jù)領(lǐng)域所進(jìn)行的一次唯一辨認(rèn)文件的重要查詢(xún)部分;還提供了文件重要部分的查詢(xún),以及包括對(duì)文件數(shù)量的統(tǒng)計(jì)和屬于各種各樣的預(yù)先確定類(lèi)別的文件查詢(xún)。 3. 系統(tǒng)概要 該系統(tǒng)主要應(yīng)用于對(duì)大量數(shù)據(jù)進(jìn)行信息存儲(chǔ),查詢(xún)和檢索, 查詢(xún)的結(jié)果將被 導(dǎo)出成文件類(lèi)型,比目前的系統(tǒng)更方面,容易的找到用戶(hù)想要查詢(xún)的有關(guān)數(shù)據(jù) 。所以就要付出很大的努力改善和提高數(shù)據(jù)源的選擇,更大的努力 在操作查詢(xún)時(shí)所制定的數(shù)據(jù)庫(kù)語(yǔ)言。在許多情況下,用戶(hù)被迫使用中介(例如專(zhuān)業(yè)的搜索引擎),因?yàn)楫?dāng)前收藏的來(lái)源是復(fù)雜和廣泛的,并且有效的搜索策略經(jīng)常從一個(gè)數(shù)據(jù)來(lái)源變化到另一個(gè)。 另外,這個(gè)查詢(xún)過(guò)程也給用戶(hù)帶來(lái)一定的負(fù)擔(dān),他要根據(jù)從同一個(gè)數(shù)據(jù)源查詢(xún)出的多個(gè)結(jié)果,進(jìn)行歸納和總結(jié)。 也就是說(shuō),用戶(hù)登錄(通過(guò)計(jì) 算機(jī)終端或個(gè)人微機(jī),或者是遠(yuǎn)程登錄),選擇一個(gè)信息源(比如一個(gè)特定的數(shù)據(jù)庫(kù)),通常是一些不完整的檢索條件,開(kāi)始查詢(xún),啟動(dòng)搜索,然后查詢(xún)結(jié)果將顯示在計(jì)算機(jī)終端或個(gè)人微機(jī)上,且查詢(xún)結(jié)果一般按照時(shí)間的順序顯示。 2. 開(kāi)發(fā)背景 網(wǎng)上查詢(xún)系統(tǒng)主要用于查詢(xún)和檢索在線(xiàn)的各種各樣的信息。而查詢(xún)的結(jié)果一般是按類(lèi)別和類(lèi)型進(jìn)行排序的,檢索字段是由個(gè)人決定的,在查詢(xún)的過(guò)程中,可能基于這個(gè)搜索結(jié)果查看到多個(gè)相關(guān)的信息 (或類(lèi)似的用戶(hù)個(gè)人特點(diǎn)介紹),從而減少了搜索結(jié)果是所需的時(shí)間和費(fèi)用。 each document type typically will be sorted into one category within a set of categories, but the individual categories within each set will vary from one set to another. For example, one set of categories may be established for a first characteristic type of user, and a different set of categories may be established for a second characteristic type of user. When a user corresponding to type 1 executes a search, the system automatically utilizes the categories of set 1, corresponding to that particular type of user, in anizing the results of the search for review by the user. When a user from type 2 executes a search, however, the system automatically utilizes the categories of set 2 in presenting the search results to the user. The information storage, searching and retrieval system of the invention resolves the mon difficulties in typical online information retrieval systems that operate on large (., 2 gigaby