freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

主題式新聞搜索系統(tǒng)的設(shè)計(jì)—新聞頁(yè)面采集_模塊畢業(yè)論文設(shè)計(jì)-文庫(kù)吧

2025-06-14 16:26 本頁(yè)面


【正文】 1) 可靠性原 也就是說(shuō),信息采集是指在采集信息時(shí)候,信息必須是真實(shí)的對(duì)象或這環(huán)境所產(chǎn)生的,必 須保證信息的來(lái)源是可靠的,必須保證了采集的信息確實(shí)能夠用來(lái)反映信息真實(shí)的狀況,它是信息采集的基礎(chǔ),也就是信息采集的根本。 2) 完整性原則 信息采集完整性是指采集的信息在內(nèi)容上必須完整無(wú)缺,信息的采集必須要按照一定的標(biāo)準(zhǔn)去做,采集的信息應(yīng)該反映全貌的信息,完整性原則是利用信息的基礎(chǔ)性原則。 3) 實(shí)時(shí)性原則 即采集的信息,應(yīng)該是與用戶(hù)要求的相關(guān)。 將采集的信息,展示給用戶(hù)。是基于搜索引擎的相關(guān)技術(shù),但是又不完全同于搜索引擎。它改進(jìn)了傳統(tǒng)的搜索引擎的特點(diǎn)。消除了它的缺陷,比如搜索引擎搜索的信息有很多與用戶(hù)要求不相關(guān)的 信息,總之一句話克服了搜索引擎的缺點(diǎn),繼承了它的優(yōu)點(diǎn),這也是為什么它發(fā)展的這樣迅速的主要原因。 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 2 國(guó)內(nèi)外 研究現(xiàn)狀 1990 年,加拿大麥吉爾大學(xué)( University of McGill)的計(jì)算機(jī)學(xué)院的師生開(kāi)發(fā)出一個(gè)叫做 Archie 軟件。在當(dāng)時(shí),萬(wàn)維網(wǎng)( World Wide Web)還沒(méi)有出世,人們還是通過(guò) FTP 的方式來(lái)共享以及交流資源。如果用戶(hù)想使用 Archie 的時(shí)候,就必須得輸入精確的文件名然后才能進(jìn)行搜索, Archie 告訴用戶(hù)應(yīng)該使用 FTP服務(wù)器去下載相關(guān)的文件。 1993 年二月 6 個(gè)斯坦福大學(xué)的大學(xué) 生的想法是用分詞的方式去互聯(lián)網(wǎng)之上去檢索用戶(hù)所需要的各式各樣的信息,這就是所謂的Excite。緊接著有是斯坦福大學(xué)的兩名博士生華裔楊致遠(yuǎn)和 David Filo 創(chuàng)造了一個(gè)網(wǎng)絡(luò)的奇跡, Yahoo,它是通過(guò)收錄網(wǎng)站的信息些在目錄之中,所以速度非常迅速,它幾乎是 20 世紀(jì)九十年代網(wǎng)絡(luò)的代名詞。 1995 年,加州伯克利分校的助教 Eric Brewer 與博士生加州伯克利分校的 Paul Gauthier 創(chuàng)立了 Inktomi 公司,它利用一種新的搜索元搜索,用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理,提交給多個(gè)預(yù)先選定的 獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果,集中起來(lái)處理后再返回給用戶(hù)。 在國(guó)外這樣技術(shù)的經(jīng)歷了那么多年的發(fā)展已經(jīng)趨于成熟,但是在國(guó)內(nèi)才剛剛的起步,但是也是發(fā)展將近二十年的光陰。在 1996 年 8 月,搜狐公司在中國(guó)成立,他們制作了第一個(gè)中文網(wǎng)站分類(lèi)目錄,曾經(jīng)流傳這這樣的一句話“出門(mén)找地圖,上網(wǎng)找搜狐”的美譽(yù)。但然隨著互聯(lián)網(wǎng)網(wǎng)站的成千上萬(wàn)的增加,這種所謂的有人工編輯的分類(lèi)目錄,早已經(jīng)不適應(yīng)時(shí)代的需求。于是搜狐公司在 20xx 年 8 月創(chuàng)建獨(dú)立域名的搜索網(wǎng)站“搜狗”,自稱(chēng)是“第三代搜索引擎”。 20xx 年 6 月,新 浪公司正式的推出了自主研發(fā)的搜索引擎“愛(ài)問(wèn)”。但是在 20xx 年起,新浪的愛(ài)問(wèn)卻使用 google 的搜索引擎。 20xx 年 7 月 1 日 ,網(wǎng)易自主研發(fā)出有道搜索技術(shù),并且最重要的是它還合并了原來(lái)的綜合搜索和網(wǎng)頁(yè)搜索的方法。有道網(wǎng)頁(yè)搜索、圖片搜索和博客搜索三者合一為網(wǎng)易的搜索提供服務(wù)。其中網(wǎng)頁(yè)的搜索它使用了它自己算法思想,名稱(chēng)為自主研發(fā)的自然語(yǔ)言處理系統(tǒng)、分布式存儲(chǔ)及計(jì)算技術(shù);圖片搜索的方法,它首創(chuàng)根據(jù)了拍攝相機(jī)的品牌、型號(hào),甚至就連季節(jié)等高級(jí)搜索的功能,堪稱(chēng)業(yè)內(nèi)的典范;還有做厚一點(diǎn),博客的搜索與其他同類(lèi)產(chǎn)品比較,它 具有抓取的全面、更新及時(shí)的優(yōu)勢(shì),并且還提供“文章的預(yù)覽”,“博客得檔案”等多出創(chuàng)新的功能。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 3 本論文所做的主要工作 本論文主要探討了主題式新聞搜索系統(tǒng)發(fā)展的現(xiàn)狀,分析與研究新聞采集的相關(guān)技術(shù),安排了一個(gè)主題式新聞搜索的信息采集模塊,并在此系統(tǒng)之上做了相關(guān)的探究。 主題式新聞搜索發(fā)展了近半個(gè)世紀(jì),相關(guān)技術(shù)已經(jīng)趨于成熟。主題式新聞搜索的主要工作就是新聞的判斷,可以說(shuō)它是這個(gè)系統(tǒng)的靈魂,也是面向用戶(hù)的窗口。它的好壞,關(guān)系到了整個(gè)系統(tǒng)是不是符合要求,所以說(shuō)它是整個(gè)系統(tǒng)的重中之重。整個(gè)系統(tǒng)都是以它為目標(biāo),一一展 開(kāi)的。而新聞的是怎樣抉擇的,又是新聞判斷的重中之重。如何在成千上萬(wàn)種的網(wǎng)頁(yè)篩選出新聞網(wǎng)頁(yè),那就是需要一種策略,一種可以判斷新聞網(wǎng)頁(yè)的策略。綜上所述,系統(tǒng)可以延伸成兩大模塊,一種是特定的方式,也就是說(shuō)只去抓取與新聞相關(guān)的網(wǎng)頁(yè)。另一種方式就是隨機(jī)采集,他可以任意的采集任何的網(wǎng)頁(yè),不受束縛。 第一種特定的方式采集,通常在或許網(wǎng)頁(yè)的連接之后,打開(kāi)網(wǎng)頁(yè),讀取網(wǎng)頁(yè)的 title,截取網(wǎng)頁(yè)之上最后兩個(gè)漢字,進(jìn)行判斷如果帶有新聞或者資訊等字眼,就說(shuō)明是我們所需要的新聞,將相關(guān)的網(wǎng)頁(yè)保存到本地,然后獲取源碼將圖片寫(xiě)入文件夾,剔 除腳本將數(shù)據(jù)寫(xiě)入文本文檔,就這樣一個(gè) URL,從獲取到下載在到存檔就完成了。當(dāng)然我們不可能只獲得一個(gè) URL,我們獲得要是成千上萬(wàn)的網(wǎng)頁(yè),也就是批量處理,所以不僅僅是用到了搜索引擎與網(wǎng)絡(luò)爬蟲(chóng)技術(shù),它的過(guò)程也比上述復(fù)雜得多。 具體的工作內(nèi)容如下 1. URL 的抓取 一般有兩種方式,第一種是根據(jù)用戶(hù)輸入的 URL,去抓取與其相關(guān)的先進(jìn)的 URL,另一種方式是在互聯(lián)網(wǎng)之上肆意的抓取。也就是說(shuō),當(dāng)用戶(hù)確定給出一個(gè)主題或者給出一個(gè)鏈接的時(shí)候,我們就按照用戶(hù)的需求,去抓取相關(guān)的網(wǎng)頁(yè),并且將網(wǎng)頁(yè)的信息保存到本地的一個(gè)文本文檔之中。 但然,由于本系統(tǒng)是主題式新聞搜索系統(tǒng)的設(shè)計(jì)的新聞采集模塊,怎用戶(hù)輸入的主題與鏈接必須與新聞相關(guān),否則將拒絕執(zhí)行。第二種,它所以的在網(wǎng)絡(luò)之上蔓延爬行,肆意的去抓取URL,不需要理會(huì)網(wǎng)頁(yè)的內(nèi)容,因?yàn)橄旅嬗幸粋€(gè)專(zhuān)門(mén)的判斷,以測(cè)試它到底屬不屬于新聞,屬于則下載到本地,不屬于在放棄刪除。 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 4 2. URL 的消重 通常擁有著三種方法,分別是 基于磁盤(pán)的順序存儲(chǔ) 除重算法, 基于 Hash 算法的存儲(chǔ) 除重算法, 基于 MD5 壓縮映射的存儲(chǔ) 除重算法。 第一種方法 基于磁盤(pán)的順序存儲(chǔ) 除重算法 基于磁盤(pán)的順序存儲(chǔ) 方法實(shí)現(xiàn)如下:它的真正 含義就如它的字面意思一樣 ,通常把下載的 URL 按抓取的順序一一存儲(chǔ)在本地磁盤(pán)之中 。 淡然,如果你早已經(jīng)建立好了文本文件,那么最好將它存儲(chǔ)在文件之上,那樣便于插入便于取出。它的工作流程如下,但 每 一 次有一個(gè)爬蟲(chóng)線程 準(zhǔn)備開(kāi)始 一個(gè)任務(wù) 之時(shí),也就是說(shuō)在一個(gè) URL 開(kāi)始下載之前, 系統(tǒng)會(huì) 通過(guò)到磁盤(pán)上 中存儲(chǔ)的 文件 之 中 去 檢索,如果 系統(tǒng) 沒(méi)有 發(fā)現(xiàn)它出現(xiàn)過(guò),那么它就將該 URL 插入到該記事本的第一行但然也可以是最后一行,否則就選擇放棄。 這種操作確實(shí)十分的簡(jiǎn)短,并且易于操作。但是實(shí)際上這個(gè)方法,確實(shí)不能利用。因?yàn)楸娙私灾ヂ?lián)網(wǎng)異常的龐 大, URL 的數(shù)量何止千萬(wàn)甚至上百億,很顯然使用這種方法是十分的困難,也是不可取的。 第二種方法 基于 Hash 算法的存儲(chǔ) 除重算法: 它是通過(guò) hash 算法來(lái)實(shí)現(xiàn) ,它的實(shí)現(xiàn)算法如下,它會(huì)給每一個(gè)指定的或者說(shuō)確定 的 URL 一個(gè)地址或者說(shuō)名片。 Hash 函數(shù)會(huì)給 每一個(gè) URL 一張名片(地址),它僅且僅代表著他自己。當(dāng)他獲得了這樣名片的時(shí)候,就代表著這個(gè) URL 已經(jīng)被抓去。 通過(guò) 映射到某個(gè)物理地址上 , 當(dāng) 它 需要進(jìn)行檢測(cè) URL 是否重復(fù)的時(shí)候,只需要將這個(gè) URL 進(jìn)行 Hash 映射,如果得到的地址已經(jīng)存在,說(shuō)明已經(jīng)被下載過(guò),放棄 下載,否則,將該 URL 及其 Hash 地址作為鍵值 寫(xiě)入 hash 中。 第三種 基于 MD5 壓縮映射的 除重 存儲(chǔ) : D5 算法是一種加密 的 算法, 或者說(shuō)是基于 hash 的加密算法,它也可以認(rèn)為是 Hash 算法的存儲(chǔ) 的延伸 。 當(dāng)然他也是利用 hash 的方法, 將 URL 中的 字符 進(jìn)行 串 行的 壓縮, 使它得到了一個(gè) 壓縮字符串, 但然在此同時(shí)它還 可以直接 映射出一個(gè) Hash 地址。 除此以外 , MD5 算法 還 能夠?qū)⑷魏巫址畨嚎s為 128 位整數(shù),并映射為物理地址 。更重要的是,使用 MD5 進(jìn)行 Hash 映射 出現(xiàn) 碰撞的幾率非常小, 所以十分的有效 。 它的五個(gè)性 質(zhì)分別是壓縮性:也就說(shuō)它可以使任意長(zhǎng)度的數(shù)據(jù),經(jīng)過(guò)某種計(jì)算,得到的 MD5 值長(zhǎng)度都是固定不變的。容易計(jì)算:也中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 5 就是說(shuō)它從原數(shù)據(jù)之中計(jì)算出 MD5 值是很容易??剐薷男裕阂簿褪钦f(shuō),只要你對(duì)原數(shù)據(jù)進(jìn)行改動(dòng),哪怕說(shuō)只是單單的修改 1 個(gè)字節(jié),那么你所得到的 MD5 的值將會(huì)有很大區(qū)別,甚至完全不同。弱抗碰撞:也就是說(shuō)對(duì)已經(jīng)知原數(shù)據(jù)和其MD5 值,去尋找到一個(gè)和這個(gè)原知的數(shù)據(jù),擁有相同的 MD5 值的數(shù)據(jù)(這就是所謂的偽造數(shù)據(jù)),是非常困難的甚至可以說(shuō)是不可能的。強(qiáng)抗碰撞:想同時(shí)找到兩個(gè)互不相同的數(shù)據(jù),讓它們擁有相同的 MD5 值,可以說(shuō)是 非常困難的,甚至說(shuō)不可能。 當(dāng)然這種方法確實(shí)準(zhǔn)確有效,但是操作卻異常的復(fù)雜。所以 本系統(tǒng)采取的方式是 基于 Hash 算法的存儲(chǔ) 除重算法,具體的方法實(shí)現(xiàn),會(huì)在下文中一一列舉。 URL 的絕對(duì)路徑 所謂的絕對(duì)路徑就是用于表示 Inter 中特定文件所需要的全部?jī)?nèi)容,它的路徑可以任意的改動(dòng),而不受到任何的影響。而相對(duì)路徑就不可以,它可以在同一個(gè)網(wǎng)站內(nèi)部相互訪問(wèn),當(dāng)鏈接下載到本地,是不能訪問(wèn)網(wǎng)頁(yè)的,所以必須獲得絕對(duì)路徑。因?yàn)橹挥薪^對(duì)路徑,才能獲取相關(guān)的網(wǎng)頁(yè),才能進(jìn)行下一步的工作。 過(guò)期的網(wǎng)頁(yè)的刪除 取 出用 Hash 存儲(chǔ)的絕對(duì)路徑的 URL,然后在一一的去訪問(wèn),如果出現(xiàn)可以訪問(wèn)的網(wǎng)頁(yè)則將其加入隊(duì)列之中。如果網(wǎng)頁(yè)鏈接是過(guò)期的,是不可訪問(wèn)的,那么就選擇刪除,然后在繼續(xù)的讀取下去,直到抵達(dá)最后一個(gè)鏈接位置。即一直訪問(wèn)到Hash 表的最后一個(gè)為止。 的源碼獲取 其實(shí)這一步有兩種做法,第一種采取的策略是通過(guò)絕對(duì)路徑的 URL,直接將網(wǎng)絡(luò)之中的頁(yè)面下載到本地,然后在獲取源碼。另一種方法就是通過(guò)絕對(duì)路徑的 URL 獲取頁(yè)面,在網(wǎng)頁(yè)之中獲取源碼。顯然第二種方法簡(jiǎn)單而易操作,所以本系統(tǒng)采取第二種方式。 根據(jù)獲取的源 碼,截取標(biāo)題也就是所謂的 title,將其裝入數(shù)組之中。與早已寫(xiě)入數(shù)組的數(shù)據(jù)進(jìn)行對(duì)比,如果出現(xiàn)新聞,資訊等方面的漢字時(shí),則抽取其中的文字,下載其含有的圖案。否則選擇放棄。繼續(xù)進(jìn)行這一操作,直到進(jìn)行到最后一個(gè)為止。當(dāng)然這一操作同時(shí)也是和其他的操作,比如百科的判斷等。 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 6 本文論文的組織結(jié)構(gòu) 本文共分為 5 章,主要組織結(jié)構(gòu)如下: 第一章 分別介紹了主題式新聞搜索技術(shù)的歷史與發(fā)展趨勢(shì),以及研究的意義。通過(guò)描述了系統(tǒng)的主要工作方式,描述了本論文的主要內(nèi)容。 第二章 介紹了 新聞主題采集 所涉及到的 一些 相關(guān)關(guān)鍵技術(shù)。 第三章 介紹了 新聞主題 采集以及分類(lèi)的 相關(guān)算法。 第四章 系統(tǒng)的測(cè)試 。 第五章 結(jié)束語(yǔ) 。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 7 第二章新聞采集的關(guān)鍵技術(shù) 主題式新聞搜索系統(tǒng),它的含義就是是通過(guò)用戶(hù)所需要的新聞主題,將所需的新聞從網(wǎng)絡(luò)之上下載下來(lái),以供用戶(hù)需求。當(dāng)然本系統(tǒng)只是那個(gè)龐大系統(tǒng)的子集,所以我們只實(shí)現(xiàn)新聞采集模塊。本文著重以新聞采集為重點(diǎn),展開(kāi)討論如何將網(wǎng)絡(luò)之上的 URL 抓取到本地,如何獲取網(wǎng)頁(yè)的絕對(duì)路徑以及怎么判斷網(wǎng)頁(yè)所含的內(nèi)容,到底是不是新聞,以及怎么將新聞寫(xiě)入本地文檔之中的。 相關(guān)技術(shù) 搜索引擎 所謂的搜索引擎就 是指根據(jù)一定的策略、方法,使用特定的計(jì)算機(jī)的相關(guān)程序到網(wǎng)絡(luò)之上去搜集或者說(shuō)采集信息,然后在進(jìn)行相關(guān)的操作,比如對(duì)信息進(jìn)行的組織或者處理。然后在通過(guò)一種檢索的方式,為用戶(hù)提去提供一種服務(wù)。將相關(guān)用戶(hù)檢索相關(guān)的某種信息,去展現(xiàn)給使用系統(tǒng)的用戶(hù),比如去檢索新聞。搜索引擎通常包括如下的八種方法依次為目錄索引、全文索引、免費(fèi)鏈接列表、垂直搜索引、擎元搜索引擎、擎門(mén)戶(hù)搜索引擎與集合式搜索引等,不再一一列舉。 網(wǎng)絡(luò)爬蟲(chóng) 網(wǎng)絡(luò)爬蟲(chóng)(又被稱(chēng)為網(wǎng)絡(luò)機(jī)器人,網(wǎng)頁(yè)蜘蛛,在 FOAF 社區(qū)中間,更被經(jīng)常的稱(chēng)為是網(wǎng)頁(yè)的追逐者) ,它是按照一種特定的規(guī)則,去自動(dòng)的抓取萬(wàn)維網(wǎng)上的信息的程序或者說(shuō)是腳本。它的主要的功能是對(duì)抓取目標(biāo)進(jìn)行描述或者用于定義,對(duì)網(wǎng)頁(yè)上的信息或者說(shuō)數(shù)據(jù)進(jìn)行分析然后過(guò)過(guò)濾,是一種抓取 URL 的策略。淡然我們也可以認(rèn)為,它是一種特殊的搜索引擎。它可以通過(guò)用戶(hù)的需求,直接抓取用戶(hù)所需要的東西。 多線程編程 指一個(gè)程序或者軟件能用多個(gè)線程同時(shí)并發(fā)進(jìn)行。我們可以認(rèn)為將一個(gè)程杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 8 序,進(jìn)行劃分,切割成許許多多的小片段,然后進(jìn)行并發(fā)執(zhí)行。包含在 using 的命名空間之中。主要含有 六個(gè)步驟線程的啟動(dòng),線程的殺死,線程的暫停,線程的優(yōu)先級(jí),線程的掛起以及線程的恢復(fù)。多線程的好處,它可以使 CPU 多個(gè)核同時(shí)進(jìn)行使用,也就是說(shuō)可以進(jìn)行并發(fā)控制,就像吃飯一樣原先一個(gè)一個(gè)人吃,現(xiàn)在一起吃速度肯定是大大提高。所以它的出現(xiàn),令計(jì)算機(jī)運(yùn)行程序的效率非產(chǎn)的高,節(jié)省了大量的時(shí)間。當(dāng)然這一項(xiàng)技術(shù)對(duì)于多核的 CPU來(lái)說(shuō)是程序執(zhí)行的異常的飛快,當(dāng)然對(duì)于單核的 CPU 速度雖然不是那么的,但是也提高不少,可以說(shuō)多線程編程是軟件的開(kāi)發(fā)的一向辛亥革命。
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1