freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

主題式新聞搜索系統(tǒng)的設(shè)計—新聞頁面采集_模塊畢業(yè)論文設(shè)計-資料下載頁

2025-07-09 16:26本頁面

【導(dǎo)讀】息的渴望,主題式新聞搜索系統(tǒng)方法顯得越來越重要。主題就是一種個性,一種。用戶怎么才能迅速的,準(zhǔn)確的找到自己所需要的信息,就顯得異常重要。同時給用戶最有效的最準(zhǔn)確的信息,也是每一個開發(fā)者的追求和目標(biāo)。的流失,這個情況也演變的越來越迫切。當(dāng)然這也是一個十分難得時機(jī)與機(jī)遇,誰能抓住這個時機(jī),誰就有可能成為下一個的互聯(lián)網(wǎng)巨擘,引領(lǐng)一個網(wǎng)絡(luò)時代。通過廣度遍歷的算法,將URL采集到本地之中。利用hash表,將下載的。URL一一的對比,除去重復(fù)的。通過轉(zhuǎn)換將獲取的相對路徑鏈接,轉(zhuǎn)化為絕對。然后再通過獲取的絕對路徑鏈接獲得網(wǎng)頁,然后截取標(biāo)題的最后兩

  

【正文】 entType = = 。 if (contentType != text/html amp。amp。 ! amp。amp。 !(contentType)) return。 byte[] buffer = ReadInstreamIntoMemory(())。 ()。 if (!()) ()。 = 。 中原工學(xué)院計算機(jī)學(xué)院畢業(yè)(設(shè)計)論文 23 if () (crawler, null)。 string extension = GetExtensionByMimeType(contentType)。 string md5 = (url)。 string fileName = (, md5 + . + extension)。 FileStream fs = new FileStream(fileName, )。 (buffer, 0, )。 ()。 (url)。 (new CrawleHistroyEntry() { Timestamp = , Url = url, Size = })。 lock () { += 。 } UrlFrontierQueueManager queue = 。 if (contentType == text/html) { = 。 if () (crawler, null)。 string html = (buffer)。 string baseUri = (url)。 string[] links = (baseUri, html)。 foreach (string link in links) { if ( 256) continue。 if ((link)) continue。 (link)。 } } if () (crawler, null)。 } catch (IOException ioEx) { if ( != null) 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計 24 { if ( is SocketException) { SocketException socketEx = (SocketException)。 if ( == 10054) {} } else { int hr = (int)().GetProperty(HResult, | ).GetValue(ioEx, null)。 if (hr == 2147024864) { else throw。 } } } catch (NotSupportedException) {} private static byte[] ReadInstreamIntoMemory(Stream stream) { int bufferSize = 16384。 byte[] buffer = new byte[bufferSize]。 MemoryStream ms = new MemoryStream()。 while(true) { int numBytesRead = (buffer, 0, bufferSize)。 if (numBytesRead = 0) break。 (buffer, 0, numBytesRead)。 } return ()。 } public static string GetExtensionByMimeType(string mimeType) { int pos。 if ((pos = (39。/39。)) != 1) { return (pos + 1)。 中原工學(xué)院計算機(jī)學(xué)院畢業(yè)(設(shè)計)論文 25 } return 。 } private static void SleepWhenQueueIsEmpty(CrawlerThread crawler) { = 。 = 。 if () (crawler, null)。 ( * 1000)。 }}} 開 始彈 出 超 鏈 接截 取 標(biāo) 題是 否 符 合 要 求字 符 寫 入 文 本 文 檔 , 圖片 放 入 指 定 的 文 件 夾結(jié) 束NY 本章小結(jié) 本章通過對系統(tǒng)各個功能的描述,系統(tǒng)各個部件的設(shè)計以及實(shí)現(xiàn)代碼。清晰地描述了系統(tǒng)地工作流程,以及系統(tǒng)各個部件的工作流程。讓讀者清晰地明白,杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計 26 系統(tǒng)的主要功能以及各個功能的主要工作功能。比如第一步,在互聯(lián)網(wǎng)之上通過廣度優(yōu)先搜索的策略,大量的抓取 URL,并且通過 hash 的映射,給鏈接唯一一個地址或者說是名片 ,然后與后來的 URL 進(jìn)行對比判斷,是不是 URL 重復(fù)。緊接著將除重的鏈接 ,進(jìn)行轉(zhuǎn)化使它們有一些的相對路徑的鏈接轉(zhuǎn)為絕對路徑的連接。因為只有絕對路徑的鏈接,才可以獲得與其相關(guān)網(wǎng)頁。通過獲取的絕對路徑的 URL,獲取與其相關(guān)的網(wǎng)頁。然后獲取網(wǎng)頁的源碼,截取它的標(biāo)題的最后兩位,與早已存入數(shù)組的數(shù)據(jù)經(jīng)行對比,當(dāng)出現(xiàn)新聞資訊等字眼的詞語的時候,就說明這個網(wǎng)頁是新聞,是我們所需要的。將網(wǎng)頁所含的圖片下載到指定的一個文件之中,將讀取的數(shù)據(jù)寫入到指定的 txt 文檔之中,到這一步所有的工作都已完成,接下來就是軟件的測試。 中原工學(xué)院計算機(jī)學(xué)院畢業(yè)(設(shè)計)論文 27 第四章系統(tǒng)的測試 系統(tǒng)測試的環(huán)境 該系統(tǒng)硬件測試與軟件測試如下表 測試的目的與意義 軟件測試是為了發(fā)現(xiàn)錯誤而執(zhí)行程序的過程,成功的測試是發(fā)現(xiàn)了至今尚未發(fā)現(xiàn)的錯誤的測試。 測試的目的軟件測試的目的 ,第一是確認(rèn)軟件的質(zhì)量,其一方面是確認(rèn)軟件做了你所期望做的事情,另一方面是確認(rèn)軟件以正確的方式來做了這個事情。第二是提供信息,比如提供給開發(fā)人員或程序經(jīng)理的回饋信息,為風(fēng)險評估所準(zhǔn)備的信息。第三軟件測試不僅是在測試軟件軟件產(chǎn)品本身,而且還包括軟件開發(fā)的過程。如果一個軟件產(chǎn)品開發(fā)完成之后發(fā)現(xiàn)了很多問題,這說明此軟件開發(fā)過程很可能是有缺陷的。因此,軟件測試的第三個目的是保證整個軟件開發(fā)過程是 高質(zhì)量的。保證項目上線之后可以正常的運(yùn)轉(zhuǎn),給用戶良好的體驗。 測試的策略 兩種黑盒測試與白盒測試。 黑盒測試的含義就是將整個系統(tǒng)看成一個黑匣子,不需要了解里面的內(nèi)容與代碼的情況下的測試。又稱為功能的測試,他通過測試系統(tǒng)的個個職能部分,去驗證系統(tǒng)的是否有錯。 操作系統(tǒng) Windows 7 編程語言 C 開發(fā)工具 Visual Studio20xx 網(wǎng)絡(luò) 以太網(wǎng) CPU Intel 雙核 內(nèi)存 2 G 硬盤 500G 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計 28 黑盒測試就是以用戶的角度去考慮測試,從輸入的數(shù)據(jù)和要輸出的數(shù)據(jù)對應(yīng)關(guān)系而進(jìn)行出發(fā)進(jìn)行測試的。很顯然,假如外部特性的本身設(shè)計假如有問題或者說規(guī)格說明的規(guī)定是有誤,那么用黑盒測試的方法是不能發(fā)現(xiàn)錯誤的,也就是說這種情況他不能發(fā)現(xiàn)問題與錯誤。 白盒測試又被稱為是結(jié)構(gòu)測試、或者說是透明盒測試和邏輯驅(qū)動測試有時也稱為是基于代碼的測試。白盒測試它是一種測試用例設(shè)計的方法,所謂的盒子就是指的被測試的軟件或者程序。白盒的含義就是盒子是可視的,也就是說是可見的。測試員可以非常清楚的知道盒子內(nèi)部到底是什么東西以及它里面到底是怎么運(yùn)作的。白盒測試法全面了解程序,了解每一個分支,所以它對系統(tǒng)內(nèi)部十分的清楚。所以測試的比較準(zhǔn)確,但是花費(fèi)較大。它的目的就是通過檢查系統(tǒng)或者軟件內(nèi)部的邏輯的內(nèi)部結(jié)構(gòu),對軟件或者系統(tǒng)之中的邏輯路徑,進(jìn)行覆蓋測試。在程序的不同地方或者說是極其 重要的地方都設(shè)立檢查點(diǎn),去檢查程序的運(yùn)行狀態(tài),然后去確定它在實(shí)際的運(yùn)行狀態(tài)與所要預(yù)期的狀態(tài)是否一致。 進(jìn)而得出結(jié)論,軟件或者系統(tǒng)是否符合要求,或者說是否擁有缺陷。 此系統(tǒng)采取黑盒測試的方式,進(jìn)行測試系統(tǒng)。 系統(tǒng)測試的設(shè)計與結(jié)果分析 影響系統(tǒng)的正確性,與準(zhǔn)確性的因素有很多。比如網(wǎng)頁抓取的數(shù)量,網(wǎng)頁的判斷不夠準(zhǔn)確,雖然網(wǎng)頁源碼的標(biāo)題后面最后兩個字不含新聞或者資訊等類的詞匯,但是實(shí)際上它依然是新聞,然而我們卻在不經(jīng)意之間將其過濾掉了,當(dāng)然也有一些雖然后綴是新聞資訊,但是實(shí)際上不是的,被誤下載到本地,索系統(tǒng) 就會出現(xiàn)這樣那要的不正確性。再比如,系統(tǒng)沒有將 HTML 中的腳本剔除,就直接將新聞的內(nèi)容寫入到了文本文檔之中,這樣就造就了新聞的不可讀性,也就是間接反映了新聞的不準(zhǔn)確性。 測試目的:驗證網(wǎng)頁判斷的不真確性,對系統(tǒng)不準(zhǔn)確性的影響。 結(jié)論從網(wǎng)絡(luò)之中抓取 1000 個網(wǎng)頁,抓取 1500 個網(wǎng)頁逐步遞增,會發(fā)現(xiàn)一個有趣的現(xiàn)象,系統(tǒng)的準(zhǔn)確性會形成一個曲線。準(zhǔn)確性會成增加的趨勢,接著緩緩的下降,最后會在一個穩(wěn)定值之間浮動。 中原工學(xué)院計算機(jī)學(xué)院畢業(yè)(設(shè)計)論文 29 測 試目的:驗證對網(wǎng)頁標(biāo)題截取的不準(zhǔn)確引起的系統(tǒng)不準(zhǔn)確性 結(jié)果分析:通過數(shù)次的反復(fù)測試,打開過許許多多的文本文檔,發(fā)現(xiàn)一般的結(jié)果都正確的,也就是說網(wǎng)頁的標(biāo)題的最后兩個字含有新聞或者資訊字眼的網(wǎng)頁,一般都是新網(wǎng)。當(dāng)然反過來卻不成立,也就說許許多多的符合要求的網(wǎng)頁被放棄,此種算法可以說效率
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1