freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

主題式新聞搜索系統(tǒng)的設(shè)計(jì)—新聞頁(yè)面采集_模塊畢業(yè)論文設(shè)計(jì)-資料下載頁(yè)

2025-07-09 16:26本頁(yè)面

【導(dǎo)讀】息的渴望,主題式新聞搜索系統(tǒng)方法顯得越來(lái)越重要。主題就是一種個(gè)性,一種。用戶怎么才能迅速的,準(zhǔn)確的找到自己所需要的信息,就顯得異常重要。同時(shí)給用戶最有效的最準(zhǔn)確的信息,也是每一個(gè)開發(fā)者的追求和目標(biāo)。的流失,這個(gè)情況也演變的越來(lái)越迫切。當(dāng)然這也是一個(gè)十分難得時(shí)機(jī)與機(jī)遇,誰(shuí)能抓住這個(gè)時(shí)機(jī),誰(shuí)就有可能成為下一個(gè)的互聯(lián)網(wǎng)巨擘,引領(lǐng)一個(gè)網(wǎng)絡(luò)時(shí)代。通過(guò)廣度遍歷的算法,將URL采集到本地之中。利用hash表,將下載的。URL一一的對(duì)比,除去重復(fù)的。通過(guò)轉(zhuǎn)換將獲取的相對(duì)路徑鏈接,轉(zhuǎn)化為絕對(duì)。然后再通過(guò)獲取的絕對(duì)路徑鏈接獲得網(wǎng)頁(yè),然后截取標(biāo)題的最后兩

  

【正文】 entType = = 。 if (contentType != text/html amp。amp。 ! amp。amp。 !(contentType)) return。 byte[] buffer = ReadInstreamIntoMemory(())。 ()。 if (!()) ()。 = 。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 23 if () (crawler, null)。 string extension = GetExtensionByMimeType(contentType)。 string md5 = (url)。 string fileName = (, md5 + . + extension)。 FileStream fs = new FileStream(fileName, )。 (buffer, 0, )。 ()。 (url)。 (new CrawleHistroyEntry() { Timestamp = , Url = url, Size = })。 lock () { += 。 } UrlFrontierQueueManager queue = 。 if (contentType == text/html) { = 。 if () (crawler, null)。 string html = (buffer)。 string baseUri = (url)。 string[] links = (baseUri, html)。 foreach (string link in links) { if ( 256) continue。 if ((link)) continue。 (link)。 } } if () (crawler, null)。 } catch (IOException ioEx) { if ( != null) 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 24 { if ( is SocketException) { SocketException socketEx = (SocketException)。 if ( == 10054) {} } else { int hr = (int)().GetProperty(HResult, | ).GetValue(ioEx, null)。 if (hr == 2147024864) { else throw。 } } } catch (NotSupportedException) {} private static byte[] ReadInstreamIntoMemory(Stream stream) { int bufferSize = 16384。 byte[] buffer = new byte[bufferSize]。 MemoryStream ms = new MemoryStream()。 while(true) { int numBytesRead = (buffer, 0, bufferSize)。 if (numBytesRead = 0) break。 (buffer, 0, numBytesRead)。 } return ()。 } public static string GetExtensionByMimeType(string mimeType) { int pos。 if ((pos = (39。/39。)) != 1) { return (pos + 1)。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 25 } return 。 } private static void SleepWhenQueueIsEmpty(CrawlerThread crawler) { = 。 = 。 if () (crawler, null)。 ( * 1000)。 }}} 開 始彈 出 超 鏈 接截 取 標(biāo) 題是 否 符 合 要 求字 符 寫 入 文 本 文 檔 , 圖片 放 入 指 定 的 文 件 夾結(jié) 束NY 本章小結(jié) 本章通過(guò)對(duì)系統(tǒng)各個(gè)功能的描述,系統(tǒng)各個(gè)部件的設(shè)計(jì)以及實(shí)現(xiàn)代碼。清晰地描述了系統(tǒng)地工作流程,以及系統(tǒng)各個(gè)部件的工作流程。讓讀者清晰地明白,杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 26 系統(tǒng)的主要功能以及各個(gè)功能的主要工作功能。比如第一步,在互聯(lián)網(wǎng)之上通過(guò)廣度優(yōu)先搜索的策略,大量的抓取 URL,并且通過(guò) hash 的映射,給鏈接唯一一個(gè)地址或者說(shuō)是名片 ,然后與后來(lái)的 URL 進(jìn)行對(duì)比判斷,是不是 URL 重復(fù)。緊接著將除重的鏈接 ,進(jìn)行轉(zhuǎn)化使它們有一些的相對(duì)路徑的鏈接轉(zhuǎn)為絕對(duì)路徑的連接。因?yàn)橹挥薪^對(duì)路徑的鏈接,才可以獲得與其相關(guān)網(wǎng)頁(yè)。通過(guò)獲取的絕對(duì)路徑的 URL,獲取與其相關(guān)的網(wǎng)頁(yè)。然后獲取網(wǎng)頁(yè)的源碼,截取它的標(biāo)題的最后兩位,與早已存入數(shù)組的數(shù)據(jù)經(jīng)行對(duì)比,當(dāng)出現(xiàn)新聞資訊等字眼的詞語(yǔ)的時(shí)候,就說(shuō)明這個(gè)網(wǎng)頁(yè)是新聞,是我們所需要的。將網(wǎng)頁(yè)所含的圖片下載到指定的一個(gè)文件之中,將讀取的數(shù)據(jù)寫入到指定的 txt 文檔之中,到這一步所有的工作都已完成,接下來(lái)就是軟件的測(cè)試。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 27 第四章系統(tǒng)的測(cè)試 系統(tǒng)測(cè)試的環(huán)境 該系統(tǒng)硬件測(cè)試與軟件測(cè)試如下表 測(cè)試的目的與意義 軟件測(cè)試是為了發(fā)現(xiàn)錯(cuò)誤而執(zhí)行程序的過(guò)程,成功的測(cè)試是發(fā)現(xiàn)了至今尚未發(fā)現(xiàn)的錯(cuò)誤的測(cè)試。 測(cè)試的目的軟件測(cè)試的目的 ,第一是確認(rèn)軟件的質(zhì)量,其一方面是確認(rèn)軟件做了你所期望做的事情,另一方面是確認(rèn)軟件以正確的方式來(lái)做了這個(gè)事情。第二是提供信息,比如提供給開發(fā)人員或程序經(jīng)理的回饋信息,為風(fēng)險(xiǎn)評(píng)估所準(zhǔn)備的信息。第三軟件測(cè)試不僅是在測(cè)試軟件軟件產(chǎn)品本身,而且還包括軟件開發(fā)的過(guò)程。如果一個(gè)軟件產(chǎn)品開發(fā)完成之后發(fā)現(xiàn)了很多問(wèn)題,這說(shuō)明此軟件開發(fā)過(guò)程很可能是有缺陷的。因此,軟件測(cè)試的第三個(gè)目的是保證整個(gè)軟件開發(fā)過(guò)程是 高質(zhì)量的。保證項(xiàng)目上線之后可以正常的運(yùn)轉(zhuǎn),給用戶良好的體驗(yàn)。 測(cè)試的策略 兩種黑盒測(cè)試與白盒測(cè)試。 黑盒測(cè)試的含義就是將整個(gè)系統(tǒng)看成一個(gè)黑匣子,不需要了解里面的內(nèi)容與代碼的情況下的測(cè)試。又稱為功能的測(cè)試,他通過(guò)測(cè)試系統(tǒng)的個(gè)個(gè)職能部分,去驗(yàn)證系統(tǒng)的是否有錯(cuò)。 操作系統(tǒng) Windows 7 編程語(yǔ)言 C 開發(fā)工具 Visual Studio20xx 網(wǎng)絡(luò) 以太網(wǎng) CPU Intel 雙核 內(nèi)存 2 G 硬盤 500G 杜昕佳 : 主題式新聞搜索系統(tǒng)的設(shè)計(jì) 28 黑盒測(cè)試就是以用戶的角度去考慮測(cè)試,從輸入的數(shù)據(jù)和要輸出的數(shù)據(jù)對(duì)應(yīng)關(guān)系而進(jìn)行出發(fā)進(jìn)行測(cè)試的。很顯然,假如外部特性的本身設(shè)計(jì)假如有問(wèn)題或者說(shuō)規(guī)格說(shuō)明的規(guī)定是有誤,那么用黑盒測(cè)試的方法是不能發(fā)現(xiàn)錯(cuò)誤的,也就是說(shuō)這種情況他不能發(fā)現(xiàn)問(wèn)題與錯(cuò)誤。 白盒測(cè)試又被稱為是結(jié)構(gòu)測(cè)試、或者說(shuō)是透明盒測(cè)試和邏輯驅(qū)動(dòng)測(cè)試有時(shí)也稱為是基于代碼的測(cè)試。白盒測(cè)試它是一種測(cè)試用例設(shè)計(jì)的方法,所謂的盒子就是指的被測(cè)試的軟件或者程序。白盒的含義就是盒子是可視的,也就是說(shuō)是可見的。測(cè)試員可以非常清楚的知道盒子內(nèi)部到底是什么東西以及它里面到底是怎么運(yùn)作的。白盒測(cè)試法全面了解程序,了解每一個(gè)分支,所以它對(duì)系統(tǒng)內(nèi)部十分的清楚。所以測(cè)試的比較準(zhǔn)確,但是花費(fèi)較大。它的目的就是通過(guò)檢查系統(tǒng)或者軟件內(nèi)部的邏輯的內(nèi)部結(jié)構(gòu),對(duì)軟件或者系統(tǒng)之中的邏輯路徑,進(jìn)行覆蓋測(cè)試。在程序的不同地方或者說(shuō)是極其 重要的地方都設(shè)立檢查點(diǎn),去檢查程序的運(yùn)行狀態(tài),然后去確定它在實(shí)際的運(yùn)行狀態(tài)與所要預(yù)期的狀態(tài)是否一致。 進(jìn)而得出結(jié)論,軟件或者系統(tǒng)是否符合要求,或者說(shuō)是否擁有缺陷。 此系統(tǒng)采取黑盒測(cè)試的方式,進(jìn)行測(cè)試系統(tǒng)。 系統(tǒng)測(cè)試的設(shè)計(jì)與結(jié)果分析 影響系統(tǒng)的正確性,與準(zhǔn)確性的因素有很多。比如網(wǎng)頁(yè)抓取的數(shù)量,網(wǎng)頁(yè)的判斷不夠準(zhǔn)確,雖然網(wǎng)頁(yè)源碼的標(biāo)題后面最后兩個(gè)字不含新聞或者資訊等類的詞匯,但是實(shí)際上它依然是新聞,然而我們卻在不經(jīng)意之間將其過(guò)濾掉了,當(dāng)然也有一些雖然后綴是新聞資訊,但是實(shí)際上不是的,被誤下載到本地,索系統(tǒng) 就會(huì)出現(xiàn)這樣那要的不正確性。再比如,系統(tǒng)沒有將 HTML 中的腳本剔除,就直接將新聞的內(nèi)容寫入到了文本文檔之中,這樣就造就了新聞的不可讀性,也就是間接反映了新聞的不準(zhǔn)確性。 測(cè)試目的:驗(yàn)證網(wǎng)頁(yè)判斷的不真確性,對(duì)系統(tǒng)不準(zhǔn)確性的影響。 結(jié)論從網(wǎng)絡(luò)之中抓取 1000 個(gè)網(wǎng)頁(yè),抓取 1500 個(gè)網(wǎng)頁(yè)逐步遞增,會(huì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,系統(tǒng)的準(zhǔn)確性會(huì)形成一個(gè)曲線。準(zhǔn)確性會(huì)成增加的趨勢(shì),接著緩緩的下降,最后會(huì)在一個(gè)穩(wěn)定值之間浮動(dòng)。 中原工學(xué)院計(jì)算機(jī)學(xué)院畢業(yè)(設(shè)計(jì))論文 29 測(cè) 試目的:驗(yàn)證對(duì)網(wǎng)頁(yè)標(biāo)題截取的不準(zhǔn)確引起的系統(tǒng)不準(zhǔn)確性 結(jié)果分析:通過(guò)數(shù)次的反復(fù)測(cè)試,打開過(guò)許許多多的文本文檔,發(fā)現(xiàn)一般的結(jié)果都正確的,也就是說(shuō)網(wǎng)頁(yè)的標(biāo)題的最后兩個(gè)字含有新聞或者資訊字眼的網(wǎng)頁(yè),一般都是新網(wǎng)。當(dāng)然反過(guò)來(lái)卻不成立,也就說(shuō)許許多多的符合要求的網(wǎng)頁(yè)被放棄,此種算法可以說(shuō)效率
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1