freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

2025-04-30 07:36本頁(yè)面
  

【正文】 體情況進(jìn)行判定(比如對(duì)比a/a標(biāo)記之間的錨文本等)。此方法在相關(guān)應(yīng)用領(lǐng)域確實(shí)提高了爬行精度,但開(kāi)銷相比來(lái)說(shuō)比較大。根據(jù)本系統(tǒng)的實(shí)際情況,結(jié)合前面對(duì)電子游戲類樣本網(wǎng)頁(yè)的分析,我們發(fā)現(xiàn)絕大多數(shù)的網(wǎng)站所提供的結(jié)構(gòu)相似的水平鏈網(wǎng)頁(yè),它們的URL也是類似。仔細(xì)分析一下,產(chǎn)生這種特點(diǎn)的原因是由于結(jié)構(gòu)相似網(wǎng)頁(yè)是由一個(gè)程序自動(dòng)生成的。程序按查詢數(shù)據(jù)庫(kù)中相應(yīng)的信息并填寫(xiě)到URL相應(yīng)的位置然后返回給用戶。因此我們看到的大部分網(wǎng)頁(yè)結(jié)構(gòu)是相似的,只是具體內(nèi)容上有區(qū)別。例如,“”是云雪網(wǎng)提供的一類識(shí)字學(xué)字游戲,“”與“ php?action=downamp。bh=shizi8”是兩款具體的游戲,因此我們得出以下兩點(diǎn)結(jié)論:①該網(wǎng)站上關(guān)于識(shí)字學(xué)字類游戲資源頁(yè)面URL都滿足這樣一種模式:“\d+” 。根據(jù)這一模板,在使用VSM算法比對(duì)頁(yè)面文本內(nèi)容前,直接判定些頁(yè)面為目標(biāo)頁(yè)面進(jìn)行抓取。這樣,處在水平鏈的資源類頁(yè)面僅從URL就可以判別而與具體網(wǎng)頁(yè)的內(nèi)容無(wú)關(guān),利用這一點(diǎn)可以使我們大大提高網(wǎng)頁(yè)分析的速度。 ②統(tǒng)計(jì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中此類鏈接的數(shù)量,如果大于一個(gè)給定的閾值,則將“”作為種子URL添加種子庫(kù)。在這里需要一個(gè)函數(shù)來(lái)判定兩個(gè)URL的相同字符數(shù),因?yàn)橹挥袃蓚€(gè)URL相似字符數(shù)非常大時(shí)程序才會(huì)分析這種結(jié)構(gòu)。定義兩個(gè)URL相似度函數(shù)URL(i,j):其中,sim(i,j)表示兩個(gè)URL字符串前面順序共有的字符數(shù)量,len(i)與len(j)表示兩個(gè)URL的字符串長(zhǎng)度,a、b兩個(gè)是歸一化因子,將URL(i,j)在0、1之間取值,一般取a=b=。人工定義一個(gè)閾值r,當(dāng)時(shí),兩個(gè)網(wǎng)頁(yè)被判定成相同頁(yè)面,入庫(kù)保存。根據(jù)需要,本系統(tǒng)設(shè)計(jì)的r=,后期可以根據(jù)實(shí)際情況修改此值。三、基于綜合策略的判定以上共介紹了二種相關(guān)度分析的策略,第一種對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行關(guān)鍵詞匹配,開(kāi)銷比較大;第二種基于鏈接結(jié)構(gòu)的分析,開(kāi)銷較小。在系統(tǒng)建設(shè)過(guò)程中,當(dāng)抓取到一個(gè)頁(yè)面,首先看該頁(yè)面所在的域名是否具有模板,若有則應(yīng)用URL鏈接相似度分析方法分析該頁(yè)面的URL與該域名的模板URL的相似度是否大于設(shè)定的相似度閾值,若大于則認(rèn)為是一個(gè)主題頁(yè)面,反之則認(rèn)為該頁(yè)面不是主題頁(yè)面。若該域名沒(méi)有URL模板,則應(yīng)用VSM方法判斷該頁(yè)面是否是主題相關(guān)的頁(yè)面,若是,則把該頁(yè)面的URL作為該域名的模板并將該頁(yè)面加載入庫(kù),若不是則拋棄。這樣能夠有效地節(jié)省系統(tǒng)的開(kāi)銷,提高系統(tǒng)的運(yùn)行效率。 線程機(jī)制主題爬蟲(chóng)eGameCrawler采用多線程機(jī)制,并行下載提高收集效率,分擔(dān)服務(wù)器負(fù)擔(dān)[19]。其實(shí)從本質(zhì)上講,eGameCrawler程序是靠計(jì)算機(jī)在多個(gè)線程之間快速切換達(dá)到同時(shí)執(zhí)行多個(gè)操作的效果。它每發(fā)出一個(gè)URL請(qǐng)求,總是要等待頁(yè)面下載完畢,然后再請(qǐng)求下一個(gè)URL。eGameCrawler能夠同時(shí)請(qǐng)求多個(gè)URL,顯然能夠有效地減少總下載時(shí)間。為此,在設(shè)計(jì)程序的時(shí)候,我們用PageWorker類封裝下載單個(gè)URL的操作,每當(dāng)創(chuàng)建該類的一個(gè)實(shí)例,它就進(jìn)入循環(huán),等待URL隊(duì)列中下一個(gè)URL可用,這要由其它線程解析文檔查找鏈接才能獲得。PageWorker類利用ProcessBegin()和ProcessEnd()方法來(lái)確定整個(gè)下載操作的開(kāi)始與終結(jié)。 程序?qū)⒃O(shè)置線程數(shù)量的功能與程序本身分離開(kāi),以XML獨(dú)立文件控制,允許用戶自己確定要使用的線程數(shù)量。在實(shí)踐中,線程的最佳數(shù)量受許多因素影響,像機(jī)器配置,網(wǎng)絡(luò)帶寬等。如果你的機(jī)器性能較高,有兩個(gè)以上的處理器,可以設(shè)置較多的線程數(shù)量;反之,如果普通PC機(jī)、網(wǎng)絡(luò)帶寬有限,設(shè)置太多的線程數(shù)量其實(shí)不一定能夠提高性能。 電子游戲主題信息抽取通過(guò)主題爬蟲(chóng)eGameCrawler抓取下來(lái)的游戲式主題網(wǎng)頁(yè)存放在一級(jí)數(shù)據(jù)庫(kù)中,作為原始信息。一級(jí)數(shù)據(jù)庫(kù)中的電子游戲信息以網(wǎng)頁(yè)形式存在,為半結(jié)構(gòu)化信息,需要對(duì)其進(jìn)行信息抽取,之后結(jié)構(gòu)化存放在二級(jí)數(shù)據(jù)庫(kù)中作為資源庫(kù)。所謂信息抽?。↖nformation Extraction,簡(jiǎn)稱IE),是指對(duì)原文檔信息內(nèi)容和結(jié)構(gòu)的分析,從中抽取指定的事件、事實(shí)等信息,形成結(jié)構(gòu)化的有價(jià)值的數(shù)據(jù)并存入數(shù)據(jù)庫(kù),供用戶查詢和使用的過(guò)程。也就是從文檔中抽取用戶感興趣的事件、實(shí)體和關(guān)系,被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中,為情報(bào)分析和檢測(cè)、比價(jià)購(gòu)物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)[20]。目前,信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域具有極大的應(yīng)用空間。電子游戲教學(xué)資源庫(kù)的信息來(lái)源于互聯(lián)網(wǎng)上的信息,是從半結(jié)構(gòu)化的Web文檔中得到電子游戲的描述信息,依次填入資源庫(kù)元數(shù)據(jù)要求的模塊內(nèi)。因此。 Web信息抽取綜述Web信息抽?。╓eb Information Extraction,簡(jiǎn)稱為Web IE),是將互聯(lián)網(wǎng)作為信息源的一類信息抽取,就是從半結(jié)構(gòu)化的Web文檔中抽取數(shù)據(jù)。其核心是將分散Internet上的半結(jié)構(gòu)化的HTML頁(yè)面中的隱含的信息點(diǎn)抽取出來(lái),并以更為結(jié)構(gòu)化、語(yǔ)義更為清晰的形式表示,為用戶在Web中查詢數(shù)據(jù)、應(yīng)用程序直接利用Web中的數(shù)據(jù)提供便利。 抽取對(duì)象分析Web信息抽取技術(shù)的研究對(duì)象主要分為三種:① 結(jié)構(gòu)化文本(Structured Text),它是指按照一定格式嚴(yán)格生成的文本如數(shù)據(jù)庫(kù)中的文本信息等。對(duì)此類文本的信息抽取非常容易準(zhǔn)確率也非常高。② 自由文本(Free Text),它是指文本中文字合乎于自然語(yǔ)法規(guī)則的文本,如新聞報(bào)道、科技文獻(xiàn)、政府文件等。面向這類對(duì)象的抽取技術(shù)的現(xiàn)有水平不可與人的能力同日而語(yǔ),但這并不意味著信息抽取技術(shù)不可行。目前來(lái)說(shuō),其抽取規(guī)則的制定多是基于人工編制或使用機(jī)器學(xué)習(xí)技術(shù)。③ 半結(jié)構(gòu)化文本(Semistructured Text),它是一種介于結(jié)構(gòu)化文本和自由文本化文本之間的數(shù)據(jù),文本不完全符合自然語(yǔ)法規(guī)則,而且通常比較簡(jiǎn)短,沒(méi)有固定格式,如電報(bào)報(bào)文、分析報(bào)表、簡(jiǎn)短廣告文等。隨著互聯(lián)網(wǎng)的普及,出現(xiàn)了大量的網(wǎng)頁(yè),其中絕大多數(shù)都屬于半結(jié)構(gòu)化文本。處理這類文本的信息抽取技術(shù)叫Web信息抽取技術(shù),目前已經(jīng)成為了信息抽取技術(shù)的一個(gè)重要分支。本文中針對(duì)電子游戲信息用到的信息抽取技術(shù)主要是針對(duì)網(wǎng)頁(yè),因此屬于Web信息抽取的范疇。需要運(yùn)用NLP(自然語(yǔ)言處理)技術(shù)才能實(shí)現(xiàn)信息抽取的網(wǎng)頁(yè)文本屬于半結(jié)構(gòu)化文本。但是使用NLP技術(shù)并不一定有效,因?yàn)檫@種文本通常連完整的句子都沒(méi)有。因此,對(duì)于半結(jié)構(gòu)化文本不能使用傳統(tǒng)的IE技巧,同時(shí),用來(lái)處理結(jié)構(gòu)化文本的簡(jiǎn)單的規(guī)則處理方法也不能奏效。但是在半結(jié)構(gòu)化文本中也確實(shí)存在一些結(jié)構(gòu)化的信息,因此抽取模式通常依賴字符和像html標(biāo)記那樣的分隔標(biāo)志,句法和語(yǔ)義信息的作用則非常有限。 抽取內(nèi)容分析從主題爬蟲(chóng)抓取的半結(jié)構(gòu)化的Web文檔中得到相關(guān)信息(本系統(tǒng)為電子游戲的描述信息),依次填入資源庫(kù)元數(shù)據(jù)相應(yīng)的欄內(nèi)。 抽取方法分析Web信息抽取有多種分類方式[21],前述第一章就給出了像基于自動(dòng)化程度以及基于抽取原理等不同的分類方式。近年來(lái)國(guó)內(nèi)外涌現(xiàn)了多種信息抽取方法,根據(jù)不同的抽取工具所應(yīng)用的抽取原理和抽取方式的不同,可以大致分為以下5類:基于自然語(yǔ)言處理方式的信息抽取、包裝器歸納方式的信息抽取、基于Ontology方式的信息抽取、基于HTML結(jié)構(gòu)的信息抽取和基于Web查詢的信息抽取。在以下部分,對(duì)之進(jìn)行介紹[22]。基于自然語(yǔ)言處理方式的信息抽取如果抽取前的文檔包含大量文本,特別是文本合乎文法,非常適合采用此類信息抽取方法。這類方法在一定程度上借鑒了自然語(yǔ)言處理技術(shù),利用子句結(jié)構(gòu)、短語(yǔ)和子句的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則實(shí)現(xiàn)信息抽取。目前采用這種原理的典型系統(tǒng)有PAPIER,SRV,WHISK。基于本體(Ontology)方式的信息抽取該類信息抽取主要是利用對(duì)數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對(duì)網(wǎng)頁(yè)結(jié)構(gòu)的依賴較少。有Brigham Yong Univercity信息抽取小組開(kāi)發(fā)的信息抽取工具采用了這種方式,另外QYIXOTE也采用了這種方式?;诒倔w的方式事先需要有領(lǐng)域知識(shí)專家采用人工的方式書(shū)寫(xiě)某一應(yīng)用領(lǐng)域的ontology(包括對(duì)象的模式信息、常值、關(guān)鍵字的描述信息,其中常值和關(guān)鍵字提供了語(yǔ)義項(xiàng)的描述信息)。系統(tǒng)根據(jù)邊界分隔符和啟發(fā)信息將源文檔分割為多個(gè)描述某一事物不同實(shí)例的無(wú)結(jié)構(gòu)的文本塊,然后根據(jù)ontology中常值和關(guān)鍵字的描述信息產(chǎn)生抽取規(guī)則,對(duì)每個(gè)無(wú)結(jié)構(gòu)的文本塊進(jìn)行抽取獲得各語(yǔ)義項(xiàng)的值,最后將抽取出的結(jié)果放入根據(jù)ontology的描述信息生成的數(shù)據(jù)庫(kù)中?;赪eb查詢的信息抽取使用Web的相關(guān)技術(shù)解決Web問(wèn)題稱為Web技術(shù)風(fēng)范。上述的信息抽取工具,采用了不同的原理,抽取規(guī)則的形式和感興趣信息的定位方式也各不相同,因此均不具有通用性。具有Web技術(shù)風(fēng)范的信息抽取,將Web信息抽取轉(zhuǎn)化為使用標(biāo)準(zhǔn)的Web查詢語(yǔ)言對(duì)Web文檔的查詢,具有通用性。采用該類技術(shù)的典型系統(tǒng)有:WebOQL以及自助開(kāi)發(fā)的原型系統(tǒng)PQAgent?;贖TML結(jié)構(gòu)的信息抽取該類信息抽取技術(shù)的特點(diǎn)是根據(jù)Web頁(yè)面的結(jié)構(gòu)定位信息。在信息抽取之前通過(guò)解析器將Web文檔解析成語(yǔ)法樹(shù),通過(guò)自動(dòng)或半自動(dòng)的方式產(chǎn)生抽取規(guī)則,將信息抽取轉(zhuǎn)化為對(duì)語(yǔ)法樹(shù)的操作實(shí)現(xiàn)信息抽取。采用該類技術(shù)的典型系統(tǒng)有LIXTO、XWRAP、RoadRunner和W4F等。下面以XWRAP系統(tǒng)為例進(jìn)行分析。XWRAP(XMLenabled Wrapper),通過(guò)交互式的方式,由用戶在樣本也中指定抽取區(qū)域的起始位置,系統(tǒng)確定整個(gè)抽取區(qū)域,并確定區(qū)域的類型,然后通過(guò)可視化的方式,由用戶在樣本頁(yè)中制定語(yǔ)義項(xiàng)(如表頭)及與之對(duì)應(yīng)的實(shí)例,系統(tǒng)自動(dòng)產(chǎn)生抽取規(guī)則實(shí)現(xiàn)信息抽取,最后系統(tǒng)利用啟發(fā)信息獲得數(shù)據(jù)間的層次結(jié)構(gòu)關(guān)系,生成XML文檔。該系統(tǒng)采用用戶在網(wǎng)頁(yè)中指定語(yǔ)義項(xiàng)的方式附加語(yǔ)義信息,即將網(wǎng)頁(yè)的部分內(nèi)容作為語(yǔ)義項(xiàng),對(duì)于不同的區(qū)域類型(如Table,List等)采用不同抽取規(guī)則提高系統(tǒng)的靈活性和效率。但是該系統(tǒng)只適合對(duì)含有明顯區(qū)域結(jié)構(gòu)的網(wǎng)頁(yè)進(jìn)行信息抽取,不支持對(duì)普通網(wǎng)頁(yè)的抽取,模式的表達(dá)能力也非常有限,在學(xué)習(xí)階段用戶參與太多?;诎b器歸納方式的信息抽取所謂包裝器,其實(shí)是一種軟件構(gòu)件,負(fù)責(zé)將數(shù)據(jù)和查詢請(qǐng)求由一種模式轉(zhuǎn)換成另一種模式。因此,一個(gè)包裝器實(shí)際上可看作是一類頁(yè)面到該頁(yè)面所含元組集合的函數(shù)。在Web信息應(yīng)用中,包裝器應(yīng)用已經(jīng)定義好的信息抽取規(guī)則,將Web頁(yè)面中的信息數(shù)據(jù)抽取出來(lái),轉(zhuǎn)換成用特定的格式描述的信息,為其他信息系統(tǒng)進(jìn)行進(jìn)一步的處理提供服務(wù)。包裝器歸納方式的信息抽取根據(jù)事先由用戶標(biāo)記的樣本實(shí)例應(yīng)用及其學(xué)習(xí)方式的歸納算法,生成基于定界符的抽取規(guī)則。其中定界符實(shí)質(zhì)上是感興趣語(yǔ)義項(xiàng)上下文的描述,即根據(jù)語(yǔ)義項(xiàng)的左右邊界來(lái)定位語(yǔ)義項(xiàng)。該類信息抽取方式和基于自然語(yǔ)言理解方式的信息抽取技術(shù)最大的不同在于僅僅使用語(yǔ)義項(xiàng)的上下文來(lái)定位信息,并沒(méi)有適用語(yǔ)言的語(yǔ)法約束。采用這種原理的典型系統(tǒng)有WIEN、STALKER和SOFTMEALY。下面以WIEN系統(tǒng)為例分析這類信息抽取技術(shù)。WIEN(Wrapper Induction Environment),是指分裝器歸納生成環(huán)境,由N. Kushmerick (1997)開(kāi)發(fā)[23,24]。其方法不只局限于某一領(lǐng)域,適用于所有包含表格信息的結(jié)構(gòu)化文本,也不只是用于HTML文本。這種方法可以處理被他們稱之為具有HLRT結(jié)構(gòu)的網(wǎng)頁(yè):頁(yè)面有Head頭分隔符,Body左右分隔符(指在每個(gè)待抽取的事實(shí)的左右),Tail尾分隔符三部分。系統(tǒng)尋找標(biāo)記信息點(diǎn)開(kāi)始和結(jié)尾的統(tǒng)一的分隔符,以及那些把表格信息與其他周圍信息分開(kāi)的分隔符。符合這一規(guī)則的頁(yè)面幾乎都是搜索數(shù)據(jù)庫(kù)所得的結(jié)果頁(yè)面。該系統(tǒng)的語(yǔ)義和模式信息是用戶附加的,通過(guò)感興趣信息的左右邊界實(shí)現(xiàn)信息的定位,對(duì)復(fù)雜對(duì)象不作處理。系統(tǒng)采用歸納學(xué)習(xí)法,從查詢結(jié)果樣例中生成分裝器。歸納算法是:把標(biāo)記好的網(wǎng)頁(yè)作為輸入,然后搜索由“HLRT分裝器模型”定義的分裝器空間(space of wrappers),反復(fù)嘗試所有可能的分隔符,直到找到與標(biāo)記網(wǎng)頁(yè)相一致的HLRT分裝器。系統(tǒng)還采用基于機(jī)器學(xué)習(xí)理論的模型來(lái)預(yù)測(cè)需要學(xué)習(xí)多少個(gè)例子,以保證所生成的分裝器的出錯(cuò)幾率控制在一定的范圍內(nèi)。 電子游戲主題信息抽取方法通過(guò)eGameCrawler程序抓取下來(lái)的網(wǎng)頁(yè),除了自動(dòng)保存下來(lái)的URL,還要進(jìn)行其它敏感信息的抽取,如游戲名稱、相關(guān)介紹信息。,我們知道索引類頁(yè)面和資源類頁(yè)面是主題爬蟲(chóng)重點(diǎn)抓取的兩類頁(yè)面。根據(jù)前期對(duì)電子游戲類樣本網(wǎng)頁(yè)的分析,絕大多數(shù)資源類頁(yè)面包含了電子游戲的名稱與介紹,并且,此類頁(yè)面一般一個(gè)頁(yè)面只包含一個(gè)游戲,所以資源類頁(yè)面是主要的信息抽取對(duì)象。對(duì)于一個(gè)頁(yè)面包含多個(gè)電子游戲信息,如索引類網(wǎng)頁(yè),由于不包含游戲介紹等敏感信息暫不考慮在處理范圍之內(nèi)。在電子游戲類站點(diǎn)中,各頁(yè)面相互之間鮮有相近的文本描述,或相似的結(jié)構(gòu)特點(diǎn),不太易于給定通用的決策一塊實(shí)施抓取。本文所采用信息抽取方式是自動(dòng)方式與手工方式結(jié)合的方法。自動(dòng)方式是基于一定的規(guī)則,通過(guò)將頁(yè)面轉(zhuǎn)化成DOM樹(shù)進(jìn)行匹配敏感信息的Web信息抽取方法[30]。自動(dòng)方法因?yàn)轫?yè)面的異構(gòu)性,效率不高,往往有偏差,因此結(jié)合手工方式。手工方式采取人工提取的方法,由項(xiàng)目組成員對(duì)主題爬蟲(chóng)抓取的頁(yè)面進(jìn)行敏感信息提取,手工方式工作量大,但錯(cuò)誤率小,不容易出現(xiàn)偏差。同時(shí),本系統(tǒng)的前臺(tái)用戶交互部分設(shè)計(jì)了用戶上傳部分,充分發(fā)揮互聯(lián)網(wǎng)的共享性,吸收用戶上傳的游戲,按電子游戲元數(shù)據(jù)形式存入數(shù)據(jù)庫(kù)。 信息抽取規(guī)則集自動(dòng)方式是基于規(guī)則的方法,根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)的特征來(lái)看,大部分電子游戲類網(wǎng)頁(yè)的標(biāo)題與介紹信息都有一些規(guī)則性,筆者建立了一些規(guī)則以利于程序?qū)Υ祟愋畔⒌奶崛?。,我們把?biāo)記一個(gè)電子游戲的元數(shù)據(jù)定義為:標(biāo)識(shí)、標(biāo)題、內(nèi)容描述、上傳者、收錄時(shí)間、類型、來(lái)源。這些信息根據(jù)來(lái)源可以分成三類,第一類由系統(tǒng)自動(dòng)生成,比如標(biāo)識(shí)、上傳者與收錄時(shí)間(只有在人工添加的方式時(shí)由添加者添加,若為系統(tǒng)抓取,則默認(rèn)為CPU);第二類由主題爬蟲(chóng)在抓取過(guò)程中直接得來(lái),來(lái)源(電子游戲源URL)屬于此類。第三類要經(jīng)過(guò)信息抽取得到,如標(biāo)題、內(nèi)容描述。本節(jié)所述的信息抽取主要是針對(duì)電子游戲的標(biāo)題(游戲名稱)與內(nèi)容(介紹)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1