freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

電子游戲教學資源庫的設計與實現(xiàn)-資料下載頁

2025-04-30 07:36本頁面
  

【正文】 體情況進行判定(比如對比a/a標記之間的錨文本等)。此方法在相關應用領域確實提高了爬行精度,但開銷相比來說比較大。根據(jù)本系統(tǒng)的實際情況,結(jié)合前面對電子游戲類樣本網(wǎng)頁的分析,我們發(fā)現(xiàn)絕大多數(shù)的網(wǎng)站所提供的結(jié)構相似的水平鏈網(wǎng)頁,它們的URL也是類似。仔細分析一下,產(chǎn)生這種特點的原因是由于結(jié)構相似網(wǎng)頁是由一個程序自動生成的。程序按查詢數(shù)據(jù)庫中相應的信息并填寫到URL相應的位置然后返回給用戶。因此我們看到的大部分網(wǎng)頁結(jié)構是相似的,只是具體內(nèi)容上有區(qū)別。例如,“”是云雪網(wǎng)提供的一類識字學字游戲,“”與“ php?action=downamp。bh=shizi8”是兩款具體的游戲,因此我們得出以下兩點結(jié)論:①該網(wǎng)站上關于識字學字類游戲資源頁面URL都滿足這樣一種模式:“\d+” 。根據(jù)這一模板,在使用VSM算法比對頁面文本內(nèi)容前,直接判定些頁面為目標頁面進行抓取。這樣,處在水平鏈的資源類頁面僅從URL就可以判別而與具體網(wǎng)頁的內(nèi)容無關,利用這一點可以使我們大大提高網(wǎng)頁分析的速度。 ②統(tǒng)計網(wǎng)頁數(shù)據(jù)庫中此類鏈接的數(shù)量,如果大于一個給定的閾值,則將“”作為種子URL添加種子庫。在這里需要一個函數(shù)來判定兩個URL的相同字符數(shù),因為只有兩個URL相似字符數(shù)非常大時程序才會分析這種結(jié)構。定義兩個URL相似度函數(shù)URL(i,j):其中,sim(i,j)表示兩個URL字符串前面順序共有的字符數(shù)量,len(i)與len(j)表示兩個URL的字符串長度,a、b兩個是歸一化因子,將URL(i,j)在0、1之間取值,一般取a=b=。人工定義一個閾值r,當時,兩個網(wǎng)頁被判定成相同頁面,入庫保存。根據(jù)需要,本系統(tǒng)設計的r=,后期可以根據(jù)實際情況修改此值。三、基于綜合策略的判定以上共介紹了二種相關度分析的策略,第一種對網(wǎng)頁文本內(nèi)容進行關鍵詞匹配,開銷比較大;第二種基于鏈接結(jié)構的分析,開銷較小。在系統(tǒng)建設過程中,當抓取到一個頁面,首先看該頁面所在的域名是否具有模板,若有則應用URL鏈接相似度分析方法分析該頁面的URL與該域名的模板URL的相似度是否大于設定的相似度閾值,若大于則認為是一個主題頁面,反之則認為該頁面不是主題頁面。若該域名沒有URL模板,則應用VSM方法判斷該頁面是否是主題相關的頁面,若是,則把該頁面的URL作為該域名的模板并將該頁面加載入庫,若不是則拋棄。這樣能夠有效地節(jié)省系統(tǒng)的開銷,提高系統(tǒng)的運行效率。 線程機制主題爬蟲eGameCrawler采用多線程機制,并行下載提高收集效率,分擔服務器負擔[19]。其實從本質(zhì)上講,eGameCrawler程序是靠計算機在多個線程之間快速切換達到同時執(zhí)行多個操作的效果。它每發(fā)出一個URL請求,總是要等待頁面下載完畢,然后再請求下一個URL。eGameCrawler能夠同時請求多個URL,顯然能夠有效地減少總下載時間。為此,在設計程序的時候,我們用PageWorker類封裝下載單個URL的操作,每當創(chuàng)建該類的一個實例,它就進入循環(huán),等待URL隊列中下一個URL可用,這要由其它線程解析文檔查找鏈接才能獲得。PageWorker類利用ProcessBegin()和ProcessEnd()方法來確定整個下載操作的開始與終結(jié)。 程序?qū)⒃O置線程數(shù)量的功能與程序本身分離開,以XML獨立文件控制,允許用戶自己確定要使用的線程數(shù)量。在實踐中,線程的最佳數(shù)量受許多因素影響,像機器配置,網(wǎng)絡帶寬等。如果你的機器性能較高,有兩個以上的處理器,可以設置較多的線程數(shù)量;反之,如果普通PC機、網(wǎng)絡帶寬有限,設置太多的線程數(shù)量其實不一定能夠提高性能。 電子游戲主題信息抽取通過主題爬蟲eGameCrawler抓取下來的游戲式主題網(wǎng)頁存放在一級數(shù)據(jù)庫中,作為原始信息。一級數(shù)據(jù)庫中的電子游戲信息以網(wǎng)頁形式存在,為半結(jié)構化信息,需要對其進行信息抽取,之后結(jié)構化存放在二級數(shù)據(jù)庫中作為資源庫。所謂信息抽?。↖nformation Extraction,簡稱IE),是指對原文檔信息內(nèi)容和結(jié)構的分析,從中抽取指定的事件、事實等信息,形成結(jié)構化的有價值的數(shù)據(jù)并存入數(shù)據(jù)庫,供用戶查詢和使用的過程。也就是從文檔中抽取用戶感興趣的事件、實體和關系,被抽取出來的信息以結(jié)構化的形式描述,然后存儲在數(shù)據(jù)庫中,為情報分析和檢測、比價購物、自動文摘、文本分類等各種應用提供服務[20]。目前,信息抽取技術在軍事、經(jīng)濟、醫(yī)學、科學研究等領域具有極大的應用空間。電子游戲教學資源庫的信息來源于互聯(lián)網(wǎng)上的信息,是從半結(jié)構化的Web文檔中得到電子游戲的描述信息,依次填入資源庫元數(shù)據(jù)要求的模塊內(nèi)。因此。 Web信息抽取綜述Web信息抽?。╓eb Information Extraction,簡稱為Web IE),是將互聯(lián)網(wǎng)作為信息源的一類信息抽取,就是從半結(jié)構化的Web文檔中抽取數(shù)據(jù)。其核心是將分散Internet上的半結(jié)構化的HTML頁面中的隱含的信息點抽取出來,并以更為結(jié)構化、語義更為清晰的形式表示,為用戶在Web中查詢數(shù)據(jù)、應用程序直接利用Web中的數(shù)據(jù)提供便利。 抽取對象分析Web信息抽取技術的研究對象主要分為三種:① 結(jié)構化文本(Structured Text),它是指按照一定格式嚴格生成的文本如數(shù)據(jù)庫中的文本信息等。對此類文本的信息抽取非常容易準確率也非常高。② 自由文本(Free Text),它是指文本中文字合乎于自然語法規(guī)則的文本,如新聞報道、科技文獻、政府文件等。面向這類對象的抽取技術的現(xiàn)有水平不可與人的能力同日而語,但這并不意味著信息抽取技術不可行。目前來說,其抽取規(guī)則的制定多是基于人工編制或使用機器學習技術。③ 半結(jié)構化文本(Semistructured Text),它是一種介于結(jié)構化文本和自由文本化文本之間的數(shù)據(jù),文本不完全符合自然語法規(guī)則,而且通常比較簡短,沒有固定格式,如電報報文、分析報表、簡短廣告文等。隨著互聯(lián)網(wǎng)的普及,出現(xiàn)了大量的網(wǎng)頁,其中絕大多數(shù)都屬于半結(jié)構化文本。處理這類文本的信息抽取技術叫Web信息抽取技術,目前已經(jīng)成為了信息抽取技術的一個重要分支。本文中針對電子游戲信息用到的信息抽取技術主要是針對網(wǎng)頁,因此屬于Web信息抽取的范疇。需要運用NLP(自然語言處理)技術才能實現(xiàn)信息抽取的網(wǎng)頁文本屬于半結(jié)構化文本。但是使用NLP技術并不一定有效,因為這種文本通常連完整的句子都沒有。因此,對于半結(jié)構化文本不能使用傳統(tǒng)的IE技巧,同時,用來處理結(jié)構化文本的簡單的規(guī)則處理方法也不能奏效。但是在半結(jié)構化文本中也確實存在一些結(jié)構化的信息,因此抽取模式通常依賴字符和像html標記那樣的分隔標志,句法和語義信息的作用則非常有限。 抽取內(nèi)容分析從主題爬蟲抓取的半結(jié)構化的Web文檔中得到相關信息(本系統(tǒng)為電子游戲的描述信息),依次填入資源庫元數(shù)據(jù)相應的欄內(nèi)。 抽取方法分析Web信息抽取有多種分類方式[21],前述第一章就給出了像基于自動化程度以及基于抽取原理等不同的分類方式。近年來國內(nèi)外涌現(xiàn)了多種信息抽取方法,根據(jù)不同的抽取工具所應用的抽取原理和抽取方式的不同,可以大致分為以下5類:基于自然語言處理方式的信息抽取、包裝器歸納方式的信息抽取、基于Ontology方式的信息抽取、基于HTML結(jié)構的信息抽取和基于Web查詢的信息抽取。在以下部分,對之進行介紹[22]。基于自然語言處理方式的信息抽取如果抽取前的文檔包含大量文本,特別是文本合乎文法,非常適合采用此類信息抽取方法。這類方法在一定程度上借鑒了自然語言處理技術,利用子句結(jié)構、短語和子句的關系建立基于語法和語義的抽取規(guī)則實現(xiàn)信息抽取。目前采用這種原理的典型系統(tǒng)有PAPIER,SRV,WHISK?;诒倔w(Ontology)方式的信息抽取該類信息抽取主要是利用對數(shù)據(jù)本身的描述信息實現(xiàn)抽取,對網(wǎng)頁結(jié)構的依賴較少。有Brigham Yong Univercity信息抽取小組開發(fā)的信息抽取工具采用了這種方式,另外QYIXOTE也采用了這種方式?;诒倔w的方式事先需要有領域知識專家采用人工的方式書寫某一應用領域的ontology(包括對象的模式信息、常值、關鍵字的描述信息,其中常值和關鍵字提供了語義項的描述信息)。系統(tǒng)根據(jù)邊界分隔符和啟發(fā)信息將源文檔分割為多個描述某一事物不同實例的無結(jié)構的文本塊,然后根據(jù)ontology中常值和關鍵字的描述信息產(chǎn)生抽取規(guī)則,對每個無結(jié)構的文本塊進行抽取獲得各語義項的值,最后將抽取出的結(jié)果放入根據(jù)ontology的描述信息生成的數(shù)據(jù)庫中?;赪eb查詢的信息抽取使用Web的相關技術解決Web問題稱為Web技術風范。上述的信息抽取工具,采用了不同的原理,抽取規(guī)則的形式和感興趣信息的定位方式也各不相同,因此均不具有通用性。具有Web技術風范的信息抽取,將Web信息抽取轉(zhuǎn)化為使用標準的Web查詢語言對Web文檔的查詢,具有通用性。采用該類技術的典型系統(tǒng)有:WebOQL以及自助開發(fā)的原型系統(tǒng)PQAgent?;贖TML結(jié)構的信息抽取該類信息抽取技術的特點是根據(jù)Web頁面的結(jié)構定位信息。在信息抽取之前通過解析器將Web文檔解析成語法樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則,將信息抽取轉(zhuǎn)化為對語法樹的操作實現(xiàn)信息抽取。采用該類技術的典型系統(tǒng)有LIXTO、XWRAP、RoadRunner和W4F等。下面以XWRAP系統(tǒng)為例進行分析。XWRAP(XMLenabled Wrapper),通過交互式的方式,由用戶在樣本也中指定抽取區(qū)域的起始位置,系統(tǒng)確定整個抽取區(qū)域,并確定區(qū)域的類型,然后通過可視化的方式,由用戶在樣本頁中制定語義項(如表頭)及與之對應的實例,系統(tǒng)自動產(chǎn)生抽取規(guī)則實現(xiàn)信息抽取,最后系統(tǒng)利用啟發(fā)信息獲得數(shù)據(jù)間的層次結(jié)構關系,生成XML文檔。該系統(tǒng)采用用戶在網(wǎng)頁中指定語義項的方式附加語義信息,即將網(wǎng)頁的部分內(nèi)容作為語義項,對于不同的區(qū)域類型(如Table,List等)采用不同抽取規(guī)則提高系統(tǒng)的靈活性和效率。但是該系統(tǒng)只適合對含有明顯區(qū)域結(jié)構的網(wǎng)頁進行信息抽取,不支持對普通網(wǎng)頁的抽取,模式的表達能力也非常有限,在學習階段用戶參與太多?;诎b器歸納方式的信息抽取所謂包裝器,其實是一種軟件構件,負責將數(shù)據(jù)和查詢請求由一種模式轉(zhuǎn)換成另一種模式。因此,一個包裝器實際上可看作是一類頁面到該頁面所含元組集合的函數(shù)。在Web信息應用中,包裝器應用已經(jīng)定義好的信息抽取規(guī)則,將Web頁面中的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換成用特定的格式描述的信息,為其他信息系統(tǒng)進行進一步的處理提供服務。包裝器歸納方式的信息抽取根據(jù)事先由用戶標記的樣本實例應用及其學習方式的歸納算法,生成基于定界符的抽取規(guī)則。其中定界符實質(zhì)上是感興趣語義項上下文的描述,即根據(jù)語義項的左右邊界來定位語義項。該類信息抽取方式和基于自然語言理解方式的信息抽取技術最大的不同在于僅僅使用語義項的上下文來定位信息,并沒有適用語言的語法約束。采用這種原理的典型系統(tǒng)有WIEN、STALKER和SOFTMEALY。下面以WIEN系統(tǒng)為例分析這類信息抽取技術。WIEN(Wrapper Induction Environment),是指分裝器歸納生成環(huán)境,由N. Kushmerick (1997)開發(fā)[23,24]。其方法不只局限于某一領域,適用于所有包含表格信息的結(jié)構化文本,也不只是用于HTML文本。這種方法可以處理被他們稱之為具有HLRT結(jié)構的網(wǎng)頁:頁面有Head頭分隔符,Body左右分隔符(指在每個待抽取的事實的左右),Tail尾分隔符三部分。系統(tǒng)尋找標記信息點開始和結(jié)尾的統(tǒng)一的分隔符,以及那些把表格信息與其他周圍信息分開的分隔符。符合這一規(guī)則的頁面幾乎都是搜索數(shù)據(jù)庫所得的結(jié)果頁面。該系統(tǒng)的語義和模式信息是用戶附加的,通過感興趣信息的左右邊界實現(xiàn)信息的定位,對復雜對象不作處理。系統(tǒng)采用歸納學習法,從查詢結(jié)果樣例中生成分裝器。歸納算法是:把標記好的網(wǎng)頁作為輸入,然后搜索由“HLRT分裝器模型”定義的分裝器空間(space of wrappers),反復嘗試所有可能的分隔符,直到找到與標記網(wǎng)頁相一致的HLRT分裝器。系統(tǒng)還采用基于機器學習理論的模型來預測需要學習多少個例子,以保證所生成的分裝器的出錯幾率控制在一定的范圍內(nèi)。 電子游戲主題信息抽取方法通過eGameCrawler程序抓取下來的網(wǎng)頁,除了自動保存下來的URL,還要進行其它敏感信息的抽取,如游戲名稱、相關介紹信息。,我們知道索引類頁面和資源類頁面是主題爬蟲重點抓取的兩類頁面。根據(jù)前期對電子游戲類樣本網(wǎng)頁的分析,絕大多數(shù)資源類頁面包含了電子游戲的名稱與介紹,并且,此類頁面一般一個頁面只包含一個游戲,所以資源類頁面是主要的信息抽取對象。對于一個頁面包含多個電子游戲信息,如索引類網(wǎng)頁,由于不包含游戲介紹等敏感信息暫不考慮在處理范圍之內(nèi)。在電子游戲類站點中,各頁面相互之間鮮有相近的文本描述,或相似的結(jié)構特點,不太易于給定通用的決策一塊實施抓取。本文所采用信息抽取方式是自動方式與手工方式結(jié)合的方法。自動方式是基于一定的規(guī)則,通過將頁面轉(zhuǎn)化成DOM樹進行匹配敏感信息的Web信息抽取方法[30]。自動方法因為頁面的異構性,效率不高,往往有偏差,因此結(jié)合手工方式。手工方式采取人工提取的方法,由項目組成員對主題爬蟲抓取的頁面進行敏感信息提取,手工方式工作量大,但錯誤率小,不容易出現(xiàn)偏差。同時,本系統(tǒng)的前臺用戶交互部分設計了用戶上傳部分,充分發(fā)揮互聯(lián)網(wǎng)的共享性,吸收用戶上傳的游戲,按電子游戲元數(shù)據(jù)形式存入數(shù)據(jù)庫。 信息抽取規(guī)則集自動方式是基于規(guī)則的方法,根據(jù)網(wǎng)頁結(jié)構的特征來看,大部分電子游戲類網(wǎng)頁的標題與介紹信息都有一些規(guī)則性,筆者建立了一些規(guī)則以利于程序?qū)Υ祟愋畔⒌奶崛 ?,我們把標記一個電子游戲的元數(shù)據(jù)定義為:標識、標題、內(nèi)容描述、上傳者、收錄時間、類型、來源。這些信息根據(jù)來源可以分成三類,第一類由系統(tǒng)自動生成,比如標識、上傳者與收錄時間(只有在人工添加的方式時由添加者添加,若為系統(tǒng)抓取,則默認為CPU);第二類由主題爬蟲在抓取過程中直接得來,來源(電子游戲源URL)屬于此類。第三類要經(jīng)過信息抽取得到,如標題、內(nèi)容描述。本節(jié)所述的信息抽取主要是針對電子游戲的標題(游戲名稱)與內(nèi)容(介紹)
點擊復制文檔內(nèi)容
教學教案相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1