freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

現(xiàn)代信息檢索論文(參考版)

2024-10-21 12:21本頁面
  

【正文】 走進(jìn)搜索引擎 電子工業(yè)出版社 2007年1月【4】(美)克羅夫特。電子科技大學(xué)。并行分詞方法的研究《計(jì)算機(jī)研究與發(fā)展》1997年07期【2】 張旭。并且優(yōu)秀的分詞策略應(yīng)該是盡量不拆分,需要拆分時(shí),先把長的拆成中的,如果結(jié)果還是少,再把中的拆成短的。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。如果把“張三虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。這些詞計(jì)算機(jī)又如何去識(shí)別? 如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。這種稱為交叉歧義。歧義是指同樣的一句話,可能有兩種或者更多的切分方法。因此,一個(gè)理想的分詞系統(tǒng)也應(yīng)綜合運(yùn)用這些信息,而在計(jì)算機(jī)處理中這些信息的提取又是以分詞為前提的。在中文分詞過程中,有兩大難題一直沒有完全突破。五、分詞中的難題有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。這種方法涉及到多級(jí)內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。因此目前基于知識(shí)的分詞系統(tǒng)還處在試驗(yàn)階段。這類方法試圖讓機(jī)器具有人類的理解能力,需要使用大量的語言知識(shí)和信息。(三)基于知識(shí)理解的分詞方法該方法主要基于句法、語法分析,并結(jié)合語義分析,通過對(duì)上下文內(nèi)容所提供信息的分析對(duì)詞進(jìn)行定界,它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。它首先切分出與詞表匹配的所有可能的詞,運(yùn)用統(tǒng)計(jì)語言模型和決策算法決定最優(yōu)的切分結(jié)果。(2)基于詞的頻度統(tǒng)計(jì)的分詞方法:這是一種全切分方法。而建立在全切分基礎(chǔ)上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。在討論這個(gè)方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。(3)最少切分法:使每一句中切出的詞數(shù)最小。統(tǒng)計(jì)結(jié)果表明 ,單純使用正向最大匹配的錯(cuò)誤率為 1/16 9,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。由于漢語中偏正結(jié)構(gòu)較多,若從后向前匹配,可以適當(dāng)提高精確度。在實(shí)際處理時(shí),先將文檔進(jìn)行倒排處理,生成逆序文檔。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個(gè)字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個(gè)字,繼續(xù)匹配。這樣就完成了一輪匹配,然后取下一個(gè)i字字串進(jìn)行匹配處理,直到文檔被掃描完為止。若字典中存在這樣的一個(gè)i字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。四、中文分詞技術(shù)的分類我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。搜索引擎網(wǎng)頁預(yù)處理第一步是為原始網(wǎng)頁建立索引,形成索引網(wǎng)頁庫;第二步是對(duì)網(wǎng)頁進(jìn)行切分,也就是分詞,將每一篇網(wǎng)頁轉(zhuǎn)化為一組次的集合;最后將網(wǎng)頁索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成倒排文件。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是 一個(gè) 學(xué)生。計(jì)算機(jī)可以很簡單通過空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來才表示一個(gè)詞。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對(duì)于一句話,人可以通過自己的知識(shí)來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法。對(duì)英文而言,是以詞為單位,詞與詞之間有空格隔開,而中文是以字為單位,多個(gè)字連在一起才能構(gòu)成一個(gè)表達(dá)具體含義的詞,詞與詞之間沒有分割,因此,對(duì)于支持自然語言檢索的工具,從語句中劃分出具有獨(dú)立意義的詞的過程即進(jìn)行中文分詞必不可少。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞?!娟P(guān)鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話題。搜索引擎分三個(gè)大模塊:網(wǎng)頁搜集,預(yù)處理和查詢服務(wù)。本文所取得的另一個(gè)成果就是,把用戶電能表終端設(shè)計(jì)成一個(gè)智能化的綜合性終端,除了完成電能的記錄和計(jì)量外,它還具有用戶現(xiàn)場防竊電、防誤接線、故障保護(hù)、遠(yuǎn)方停送電、遠(yuǎn)方修改電能表參數(shù)和負(fù)荷控制功能,這些技術(shù)手段對(duì)提高供電企業(yè)的用電治理水平無疑具有積極的意義。本文只是對(duì)用戶電能表終端及其擴(kuò)頻載波通信模塊作了實(shí)用化開發(fā)設(shè)計(jì)和樣機(jī)試制,并且通過樣機(jī)的現(xiàn)場測試。最終的技術(shù)目的的實(shí)現(xiàn)必須建立在成功地開發(fā)用戶電表終端和配變集中器的基礎(chǔ)之上,還要做營業(yè)站抄算主機(jī)的軟件編制和數(shù)據(jù)庫編制。我國的低壓電能供給都是以配電變壓器為一個(gè)臺(tái)區(qū)單元,在配電變壓器和用戶之間不使用任何獨(dú)立的中繼通信設(shè)備或?qū)S眯诺?,直接利用低壓電力線構(gòu)成與低壓電網(wǎng)系統(tǒng)結(jié)構(gòu)相對(duì)應(yīng)的用戶電能表終端+配變集中器+營業(yè)站電能抄算主機(jī)組網(wǎng)的遠(yuǎn)程抄表系統(tǒng),我們認(rèn)為這符合低壓遠(yuǎn)抄系統(tǒng)的主流發(fā)展方向,因而具有推廣應(yīng)用前景。掉電保護(hù):電源斷電情況下,數(shù)據(jù)可保存10年;電能直供到戶是供電企業(yè)最重要的營銷舉措,這使得電能營銷部門的電能抄算業(yè)務(wù)量成倍增長。采用工業(yè)級(jí)芯片,環(huán)境溫度:20~ 85℃;時(shí)鐘誤差:天天小于 1s;抄表正確率:100;載波通信距離:架空網(wǎng)或電纜電網(wǎng)均可達(dá)1000m;不同的測試環(huán)境下,干擾強(qiáng)度與信道輸入阻抗的波動(dòng)范圍是影響擴(kuò)頻載波可靠通信距離的兩個(gè)主要因素,數(shù)據(jù)通信成功的平均幀延遲時(shí)間與平均通信距離的關(guān)系較大。3結(jié)論與展望我們?cè)趲追N不同的環(huán)境下對(duì)用戶電能表終端和配變集中器進(jìn)行了測試,取得了比較滿足的結(jié)果。PC微機(jī)主要完成用戶用電數(shù)據(jù)的采集,送電能表參數(shù)、用電信息、欠費(fèi)警告及斷電控制,不安全和違章用電監(jiān)視報(bào)警,用戶用電治理及查詢,報(bào)表輸出等功能。主要負(fù)責(zé)營業(yè)站到配電變壓器集中器之間的數(shù)據(jù)指令的調(diào)制發(fā)送、解調(diào)接受及綜合分析處理。鑒于數(shù)據(jù)處理量不是很大,選用486工控機(jī)就能滿足要求。工控機(jī)完成與每一相的MCU系統(tǒng)交換數(shù)據(jù),并通過Modem和公用電話網(wǎng)與營業(yè)站抄算主機(jī)交換數(shù)據(jù)信號(hào)。以上電路基本上與用戶終端類似,只是不具備故障保護(hù)、竊電偵測和負(fù)荷控制電路而已。配變集中器主要由三個(gè)分相耦合的低壓擴(kuò)頻通信模塊、三個(gè)按相配置的電能表模塊、MCU單片機(jī)系統(tǒng)、3個(gè)雙口RAM和一個(gè)工控機(jī)系統(tǒng)及電話線調(diào)制解調(diào)器構(gòu)成。該模塊與配變集中器的設(shè)計(jì)通信距離為1000m。低壓擴(kuò)頻載波模塊主要由SSCP200低壓電力線擴(kuò)頻載波網(wǎng)絡(luò)控制器、前置功放和電力線耦合電路構(gòu)成,負(fù)責(zé)對(duì)MCU系統(tǒng)送來的數(shù)據(jù)進(jìn)行線性掃頻調(diào)制,放大后耦合到電力線上,對(duì)通過電力線送來的載波信號(hào)進(jìn)行掃頻解調(diào)后送給MCU系統(tǒng)。它是用戶電能表終端的計(jì)算監(jiān)控中心,主要負(fù)責(zé)對(duì)電量脈沖串進(jìn)行計(jì)算或處理,執(zhí)行就地或遠(yuǎn)方的負(fù)荷控制程序,與低壓擴(kuò)頻載波通信模塊進(jìn)行數(shù)據(jù)交換并控制其收發(fā)信。負(fù)荷控制模塊是一個(gè)受MCU系統(tǒng)輸出的TTL電平控制的大功率交流無觸點(diǎn)開關(guān),能夠過零關(guān)斷或開啟6kW的負(fù)荷功率。計(jì)量模塊負(fù)責(zé)把用戶的用電功率轉(zhuǎn)化為頻率正比于功率大小的脈沖串,提供給MCU系統(tǒng)模塊進(jìn)行電量計(jì)算。為了降低電源模塊的體積,采用TOP2XX脈寬調(diào)制功率開關(guān)為核心器件,構(gòu)成單端反激式電路。其交流輸入的設(shè)計(jì)范圍為AC220V177。用戶電能表終端由AC/DC開關(guān)電源模塊、電量傳感器模塊、故障保護(hù)模塊、計(jì)量模塊、負(fù)荷控制模塊、LED顯示模塊、MCU系統(tǒng)模塊、低壓擴(kuò)頻載波通信模塊構(gòu)成。結(jié)合電力線的傳輸特性,綜合比較各種網(wǎng)絡(luò),在本文所要開發(fā)的遠(yuǎn)抄系統(tǒng)中選用CSMA協(xié)議應(yīng)該是比較合適的。典型的隨機(jī)接入是載體偵聽多重訪問/沖突檢測(CSMA/CD)網(wǎng)絡(luò),其為總線型結(jié)構(gòu),如圖2所示。隨機(jī)接入共享信道的特點(diǎn)是所有用戶都可以根據(jù)自己的意愿隨機(jī)地發(fā)送信息。在計(jì)算機(jī)網(wǎng)絡(luò)中,信道共享技術(shù)已經(jīng)比較成熟。因此,系統(tǒng)擴(kuò)展極具伸縮性,不會(huì)象集中式系統(tǒng)那樣新建時(shí)資源閑置,用戶發(fā)展時(shí)容量又不夠。由于使用了分布式安裝結(jié)構(gòu),在系統(tǒng)建設(shè)上與集中抄表箱用電系統(tǒng)相比,無須龐大繁瑣的纜線工程,施工難度將會(huì)大幅下降。顯然,整個(gè)系統(tǒng)與配電變壓器下面的電壓電力網(wǎng)一樣呈樹形分布結(jié)構(gòu),可隨用戶發(fā)展和負(fù)荷增長任意擴(kuò)展。用電治理信息只能在系統(tǒng)的上下級(jí)之間傳輸。系統(tǒng)由營業(yè)站用電治理主機(jī)、配電變壓器集中器、接在配電變壓器低壓電力線上的多個(gè)用戶電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。(2)只在配電變壓器和住戶地點(diǎn)對(duì)應(yīng)安裝數(shù)據(jù)的收發(fā)裝置,建立起各用戶電能表終端與配變集中器的直接數(shù)據(jù)鏈路,中間不安裝任何硬件上的中繼或第二級(jí)集中轉(zhuǎn)發(fā)裝置。因此,低壓電力線載波技術(shù)是直接通過電力線組網(wǎng)的遠(yuǎn)程抄表系統(tǒng)進(jìn)一步推廣應(yīng)用的瓶頸。實(shí)踐證實(shí):目前市場上已經(jīng)開發(fā)出來的窄帶調(diào)制的低壓載波表和配變集中器很難保證電量或控制數(shù)據(jù)的可靠傳輸。這種拓?fù)湟笠粋€(gè)用戶終端,不但要實(shí)現(xiàn)電能計(jì)量,還要實(shí)現(xiàn)數(shù)據(jù)信息的編碼、解碼、載波收發(fā)等功能。從組網(wǎng)拓?fù)涞慕嵌戎v,只要在用戶電能表
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1