freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎技術(shù)、現(xiàn)狀、以及未來發(fā)展趨勢的文獻(xiàn)綜述(編輯修改稿)

2024-12-04 09:18 本頁面
 

【文章內(nèi)容簡介】 、基于理解的分詞方法 這種分詞方法是通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠 統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。 、基于統(tǒng)計的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字 X、 Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了 一個詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 分詞中的難點 有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。 、歧義識別 歧義是指同樣的一句話,可能有兩種或者更多的切分方法, 典型的歧義有交集型歧義(約占全部歧義的 85%以上)和組合型歧義。 例如:表面的,因為“表面”和“面的”都是詞,那么這個短語就可以分成“表面 的”和“表 面的”。這種稱為交叉歧義。像這種交叉歧義十分常見, 又例如:“ 學(xué)生會 ” 既可能是一個名詞,指一 種學(xué)生組織,也可能是 “ 學(xué)生 /會 ” ,其中 “ 會 ” 為可能 或 “ 能夠 ” 的意思。在 “ 學(xué)生會主席 ” 中只能是前者,在 “ 學(xué)生會去 ” 中只能是后者,在 “ 生會組織義演活動 ” 中歧義仍然排除不了,則需要看更多的語境信息。 交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別 ? 如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。 、新詞識別 (未登錄詞識別) 新詞,專業(yè)術(shù)語稱為未登錄詞。 未登錄詞即未包括在分詞詞表中但必須切分出來的詞 ,包括各類專名 (人名、地名、企業(yè)字號、商標(biāo)號等 )和某些術(shù)語、縮略詞、新詞 等等。 最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“王軍虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞? 新詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng) 中的新詞識別十分重要。目前新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標(biāo)志之一。 幾種典型的 漢語 自動分詞系統(tǒng) 、幾個早期的自動分詞系統(tǒng) 、 我國第一個實用的自動分詞系統(tǒng) CDWS 、 山西大學(xué)計算機系研制的自動分詞系統(tǒng) ABWS 、 北京航空航天大學(xué)于 1988年實現(xiàn)的分詞系統(tǒng) CASS 、 北京師范大學(xué)現(xiàn)代教育研究所于 1991 前后研制實現(xiàn)的書面漢語自動分詞專家系統(tǒng) 、清華大學(xué) SEG分詞系統(tǒng) 、清華大學(xué) SEGTAG系統(tǒng) 、國家語委文字所應(yīng)用 句法分析技術(shù)的漢語自動分詞 、復(fù)旦分詞系統(tǒng) 、哈工大統(tǒng)計分詞系統(tǒng) 、杭州大學(xué)改進(jìn)的 MM 分詞系統(tǒng) 、 Microsoft
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1