freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)(編輯修改稿)

2025-07-25 03:39 本頁面
 

【文章內(nèi)容簡介】 方法和結(jié)構(gòu)方法的特長。由于它是根據(jù)總體的匹配程度來決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類環(huán)節(jié)以減小運(yùn)算量。另外,它吸收畸變的能力仍有不足。 (4)人工神經(jīng)網(wǎng)絡(luò)漢字識(shí)別是一個(gè)非常活躍的分支,不斷有新的方法涌現(xiàn)出來,為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個(gè)領(lǐng)域,并在模式識(shí)別、智能控制、計(jì)算機(jī)視覺、自適應(yīng)濾波和信號處理、非線性優(yōu)化、自動(dòng)目標(biāo)識(shí)別,連續(xù)語音識(shí)別、聲納信號的處理、知識(shí)處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都得到了日益廣泛地應(yīng)用。 后處理后處理就是利用相關(guān)算法對識(shí)別后的漢字文本或者初級識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。漢字識(shí)別的后處理方法從用戶的參與程度來說,可分為三類:手工處理,交互式處理和計(jì)算機(jī)自動(dòng)處理。一般而言,后處理可以在相關(guān)編程過程中由計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)[6]。以下對各種常用的后處理方法做簡單的介紹。 (1)簡單的詞匹配簡單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識(shí)別后文本中的拒識(shí)字提供一個(gè)“最佳”的候選字,其關(guān)鍵是建立漢語詞條數(shù)據(jù)庫。該數(shù)據(jù)庫應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。 (2)綜合詞匹配綜合詞匹配方法,就是綜合利用初級識(shí)別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來決定最后的識(shí)別結(jié)果。這種方法實(shí)際上己把識(shí)別過程和后處理過程融為一體了。綜合利用初級識(shí)別結(jié)果與詞條信息的糾錯(cuò)優(yōu)于單純利用詞條的糾錯(cuò)。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級識(shí)別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫中查詢。在不利用待選集時(shí),對于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫。另外,當(dāng)某一個(gè)詞前后兩個(gè)字都被拒識(shí)時(shí),簡單的詞匹配法就無能為力,而綜合詞匹配法仍能利用詞條信息進(jìn)行糾錯(cuò)。 (3)詞法分析語言是語音和意義的結(jié)合體。語素是最小的語言單位。無論是詞還是短語,都有其構(gòu)成規(guī)則,利用這些規(guī)則,將它們分類。另外,不同的應(yīng)用背景,也有不同的分類結(jié)果。漢字識(shí)別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對仍難以確定的漢字,找出這些漢字與前后漢字所能組成的詞,然后通過詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識(shí)別的漢字。基于詞法分析的漢字識(shí)別后處理的關(guān)鍵是構(gòu)造一個(gè)完善的詞條數(shù)據(jù)庫。該數(shù)據(jù)庫中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語義信息等。 (4)句法、語義分析語句無論是從結(jié)構(gòu)上,還是從意思上都有一種人類共同理解、共同接受和共同遵守的語言組合法則。所以利用語義句法的方法,在初級識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語義分析,從而確定要識(shí)別的漢字。進(jìn)行語義句法分析也要首先建立詞條庫。這時(shí)詞條庫中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語義信息。另外,還要建立起一套句法規(guī)則和語義規(guī)則,以便指導(dǎo)語法分析和語義分析。 (5)人工神經(jīng)元網(wǎng)絡(luò)利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。一種是把識(shí)別過程和后處理過程分開,網(wǎng)絡(luò)的輸入是初級識(shí)別結(jié)果的短語或者句子,其中包含不確定的漢字(或拒識(shí)的漢字),通過網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。另一種方法是把識(shí)別過程和后處理過程綜合在一起,初級識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與待識(shí)字之間的相似度。然后,把這些候選字以及與之相連的相似度輸入網(wǎng)絡(luò),通過網(wǎng)絡(luò)的并行作用,找到最符合漢語語法和語義組合關(guān)系的詞或句子,從而確定出要識(shí)別的漢字。 印刷體漢字識(shí)別方法分析 結(jié)構(gòu)模式識(shí)別方法  漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律。從筆畫上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫,還有提挑、撇點(diǎn)、橫捺等七種變形筆畫。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。換而言之,漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息,可以設(shè)法提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律,將它們作為漢字識(shí)別的依據(jù)。這就是結(jié)構(gòu)模式識(shí)別。 結(jié)構(gòu)模式識(shí)別理論在20 世紀(jì)70 年代初形成,是早期漢字識(shí)別研究的主要方法。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關(guān)系完全可以精確地對漢字加以描述,最后利用形式語言及自動(dòng)機(jī)理論進(jìn)行文法推斷,即識(shí)別。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對字體變化的適應(yīng)性強(qiáng),區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難,匹配過程復(fù)雜。因此,有人采用漢字輪廓結(jié)構(gòu)信息作為特征,但這一方案需要進(jìn)行松弛迭代匹配,耗時(shí)太長,而且對于筆畫較模糊的漢字圖像,抽取輪廓會(huì)遇到極大困難。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來描述漢字,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響。總之單純采用結(jié)構(gòu)模式識(shí)別方法的脫機(jī)手寫漢字識(shí)別系統(tǒng),識(shí)別率較低。 統(tǒng)計(jì)模式識(shí)別方法 統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟。其要點(diǎn)是提取待識(shí)別模式的的一組統(tǒng)計(jì)特征,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類判決。漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,其所用的特征是從這個(gè)整體上經(jīng)過大量的統(tǒng)計(jì)而得到的。統(tǒng)計(jì)特征的特點(diǎn)是抗干擾性強(qiáng),匹配與分類的算法簡單,易于實(shí)現(xiàn)。不足之處在于細(xì)分能力較弱,區(qū)分相似字的能力差一些。常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括[10]:(1)模板匹配模板匹配是將漢字的圖像直接作為特征,將之與特征庫中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點(diǎn)陣均存儲(chǔ)起來,既占用大量的內(nèi)存空間,特別是對嵌入式系統(tǒng)來說是不可容忍的,也將在尋找最相似漢字過程中耗費(fèi)大量的時(shí)間,這對實(shí)時(shí)系統(tǒng)也是致命的。另外,其對于傾斜、筆畫變粗變細(xì)均無良好的適應(yīng)能力。 (2)利用變換特征的方法該方法利用各種函數(shù)變換,例如KL變換、Fourier變換和Gabor變換等對漢字圖像特征進(jìn)行變換。但這些變換如果沒有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復(fù)雜度高。 (3)筆畫方向特征筆畫方向的統(tǒng)計(jì)特征總共有3種:全局筆畫方向密度GDCD,局部筆畫方向密度LDCD和周邊筆畫方向PDC。前兩者用于預(yù)分類,后者用于單字識(shí)別。這些特征都是以筆畫方向貢獻(xiàn)(Direction Contribution)為基礎(chǔ)。 (4)外圍特征漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。 (5)特征點(diǎn)特征漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。一旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。漢字特征點(diǎn)的提取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會(huì)影響漢字特征點(diǎn)的提取。也就是它的魯棒性一般不好。當(dāng)然還有許多種不同的統(tǒng)計(jì)特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。隨著漢字識(shí)別技術(shù)的發(fā)展,已經(jīng)有越來越多的統(tǒng)計(jì)特征出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。如表31所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較:表31 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較 項(xiàng)目方法識(shí)別策略判別方法文字變形變體特征提取相似文字區(qū)分統(tǒng)計(jì)方法向量維數(shù)距離、類似度適應(yīng)性差容易不易區(qū)分結(jié)構(gòu)方法分而治之串行判決適應(yīng)性好不容易容易區(qū)分 由上述分析可見,統(tǒng)計(jì)與結(jié)構(gòu)方法各有優(yōu)缺點(diǎn)。統(tǒng)計(jì)方法具有良好的魯棒性,較好的抗干擾抗噪聲的能力,它一般按一定的距離度量匹配準(zhǔn)則,采用多維特征值累加的辦法,把局部噪聲和微小畸變淹沒在最后的累加和里,但是,可以用來區(qū)分“敏感部位”的差異也隨之消失,因此對漢字結(jié)構(gòu)的差異區(qū)分能力較弱,區(qū)分相似字的能力較差;而結(jié)構(gòu)方法對結(jié)構(gòu)特征較敏感,區(qū)分相似字的能力較強(qiáng),但是結(jié)構(gòu)特征難以抽取,不穩(wěn)定。因此,現(xiàn)在人們已注意到將兩種方法結(jié)合起來使用,加強(qiáng)識(shí)別技術(shù)的穩(wěn)定性與泛化能力使之可處理更多類型、更加復(fù)雜的模式。這是近年來文字識(shí)別領(lǐng)域的一個(gè)重要研究方向,并將得到廣泛應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下稱ANN)是一種模擬人腦神經(jīng)元細(xì)胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡單的基本元件—神經(jīng)元,相互連接成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)[11]。雖然目前對于人腦神經(jīng)元的研究還不算完善,我們無法確定ANN的工作方式是否與人腦神經(jīng)元的運(yùn)作方式相同,但是ANN正在吸引著越來越多的注意力。ANN中的各個(gè)神經(jīng)元的結(jié)構(gòu)與功能較為簡單,但大量的簡單神經(jīng)元的組合卻可以非常復(fù)雜,我們從而可以通過調(diào)整神經(jīng)元間的連接系數(shù)完成分類、識(shí)別等復(fù)雜的功能。ANN還具有一定的自適應(yīng)的學(xué)習(xí)與組織能力,組成網(wǎng)絡(luò)的各個(gè)“細(xì)胞”可以并行工作,并可以通過調(diào)整“細(xì)胞”間的連接系數(shù)完成分類、識(shí)別等復(fù)雜的功能。ANN可以作為單純的分類器(不包含特征提取、選擇),也可以用作功能完善的分類器。在英文字母與數(shù)字的識(shí)別等類別數(shù)目較少的分類問題中,常常將字符的圖像點(diǎn)陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。不同于傳統(tǒng)的模式識(shí)別方法,在這種情況下,神經(jīng)網(wǎng)絡(luò)所“提取”的特征并無明顯的物理含義,而是儲(chǔ)存在神經(jīng)物理中各個(gè)神經(jīng)元的連接之中,省去了由人來決定特征提取的方法與實(shí)現(xiàn)過程。從這個(gè)意義上來說,ANN提供了一種“字符自動(dòng)識(shí)別”的可能性。此外,ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。目前,在對于像漢字識(shí)別這樣超多類的分類問題,ANN的規(guī)模會(huì)很大,結(jié)構(gòu)也很復(fù)雜,實(shí)用性較差。另外,這種方法所需要的訓(xùn)練樣本規(guī)模比較大,訓(xùn)練過程也比較長。對于與樣本相差較大的模式的識(shí)別能力也比較差。這其中的原因很多,主要的原因還在于我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案。人工神經(jīng)網(wǎng)絡(luò)模式識(shí)別與傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別開始是兩個(gè)獨(dú)立發(fā)展的分支,但隨著研究的深入,人們發(fā)現(xiàn)二者之間存在緊密的聯(lián)系。在一些情況下,統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法是可互相替代的,實(shí)際上神經(jīng)網(wǎng)絡(luò)的方法有時(shí)被認(rèn)為是統(tǒng)計(jì)方法的子集。例如,對于統(tǒng)計(jì)模式識(shí)別方法,如分段線性判決函數(shù)法,F(xiàn)isher線性判決規(guī)則,多變量高斯線性分類器,主成分分析PCA(Primary Component Analysis)等,都可用神經(jīng)網(wǎng)絡(luò)的并行計(jì)算結(jié)構(gòu)或迭代計(jì)算結(jié)構(gòu)實(shí)現(xiàn):而一些重要的神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)算法與統(tǒng)計(jì)方法是相通的,如在一定條件下,MLP和RBF分類器的對于訓(xùn)練樣本的輸出就是該樣本的后驗(yàn)概率的估計(jì),這等價(jià)于Bayes方法。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計(jì)方法在數(shù)學(xué)原理上是相通的。但是,神經(jīng)網(wǎng)絡(luò)確實(shí)有優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法的地方,這表現(xiàn)為[11]:(1)神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)構(gòu)是并行的,而且常常是通過大量簡單單元的協(xié)同運(yùn)算完成諸如求矩陣特征值這樣復(fù)雜的計(jì)算任務(wù),這一點(diǎn)在PCA網(wǎng)絡(luò)中得以充分體現(xiàn)。(2)神經(jīng)網(wǎng)絡(luò)不但能在模式空間中形成復(fù)雜的判決表面,而且還具備自適應(yīng)的能力,即網(wǎng)絡(luò)不但具備自適應(yīng)的學(xué)習(xí)能力,還能自適應(yīng)地調(diào)整網(wǎng)絡(luò)規(guī)模的大小,適合大類別集的識(shí)別工作。(3)一般的神經(jīng)網(wǎng)絡(luò)兼有模式變換和模式特征提取的作用,如前饋網(wǎng)絡(luò)的隱層就有非線性映射的功能,這一特點(diǎn)也被利用來與其他方法結(jié)合來確定一些重要的參數(shù)。(4)神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲(chǔ)方式使它具備一定的容錯(cuò)能力,因此神經(jīng)網(wǎng)絡(luò)分類器對于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識(shí)別。由于上述優(yōu)點(diǎn),神經(jīng)網(wǎng)絡(luò)的識(shí)別方法正在越來越多地得到關(guān)注,也因而成為近來的研究熱點(diǎn)。但是,神經(jīng)網(wǎng)絡(luò)方法還需要在以下幾方面進(jìn)行深人研究:網(wǎng)絡(luò)的模型,以保證網(wǎng)絡(luò)的快速收斂;訓(xùn)練樣本集的選擇,全面的學(xué)習(xí)樣本是高識(shí)別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡(luò)的過訓(xùn)練,訓(xùn)練樣本特征的選取,保證良好的識(shí)別穩(wěn)定性。 BP神經(jīng)網(wǎng)絡(luò)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入 輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小[12]。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hide layer)和輸出層(output layer)。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖():輸入層隱層輸出層權(quán)修正誤差e訓(xùn)練信號 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長一段時(shí)間里沒有找到隱層的連接權(quán)值調(diào)整問題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。 BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個(gè)過程組成。輸入層各神經(jīng)元負(fù)責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1