freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

硬刷題漢字識別技術(shù)的研究畢業(yè)論文(編輯修改稿)

2025-07-25 08:21 本頁面
 

【文章內(nèi)容簡介】 用大量的內(nèi)存空間,特別是對嵌入式系統(tǒng)來說是不可容忍的,也將在尋找最相似漢字過程中耗費大量的時間,這對實時系統(tǒng)也是致命的。另外,其對于傾斜、筆畫變粗變細均無良好的適應(yīng)能力。 (2)利用變換特征的方法該方法利用各種函數(shù)變換,例如KL變換、Fourier變換和Gabor變換等對漢字圖像特征進行變換。但這些變換如果沒有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復(fù)雜度高。 (3)筆畫方向特征筆畫方向的統(tǒng)計特征總共有3種:全局筆畫方向密度GDCD,局部筆畫方向密度LDCD和周邊筆畫方向PDC。前兩者用于預(yù)分類,后者用于單字識別。這些特征都是以筆畫方向貢獻(Direction Contribution)為基礎(chǔ)。 (4)外圍特征漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連的情況,也能提取較為完全的輪廓信息。 (5)特征點特征漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點上。一旦確定這些筆畫特征點,漢字筆畫以及結(jié)構(gòu)形狀就可以確定。它們包括端點、折點、歧點和交點等。漢字特征點的提取一般是基于漢字細化后的單像素圖像,而往往細化算法不能達到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點點變形或噪聲都會影響漢字特征點的提取。也就是它的魯棒性一般不好。當(dāng)然還有許多種不同的統(tǒng)計特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。隨著漢字識別技術(shù)的發(fā)展,已經(jīng)有越來越多的統(tǒng)計特征出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。如表31所示為統(tǒng)計方法和結(jié)構(gòu)方法特征比較:表31 統(tǒng)計方法和結(jié)構(gòu)方法特征比較 項目方法識別策略判別方法文字變形變體特征提取相似文字區(qū)分統(tǒng)計方法向量維數(shù)距離、類似度適應(yīng)性差容易不易區(qū)分結(jié)構(gòu)方法分而治之串行判決適應(yīng)性好不容易容易區(qū)分 由上述分析可見,統(tǒng)計與結(jié)構(gòu)方法各有優(yōu)缺點。統(tǒng)計方法具有良好的魯棒性,較好的抗干擾抗噪聲的能力,它一般按一定的距離度量匹配準則,采用多維特征值累加的辦法,把局部噪聲和微小畸變淹沒在最后的累加和里,但是,可以用來區(qū)分“敏感部位”的差異也隨之消失,因此對漢字結(jié)構(gòu)的差異區(qū)分能力較弱,區(qū)分相似字的能力較差;而結(jié)構(gòu)方法對結(jié)構(gòu)特征較敏感,區(qū)分相似字的能力較強,但是結(jié)構(gòu)特征難以抽取,不穩(wěn)定。因此,現(xiàn)在人們已注意到將兩種方法結(jié)合起來使用,加強識別技術(shù)的穩(wěn)定性與泛化能力使之可處理更多類型、更加復(fù)雜的模式。這是近年來文字識別領(lǐng)域的一個重要研究方向,并將得到廣泛應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下稱ANN)是一種模擬人腦神經(jīng)元細胞的網(wǎng)絡(luò)結(jié)構(gòu),它是由大量簡單的基本元件—神經(jīng)元,相互連接成的自適應(yīng)非線性動態(tài)系統(tǒng)[11]。雖然目前對于人腦神經(jīng)元的研究還不算完善,我們無法確定ANN的工作方式是否與人腦神經(jīng)元的運作方式相同,但是ANN正在吸引著越來越多的注意力。ANN中的各個神經(jīng)元的結(jié)構(gòu)與功能較為簡單,但大量的簡單神經(jīng)元的組合卻可以非常復(fù)雜,我們從而可以通過調(diào)整神經(jīng)元間的連接系數(shù)完成分類、識別等復(fù)雜的功能。ANN還具有一定的自適應(yīng)的學(xué)習(xí)與組織能力,組成網(wǎng)絡(luò)的各個“細胞”可以并行工作,并可以通過調(diào)整“細胞”間的連接系數(shù)完成分類、識別等復(fù)雜的功能。ANN可以作為單純的分類器(不包含特征提取、選擇),也可以用作功能完善的分類器。在英文字母與數(shù)字的識別等類別數(shù)目較少的分類問題中,常常將字符的圖像點陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。不同于傳統(tǒng)的模式識別方法,在這種情況下,神經(jīng)網(wǎng)絡(luò)所“提取”的特征并無明顯的物理含義,而是儲存在神經(jīng)物理中各個神經(jīng)元的連接之中,省去了由人來決定特征提取的方法與實現(xiàn)過程。從這個意義上來說,ANN提供了一種“字符自動識別”的可能性。此外,ANN分類器是一種非線性的分類器,它可以提供我們很難想象到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。目前,在對于像漢字識別這樣超多類的分類問題,ANN的規(guī)模會很大,結(jié)構(gòu)也很復(fù)雜,實用性較差。另外,這種方法所需要的訓(xùn)練樣本規(guī)模比較大,訓(xùn)練過程也比較長。對于與樣本相差較大的模式的識別能力也比較差。這其中的原因很多,主要的原因還在于我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案。人工神經(jīng)網(wǎng)絡(luò)模式識別與傳統(tǒng)的統(tǒng)計模式識別開始是兩個獨立發(fā)展的分支,但隨著研究的深入,人們發(fā)現(xiàn)二者之間存在緊密的聯(lián)系。在一些情況下,統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法是可互相替代的,實際上神經(jīng)網(wǎng)絡(luò)的方法有時被認為是統(tǒng)計方法的子集。例如,對于統(tǒng)計模式識別方法,如分段線性判決函數(shù)法,F(xiàn)isher線性判決規(guī)則,多變量高斯線性分類器,主成分分析PCA(Primary Component Analysis)等,都可用神經(jīng)網(wǎng)絡(luò)的并行計算結(jié)構(gòu)或迭代計算結(jié)構(gòu)實現(xiàn):而一些重要的神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)算法與統(tǒng)計方法是相通的,如在一定條件下,MLP和RBF分類器的對于訓(xùn)練樣本的輸出就是該樣本的后驗概率的估計,這等價于Bayes方法。因此,我們至少可以說,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計方法在數(shù)學(xué)原理上是相通的。但是,神經(jīng)網(wǎng)絡(luò)確實有優(yōu)于傳統(tǒng)統(tǒng)計方法的地方,這表現(xiàn)為[11]:(1)神經(jīng)網(wǎng)絡(luò)的計算結(jié)構(gòu)是并行的,而且常常是通過大量簡單單元的協(xié)同運算完成諸如求矩陣特征值這樣復(fù)雜的計算任務(wù),這一點在PCA網(wǎng)絡(luò)中得以充分體現(xiàn)。(2)神經(jīng)網(wǎng)絡(luò)不但能在模式空間中形成復(fù)雜的判決表面,而且還具備自適應(yīng)的能力,即網(wǎng)絡(luò)不但具備自適應(yīng)的學(xué)習(xí)能力,還能自適應(yīng)地調(diào)整網(wǎng)絡(luò)規(guī)模的大小,適合大類別集的識別工作。(3)一般的神經(jīng)網(wǎng)絡(luò)兼有模式變換和模式特征提取的作用,如前饋網(wǎng)絡(luò)的隱層就有非線性映射的功能,這一特點也被利用來與其他方法結(jié)合來確定一些重要的參數(shù)。(4)神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲方式使它具備一定的容錯能力,因此神經(jīng)網(wǎng)絡(luò)分類器對于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識別。由于上述優(yōu)點,神經(jīng)網(wǎng)絡(luò)的識別方法正在越來越多地得到關(guān)注,也因而成為近來的研究熱點。但是,神經(jīng)網(wǎng)絡(luò)方法還需要在以下幾方面進行深人研究:網(wǎng)絡(luò)的模型,以保證網(wǎng)絡(luò)的快速收斂;訓(xùn)練樣本集的選擇,全面的學(xué)習(xí)樣本是高識別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡(luò)的過訓(xùn)練,訓(xùn)練樣本特征的選取,保證良好的識別穩(wěn)定性。 BP神經(jīng)網(wǎng)絡(luò)BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入 輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小[12]。BP神經(jīng)網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)包括輸入層(input)、隱層(hide layer)和輸出層(output layer)。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖():輸入層隱層輸出層權(quán)修正誤差e訓(xùn)練信號 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長一段時間里沒有找到隱層的連接權(quán)值調(diào)整問題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問題。 BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。輸入層各神經(jīng)元負責(zé)接收來自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計為單隱層或者多隱層結(jié)構(gòu);最后一個隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進一步處理后,完成一次學(xué)習(xí)的正向傳播處理過程,由輸出層向外界輸出信息處理結(jié)果。當(dāng)實際輸出與期望輸出不符時,進入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過程,是各層權(quán)值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,此過程一直進行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 BP神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)模型包括其輸入輸出模型、作用函數(shù)模型、誤差計算模型和自學(xué)習(xí)模型。 (1)節(jié)點輸出模型 隱節(jié)點輸出模型: (33) 輸出節(jié)點輸出模型: (34) f非線形作用函數(shù);q 神經(jīng)單元閾值。 (2)作用函數(shù)模型作用函數(shù)是反映下層輸入對上層節(jié)點刺激脈沖強度的函數(shù)又稱刺激函數(shù),一般取為(0,1)內(nèi)連續(xù)取值Sigmoid函數(shù): (35)(3)誤差計算模型誤差計算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計算輸出之間誤差大小的函數(shù): (36) tpii節(jié)點的期望輸出值;Opii節(jié)點計算輸出值。(4)自學(xué)習(xí)模型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,即連接下層節(jié)點和上層節(jié)點之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過程。BP網(wǎng)絡(luò)有師學(xué)習(xí)方式需要設(shè)定期望值和無師學(xué)習(xí)方式只需輸入模式之分。自學(xué)習(xí)模型為: (37) h學(xué)習(xí)因子;輸出節(jié)點i的計算誤差;Oj輸出節(jié)點j的計算輸出;a動量因子。 支持向量機是Vapnik 等人根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的機器學(xué)習(xí)方法,已經(jīng)在模式識別、回歸分析和特征選擇等方面得到了較好的效果。支持向量機可以看作一種新的訓(xùn)練多項式、徑向基機分類器或神經(jīng)網(wǎng)絡(luò)分類器的方法。其分類原理是通過某種事先選擇的非線性映射將輸入向量映射到高維特征空間,然后在這個高維空間構(gòu)造最優(yōu)超平面,使兩類之間的間隔最大,同時保證訓(xùn)練樣本的分類誤差盡可能小。支持向量機與神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法相比,支持向量機具有以下特點: (1)支持向量機是基于結(jié)構(gòu)風(fēng)險最小化原則,保證學(xué)習(xí)機器具有良好的泛化能力。 (2)解決了算法復(fù)雜度與輸入向量密切相關(guān)的問題。 (3)通過引用核函數(shù),將輸入空間中的非線性問題映射到高維特征空間中在高維空間中構(gòu)造線性函數(shù)判別。 (4)支持向量機是以統(tǒng)計學(xué)理論為基礎(chǔ)的,與傳統(tǒng)統(tǒng)計學(xué)習(xí)理論不同。它主要是針對小樣本情況,且最優(yōu)解是基于有限的樣本信息,而不是樣本數(shù)趨于無窮大時的最優(yōu)解。 (5)算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無法解決的局部最小問題。 (6)支持向量機有嚴格的理論和數(shù)學(xué)基礎(chǔ),避免了神經(jīng)網(wǎng)絡(luò)實現(xiàn)中的經(jīng)驗成分。 本章小結(jié)本章對印刷體漢字識別技術(shù)的理論部分進行了較為全面和詳細的研究,論述了漢字在識別過程中各個組成部分基本的運作原理,并對多種識別方法進行了簡要的論述及比較。文字的識別方法主要分為結(jié)構(gòu)模式識別、統(tǒng)計模式識別、人工神經(jīng)網(wǎng)絡(luò)三種方法。其中結(jié)構(gòu)模式識別方法主要是早期文字識別的主要方法,隨著統(tǒng)計理論的發(fā)展,統(tǒng)計模式識別方法逐漸成為文字識別主要的研究力法。近年來,人工神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,它模擬人腦的活動方式,更符合人們的思維習(xí)慣。但它的建模比較復(fù)雜,而且運算量大。在印刷體漢字識別中采用有一定的難度,還需進一步改進和簡化。4 系統(tǒng)的Matlab仿真本設(shè)計要實現(xiàn)的是一個能識別三十二個印刷體漢字的識別系統(tǒng)。由于字庫容量較小,因此本設(shè)計對系統(tǒng)的預(yù)期識別率指標定為100%。 印刷體漢字識別系統(tǒng)采用的是十三點特征提取法和神經(jīng)網(wǎng)絡(luò)識別相結(jié)合的原理。十三點特征提取法負責(zé)提取漢字中的特征點,形成一個的向量,作為神經(jīng)網(wǎng)絡(luò)的輸入,我們可以實現(xiàn)一個標準庫神經(jīng)網(wǎng)絡(luò),由于不同的漢字對應(yīng)的特征向量不同,當(dāng)輸入相應(yīng)的特征向量就輸出對應(yīng)的漢字。印刷品上的漢字輸入,經(jīng)過預(yù)處理后,對照標準漢字修補缺損部分,用修補后的漢字進行學(xué)習(xí),形成初始的特征庫后再進行大量樣本的學(xué)習(xí),建立實用的特征庫。系統(tǒng)在識別過程中可進行自學(xué)習(xí)。取標準漢字,對每一漢字計算特征向量。所有按一定的順序排列,建立每一漢字與其國標碼指針。對神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量的標準漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號對應(yīng)的輸出為有效,并建立每一輸出與面積特征庫之間的連接關(guān)系。以后隨著學(xué)習(xí)過程的進行,將建立動態(tài)調(diào)整面積特征庫與神經(jīng)網(wǎng)絡(luò)之間的對應(yīng)關(guān)系。系統(tǒng)共包含五個子功能模塊()。印刷體漢字識別系統(tǒng)掃描預(yù)處理學(xué)習(xí)識別輸出 印刷體漢字識別系統(tǒng)功能模塊漢字圖像預(yù)處理漢字識別識別結(jié)果轉(zhuǎn)灰度圖像均值濾波列分割二值化加載特征庫特征提取特征匹配行分割 印刷體漢字識別工作流程圖,文件首先由文件管理器加載。送入圖像管理模塊,經(jīng)二值化,轉(zhuǎn)灰度,均值濾波,二值化,行、字切割等圖像處理操作后,得到待識別文字的點陣,漢字識別模塊從點陣中提取識別特征,通過十三點特征提取,精確匹配識別結(jié)果。. 系統(tǒng)的實現(xiàn) 此次采用MATLAB進行系統(tǒng)仿真(Matlab仿真程序見參考附錄1),其中學(xué)習(xí)功能使用sim函數(shù)實現(xiàn),特征提取用十三點特征提取法。y = sim( net, P_test);%用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)計算數(shù)據(jù)的第P_test行;其中net是SIMULINK的模型名(神經(jīng)網(wǎng)絡(luò)的對象見參考附錄2);P_test是用來測試數(shù)據(jù)的外部輸入向量。 本系統(tǒng)采用的是十三點特征提取法,首先把字符平均分成8份(),統(tǒng)計每一份內(nèi)黑色像素的個數(shù)作為其中的前8個特征,然后分為13和31兩種情況,分別統(tǒng)計水平方向中間兩列和豎直方向兩列的黑像素點的個數(shù)作為接下來的4個特征,最后統(tǒng)計整個字符中所有黑色像素的個數(shù)作為第十三個特征,從而一共得到了關(guān)于該字符的13個特征。也就是說,現(xiàn)將字符分成8等分,得到
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1