【導(dǎo)讀】語料庫的發(fā)展簡史。語料庫建設(shè)中處理的問題。語料庫,英文為Corpus. 現(xiàn)代的語料庫是指存放在計(jì)算機(jī)里的原始。語料庫中存放的是在語言的實(shí)際使用中真。實(shí)出現(xiàn)過的語言材料;語料庫是以電子計(jì)算機(jī)為載體承載語言知。真實(shí)語料需要經(jīng)過加工,才能成為有用的資源;0日/t11時(shí)/t50分/t。/ns的/u繁榮/an穩(wěn)定/an。生語料庫/熟語料庫。系統(tǒng)型語料庫/專用型語料庫。單語種語料庫/多語種語料庫。用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表。如果數(shù)據(jù)來源于OCR,會(huì)引入錯(cuò)誤識(shí)別的問題。識(shí)別句子中人名的啟發(fā)式方法。表示縮寫,例如:etc.,Calif.。句點(diǎn),這個(gè)句點(diǎn)同時(shí)表示兩種意思。–I’m,isn’t……–dogis,doghas,還是所有格形式?–帶有連字符的一串字母應(yīng)該看成一個(gè)詞還是兩個(gè)?相同形式表示不同的“詞語”。嚴(yán)守一把手機(jī)關(guān)上—嚴(yán)守一把手機(jī)關(guān)上。非詞語分界的空格