freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于語料庫的工作-資料下載頁

2025-10-03 10:23本頁面

【導(dǎo)讀】語料庫的發(fā)展簡史。語料庫建設(shè)中處理的問題。語料庫,英文為Corpus. 現(xiàn)代的語料庫是指存放在計(jì)算機(jī)里的原始。語料庫中存放的是在語言的實(shí)際使用中真。實(shí)出現(xiàn)過的語言材料;語料庫是以電子計(jì)算機(jī)為載體承載語言知。真實(shí)語料需要經(jīng)過加工,才能成為有用的資源;0日/t11時(shí)/t50分/t。/ns的/u繁榮/an穩(wěn)定/an。生語料庫/熟語料庫。系統(tǒng)型語料庫/專用型語料庫。單語種語料庫/多語種語料庫。用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表。如果數(shù)據(jù)來源于OCR,會(huì)引入錯(cuò)誤識(shí)別的問題。識(shí)別句子中人名的啟發(fā)式方法。表示縮寫,例如:etc.,Calif.。句點(diǎn),這個(gè)句點(diǎn)同時(shí)表示兩種意思。–I’m,isn’t……–dogis,doghas,還是所有格形式?–帶有連字符的一串字母應(yīng)該看成一個(gè)詞還是兩個(gè)?相同形式表示不同的“詞語”。嚴(yán)守一把手機(jī)關(guān)上—嚴(yán)守一把手機(jī)關(guān)上。非詞語分界的空格

  

【正文】 cally (we will talk about that in a later lecture). ? 多種標(biāo)注集, ., Brown Tag Set, University of Lancaster Tag Set, Penn Treebank Tag Set, British National Corpus (CLAWS*), Czech National Corpus ? 標(biāo)注集的設(shè)計(jì) – 標(biāo)注集的特征 – Target Features: useful information on the grammatical class ? – Predictive Features: useful for predicting behavior of other words in context (., distinguish modals and auxiliary verbs from regular verbs) 2020/11/17 中文信息處理 基于語料庫的工作 30 Pen Treebank標(biāo)注集 ? Adjective: JJ, JJR, JJS ? Cardinal: CD ? Adverb: RB, RBR, RBS, WRB ? Conjunction: CC, IN (subordinating and that) ? Determiner: DT, PDT, WDT ? Noun: NN, NNS, NNP, NNPS (no distinction for adverbial) ? Pronoun: PRP, PRP$, WP, WP$, EX ? Verb: VB, VBP, VBZ, VBD, VBG, VBN (have, be, and do are not distinguished) ? Infinitive marker (to): TO ? Preposition to: TO ? Other prepositions: IN ? Punctuation: . 。 , $ ( ) ``’’ ? FW, SYM, LS 2020/11/17 中文信息處理 基于語料庫的工作 31 標(biāo)注集 ? General definition: – Tags can be represented as a vector: (c1,c2,...,) – Thought of as a flat list T = { ti }i=1..n with some assumed 1:1 mapping T ? (C1,C2,...,Cn) ? English tagsets: – Penn treebank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) – Brown Corpus (87), Claws c5 (62), LondonLund (197) 2020/11/17 中文信息處理 基于語料庫的工作 32 其它語言的標(biāo)注集 ? Differences: – Larger number of tags – categories covered (POS, Number, Case, Negation,...) – level of detail – presentation (short names vs. structured (―positional‖)) ? Example
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1