freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于語(yǔ)料庫(kù)的工作(參考版)

2024-10-16 10:23本頁(yè)面
  

【正文】 , $ ( ) ``’’ ? FW, SYM, LS 2020/11/17 中文信息處理 基于語(yǔ)料庫(kù)的工作 31 標(biāo)注集 ? General definition: – Tags can be represented as a vector: (c1,c2,...,) – Thought of as a flat list T = { ti }i=1..n with some assumed 1:1 mapping T ? (C1,C2,...,Cn) ? English tagsets: – Penn treebank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) – Brown Corpus (87), Claws c5 (62), LondonLund (197) 2020/11/17 中文信息處理 基于語(yǔ)料庫(kù)的工作 32 其它語(yǔ)言的標(biāo)注集 ? Differences: – Larger number of tags – categories covered (POS, Number, Case, Negation,...) – level of detail – presentation (short names vs. structured (―positional‖)) ? Example: 。sum232。eacute。eacute。x43。 )出現(xiàn)位置之后加一個(gè)假設(shè)的句子邊界 ? 如果假設(shè)邊界后面有引號(hào),那么把假設(shè)邊界轉(zhuǎn)移到引號(hào)后面 – 如果在句點(diǎn)之前是一個(gè)不縱出現(xiàn)在句子末尾的眾所周知的縮寫(xiě)形式,而且通常后面會(huì)跟一個(gè)大寫(xiě)的名字,例如: prof. – 如果句點(diǎn)前面是一個(gè)眾所周知的縮寫(xiě)形式,但是句點(diǎn)后面沒(méi)有大寫(xiě)詞。 ) – 句子的順序可能會(huì)被打亂 ? “ You should be here,” she said, “before I know it!” – 引號(hào)可能在句子的最后一個(gè)標(biāo)點(diǎn)的后面 – 識(shí)別句子的邊界,可以采用一些啟發(fā)式的方法,也有一些學(xué)者嘗試自動(dòng)的方法來(lái)識(shí)別句子的邊界。 ” 、 “ , ” 、 “ ! ” 或者 “ ? ”結(jié)尾的內(nèi)容。 2020/11/17 中文信息處理 基于語(yǔ)料庫(kù)的工作 16 標(biāo)記化:什么是一個(gè)詞 ? 單撇號(hào) – I’m, isn’t …… – I am, is not ? dog’s 表示什么? – dog is, dog has,還是所有格形式? ? 詞末尾的單撇號(hào)如何處理? – 通常代表一對(duì)引號(hào)的結(jié)束,不是該詞的一部分 – 如果它跟著一個(gè) s出現(xiàn) ? boys’ toys 2020/11/17 中文信息處理 基于語(yǔ)料庫(kù)的工作 17 標(biāo)記化:什么是一個(gè)詞 ? 連字符:不同形式表示相同形式的詞 – 帶有連字符的一串字母應(yīng)該看成一個(gè)詞還是兩個(gè)?(有時(shí)候是一個(gè),有時(shí)候是兩個(gè)) ? 一個(gè),來(lái)源于排版印刷 – 找到一行中最后的連字符,丟棄它,把本行的詞和下一行的連起來(lái) – , cooperate – 連字符用于表示引用的短語(yǔ)或者數(shù)量、比率 ? the 26yearold – database, data base, database – 破折號(hào)和詞語(yǔ)之間的空格 2020/11/17 中文信息處理 基于語(yǔ)料庫(kù)的工作 18 標(biāo)記化:什么是一個(gè)詞 ?相同形
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1