freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語料庫的制作和應(yīng)用-文庫吧資料

2024-10-19 09:38本頁面
  

【正文】 Language) 可以用來標(biāo)記電子文件,標(biāo)記后的文件有結(jié)構(gòu)性的標(biāo)記語言。要實現(xiàn)這樣的功能,簡單存儲為 txt文本顯然不能滿足以上要求。實現(xiàn)方式: txt文本,另存為,“ 編碼 ” 對話框中選擇 utf8即可。用于 WordSmith用的語料文本一般應(yīng)為 unicode。 ? 自動標(biāo)注主要包含詞性標(biāo)注和句法標(biāo)注,可以通過軟件來實現(xiàn)。 ? 人工標(biāo)注主要是指功能性標(biāo)注,如語義標(biāo)注、翻譯手段的標(biāo)注,以及為滿足特定研究目的進(jìn)行的附碼如話輪、間接、直接言語行為,等等。前兩者提供段對齊和句對齊;后三個軟件一般只提供句對齊。 ? 對齊:軟件對齊。這一步最重要。對齊軟件有很多, CAT類軟件 、 Paraconc、專門軟件。比如,如果僅僅用于輔助翻譯,就可以采用句對齊。翻譯語料的主要特征是對齊。 replace more whitespaces with just one ? $line=~s/\s+({2,})/$1/g。 matching and replacing all ? $line=~s/\Z\n//g。 matching and replacing all ? $line=~s/\\s{0,}/\s/g。 matching and replacing all ? $line=~s/\*//g。 matching and replacing all ? $line=~s/(.)\n/$1 /g。 ? Header ? p|s ? POS ? 存儲格式( txt|xml) ? 輔助軟件的使用:通常會包含包含文本除噪程序的 headadder, txtmarker。使用Microsoft Word可以 對文本進(jìn)行處理。 ? 將語料以這種方式存儲只是檢索的操作,更重要的是讓存儲的文本內(nèi)容規(guī)范,格式盡量一致,而且沒有亂碼,不必要的空格和軟回車、硬回車,等等 文本噪音 。 Number of texts/samples: 100 orig., 100 transl. Period: 1975–1995 ? 抽樣字?jǐn)?shù)及分配 語料取樣計算 語料文本的基本處理:主要處理方式 1 ? 語料的最常用存儲方式是純文本,純文本顧名思義就是只有文字,不支持任何其他字符格式,如粗體、斜體、下劃線、表格框,等等。 o Brown/LOB:分層抽樣,大小一致;分層抽樣如文學(xué)中小說占 35%,散文占 8%,戲劇占 2%。一般說來,處于研究的需要,語料宜盡
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1