freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

中文分詞研究現狀ppt課件(編輯修改稿)

2025-06-08 05:46 本頁面
 

【文章內容簡介】 Segmenter PR,基于 GATE研究人員參加 Bakeoff 2022中文分詞任務的工作。 – 采用 PAUM算法,從 Bakeoff 2022訓練語料(北大和臺灣中研院提供)學習得到的 PAUM模型,可以直接從網上下載。 – 無論是訓練語料還是生成的切分好的文本,以空格表示切分。 – 注意訓練語料與被切分文本的字符編碼要保持一致。 – 運行時參數: learningMode learningAlg modelURL textCode textFilesURL SEGMENTING PAUM/ SVM 已有模型的路徑 UTF8/BIG5/ GB2312/… 被分詞的文本的 目錄 LEARNING 學習生成的模型的路徑 訓練語料的目錄 27 Bakeoff 2022 ? 黃昌寧,趙海等代表微軟亞洲研究院( MSRA)參加 6項賽事(沒有參加 MSRA提供語料的 2項賽事),取得 4個第一, 2個第三 。其余 4個第一,各被一家奪走。至少獲得一個第一名的系統,共有 5個,稱這 5家單位為 top5 。 ? 下表為 top5的情況: 參賽單位 第一名成績 學習模型 特征 微軟亞洲研究院 自然語言計算組 UPUCC/CityUO/ ASO/ASC CRF 改進自 Low and Ng 北京大學 機器感知國家實驗室 MSRAC ME 拷貝自 Low and Ng 臺灣中研院 智能 Agent系統實驗室 CityUC ME 聚類算法重現 Low and Ng 法國電信 北京研發(fā)中心 MSRAO Gao method (language model) / ME 類似 Low and Ng 德州大學 Austin分校 語言學系 UPUCO ME 拷貝自 Low and Ng s 28 Bakeoff 2022 – 概況 參賽單位 成績 學習模型 香港城市大學 5項 分詞 封閉測試中,包攬 5個第一 4項 命名實體識別 測試中,獲得 3個第二, 2個第三 CRF 微軟亞洲研究院 和東北大學 5項 分詞 封閉測試中,獲得 4個第二, 1個第五 CRF 法國電信 北京研發(fā)中心 分詞 開放測試中,獲得 1個第一 4項 命名實體識別 測試中,獲得 3個第一, 1個第四 CRF Yahoo!Inc. 參加 4項 詞性標注 封閉測試,獲得 4個第一, 4個第二 ME 以上 CRF模型都采用免費工具 CRF++實現 29 Bakeoff 2022 – 香港城市大學 ? ―Character tagging bees a prevailing technique for this kind of labeling task for Chinese language processing, following the current trend of applying machine learning as a core technology in the field of natural language processing.‖——趙海 ? 標注集 – 分詞:沿用 MSRA在 Bakeoff 2022的 6詞位標注( B, B1, B2, M, E, S) – 對于命名實體識別的標注集,舉例如下: ? 特征模板集 – 對于分詞和命名實體識別封閉測試,采用 同樣的特征模板集 : – 除以上特征模板,還包括“無監(jiān)督切詞器的輸出” 30 Bakeoff 2022 – 香港城市大學 ? 在 Bakeoff 2022數據上的實驗,展示了 CRF模型計算的開銷: CRF的計算負載一般要比 ME高一個數量級 —— 趙海 ? 趙海的博客 31 Bakeoff 2022 – MSRAamp。NEU ? Basic CRF Tagger – 標注集: 沿用 MSRA在 Bakeoff 2022的 6詞位標注 – 特征模板集: 在 MSRA Bakeoff 2022的基礎上增加了 Word Flag ? Word Based Segmenter – 對每句,用三元語言模型切詞,選擇概率最大的 3種方式。 – 對某個字,如果基于字的標注的概率小于某個閾值,則使用基于詞的標注,用以 提高已登錄詞的召回率 。 – 但是,如果該字基于詞的標注是“獨立成詞”,那么使用基于字的標注。這種做法的原因是: 基于詞的標注常常將未登錄詞切分為單字 。 ? Postprocessing Rule – 處理一種特定情況: 一個未登錄詞常常被分為多個詞 。 – 處理當前句子時,緩存前 20個句子,如果存在 27個字組成的字符串重復出現,次數超過閾值,且這個字符串沒有在訓練數據中出現過,那么這個字符串加入候選詞。 32 Bakeoff 2022 – 法國電信北京研發(fā)中心 ? Problems of NER with only local information – ―Many empirical approaches…make decision only on local context for extract inference, which is based on the data independent assumption. But often this assumption does not hold because nonlocal dependencies are prevalent in natural language.‖ – Observation from Experiments: ? There are many seen named entities are missed。 ? At least 10% of unseen and missed named entities have been labeled out correctly for at least once. – ―If the context surrounding one occurrence of a token sequence is very indicative of it being an entity, then this should also influence the labeling of another occurrence of the same token sequence in a different context that is not indicative of entity‖. 33 Bakeoff 2022 – 法國電信北京研發(fā)中心 34 Bakeoff 2022 – 法國電信北京研發(fā)中心 ? Local Features – Unigram:
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1