freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

1創(chuàng)新基金(基礎(chǔ)性、前瞻性及軟課題類)電力信息敏感內(nèi)(編輯修改稿)

2025-04-23 23:05 本頁面
 

【文章內(nèi)容簡介】 式統(tǒng)一的多源單一語言(Multiple Language Specific,簡稱為MLS),比如英文語料以及翻譯成英文形式的中文語料。因此大多數(shù)參加 TDT 評測的系統(tǒng)都是基于 MLS 的語言環(huán)境,對話題與報道模型進行描述。隨著跨語言技術(shù)的發(fā)展,包括 James Allan[24]、Leek[7]和 Levow[25]在內(nèi)的一些學者嘗試采用不同的翻譯策略解決 TDT 研究中的跨語言問題,并比較了機器翻譯和其他翻譯技術(shù)在 TDT 中的效果。這些研究的主要貢獻在于規(guī)范化了基于翻譯語言模型的相關(guān)度計算,從而削弱錯譯對系統(tǒng)整體性能的影響,但是這些工作仍然是一種面向單一語言符號的統(tǒng)計策略,而每種源語言本身具備的結(jié)構(gòu)和上下文關(guān)系,以及特征的實際內(nèi)涵都不能通過翻譯的手段有效識別。基于上述問題,目前跨語言 TDT 的核心問題是怎樣在面向多語言信息時,使系統(tǒng)能夠在不脫離任何一種語言的本原環(huán)境下運行。針對這一需要,馬薩諸塞大學的 Larkey[14]嘗試采用源語言模型解決跨語言問題。他首先建立了本地語言假設(Native Language Hypothesis, NLH),其核心內(nèi)容是:組成兩篇報道內(nèi)容的特征如果來自同一種源語言,那么針對這兩篇報道之間的任何匹配算法,都只能在基于源語言的情況下才能獲得最優(yōu)的效果,而不是經(jīng)過翻譯的其他語言。TDT 中所有任務都涉及的一個基本問題是信息與信息之間相關(guān)性的衡量與評價。因此,NLH 可以廣泛地運用于 TDT 中各項課題的跨語言研究。以話題跟蹤任務(TTT)為例,話題只有很少的訓練樣本作為先驗知識,并且這些訓練樣本都采用同一種語言進行描述,而后續(xù)報道流的描述語言則是多樣的。這就給基于 NLH 的跨語言跟蹤造成了困難,因為 NLH 要求參與匹配的報道對象, 必須采用同一種源語言進行描述。Larkey[14]的解決辦法是在系統(tǒng)運行初期采用機器翻譯將報道轉(zhuǎn)換成與話題模型相同的語言形式,如果檢測到相關(guān)報道并且該報道的源語言與話題模型不相同,則將該報道作為話題模型新的訓練樣本并采用源語言進行描述?;谶@種方法,話題模型的結(jié)構(gòu)由不同語言形式的子結(jié)構(gòu)共同組成,后續(xù)的報道流可以在滿足 NLH 的假設下與話題模型進行匹配。這種方法的缺陷在于,源語言結(jié)構(gòu)的性能對最初通過機器翻譯得到的相關(guān)報道依賴性很強,如果機器翻譯為源語言結(jié)構(gòu)提供了錯誤的訓練樣本,那么即使后期的報道流可以在本源特征環(huán)境下進行匹配,也會因為話題模型的偏差被誤導。此外,Jin[26]采用統(tǒng)計策略解決跨語言問題,其核心思想是: 特征空間的上下文本身蘊含了源語言的語義信息,從而可以代替 MT 解決 TDT 的跨語言問題。該方法中沒有涉及到文本的機器翻譯,而是把文本描述成由獨立特征組成的集合,而這些特征都在一種語言形式下進行表示?;谶@種語言環(huán)境,Jin 采用 Bayesian算法匹配話題與報道的相關(guān)度,性能上略優(yōu)于采用 MT 的匹配算法,原因在于語言的多義性往往使特征無法得到 MT 的正確翻譯,從而誤導文本匹配。但是,完全基于統(tǒng)計策略的跨語言方法仍然無法獲得更大的提高,因為特征空間的上下文雖然蘊含了語義信息,但也給文本的描述引入了大量不相關(guān)的噪聲。因此,Leek[27]采用自然語言信息與統(tǒng)計策略相結(jié)合的方式對其進行改進,其利用特征所在的上下文以及詞典知識描述特征: 對非英文文本提取出現(xiàn)頻率最高的若干特征,通過詞典查找特征對應的英文含義,并在這個基礎(chǔ)上通過英文語料背景獲取特征的上下文及其權(quán)重。因此,每個非英文特征都是通過它在詞典中對應的所有英文特征,以及這些英文特征在英文語料中的上下文統(tǒng)計而成?;谶@種方法,TDT 系統(tǒng)的跨語言性能獲得了明顯的提高。在我國,話題發(fā)現(xiàn)作為信息處理領(lǐng)域新穎的研究分支已經(jīng)成為重要的研究熱點。TDT 處理的信息是面向真實新聞事件的報道,其語義描述的精確性和可區(qū)分性更依賴于實體元素[28]。此外,事件的產(chǎn)生和后續(xù)發(fā)展包含了報道之間的時序關(guān)系,其要求 TDT 系統(tǒng)不能單一基于內(nèi)容建立相應的話題模型,而是融合時序特性參與檢測報道間的關(guān)聯(lián)性和跟蹤話題的演化趨勢[29]。在此基礎(chǔ)上,國內(nèi)的相關(guān)研究也面向建立結(jié)構(gòu)化和層次化的話題模型進行了初步嘗試。名實體即語義描述中的實體元素,是描述話題或報道語義的一類特殊語言單位,其對于精確刻畫核心內(nèi)涵和區(qū)別不同主題具有重要意義。TDT 系統(tǒng)應用名實體改進性能的方法主要包括如下兩方面: 名實體特征權(quán)重的再分配,即希望區(qū)別名實體與其它特征對語義描述的能力; 名實體相關(guān)性與其它特征相關(guān)性的線性組合,即希望通過人工或自動的方式調(diào)整名實體在相關(guān)性匹配過程中發(fā)揮的作用。國內(nèi)較早將名實體融入 TDT 系統(tǒng)的研究來自賈自艷[30],其將文本內(nèi)的特征標記為人名、地名和主題信息等類別,并預先指定每種特征類別的價值系數(shù),特征的最終權(quán)重為詞頻和其所屬類別價值系數(shù)的乘積。趙華[31]則通過分析英文寫作的習慣,自動識別新聞報道中首字母大寫和全部大寫的特征,其認為該類特征不僅包含名實體,也包含報道需要重點強調(diào)的特征,并在此基礎(chǔ)上采用相關(guān)度加權(quán)和的方式評估話題與報道的相關(guān)性。上述方法在一定程度上改進了 TDT 系統(tǒng)的性能,但由于是經(jīng)驗性地分配權(quán)重或調(diào)整相關(guān)性線性比例,因此無法保證系統(tǒng)性能的穩(wěn)定性。張闊[32]基于χ2分布統(tǒng)計TDT2 中各名實體類別(人名類、地名類和機構(gòu)名類等)與各話題類別(金融類、自然災害類和科技類等)的關(guān)聯(lián)性,并將這一關(guān)聯(lián)性的量化指標融入特征權(quán)重的再分配,其在提高 NED 系統(tǒng)性能的同時確保了這一改進的穩(wěn)定性。限制名實體在 TDT 領(lǐng)域性能的另一因素是義同形不同的實體無法匹配。針對這一問題,宋丹[33]面向地點類名實體建立地理樹,匹配過程基于兩名實體在地理樹中路徑的覆蓋率進行計算,如“北京”在地理樹中的路徑“亞洲—中國—北京”與實體“北平”的路徑基本一致,其高覆蓋率可以有效匹配兩實體之間的關(guān)聯(lián)性,但該方法因無法處理諸如人名類等其他實體而存在局限性。在此基礎(chǔ)上,駱衛(wèi)華[34,35]基于概念一致性匹配同義的名實體,其通過建立別稱表和后綴表識別不同形態(tài)的名實體是否隸屬于同一概念,如通過別稱表識別“李光耀”和“李資政”為同一概念;而基于后綴表識別“江蘇省”和“江蘇”為同義實體,該方法的缺陷在于依賴詞典的規(guī)模和訓練語料的新舊,對于報道流中最新出現(xiàn)的名實體依然無法匹配。話題起始于種子事件并包含后續(xù)相關(guān)事件,而構(gòu)成事件描述的一項重要特性是其產(chǎn)生的時間,因此話題模型內(nèi)各相關(guān)報道之間往往具備時序關(guān)系。國內(nèi)將時序融入 TDT 領(lǐng)域的主要策略是將其作為相關(guān)性評估的附加元素,通過線性加權(quán)的方式調(diào)整相關(guān)度指標。賈自艷[30]建立了統(tǒng)一時間表述方式的機制,在此基礎(chǔ)上將當前報道與話題框架下新近事件的時間取差值,并利用該指標削弱基于內(nèi)容匹配獲得的相關(guān)度,其基本思想是:報道與事件時序關(guān)系越近,則它們相關(guān)的概率越大。該方法提高了 TDT系統(tǒng)檢測與跟蹤話題演化趨勢的性能,與其相似的工作是趙華[36]面向話題演化邊界識別的研究,其訓練一項表征話題演化周期的閾值,檢測后續(xù)報道與話題模型內(nèi)最新事件的時間差是否高于該閾值,將滿足這一條件的報道作為話題演化的邊界,該方法同樣改進了 TDT 系統(tǒng)的性能。但由于上述方法或基于經(jīng)驗性的假設,或依賴于訓練語料的規(guī)模,因此不能確保系統(tǒng)性能的穩(wěn)定。有助于解決這一缺陷的研究來自宋丹[33]的時間“覆蓋矩陣”,其將相關(guān)性匹配雙方的時間信息統(tǒng)一為標準格式,并分別映射于橫縱時間軸上的點,基于對角線檢測所有同步點及其時間間隔,在此基礎(chǔ)上以所有間隔的覆蓋率描述匹配雙方時序關(guān)系的相似性。該方法可獲得相對穩(wěn)定的性能提高。但話題的出現(xiàn)存在跳躍性,即在較長歷史時間段內(nèi),同一話題在一定周期內(nèi)規(guī)律性的出現(xiàn)。這一現(xiàn)象限制了上述假設,即時序關(guān)系較近或匹配雙方包含較多近似時間信息則相關(guān)性較高。因此,國內(nèi)在 TDT 領(lǐng)域應用時序關(guān)系的研究仍有較大可提升的空間。話題模型層次化和結(jié)構(gòu)化是目前 TDT 領(lǐng)域重要的研究方向。其中,層次化面向?qū)⑼辉掝}下的相關(guān)報道組織為宏觀到具體的層次體系;結(jié)構(gòu)化則側(cè)重挖掘和表征同一話題的不同側(cè)面。國內(nèi)嘗試建立層次化話題模型的研究來自駱衛(wèi)華[34]和張闊[32],前者首先基于時序關(guān)系對報道分組,然后進行組內(nèi)自底向上的層次聚類,最后按時間順序采用單路徑聚類策略合并相關(guān)類;后者則面向報道全集建立層次化的索引樹,樹中第一層節(jié)點對應特定話題,而其子樹則描述了該話題的層次體系,其建樹過程基于輸入的報道相對于樹中各層次節(jié)點是否為新事件進行組織。上述兩種策略在改進檢測性能的同時也提高了系統(tǒng)效率,但在如何基于層次關(guān)系刻畫話題語義及其演化趨勢方面仍需要更深入的探索。針對結(jié)構(gòu)化話題模型的研究來自趙華[36]和金珠[37]。前者嘗試了基于時序和特征分布密度識別話題演化的邊界,在此基礎(chǔ)上以演化邊界為劃分將話題描述為初始質(zhì)心和當前質(zhì)心兩項子結(jié)構(gòu),后續(xù)報道與話題的相關(guān)性取自其與兩項質(zhì)心的相關(guān)性最大者。后者則對話題內(nèi)的相關(guān)報道進行聚類,抽取聚類中的特征建立事件框架以描述話題的不同側(cè)面,此外其通過 HowNet 建立事件內(nèi)的情態(tài)關(guān)系和角色框架,扶助描述話題不同側(cè)面的傾向性。該兩種方法提高了話題跟蹤系統(tǒng)的性能,尤其前者對話題演化趨勢的識別和描述提高了跟蹤系統(tǒng)的實用性。總體而言,國內(nèi)相關(guān)研究側(cè)重挖掘 TDT 領(lǐng)域的特性,在方法上注重統(tǒng)計策略和自然語言處理技術(shù)相結(jié)合,在研究趨勢上逐步面向融入數(shù)據(jù)挖掘、事件抽取和篇章理解等相關(guān)技術(shù)。此外,國內(nèi)相關(guān)研究也朝著更加細化和更加實用化的方向發(fā)展。但是幾乎所有現(xiàn)有的輿情監(jiān)控系統(tǒng)產(chǎn)品(如方正智思,網(wǎng)鷹,軍犬等),都還沒有將以聚類為基礎(chǔ)的話題發(fā)現(xiàn)作為一個功能在系統(tǒng)中加以實現(xiàn)近些年,大量的工作關(guān)注于描述和理解社會網(wǎng)絡系統(tǒng)中個體的集群行為產(chǎn)生的原因和發(fā)生、發(fā)展的過程。輿情傳播就是重要的研究方向之一。在意見傳播模型中,以下幾個模型最值得關(guān)注。①Sznajd模型在前面的內(nèi)容中己經(jīng)發(fā)現(xiàn),一個人的意見受到外部社會群體的影響,群體的規(guī)模越大則影響越大,說服一個人,兩個或三個人的意見比一個人更有效,這就是Sznajd模型的思想(稱之為Sznajd B模型)。模型設計如下:每個Agent占據(jù)線性鏈中的一個位子,并且有二元意見,兩個鄰居Agent(i)和Agent(i+1)決定了他們的鄰居的意見(i1,i+2),演化規(guī)則如下:如果Si=Si+1,那么Si1=Si=Si+1=Si+2 (1)如果Si≠Si+1,那么Si1=Si+1;Si=Si+2 (2)如果Agent(i)和Agent(i+1)意見相同,他們會影響其鄰居的意見,按公式(1)運行。相反,如果兩Agent意見不一致,則各自只影響另一個Agent的鄰居。系統(tǒng)中所有Agent用隨機的順序更新,初始狀態(tài)是完全隨機的,兩種意見都隨機分布,最終可以有兩個狀態(tài)(都向上(m=1)或都向下(m=1))都一半上一半下地按磁分布。后一種狀態(tài)按公式(2)運行,有1/2的概率可以獲得,而達成共識的概率各為1/4。概率值可以從上下對稱的模型得到。系統(tǒng)達到吸引點的時間服從對數(shù)分布,從未改變過意見的Agent的個數(shù)首先隨時間冪率衰減,進而達到一個固定的有限值,隨機或相關(guān)的初始條件下的結(jié)果都己經(jīng)給出了解析解。Behera等已經(jīng)證明了在一維模型中,意見傳播模型的信息流的方向是不相關(guān)的,而且Sznajd動力學模型就等價于投票模型。它與經(jīng)典投票模型唯一不同之處在于Agent
點擊復制文檔內(nèi)容
電大資料相關(guān)推薦

創(chuàng)新基金申報提綱-資料下載頁

【總結(jié)】