【文章內(nèi)容簡(jiǎn)介】
LINE文章標(biāo)題TEXT…/TEXT文章內(nèi)容P…/P段落標(biāo)記下面是EPCQA對(duì)一篇文檔的標(biāo)注實(shí)例。DOCDOCNO /DOCNOSOURCE INTERNET /SOURCEPUBLISHER ChineseLDC /PUBLISHERBODYHEADLINE 1987諾貝爾文學(xué)獎(jiǎng)/HEADLINETEXTP約瑟夫布羅茨基(Joseph Brodsky, 1940~1996)蘇裔美籍詩人。生于列寧格勒一個(gè)猶太家庭,父親是攝影師,布羅茨基自小酷愛自由,因不滿學(xué)校的刻板教育,15歲便退學(xué)進(jìn)入社會(huì)。他先后當(dāng)過火車司爐工、板金工、醫(yī)院陳尸房工人、地質(zhì)勘探隊(duì)的雜務(wù)工等。業(yè)余時(shí)間堅(jiān)持寫詩,譯詩。/P……P1987年,由于他的作品“超越時(shí)空限制,無論在文學(xué)上及敏感問題方面,都充分顯示出他廣闊的思想和濃郁的詩意”,獲得諾貝爾文學(xué)獎(jiǎng)。/P/TEXT/BODY/DOC4 建立測(cè)試集EPCQA已從多個(gè)不同的渠道(例如,自然語言搜索網(wǎng)站日志、百科知識(shí)問答題庫(kù)、實(shí)驗(yàn)室工作人員,對(duì)英語提問的翻譯等)收集了4250個(gè)基于事實(shí)的測(cè)試問題,以及這些提問在EPCQA語料庫(kù)中的答案。 EPCQA建立原則和步驟EPCQA測(cè)試集的建立遵循全面性、真實(shí)性和無歧義性三個(gè)原則。其中,全面性指測(cè)試集中的提問要盡量涵蓋多個(gè)主題,避免千篇一律地全是提問人物或者地點(diǎn)等。真實(shí)性指測(cè)試集中的提問應(yīng)盡量反映用戶使用疑問句的習(xí)慣,避免千篇一律的疑問句法。TREC8在測(cè)試集的真實(shí)性方面做得不夠,因?yàn)闇y(cè)試集中的一部分提問是通過逆構(gòu)法問題設(shè)計(jì)者先找一個(gè)自己感興趣的topic,然后根據(jù)檢索到的文本把陳述句改為疑問句。產(chǎn)生的。這樣的問句通常會(huì)包括較多的提示信息,比較容易回答[Ellen M. Voorhees, 1999]。從TREC9開始,測(cè)試集都是從自然語言檢索系統(tǒng)的搜索日志(例如MSNSearch和AskJeeves的搜索日志)中提取出來的。無歧義性指測(cè)試集中的每個(gè)提問都不能有歧義。按照上述三個(gè)原則,我們分三步完成了漢語問答系統(tǒng)測(cè)試集的建立:第一步、自動(dòng)過濾過濾原則是問句中應(yīng)該包括一個(gè)疑問詞(誰,哪,什么時(shí)候等);或者以情態(tài)詞或動(dòng)詞開始;或者以問號(hào)結(jié)束。第二步、人工過濾過濾掉的問題包括非事實(shí)問題,程序問題,某物在網(wǎng)絡(luò)中位置問題,模糊性的問題等。第三步、人工修正對(duì)測(cè)試集進(jìn)行的人工修正的工作主要包括拼寫檢查,標(biāo)點(diǎn)符號(hào)檢查和語法規(guī)則的檢查等。EPCQA從自然語言搜索網(wǎng)站的日志中共提取5400多個(gè)提問。但是,其中很多提問還不是現(xiàn)階段問答系統(tǒng)研究的重點(diǎn),例如:非基于事實(shí)的提問、省略了疑問詞的提問、表達(dá)模糊的提問、要求回答的是完成某件事的程序而非簡(jiǎn)短答案的提問,等等。我們對(duì)這些提問進(jìn)行人工剔除。例如提問:如何網(wǎng)上賺錢? 女朋友過生日送什么禮物?如何申請(qǐng)免費(fèi)空間?成龍的近況如何?等等。還有一些符合要求但表達(dá)不當(dāng)?shù)奶釂?,我們?duì)它們進(jìn)行了一定的修改。百科知識(shí)問答題庫(kù)中的提問相對(duì)比較書面化,不能夠反映用戶使用問句的方式。對(duì)此我們進(jìn)行了一些口語化的處理。例如提問:香港電影《花樣年華》最近在第53屆戛納國(guó)際電影節(jié)上獲最佳男主角獎(jiǎng),在該片中飾演男主角的哪一位演員?中國(guó)第一次派運(yùn)動(dòng)員參加的奧運(yùn)會(huì)和中國(guó)奪得第一枚金牌的奧運(yùn)會(huì)是在同一城市舉行,它是什么城市?我們分別把它們修改成:誰在香港電影《花樣年華》中飾演男主角?中國(guó)奪得第一枚金牌的奧運(yùn)會(huì)是在哪個(gè)城市舉辦的?我們認(rèn)為這樣更能反映系統(tǒng)在使用中的實(shí)際情況。實(shí)驗(yàn)室工作人員可以提出任何他們感興趣的問題,我們只是要求對(duì)提問的表達(dá)要盡可能的多樣化,不要總是用是同一種提問方式。對(duì)英語提問句的翻譯是我們獲取漢語問答系統(tǒng)測(cè)試集的另一個(gè)非常重要的途徑。其中,英語提問句的來源主要是往屆的TREC比賽的測(cè)試集。我們這里的“翻譯”不全是對(duì)英語提問句的直接翻譯,而是對(duì)于部分可能在中文中找不出答案的提問在不改變提問類型的情況下,進(jìn)行了適當(dāng)?shù)男薷?,例如:英語提問:Who wrote East is east, west is west and never the twain shall meet?中文提問:名著《紅樓夢(mèng)》是誰的作品?英語提問:What is the name of CEO of Apricot Computer? 中文提問:聯(lián)想公司的CEO叫什么名字?目前,我們通過上述四個(gè)途徑已建立了一個(gè)有4250個(gè)提問的漢語問答系統(tǒng)測(cè)試集。很顯然,這個(gè)測(cè)試規(guī)模還很小。我們希望能夠在以后的工作中逐步擴(kuò)大、完善測(cè)試集。 測(cè)試集類型EPCQA的4250個(gè)測(cè)試集問題可以分為三大類,即事實(shí)問題、列表問題和描述問題。事實(shí)問題是指用戶的提問基本上是客觀事實(shí),不是個(gè)人的主觀想法或者意見,其答案通常都是一個(gè)組塊(包括詞和短語)。列表問題實(shí)際上是事實(shí)問題的一個(gè)子類,不同的是系統(tǒng)返回的答案是不少于提問指定數(shù)目的實(shí)例。描述問題則是要求系統(tǒng)給出對(duì)一個(gè)人、一件事物或組織的簡(jiǎn)短描述。 漢語問答系統(tǒng)測(cè)試集的部分實(shí)例Table Some Test Examples of Chinese Question Answering提問類型例子答案事實(shí)問題氧氣占空氣體積的百分之多少?%/21%/五分之一目前國(guó)際奧委會(huì)總部在哪里?瑞士洛桑非洲第一高峰乞力馬扎羅山的海拔高度是多少?5892米誰獲得1987年的諾貝爾文學(xué)獎(jiǎng)?約瑟夫布羅茨基被稱為我國(guó)“瓷都”的是指哪一城市?景德鎮(zhèn)中國(guó)最大的商業(yè)銀行是什么銀行?中國(guó)工商銀行布什是誰?美國(guó)總統(tǒng)林肯是怎么