freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

國家圖書館輿情監(jiān)測系統(tǒng)功能需求書(編輯修改稿)

2024-08-30 01:51 本頁面
 

【文章內(nèi)容簡介】 類完成的文章為樣本,結(jié)合關(guān)鍵詞設(shè)計(jì)一套多級分類樹形體系,該分類模型可根據(jù)系統(tǒng)的發(fā)展,隨時(shí)進(jìn)行更新和管理,使之能不斷完善,提供更好的分類準(zhǔn)確性。需要進(jìn)行分類的數(shù)據(jù)調(diào)用自動(dòng)分類功能并按模型進(jìn)行分類,以自動(dòng)分類為主來完成主要的工作,以規(guī)則分類輔助完成包含特定規(guī)則的分類處理。對于分類模糊的信息,可以提示編輯進(jìn)行審核,采用人工分類方式加工和維護(hù)。分類模型維護(hù)數(shù)據(jù)庫人工分類維護(hù)自動(dòng)分類分類系統(tǒng)功能系統(tǒng)示意圖自動(dòng)分類功能支持基于語義規(guī)則的自動(dòng)分類(機(jī)檢分類)和基于統(tǒng)計(jì)原理的自動(dòng)分類兩種方法。l 基于語義規(guī)則的自動(dòng)分類(機(jī)檢分類)實(shí)現(xiàn)的基于語義規(guī)則的自動(dòng)分類具備以下功能特點(diǎn):用戶可以自由維護(hù)分類詞表,人工添加或修改規(guī)則,詞表大小沒有限制。分類方法也可以隨意更新,類別個(gè)數(shù)和結(jié)構(gòu)都沒有限制。支持多級分類。支持類別復(fù)分。內(nèi)存中統(tǒng)一建立規(guī)則索引,根據(jù)文本直接定位規(guī)則,減少規(guī)則匹配花費(fèi)時(shí)間,運(yùn)行效率高,每秒分類100篇以上。用戶可以對規(guī)則分配不同的置信度,在多條規(guī)則發(fā)生沖突的情況下,選擇置信度較高的規(guī)則進(jìn)行匹配,提高準(zhǔn)確率。l 基于統(tǒng)計(jì)原理的自動(dòng)分類統(tǒng)計(jì)原理的自動(dòng)分類系統(tǒng)采用機(jī)器自動(dòng)學(xué)習(xí)的方式,特點(diǎn)如下:可對文本/網(wǎng)頁進(jìn)行基于內(nèi)容的自動(dòng)分類,不需人工干預(yù)。自動(dòng)分類準(zhǔn)確率達(dá)到85%以上,滿足大多數(shù)應(yīng)用的實(shí)用要求。支持復(fù)分,一篇文章能分入多個(gè)符合條件的分類。支持多級分類,每級可支持100個(gè)子類。提供分類訓(xùn)練工具,允許用戶自行根據(jù)自己的分類需求和數(shù)據(jù)特點(diǎn)設(shè)定分類結(jié)構(gòu),自動(dòng)生成特征模板,也可以為用戶定制和優(yōu)化分類模板,提供個(gè)性化選擇。分類器支持反饋學(xué)習(xí)功能,可以根據(jù)用戶的反饋?zhàn)詣?dòng)對分類模板進(jìn)行完善。分類模板生成后,可增量式增加新類。分類速度在每秒40篇以上。支持中英文分類或中英文混合分類。 自動(dòng)排重系統(tǒng)能夠根據(jù)URL直接去重,同時(shí)還要能夠根據(jù)內(nèi)容比較去重。利用相似性檢索技術(shù),對標(biāo)題或內(nèi)容有重復(fù)性的信息自動(dòng)歸類,并可設(shè)置是否存儲(chǔ)重復(fù)信息,對于標(biāo)題不同而內(nèi)容近似的內(nèi)容同樣可以識別。利用內(nèi)容的相似性進(jìn)行排重判斷,準(zhǔn)確性高,它不會(huì)因?yàn)闃?biāo)題或內(nèi)容的少許變化而產(chǎn)生漏判,即使把標(biāo)題進(jìn)行了改頭換面,系統(tǒng)也會(huì)正確判定。已經(jīng)判定重復(fù)的信息不能簡單地丟掉,而是做好重復(fù)標(biāo)記后入庫,這樣處理可在本地查詢到稿件的相似報(bào)道。 相似性檢索在效率上達(dá)到百萬級資料庫上的秒級響應(yīng)速度。 內(nèi)碼轉(zhuǎn)換在數(shù)據(jù)庫中網(wǎng)頁信息應(yīng)以統(tǒng)一的內(nèi)碼存儲(chǔ),因此對采集的網(wǎng)頁信息需要統(tǒng)一進(jìn)行內(nèi)碼轉(zhuǎn)換處理。即信息在采集時(shí)需要自動(dòng)識別多種字符集編碼,包括中文、英文、中文簡體、中文繁體等。網(wǎng)頁統(tǒng)一存儲(chǔ)的內(nèi)碼可以選擇GBK,GB18030或者Unicode等。不論選擇哪種內(nèi)碼作為存儲(chǔ)標(biāo)準(zhǔn),都需要把各種網(wǎng)頁內(nèi)碼統(tǒng)一轉(zhuǎn)換成標(biāo)準(zhǔn)內(nèi)碼。繁體字網(wǎng)頁在采集后將其轉(zhuǎn)換成簡體內(nèi)容。 3 信息存儲(chǔ) 數(shù)據(jù)存儲(chǔ)采集下來的信息存入輿情初始信息庫,并建立索引以提供全文檢索,另外,對初始信息進(jìn)行分析,例如過濾出本行業(yè)的內(nèi)容,可以根據(jù)過濾的情況確定各種輿情分析庫的結(jié)構(gòu)和存儲(chǔ),生成各種應(yīng)用方向的輿情分析庫,如轉(zhuǎn)載庫、聚類主題庫等,歷史信息存入輿情歷史資料庫。 輿情全文檢索 可對簡報(bào)、報(bào)告的Word附件進(jìn)行全文檢索??梢园磥碓?、時(shí)間、境內(nèi)境外、博客/論壇/新聞等多種分類檢索、關(guān)鍵詞檢索、高級檢索(組合檢索)為系統(tǒng)用戶提供互聯(lián)網(wǎng)信息的全文檢索功能,不同用戶根據(jù)其權(quán)限檢索相關(guān)的內(nèi)容。 輿情數(shù)據(jù)中心對應(yīng)用服務(wù)的支撐通過輿情數(shù)據(jù)中心支撐各種應(yīng)用服務(wù)功能,包括加工、流轉(zhuǎn)、授權(quán)、傳輸、服務(wù)、報(bào)告、推送、預(yù)警等功能,并支持各種智能處理服務(wù)應(yīng)用,包括分類、聚類、相似性檢索、信息抽取、各種智能分析模型等。數(shù)據(jù)中心中的信息可提供數(shù)據(jù)導(dǎo)出和數(shù)據(jù)導(dǎo)入功能,可實(shí)現(xiàn)與其它系統(tǒng)文件級的信息共享。4 功能要求維護(hù)人員可方便指定采集的目標(biāo)站點(diǎn)或頁面。采用多線程并發(fā)搜索技術(shù),采集過程高效準(zhǔn)確。提供高效的更新手段,已經(jīng)采集過的信息不會(huì)重復(fù)采集,更新時(shí)只獲取前次采集后更新的網(wǎng)頁。維護(hù)人員可方便設(shè)定信息監(jiān)測的時(shí)間周期。采集源定義,分解為網(wǎng)站名和頻道名,使來源屬性更為準(zhǔn)確。對于采集失效的采集源,采集模塊中需要用紅色顯示,表明采集失效。支持對采集的網(wǎng)頁信息進(jìn)行自動(dòng)分類。支持按內(nèi)容對采集的網(wǎng)頁信息進(jìn)行自動(dòng)排重,實(shí)現(xiàn)關(guān)聯(lián)信息確定。自動(dòng)分類和自動(dòng)排重功能作為可選項(xiàng)提供,可由維護(hù)人員設(shè)定。自動(dòng)過濾網(wǎng)頁中新聞的正文內(nèi)容,剔除垃圾信息。自動(dòng)提取網(wǎng)頁中的屬性信息,包括時(shí)間、來源、作者、單位等。引入日期變量,使用戶可精確定位帶有日期信息的欄目或頻道。引入頁碼變量,可有效采集按一定翻頁規(guī)則從數(shù)據(jù)庫發(fā)布出來的信息,支持分頁采集和分頁的合并。引入數(shù)字變量,可有效采集按一定數(shù)字規(guī)則從數(shù)據(jù)庫發(fā)布出來的信息?!     ≈С謱W(wǎng)頁中表格內(nèi)容的自動(dòng)判斷和獲取。對于論壇內(nèi)容,能夠?qū)χ魈突靥謩e抓取,并可按需要進(jìn)行合并和關(guān)聯(lián),論壇內(nèi)容一般還包括標(biāo)題、關(guān)鍵詞、作者、來源、時(shí)間、點(diǎn)擊數(shù)、評論數(shù)、回復(fù)數(shù)等關(guān)鍵信息。具備代理技術(shù),實(shí)現(xiàn)對部分海外屏蔽報(bào)道(尤其是港澳臺(tái)信息)的采集能力。能夠采集需要用戶身份驗(yàn)證的網(wǎng)站??梢圆杉W(wǎng)頁中的圖片和表格,并在正文中標(biāo)記圖片和表格的位置;維護(hù)人員可以指定是否采集圖片和表格,并且可以指定數(shù)據(jù)庫存儲(chǔ)策略,即在哪些數(shù)據(jù)庫中存儲(chǔ)圖片。采集過程需成熟可靠,容錯(cuò)性強(qiáng),完成初始設(shè)定后可長時(shí)間穩(wěn)定運(yùn)行??梢造`活設(shè)定采集結(jié)果的存儲(chǔ)方式提供數(shù)據(jù)導(dǎo)出和數(shù)據(jù)導(dǎo)入功能,可實(shí)現(xiàn)與其它系統(tǒng)文件級的信息共享,并為實(shí)現(xiàn)與其他系統(tǒng)數(shù)據(jù)交換提供技術(shù)支持。 需保留網(wǎng)頁快照(二)輿情智能分析1 智能分析處理 智能分析框架內(nèi)容基于豐富的語義分析技術(shù)、模型和分析算法,以各種柱圖、餅圖、折線圖方式,針對用戶關(guān)注信息和業(yè)務(wù)分析的需求,建設(shè)包括熱點(diǎn)分析、趨勢分析、專題分析、傳播分析、敏感信息分析、關(guān)聯(lián)分析等圖形分析功能,智能分析需要結(jié)合到系統(tǒng)中,關(guān)聯(lián)全部、一類數(shù)據(jù)或者單條數(shù)據(jù),并多維度展示分析結(jié)果??梢酝ㄟ^訓(xùn)練不斷提高精確度,建設(shè)專屬深入分析模型。輿情信息搜索管理平臺(tái)涉及的主要智能處理功能包括1)文本分類 系統(tǒng)應(yīng)支持基于內(nèi)容的和基于規(guī)則的自動(dòng)分類。系統(tǒng)應(yīng)提供基于內(nèi)容的需要提供分類訓(xùn)練器,以分類語料文本作為輸入,生成基于內(nèi)容的自動(dòng)分類模板。系統(tǒng)應(yīng)支持
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1