freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

國家圖書館輿情監(jiān)測系統(tǒng)功能需求書-文庫吧資料

2024-08-16 01:51本頁面
  

【正文】 輿情熱點的分析報告及簡報服務。要求提供敏感詞典,并且能夠對敏感詞提供維護和擴展功能。需要內(nèi)置主題詞典、分類詞典等豐富的語言學資源。3)自動聚類和熱點信息分析系統(tǒng)應提供自動聚類功能,方便用戶發(fā)現(xiàn)各個時期的熱點及熱點的隨時間的演變。支持跨語言相似性檢索,輸入中文文檔,可以在庫中檢索相似的英文文檔。2)相似性文檔關聯(lián)為了實現(xiàn)對網(wǎng)絡信息的相關性發(fā)現(xiàn)和關聯(lián),需要實現(xiàn)基于文本內(nèi)容的相似性自動處理。系統(tǒng)應支持基于規(guī)則的自動分類,需要提供分類規(guī)則生成器,規(guī)則的書寫滿足與、或、非、異或等邏輯運算。輿情信息搜索管理平臺涉及的主要智能處理功能包括1)文本分類 系統(tǒng)應支持基于內(nèi)容的和基于規(guī)則的自動分類。 需保留網(wǎng)頁快照(二)輿情智能分析1 智能分析處理 智能分析框架內(nèi)容基于豐富的語義分析技術、模型和分析算法,以各種柱圖、餅圖、折線圖方式,針對用戶關注信息和業(yè)務分析的需求,建設包括熱點分析、趨勢分析、專題分析、傳播分析、敏感信息分析、關聯(lián)分析等圖形分析功能,智能分析需要結合到系統(tǒng)中,關聯(lián)全部、一類數(shù)據(jù)或者單條數(shù)據(jù),并多維度展示分析結果。采集過程需成熟可靠,容錯性強,完成初始設定后可長時間穩(wěn)定運行。能夠采集需要用戶身份驗證的網(wǎng)站。對于論壇內(nèi)容,能夠對主帖和回帖分別抓取,并可按需要進行合并和關聯(lián),論壇內(nèi)容一般還包括標題、關鍵詞、作者、來源、時間、點擊數(shù)、評論數(shù)、回復數(shù)等關鍵信息。引入數(shù)字變量,可有效采集按一定數(shù)字規(guī)則從數(shù)據(jù)庫發(fā)布出來的信息。引入日期變量,使用戶可精確定位帶有日期信息的欄目或頻道。自動過濾網(wǎng)頁中新聞的正文內(nèi)容,剔除垃圾信息。支持按內(nèi)容對采集的網(wǎng)頁信息進行自動排重,實現(xiàn)關聯(lián)信息確定。對于采集失效的采集源,采集模塊中需要用紅色顯示,表明采集失效。維護人員可方便設定信息監(jiān)測的時間周期。采用多線程并發(fā)搜索技術,采集過程高效準確。數(shù)據(jù)中心中的信息可提供數(shù)據(jù)導出和數(shù)據(jù)導入功能,可實現(xiàn)與其它系統(tǒng)文件級的信息共享??梢园磥碓础r間、境內(nèi)境外、博客/論壇/新聞等多種分類檢索、關鍵詞檢索、高級檢索(組合檢索)為系統(tǒng)用戶提供互聯(lián)網(wǎng)信息的全文檢索功能,不同用戶根據(jù)其權限檢索相關的內(nèi)容。 3 信息存儲 數(shù)據(jù)存儲采集下來的信息存入輿情初始信息庫,并建立索引以提供全文檢索,另外,對初始信息進行分析,例如過濾出本行業(yè)的內(nèi)容,可以根據(jù)過濾的情況確定各種輿情分析庫的結構和存儲,生成各種應用方向的輿情分析庫,如轉載庫、聚類主題庫等,歷史信息存入輿情歷史資料庫。不論選擇哪種內(nèi)碼作為存儲標準,都需要把各種網(wǎng)頁內(nèi)碼統(tǒng)一轉換成標準內(nèi)碼。即信息在采集時需要自動識別多種字符集編碼,包括中文、英文、中文簡體、中文繁體等。 相似性檢索在效率上達到百萬級資料庫上的秒級響應速度。利用內(nèi)容的相似性進行排重判斷,準確性高,它不會因為標題或內(nèi)容的少許變化而產(chǎn)生漏判,即使把標題進行了改頭換面,系統(tǒng)也會正確判定。 自動排重系統(tǒng)能夠根據(jù)URL直接去重,同時還要能夠根據(jù)內(nèi)容比較去重。分類速度在每秒40篇以上。分類器支持反饋學習功能,可以根據(jù)用戶的反饋自動對分類模板進行完善。支持多級分類,每級可支持100個子類。自動分類準確率達到85%以上,滿足大多數(shù)應用的實用要求。用戶可以對規(guī)則分配不同的置信度,在多條規(guī)則發(fā)生沖突的情況下,選擇置信度較高的規(guī)則進行匹配,提高準確率。支持類別復分。分類方法也可以隨意更新,類別個數(shù)和結構都沒有限制。分類模型維護數(shù)據(jù)庫人工分類維護自動分類分類系統(tǒng)功能系統(tǒng)示意圖自動分類功能支持基于語義規(guī)則的自動分類(機檢分類)和基于統(tǒng)計原理的自動分類兩種方法。需要進行分類的數(shù)據(jù)調用自動分類功能并按模型進行分類,以自動分類為主來完成主要的工作,以規(guī)則分類輔助完成包含特定規(guī)則的分類處理。主題、關鍵詞、來源的自動分類可以借助規(guī)則分類技術實現(xiàn)。對有條件分析出標題、版次、日期、作者、欄目、分類等屬性的網(wǎng)頁,比如存在Meta置標,或者格式特征明顯,可分析并標注這些屬性信息。 內(nèi)容過濾采用自動過濾技術,利用網(wǎng)頁結構分析,自動分析有用的網(wǎng)頁,自動提取元數(shù)據(jù),自動過濾掉不需要采集的網(wǎng)頁和媒體文件,有效避免垃圾信息的下載以及對帶寬的浪費。 敏感資源完善和補充對于通過搜索引擎發(fā)現(xiàn)的屬于敏感信息的來源地址,需經(jīng)過管理人員審核后,將其遷入網(wǎng)頁采集源,生成新的采集配置,也可擴展到整個網(wǎng)站,以便進行有效信息的跟蹤?!駧跈嗪偷卿浀馁Y源搜索系統(tǒng)需采用統(tǒng)一的權限模塊,可以同一個頁面訪問多個搜索系統(tǒng),也可以結合權限,為指定的訪問IP授權,從IP獲得相關的權限?!窠y(tǒng)一結果展示等待各個資源的檢索引擎返回結果,并對這些結果進行分析和提取,以統(tǒng)一的方式返回給用戶。請求多線程并發(fā)遞交給各個資源的檢索引擎,有效提高檢索速度,節(jié)約用戶的時間。利用搜索引擎采集實現(xiàn)全網(wǎng)搜索的服務模式,如下圖所示。 搜索引擎采集 全網(wǎng)監(jiān)測采集架構傳統(tǒng)的信息采集一般是只采集固定的信息源,但往往某些敏感的信息從不被重視的地方首先爆發(fā),針對這種情況,需要借助搜索引擎全網(wǎng)采集的特點,進行全網(wǎng)監(jiān)測。 支持鏈接分析和采集策略控制:支持靈活的采集策略,包括可以指定采集的目錄和層次,以及使用檢索邏輯來定位內(nèi)容,比如可以采用“自行車比賽”這樣的檢索邏輯來控制抓取“有關自行車,但并不是關于自行車比賽”的網(wǎng)頁。 可采集網(wǎng)頁元數(shù)據(jù)和多媒體內(nèi)容:可完整地識別并記錄每個網(wǎng)頁的詳細元數(shù)據(jù)信息,包括網(wǎng)頁名稱、大小、日期、標題、文字內(nèi)容等,網(wǎng)頁中的圖片和表格信息可同時被采集。通過各種采集方式,可以有效采集用戶登錄網(wǎng)頁、動態(tài)生成網(wǎng)頁或文字驗證網(wǎng)頁等。采用網(wǎng)頁結構分析的方法確定鏈接,實現(xiàn)準確抓取,不多抓與少抓。 需使用先進高效的采集技術和策略:采用多線程并發(fā)搜索技術和智能更新策略,每次僅采集最新更新過的網(wǎng)頁,全過程合理高效。網(wǎng)頁采集除采集新聞內(nèi)容主體外,還需要采集對新聞的評論、跟帖等,同時將新聞主體和相關的評論、跟帖建立聯(lián)系,分別儲存論壇采集除采集主貼外,同時要采集跟帖并建立聯(lián)系,分別儲存博客采集除博文外,同時要采集對博文的相關評論并建立聯(lián)系,分別儲存 采集策略系統(tǒng)提供完善、全面而且可配置的采集策略,如下:提供靈活的定制設置目標網(wǎng)站功能,實現(xiàn)對目標網(wǎng)站的實時監(jiān)測和內(nèi)容采集,靈活設置采集網(wǎng)站、采集頻道/欄目、采集頁面、采集
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1