freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

可行性報(bào)告-公眾輿論安全監(jiān)測系統(tǒng)的研制與應(yīng)用(編輯修改稿)

2024-08-23 11:28 本頁面
 

【文章內(nèi)容簡介】 路線。我們把垃圾文章的過濾看成是一個分類問題,即對于一篇文章,判斷其是垃圾文章或者非垃圾文章。當(dāng)然,不同熱點(diǎn)話題文章的分揀很自然地可以被看作是一個分類問題。因此,對于垃圾文章過濾和不同熱點(diǎn)話題文章的分類我們可以采用統(tǒng)一的兩類分類器設(shè)計(jì)方法。例如,針對垃圾文章過濾可以把所有的數(shù)據(jù)分為兩類,一類是有用數(shù)據(jù),另一類是垃圾數(shù)據(jù)。而針對不同話題(醫(yī)療,教育,公安等)的分類,我們可以簡單地將教育和公安等話題分為非醫(yī)療類文章。在分類器設(shè)計(jì)部分我們主要考慮兩種分類方法:1)Adaboost方法,2)先聚類再分類的方法。首先我們提取關(guān)鍵詞向量作為文本的特征。具體做法是:先采用分詞工具提取全樣本集(訓(xùn)練和測試)的關(guān)鍵詞,然后去掉無意義的詞語(語氣詞,連接詞等)得到一個關(guān)鍵詞表,該詞表共有N個關(guān)鍵詞。每一篇文章的特征是一個維數(shù)與關(guān)鍵詞表中詞語個數(shù)相同的向量。我們考慮的兩種方法都是用這種特征向量。Adaboost方法需要一個標(biāo)注的訓(xùn)練集,以下以垃圾文件過濾為例進(jìn)行說明。在訓(xùn)練集中,垃圾文件被標(biāo)注為1,非垃圾文件標(biāo)注為1。第i篇文章可以用特征向量表示為:針對每一維有一個弱分類器:其中,是一個閾值,該閾值保證弱分類器的正確率在50%以上。給出訓(xùn)練樣本:,其中是文章的特征向量,是每篇文章的標(biāo)簽。Adaboost的具體算法是:初始化:設(shè)正負(fù)樣本分別有A個和B個。若,初始化其權(quán)重為,若,初始化其權(quán)重為。對每一個,歸一化。對的每一維,訓(xùn)練一個弱分類器,計(jì)算器錯誤率為:。從中選出最小的一個,記為,計(jì)算。如果,則終止循環(huán),否則增大錯誤樣本權(quán)重為:。最終輸出的分類器為:。在Adaboost方法中,如果訓(xùn)練集太小,不能保證分類器的性能。如果訓(xùn)練集太大,對訓(xùn)練集中的每一個數(shù)據(jù)進(jìn)行標(biāo)注的代價是非常昂貴的。我們考慮的另一個思路是先聚類再分類。對于垃圾文章過濾來說,雖然很多文章都屬于垃圾文章,但是這些文章也自然的聚成一些簡單的類別。通過先聚類再分類的方法,有可能使用更為簡單的分類器設(shè)計(jì)方法就可以得到較好的效果。這是因?yàn)轭悇e分界面可能更簡單了,另外,如果只有少量的樣本這種方法也可以得到不錯的效果。以下針對不同話題分類的問題進(jìn)行說明。假設(shè)我們一共有K個話題,那么我們需要設(shè)置一個合適的類別數(shù)用于聚類,該數(shù)目應(yīng)該大于K。使用這個類別數(shù)對全樣本集進(jìn)行聚類。對過分割的聚類結(jié)果進(jìn)行人工指導(dǎo)的合并,同時去除那些自成一類的野值點(diǎn)。根據(jù)得到的標(biāo)簽數(shù)據(jù),進(jìn)行分類器設(shè)計(jì)。 報(bào)告自動生成本系統(tǒng)將實(shí)現(xiàn)面向公共安全和公安系統(tǒng)的報(bào)告訂制與自動生成功能。將根據(jù)公安等系統(tǒng)的工作方式和要求,制作和生成需要的報(bào)告。報(bào)告的生成需定義模板,然后系統(tǒng)會根據(jù)模板和實(shí)際的數(shù)據(jù)生成最終的報(bào)表,如圖3所示。即最終報(bào)表的樣式取決于模板的定制(定義)。根據(jù)不同用戶的需求可以靈活的定義多種報(bào)表模板。圖3 報(bào)告生成圖示在報(bào)表種類不是特別多的情況下,可以采用動態(tài)網(wǎng)頁直接生成報(bào)表。如果報(bào)表種類特別多,可以采用開源的報(bào)表制作庫。 信息的發(fā)送信息的發(fā)送主要分為預(yù)警模塊和通訊模塊,如圖4所示。圖4 信息發(fā)送圖示(1)預(yù)警模塊實(shí)時監(jiān)控采集數(shù)據(jù),根據(jù)設(shè)定的預(yù)警條件觸發(fā)數(shù)據(jù)警報(bào)并發(fā)送到通訊模塊。預(yù)警條件可以根據(jù)文章的回復(fù)量,閱讀量,或者關(guān)鍵詞信息等設(shè)置,并可以根據(jù)信息的關(guān)注/嚴(yán)重程度設(shè)定預(yù)警級別。(2)通訊模塊根據(jù)警報(bào)類型及級別觸發(fā)不同的通訊方式將信息發(fā)送至相關(guān)人員。通訊的方式包括系統(tǒng)可以自動處理的電子郵件、短信,以及需要客服人員人工處理的電話通知等多種形式。另外,通訊模塊還包括與其它外部系統(tǒng)(例如公安系統(tǒng))的數(shù)據(jù)接口,可以將相關(guān)信息發(fā)送到外部系統(tǒng)。 平臺的設(shè)計(jì)和實(shí)現(xiàn)本系統(tǒng)可以對全國各類互聯(lián)網(wǎng)站點(diǎn),例如論壇、新聞、博客、微博等進(jìn)行實(shí)時掃描監(jiān)控,第一時間獲取客戶有關(guān)的結(jié)構(gòu)化的網(wǎng)絡(luò)信息,例如文章的標(biāo)題,內(nèi)容,閱讀數(shù),回復(fù)數(shù),發(fā)表時間,回復(fù)時間等。系統(tǒng)將對所有信息進(jìn)行智能研判和分析,統(tǒng)計(jì)匯總輿論走勢、輿論來源,并推薦閱讀值得重點(diǎn)關(guān)注的文章,形成閱讀性良好的報(bào)告。而對于突發(fā)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1