【正文】
也應(yīng)充分考慮系統(tǒng)的靈活性和可擴(kuò)充性,使得系統(tǒng)在操作起來 更容易 上手,并且 有很好的界面 ,這些都是開發(fā)人員 應(yīng)該 要考慮的問題。 計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書 8 第 2 章 方案論證 設(shè)計(jì)原理、方案選擇 隨著社會發(fā)展,科學(xué)進(jìn)步,計(jì)算機(jī)技術(shù)日益提高,以及計(jì)算機(jī)用戶的操作水平的不斷提高,用戶對計(jì)算機(jī)應(yīng)用系統(tǒng)的要求也越來越高。闡述了數(shù)據(jù)挖掘技術(shù)的概念和含義。研究人員還使用貝葉斯模型來判斷癥狀和疾病之間的相互關(guān)系,創(chuàng)建個(gè)人機(jī)器人,開發(fā)能夠根據(jù)數(shù)據(jù)和經(jīng)驗(yàn)來決定行動(dòng)的人工智能設(shè)備。如果我們用數(shù)學(xué)語言描繪,即當(dāng)已知事件 Bi 的概率 P( Bi)和事件 Bi 已發(fā)生條件下事計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書 7 件 A 的概率 P( A│Bi ),則可運(yùn)用貝葉斯定理計(jì)算出在事件 A 發(fā)生條件下事件 Bi 的概率 P( Bi│A )。為解決這個(gè)問題,我們引入Laplace 校準(zhǔn), 其 思想 很 簡單,就是對沒類別下所有劃分的計(jì)數(shù)加 1,這樣如果訓(xùn)練樣本集數(shù)量充分大時(shí),并不會對結(jié)果產(chǎn)生影響,并且解決了上述頻率為 0 的尷尬局面 ,問題得到解決。 另外出現(xiàn) P(a|y)=0 時(shí)應(yīng)該怎么處理。 即: ? ? ? ?2 222 1, ? ??????? ?? ?eg ( ) 而 ? ? ? ?ii yykik agyaP ?? ,| ? 。 估計(jì)類別下特征屬性劃分的條件概率及 Laplace 校準(zhǔn) 我們可以看出 計(jì)算各個(gè)劃分的條件概率 P(a|y)是樸素貝葉斯分類的關(guān) 鍵性步驟,當(dāng)特征屬性為離散值時(shí),只要很方便的統(tǒng)計(jì)訓(xùn)練樣本中各個(gè)劃分在每個(gè)類別中出現(xiàn)的頻率即可用來估計(jì) P(a|y),下面重點(diǎn)討論特征屬性是連續(xù)值的情況。這個(gè)階段的任務(wù)是使用分類器對待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動(dòng)計(jì)算完成。 第二階段 —— 分類器訓(xùn)練階段,這個(gè)階段的任務(wù)就是 生成分類器,主要工作是計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對每個(gè)類別的 條件概率 ,并將結(jié)果記錄。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。 如果各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo): ? ? ? ? ? ?? ?xP yPyxPxyP iii || ? () 因?yàn)榉帜笇τ谒蓄悇e為常數(shù), 即 我們只要將分子最大化。|() , .. .,|(),|()。即 )|(),|() 。 接下來 我們可以這么做: 先要 找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合 稱為 訓(xùn)練樣本集 。 如果 ? ? ? ? ? ? ? ??? xyPxyPxyPxyP nk |, .. .,|,|m a x| 21? ,則 kyx? 。 有類別集合 ?? nyyyC ,.. ., 21? 。 主要原因是 黑人中非洲人的比率最高,不能否定黑人 也可能是美洲人或 其他 ,但 是 在沒有其它可用信息下,我們 一定是 會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。 樸素貝葉斯分類的原理與流程 樸素貝葉斯分類 法 是一種十分簡單的分類算法,樸素貝葉斯分類 名字緣由 是因?yàn)?( )()|()|( BP APABPBAP ?計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書 5 這種方法的思想很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè) 概率 最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。 也就是說,后驗(yàn)概率與先驗(yàn)概率和相似度的乘積成正比。 (4)P(B)是 B 的 先驗(yàn)概率 或 邊緣概率 ,也作 標(biāo)準(zhǔn)化常量 ( normalizing constant) 。 (2)P(A|B)是已知 B發(fā)生后 A 的 條件概率 ,也由于得自 B 的取值而被稱作 A 的后驗(yàn)概率。 在貝葉斯定理中,每個(gè)名詞都有約定俗成的名稱: (1)P(A)是 A 的 先驗(yàn)概率 或 邊緣概率 。 貝葉斯定理是關(guān)于隨機(jī)事件 A 和 B 的條件概率(或邊緣概率)的一則定理。 作為一個(gè)普遍的原理,貝葉斯定理對于所有概率的解釋是有效的;然而,頻率主義者和貝葉斯主義者對于在應(yīng)用中,某個(gè)隨機(jī)事件的概率該如何被賦值,有著不同的看法: 頻率主義者根據(jù)隨機(jī)事件發(fā)生的頻率,或者總體樣本里面 的發(fā)生的個(gè)數(shù)來賦值概率;貝葉斯主義者則根據(jù)未知的命題來賦值概率。它的內(nèi)容是 :在 B 出現(xiàn)的前提下 ,A出現(xiàn)的概率等于 A出現(xiàn)的前提下 B 出現(xiàn)的概率乘以 A出現(xiàn)的概率再除以 B 出現(xiàn)的概率。 通常,事件 A 在事件 B(發(fā)生)的條件下的概率,與事件 B 在事件 A的 條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。 theorem)是概率論中的一個(gè)結(jié)論,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。為此,就衍生出許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如 TAN(tree augmented Bayes work)算法。在許多場合,樸素貝葉斯 (Naive Bayes, NB)分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫中,而且方法簡單、分類準(zhǔn)確率高、速度快。但所有企業(yè)面臨的一個(gè)共同問題是: 企業(yè)數(shù)據(jù) 量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會的( Opportunistic) 商業(yè)運(yùn)作而產(chǎn)生。 數(shù)據(jù)挖掘 也 是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。人們把數(shù)據(jù)看作是形 成知識的源泉 ,不斷地挖掘。 計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書 3 數(shù)據(jù)挖掘技術(shù)的 定義及含義 數(shù)據(jù)挖掘 ( Data Mining) 就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。起初 各種商業(yè)數(shù)據(jù) 是存儲在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到 可 以 對數(shù)據(jù)庫進(jìn)行查詢和 訪問 ,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時(shí)遍歷。是知識發(fā)現(xiàn)(knowledge discovery in database)的關(guān)鍵步驟。數(shù)據(jù)挖掘 就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來的數(shù)據(jù)處理技術(shù)??梢灶A(yù)測到他們的就業(yè)情況和就業(yè)的概率。整個(gè)設(shè)計(jì)關(guān)鍵在于貝葉斯定理的分類算法實(shí)現(xiàn)。國內(nèi)的許多科研單位和高等院校也競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。目前從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研究所或公司。 國內(nèi)研究和發(fā)展現(xiàn)狀 與國外相比.國內(nèi)對 DMKD 的研究稍晚,沒有形成整體力量。并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之問的相互滲透。 KDD 會議的規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會。 1993 年以后,美國計(jì)算機(jī)協(xié)會 (ACM)每年都舉行了專門的會議研究探討數(shù)據(jù)挖掘技術(shù)。該系統(tǒng)要求用戶錄入畢業(yè)生的各項(xiàng)相關(guān)數(shù)據(jù),同時(shí)在錄入后可以對 錄入的數(shù)據(jù)進(jìn)行抽樣分析,得到相應(yīng)的計(jì)算模型,并測試該模型的可靠性及精確度,根據(jù)該計(jì)算模型對畢業(yè)生就業(yè)情況進(jìn)行預(yù)測,得出就業(yè)統(tǒng)計(jì)分析圖和就業(yè)概率統(tǒng)計(jì)圖。 《 畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā) 》就是為了解決這個(gè)就業(yè)預(yù)測問題而開發(fā)的,它采用數(shù)據(jù)挖掘方法,通過統(tǒng)計(jì)分析,應(yīng)用貝葉斯定理對未來即將就業(yè)的畢業(yè)生的就業(yè)趨勢進(jìn)行了預(yù)測。根據(jù)這一情況,借助計(jì)算機(jī)對畢業(yè)生的就業(yè)信息進(jìn)行挖掘,可以對目前的教學(xué)質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)的因素,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性建議。 在現(xiàn)實(shí)實(shí)際中,所謂名校,熱門專業(yè)等等,并不能保證畢業(yè)生絕對能就業(yè)。很多大學(xué)生都愁于找不到工作。 因此,我們必須找到有關(guān)方法,自動(dòng)地分析數(shù)據(jù)、自動(dòng)地對數(shù)據(jù)匯總、自動(dòng)發(fā)現(xiàn)和描述數(shù)據(jù)中的趨勢、自動(dòng)地對數(shù)據(jù)進(jìn)行分類、自 動(dòng)地標(biāo)記異常。 大量增加的數(shù)據(jù)背后隱藏著很多的重要信息,人們希望能夠進(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。而九十年代后因特網(wǎng)的出現(xiàn),更是打破了各種限制,人們甚至能夠跨越時(shí)空交換數(shù)據(jù)信息。同時(shí),還闡述了課題的來源、需求分析、 設(shè)計(jì) 、 實(shí)現(xiàn) 和實(shí)驗(yàn)結(jié)果 等情況 。 本 論文 講述的是運(yùn)用數(shù)據(jù)挖掘 技術(shù) 中的貝葉斯分類 算 法對應(yīng)屆畢業(yè)生在畢業(yè)后的就業(yè)情況 進(jìn)行 預(yù)測。 數(shù)據(jù)挖掘是一個(gè)從模糊的、有噪聲的、不完全的、大量的、隨機(jī)的 ,從大量 人們事先所不知道的、但又是潛在有用的信息和知識的一個(gè)過程。s supervisory work. Under this situation, if we still use the traditional policing method of the graduate, both the working efficiency and the work quality will not be satisfying and it will be very easy to make mistake. Currently, the analysis to university graduates39。針對畢業(yè)生就業(yè)情況建立數(shù)據(jù)挖掘分析模型是數(shù)據(jù)挖掘分析方法的一個(gè)新嘗試,這將進(jìn)一步促進(jìn)數(shù)據(jù)挖掘理論的發(fā)展,并且拓寬了數(shù)據(jù)挖掘分析方法的應(yīng)用領(lǐng)域,同時(shí)對教學(xué)質(zhì)量分析和學(xué)生工作質(zhì)量分析提供科學(xué)評價(jià)的新方法。根據(jù)這一情況,借助計(jì)算機(jī)對畢業(yè)生就業(yè)信息進(jìn)行挖掘,對如今的教學(xué)質(zhì)量和學(xué)生工作質(zhì)量進(jìn)行科學(xué)的綜合分析,尋找影響畢業(yè)生就業(yè)困 難的原因,以便對我們今后的教學(xué)和學(xué)生工作提出指導(dǎo)性的建議。在這種形勢下,如果仍然采用傳統(tǒng)的畢業(yè)生管理辦法,不僅僅工作效率低下,而且工作質(zhì)量不高,很容易發(fā)生錯(cuò)誤。計(jì)算機(jī)信息工程學(xué)院畢業(yè)設(shè)計(jì)說明書 畢業(yè)生就業(yè)數(shù)據(jù)分析系統(tǒng)開發(fā) 摘要 高校畢業(yè)生的就業(yè)問題已經(jīng)成為全社會都關(guān)注的熱點(diǎn)問題。這些年來高校招生規(guī)模逐年擴(kuò)大,不斷增加的畢業(yè)生數(shù)目給高校的就業(yè)管理工作造成了很大的壓力。 目前對高校畢業(yè)生的就業(yè)狀況分析是較為簡單的,大多僅僅按學(xué)校的就業(yè)率和專業(yè)就業(yè)率來進(jìn)行評價(jià),顯得片面缺乏科學(xué)性。 本課題針對學(xué)生的性別、素質(zhì)培養(yǎng)、綜合成績、社會實(shí)踐等方面在學(xué)生就業(yè)所反應(yīng)的情況建立一個(gè)數(shù)據(jù)挖掘分析模型,由此得到對教學(xué)質(zhì)量和學(xué)生工作質(zhì)量評價(jià)的科學(xué)的新方法。 關(guān)鍵字 : 數(shù)據(jù)挖掘 ; 貝葉斯定理 ; 數(shù)據(jù)庫Abstract Development Of Analysis System for Graduate Employment Data Abstract The employment of university graduates has already became the hot topic which draws much attention around the entire society. As the university recruitment of students scale is expanding year by year gradually, the increasing number of graduate students has created huge pressure for university39。 work status is quite simple. Most of the evaluation is based on the school employment rate and the specialized employment rate, which is considered to be improper. According to this situation, we find the information of the graduate with the aid of the puter and carry on the scientific and prehensive analysis of the quality of teaching and the students’ work. We focus on seeking to the causes of difficulty in employment in order to propose some suggestions to guide the next teaching and the work of student. The topic is to establish a data mining anatomic model in terms of sex, quality training, integrated results, social practice and so on to obtain a new scientific method to evaluate the quality of teaching and the student work quality. This data analysis method is a new attempt, this will promote the fur