freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

高血壓診療系統(tǒng)畢業(yè)設(shè)計(jì)(論文)-閱讀頁(yè)

2024-09-15 18:16本頁(yè)面
  

【正文】 醫(yī)藥事業(yè)的一筆巨大財(cái)富。應(yīng)用數(shù)據(jù)挖掘方法對(duì)眾多中醫(yī)專家的寶貴經(jīng)驗(yàn)進(jìn)行全面整理和挖掘,將會(huì)比較全面地獲得對(duì)中醫(yī) 藥基礎(chǔ)理論和臨床實(shí)踐規(guī)律的統(tǒng)一的認(rèn)識(shí)。 在中醫(yī)藥其他方面的應(yīng)用 數(shù)據(jù)挖掘技術(shù)不但可以應(yīng)用到中醫(yī)藥研究中的上述方面,而且在研究中醫(yī)病證與復(fù)方組方的關(guān)系、中醫(yī)癥候與現(xiàn)代醫(yī)學(xué)臨床表現(xiàn)之間關(guān)聯(lián)的關(guān)系以及中醫(yī)藥信息數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)研究等方面都可以得到廣泛應(yīng)用。比如一個(gè)分析師想找到是什么導(dǎo)致拖欠貸款,他可能先做一個(gè)初始假設(shè),認(rèn)為低收入的人信用也低,然后他可以用 OLAP 來(lái)驗(yàn)證他的假設(shè),如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去查看那些高負(fù)債的賬戶,如果還不行,他可能要把收入和負(fù)債一起來(lái)考慮,繼續(xù)進(jìn)行下去直到找到他想要的結(jié)果或放棄。 OLAP 過(guò)程本質(zhì)上是一個(gè)演繹推理的過(guò)程。它在本質(zhì)上是一個(gè)歸納的過(guò)程。 概括說(shuō)來(lái),數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析 (如查詢、報(bào)表、聯(lián)機(jī)分析處理 )的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。先前未知的信息是指該信息是預(yù)先未能預(yù)料北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 19 的。 數(shù)據(jù)挖掘是從現(xiàn)實(shí)世界中存在的一些具體的數(shù)據(jù)中提取知識(shí),這些數(shù)據(jù)在數(shù)據(jù)挖掘出現(xiàn)之前早己存在;而機(jī)器學(xué)習(xí)所使用的數(shù)據(jù)是專門(mén)為機(jī)器學(xué)習(xí)而特別準(zhǔn)備的數(shù)據(jù),這些數(shù)據(jù)在現(xiàn)實(shí)世界中也許毫無(wú)意義。最后,由于數(shù)據(jù)挖掘處理的數(shù)據(jù)來(lái)自于實(shí)際的數(shù)據(jù)庫(kù),而與這些數(shù)據(jù)庫(kù)數(shù)據(jù)有關(guān)的還有其他一些背景知識(shí),這些背景知識(shí)的合理運(yùn)用也會(huì)提高算法的效率。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間潛在關(guān)系的規(guī)則。條形碼技術(shù)的發(fā)展使得數(shù)據(jù)的收集變得更容易更完整,從而存儲(chǔ)了大量交易資料,關(guān)聯(lián)規(guī)則是通過(guò)辨別這些交易資料,來(lái)分析顧客的購(gòu)買模式。 1993 年 Agrawal ,并于1994 年提出了挖掘關(guān)聯(lián)規(guī)則的經(jīng)典 Apriori 算法。他們的工作包括對(duì)原有 Aprior 算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想、使用哈希方法等,以提高算法挖掘規(guī) 則的效率,有的為了避免頻繁集產(chǎn)生方法的一些缺陷,提出了獨(dú)立于 Apriori 算法的挖掘關(guān)聯(lián)規(guī)則的新方法,如 Jianwei Han北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 20 等人提出的不產(chǎn)生候選挖掘頻繁項(xiàng)集的 FPGrowth 方法、基于關(guān)聯(lián)圖的挖掘關(guān)聯(lián)規(guī)則的方法等。相同的事務(wù)的集合構(gòu)成事務(wù)集 D。設(shè) A 是一個(gè)項(xiàng)集當(dāng)且僅當(dāng) AT? 時(shí)就稱事務(wù) T 包含 A。 關(guān)聯(lián)規(guī)則的實(shí)用性由支持度衡量。關(guān)聯(lián)規(guī)則的準(zhǔn)確性由置信度衡量,描述了出現(xiàn) A 的前提下也出現(xiàn) B 的概率,定義為, ( ) ( ) / ( )C o n fid e n c e A B P A B P A? ? ?。滿足最小支持度 minsup 的項(xiàng)集成為頻繁項(xiàng)集,同時(shí)滿足最小支持度 minsup 和最小可信度minconf 的規(guī)則成為強(qiáng)關(guān)聯(lián)規(guī)則。 up 的頻繁項(xiàng)集的集合 :第二步是根據(jù)設(shè)定的 minconf 從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。 描述關(guān)聯(lián)規(guī)則屬性常用的參數(shù)有 : 支持度 (Support) 支持度 S 是 D 中包含 AB? 的事務(wù)百分比,它是概率 ()PA B? ,即 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 21 ? ? ? ?s u p p o r t A B P A B ? ? ?,它描述了 A 和 B 這兩個(gè)物品集的并集在所有的事務(wù)中出現(xiàn)的概率。支持度表示了規(guī)則的頻度。 置信度 (Confidence) 置信度 C 為 D 中包含 A 的事務(wù)中同時(shí)也包含 B 的百分比,它是概率 ( / )PB A ,即? ?c o n f id e n c e A B P ( B /A )??。置信度表示了規(guī)則的強(qiáng)度。 期望置信度 (Expected Confidence) 期望置信度 e 為 D 中包含 B 的事務(wù)百分比,即 P (B )。在上例中如果有 150 條記錄包含 B,則關(guān)聯(lián)規(guī)則 AFB 的期望置信度為 150/ 1000 100% =15%。作用度描述了項(xiàng)集 A 的出現(xiàn)對(duì)項(xiàng)集 B 的出現(xiàn)有多大的影響,作用度越大,說(shuō)明物品集 B 受物品集 A 的影響越大。在上例中,關(guān)聯(lián)規(guī)則 AB? 的作用度為 50%/15% ≈ 3. 3。 興趣度 (Interest measure) 在數(shù)據(jù)挖掘中,并不是所有的強(qiáng)關(guān)聯(lián)規(guī)則都是足夠的有趣而值得向用戶提供。數(shù)據(jù)顯示 : 60%的學(xué)生(3000)晨練, 75%的學(xué)生 (3750)吃早餐, 40%的學(xué)生 (2020)即晨練又吃早餐。是一強(qiáng)關(guān)聯(lián)規(guī)則,因?yàn)槠渲С侄葹?40%,置信度為 2020/3000 100% =66%,滿足最小支持?jǐn)?shù)和最小置信度的要求,然而以上規(guī)則是誤導(dǎo),因?yàn)榭偟某栽绮偷膶W(xué)生占 75%,比 66%還要大,為了修剪一些無(wú)趣的規(guī)則,即避免生成錯(cuò)覺(jué)的關(guān)聯(lián)規(guī)則,下面定義了興趣度 這個(gè)度量值。根據(jù)這個(gè)式子,一條規(guī)則的興趣度越大 (IR0)說(shuō)明對(duì)這條規(guī)則越感興趣 (即其實(shí)際利用價(jià)值越大 );一條規(guī)則的興趣度越小 (IR0) 說(shuō)明對(duì)這條規(guī)則的反面規(guī)則越感興趣 (即其反面規(guī)則的實(shí)際利用價(jià)值越大 )。這樣整個(gè)關(guān)聯(lián)規(guī)則的評(píng)價(jià)體系就可以統(tǒng)一在概率論的范疇內(nèi)。通過(guò)定義可以說(shuō)明,當(dāng) A 和 B 相互獨(dú)立時(shí),他們同時(shí)發(fā)生就純屬偶然,他們同時(shí)發(fā)生的意義就不會(huì)被人們關(guān)注。相應(yīng)的,當(dāng)一條關(guān)聯(lián)規(guī)則的興趣度大于 1 說(shuō)明對(duì)這條規(guī)則越感興趣 ;一 規(guī)則的興趣度越小于 1 說(shuō)明對(duì)這條規(guī)則的反面規(guī)則越感興趣 。 關(guān)聯(lián)規(guī)則描述了 A 的出現(xiàn)影響到 B 的出現(xiàn)。例如超級(jí)市場(chǎng)利用收款機(jī)收集存儲(chǔ)了大量的售貨數(shù)據(jù),這些數(shù)據(jù)是一條條的購(gòu)買事務(wù)記錄,每條記錄存貯了事務(wù)處理時(shí)間,顧客購(gòu)買的物品,物品的數(shù)量及金額等。這些關(guān)聯(lián)規(guī)則很有價(jià)值,商場(chǎng)管理人員可以根據(jù)這些關(guān)聯(lián)規(guī)則更好的規(guī)劃商場(chǎng),如將面包和牛奶這樣的商品擺放在一起,能夠促進(jìn)銷售。比如人壽保險(xiǎn),一份保 單就是一個(gè)事務(wù)。保單上記錄有投保人的年齡、性別、健康狀況、工作單位、工作地址、工資水平等。通過(guò)分析這些數(shù)據(jù),可以得到類似以下這樣的關(guān)聯(lián)規(guī)則 :年齡在 40 歲以上,區(qū)的投保人當(dāng)中歲以上是物品甲,有 45%的曾經(jīng)向保險(xiǎn)公司索賠過(guò)。工作在年齡在,工作在 A 區(qū)是物品乙??梢钥吹贸鰜?lái), A 區(qū)可能污染比較嚴(yán)重,環(huán)境比較差,導(dǎo)致工作在該區(qū)的人健康狀況不好,索賠率也相對(duì)比較高。 布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。 基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。例如: I BM 臺(tái)式機(jī) ?Sony 打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī) ? Sony 打印機(jī),是一個(gè)較高 層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。 在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。②由頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則。所以現(xiàn)在的研究都放在了第一步,即找到頻繁項(xiàng)目集。通過(guò)事務(wù)中的其它 項(xiàng)目來(lái)擴(kuò)展這些頻繁集,從而得到新的候選集,這些候選集被加到掃描的候選集中,或者增加其相應(yīng)的計(jì)數(shù)。 APRIORI算法 Apriori 算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則的算法,它使用了頻繁項(xiàng)集的所有非空子集都必須是頻繁集的這一性質(zhì)。利用1Lk? 來(lái)獲得 Lk 主要包含兩個(gè)步驟,即連接和刪除操作。為發(fā)現(xiàn) Lk ,可以將 1Lk? 中兩個(gè)項(xiàng)集相連接以獲得一個(gè) Lk 的候選集 kC 。 ②刪除步驟。其具體步驟如圖 。雖然所獲得 4C 為 {{I1, I2, I3,I5}}。至此, Apriori 算法由于無(wú)法發(fā)現(xiàn)新的項(xiàng)集而結(jié)束。該算法能夠比較有效地產(chǎn)生關(guān)聯(lián)規(guī)則,但也存在著以下缺陷 :①算法產(chǎn)生太多冗余的規(guī) 則。②算法在效率上存在著問(wèn)題。另外,當(dāng)模式太長(zhǎng)時(shí)產(chǎn)生的候選項(xiàng)目集也多得讓人無(wú)法接受。該方法主要思想是 : 隨機(jī)地選取一些樣本數(shù)據(jù)集,使用這些樣本發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,然后用數(shù)據(jù)庫(kù)中剩余的部分檢驗(yàn)并修正得到的結(jié)果。由于數(shù)據(jù)庫(kù)規(guī)模的急劇膨脹,人們認(rèn)為取樣數(shù)據(jù)庫(kù)使用其中一部分的數(shù)據(jù)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的思想是提高算法性能和擴(kuò)展性的一個(gè)好的方法。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 27 圖 25 Apriori 算法的具體挖掘過(guò)程 基于 Hash 的方法。因此若一個(gè)候選 k項(xiàng)集中任一子集不屬于1kL? ,那么該候選 k項(xiàng)集就不可能成為一個(gè)頻繁 k項(xiàng)集,因而也就可以將其從 kC 中刪去。該技術(shù)可以大大壓縮要考察的 k項(xiàng)集,但是由于 Hash 表的內(nèi)存耗費(fèi),算法對(duì)于稠 密、大數(shù)據(jù)庫(kù)的性能是一個(gè)值得考慮的問(wèn)題。 Savaserve 等人設(shè)計(jì)了一個(gè)基于劃分 (partition)的算法,該算法只需要兩次數(shù)據(jù)庫(kù)掃描,以挖掘頻繁項(xiàng)集 (如圖 26)。第二遍掃描計(jì)算全局候選項(xiàng)集的全局支持度,以確定全局頻繁項(xiàng)集。該方法具有分布、并行的思想,同樣可以減 輕 CPU 和工/0 負(fù)擔(dān),提高算法性能和可擴(kuò)展性。從而我們就可以將這些事務(wù)移去,這樣在下一遍的掃描中就可以減少要進(jìn)行掃描的事務(wù)集的個(gè)數(shù)。然而,它有一些固有的缺陷并非是微不足道北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 29 的。例如,當(dāng)長(zhǎng)度為 1 的頻集有 10000 個(gè)的時(shí)候,長(zhǎng)度為 2 的候選集個(gè)數(shù)將會(huì)超過(guò) 10M,并累計(jì)和檢查它們的頻繁性。再一個(gè)是它可能需要重復(fù)地掃描數(shù)據(jù)庫(kù),通過(guò)模式匹配檢查一個(gè)很大的候選集合,然而,實(shí)際上事務(wù)數(shù)據(jù)庫(kù)是非常龐大的,所以每次迭代時(shí)產(chǎn)生候選項(xiàng)目集以統(tǒng)計(jì)其支持?jǐn)?shù)是非常耗時(shí)的,應(yīng)該盡量減少掃描數(shù)據(jù)庫(kù)的次數(shù)。 FPGrowth 算法 FPGrowth 算法即頻繁模式增長(zhǎng)算法采取分治策略:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(shù) (FP 一樹(shù) ),但仍保留項(xiàng)集關(guān)聯(lián)信息,然后將這些壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù) (一種特殊類型的投影數(shù)據(jù)庫(kù) ),每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng),并分別挖掘每個(gè)數(shù)據(jù)庫(kù)。 FPtree 的定義如下: ①它有一個(gè)標(biāo)記為“ null”的根節(jié)點(diǎn),它 的子節(jié)點(diǎn)為一個(gè)項(xiàng)前綴子樹(shù) (item prefix subtree)的集合,還有一個(gè)頻繁項(xiàng) (frequent item)組成的頭表 (header table)。 itemname 記錄了該節(jié)點(diǎn)所代表的項(xiàng)的名字: count 記錄了所在路徑代表的交易 (transaction)中達(dá)到此節(jié)點(diǎn)的交易個(gè)數(shù) :node_ link 指向下一個(gè)具有同樣的 itemname 域的節(jié)點(diǎn),要是沒(méi)有這樣一個(gè)節(jié)點(diǎn),就為 null。 node_ link 指向 FPtree。 FPGrowth 算法的主要步驟為 : ①掃描數(shù)據(jù)庫(kù)一次,產(chǎn)生頻繁 1項(xiàng)集,并得到它們的支持度計(jì)數(shù)。 北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 30 ②構(gòu)造 FP樹(shù),首先,創(chuàng)建樹(shù)的根節(jié)點(diǎn),用“ null”標(biāo)記。每個(gè)事務(wù)中的項(xiàng)按 L 中的次序處理 (即按遞減支持度計(jì)數(shù)排序 )并對(duì)每個(gè)事務(wù) 創(chuàng)建一個(gè)分支。為方便樹(shù)遍歷,創(chuàng)建一個(gè)項(xiàng)頭表,使得每個(gè)項(xiàng)通過(guò)一個(gè)節(jié)點(diǎn)鏈指向它在樹(shù)中的出現(xiàn)。 ③ FP 一樹(shù)挖掘如下:由長(zhǎng)度為 1 的頻繁模式 (初始后綴模式 )開(kāi)始,構(gòu)造它的條件模式基 (一個(gè)“子數(shù)據(jù)庫(kù)”,由 FP樹(shù)中與后綴模式一起出現(xiàn)的前綴路徑組成 )。模式增長(zhǎng)通過(guò)后綴模式與由條件 FP樹(shù)產(chǎn)生的頻繁模式連接 實(shí)現(xiàn)。它使用最不頻繁的項(xiàng)作后綴,提供了好的選擇性,該方法大大降低了搜索開(kāi)銷。如果一個(gè)項(xiàng)目在第 i 個(gè)事物中出現(xiàn), 則該項(xiàng)目的比特向量的第 i 個(gè)比特置 1,否則就置 0,與項(xiàng)目 i 相關(guān) 的比特向量表示為 iBV , iBV 中“ 1”的數(shù)目就是包含項(xiàng)目 i 的事務(wù)數(shù)。頻繁 1項(xiàng)目集 L ={ 1,2,3,4,5}。對(duì)于關(guān)聯(lián)圖來(lái)說(shuō),如果()ijBV BV i j??中“ 1”的數(shù)目不小于最小支持?jǐn)?shù),則構(gòu)造一條從項(xiàng)目 i 到項(xiàng)目 J 的有向邊,而且項(xiàng)目 {i, j}是一個(gè)頻繁 2 一項(xiàng)集,給出數(shù)據(jù)庫(kù)的關(guān)聯(lián)圖如圖 27 所示,且頻繁2項(xiàng)集為 ? ? ? ? ? ? ? ? ? ? ? ?? ?2 1 , 2 1 , 3 1 , 5 2 , 3 2 , 4 2 , 5L ? 。設(shè) ? ?12,ki i i??? 是一個(gè)頻繁 k項(xiàng)集,如果在關(guān)聯(lián)圖中有一條從 ki 到北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文) 31 ui 。如果12i i ik uBV BV BV BV? ? ???? ?中“ 1”的數(shù)目不小于最小支持度,那么 ? ?12,ki i i??? 是頻繁(k+1)項(xiàng)目集。對(duì)頻繁 2項(xiàng)集 {1, 2}來(lái)說(shuō),在關(guān)聯(lián)圖中項(xiàng)目 2 到項(xiàng)目 3 有一條有向邊,所以 {1, 2}可以被擴(kuò)展為 {1, 2, 3},1 2 3BV BV BV?? (即 (000000011))中“ 1”的數(shù)目為 2, 不小于最小支持?jǐn)?shù),所以 {1, 2, 3}是一個(gè)頻繁 3項(xiàng)集。 3, 5 在關(guān)聯(lián)圖中不再指向其它項(xiàng),所以 {1, 2, 3}和 {1, 2, 5}都不能再擴(kuò)展,算法終止。本研究按照數(shù)據(jù)挖掘的程序、要求和基本方法對(duì)其進(jìn)行處理,試圖探索數(shù)據(jù)挖掘在名老中醫(yī)用藥規(guī)律研究中的方法意義和應(yīng)用策略。 該系統(tǒng)具有如下主要用途 :①依據(jù)數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)預(yù)處理的要求對(duì)中醫(yī)醫(yī)案進(jìn)行錄入 。③應(yīng)用數(shù)據(jù)挖掘算法對(duì)用藥規(guī)律進(jìn)行關(guān)聯(lián)挖掘分析 (包括辨證用藥分析、辨病用藥分析和對(duì)癥用藥分析 )。中醫(yī)醫(yī)案分析系統(tǒng)的體系結(jié) 構(gòu)分為兩個(gè)部分,如圖 38 所示。第二部分是該系統(tǒng)的核心部分,該部分首先將第一部分的原始數(shù)據(jù)經(jīng)過(guò)清洗、轉(zhuǎn)換、抽取、匯總,裝載到數(shù)據(jù)集市,然后以數(shù)據(jù)集
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1