freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本挖掘算法總結(jié)[五篇材料](編輯修改稿)

2025-05-05 17:57 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 解決問(wèn)題:將 n 條記錄聚成 k 個(gè)分類。對(duì) n 個(gè)樣本集記錄,指定分類個(gè)數(shù) k,為 k個(gè)分類指定初始迭代記錄為 k 個(gè)分類中心,通過(guò)計(jì)算其他記錄對(duì) k 個(gè)分類中心的距離,對(duì)不斷變換分類、變換類中心,收斂都當(dāng)分類不再變化時(shí),計(jì)算結(jié)束。由此,將 n 個(gè)樣本集記錄分配到 k個(gè)分類中,得到 k個(gè)分類中心指標(biāo)。 無(wú)限細(xì)分的模糊聚類 FuzzyClustering 算法概述:在實(shí)際解決聚類問(wèn) 題時(shí),很多數(shù)事物是“模糊”的,其特征屬性 A 無(wú)法確進(jìn)行量化,如:人的相貌、人與人之間的關(guān)系、人的性格、購(gòu)買商品的意愿等,這就需要用模糊數(shù)學(xué)來(lái)進(jìn)行相似性計(jì)算。模糊數(shù)學(xué)是伴隨著上世紀(jì)五六十年代興起的控制論、信息論、系統(tǒng)論(俗稱“老三論”)而形成的一種決策方法,是美國(guó)加利福尼亞大學(xué)伯克利分校 LotfiZadeh 教授于 1965年創(chuàng)立的。模糊聚類基本計(jì)算步驟為: ( 1)將樣本集中的 n條記錄變換成 nxn的模糊相似矩陣; ( 2)通過(guò)傳遞包卷積計(jì)算將模糊相似矩陣變換成等價(jià)相似矩陣;( 3)最后通過(guò)λ截矩陣將 n條 記錄分成 1n個(gè)分類。 Kmeans 聚類需事先確定聚類數(shù) k,而模糊聚類 FuzzyClustering無(wú)需事先確定聚類數(shù) k,可以從最小的 k=1(所有學(xué)習(xí)集中的 n 條記錄為 1 個(gè)分類),到 k=n(所有學(xué)習(xí)集中的 n條記錄各為 1個(gè)分類)。 解決問(wèn)題:將 n條記錄聚成 1n個(gè)分類。模糊聚類 FuzzyClustering算法完全基于數(shù)據(jù)自然狀況進(jìn)行聚類,可產(chǎn)生聚類的解集合 max{ (k=1,2,,n),因此,可以在解集合中求解最優(yōu)聚類 },這對(duì)觀察分析樣本集的數(shù)據(jù)性態(tài)非常有用,可供觀察不同情況下 的“聚類”狀況。 SOM神經(jīng)元網(wǎng)絡(luò)聚類 算法概述:人類對(duì)事物的認(rèn)知是一個(gè)不斷積累的過(guò)程,通過(guò)對(duì)事物的觀察,不斷地認(rèn)識(shí)和修正因果關(guān)系,最后逐漸穩(wěn)定為認(rèn)知規(guī)則。醫(yī)學(xué)證明,人眼的視網(wǎng)膜、脊髓和海馬中存一種側(cè)抑制現(xiàn)象,即,當(dāng)一個(gè)神經(jīng)細(xì)胞興奮后,會(huì)對(duì)其周圍的神經(jīng)細(xì)胞產(chǎn)生抑制作用。這種側(cè)抑制使神經(jīng)細(xì)胞之間呈現(xiàn)出競(jìng)爭(zhēng),開始時(shí)可能多個(gè)細(xì)胞同時(shí)興奮,但一個(gè)興奮程度最強(qiáng)的神經(jīng)細(xì)胞對(duì)周圍神經(jīng)細(xì)胞的抑制作用也最強(qiáng),其結(jié)果使其周圍神經(jīng)細(xì)胞興奮程度減弱,從而該神經(jīng)細(xì)胞是這次競(jìng)爭(zhēng)的“勝者”,其它神經(jīng)細(xì)胞在競(jìng)爭(zhēng)中失敗。 1981年芬蘭學(xué)者 kohonen提出一個(gè)稱為自組織特征映射( SelfOrganizationFeatureMapSOM 或 SOFM)網(wǎng)絡(luò),前述大腦神經(jīng)細(xì)胞興奮規(guī)律等,在該網(wǎng)絡(luò)中都得到了反應(yīng)。在競(jìng)爭(zhēng)層神經(jīng)元之間的連線,它們是模擬生物神經(jīng)網(wǎng)絡(luò)層內(nèi)神經(jīng)元相互抑制現(xiàn)象的權(quán)值,這類抑制性權(quán)值滿足一定的分布關(guān)系,如距離近的抑制強(qiáng),距離遠(yuǎn)的抑制弱。 通過(guò)上述可知, SOM 聚類算法設(shè)計(jì)的核心思想是體現(xiàn)神經(jīng)元在認(rèn)知過(guò)程中的 3 個(gè)特性:( 1)根據(jù)樣本比較,逐步積累、不斷修正、漸近穩(wěn)定特性?( 2)神經(jīng)元之間的側(cè)抑由近到遠(yuǎn)、逐 步衰弱制特性?( 3)神經(jīng)元興奮區(qū)域隨認(rèn)知次數(shù)逐步縮小范圍特性? BIC 采用歐氏距離作為輸入模式 Xi 與各輸出神經(jīng)元 Wj 之間的相似度,選擇具有最小距離的神經(jīng)元為興奮神經(jīng)元;采用( 1ti/tm)作為學(xué)習(xí)衰減函數(shù),其中 ti 為當(dāng)前學(xué)習(xí)次數(shù)(第幾次樣本訓(xùn)練), tm 為總的學(xué)習(xí)數(shù),以此來(lái)體現(xiàn)上述特性“ 1”;采用( 1ti/T)、 C/Wij 作為神經(jīng)元側(cè)抑制函數(shù),其中 C 為設(shè)定的常數(shù)、 Wij 為被選中的神經(jīng)元與其他神經(jīng)元最遠(yuǎn)距離,來(lái)體現(xiàn)上述特性“ 2”、“ 3”。 解決問(wèn)題:將 n 條記錄按 m 個(gè)輸出神經(jīng)元聚成 m 個(gè)分類。模仿人類的學(xué)習(xí)方法,對(duì)事物的認(rèn)識(shí)是一個(gè)由淺入深、逐步學(xué)習(xí)、修正的過(guò)程,將對(duì)各種要素組態(tài)的認(rèn)識(shí)逐步穩(wěn)定到認(rèn)知領(lǐng)域,由此進(jìn)行“聚類”。 基于 Meaning 的文本相似度計(jì)算算法概述:給出一組 n 個(gè)文檔D{具有代表性的詞組 }, BIC為每個(gè)文檔計(jì)算出一組最 ,同時(shí),計(jì)算出 相互間內(nèi)容接近度及接近序列。 BIC 的 Meaning 挖掘與自動(dòng)搜索不同于現(xiàn)有 Baidu、 Google 人工輸入關(guān)鍵詞的搜索方式,現(xiàn)有搜索引擎不考慮語(yǔ) 義和語(yǔ)境,只考慮詞 W與文檔 D 的包含關(guān)系 和詞在文檔內(nèi)的頻數(shù) TF,因此,關(guān)鍵詞的搜索與文檔內(nèi)容無(wú)關(guān)。例如:“姚明”是中國(guó)籃球的驕傲,但“姚明”還投身于公益事業(yè),如果在搜索引擎中輸入“姚明”,不見得搜索的文檔內(nèi)容只包含與籃球相關(guān)的內(nèi)容,還可能包括公益及其他包含“姚明”的文檔,可見,關(guān)鍵詞搜索具有不確定性。如果在搜索引擎輸入一組詞 {“姚明”、“得分”、“籃板” },搜出文檔是籃球比賽內(nèi)容的概率更大,顯然, 形成的交集縮小了搜索范圍,但組詞 {“姚明”、“得分”、“籃板” }是經(jīng)過(guò)人思考給出的。 BIC 通過(guò) 計(jì)算得出文檔代表詞組明”、“得分”、“籃板” },同時(shí)計(jì)算詞 ,相當(dāng)于人工輸入 {“姚 在句子中語(yǔ)序關(guān)系的發(fā)生概率與馬爾科夫鏈,因此,能夠更好地確定搜索詞的語(yǔ)義和語(yǔ)境,通過(guò)對(duì)文檔間的相關(guān)性(接近度)進(jìn)行聚類計(jì)算,可按 Meaning“接近度”進(jìn)行自動(dòng)搜索而無(wú)需人工干預(yù),并隨文檔內(nèi)容的變化而自動(dòng)跟蹤 Meaning 變化,使搜索更加準(zhǔn)確、更加自動(dòng)化,讓搜索“隨用戶的心而動(dòng)”。 BIC 可用于基于 Meaning 計(jì)算的搜索、輿情分析、特定情報(bào)分析、垂直搜索和相似內(nèi)容推薦等文本挖掘。 解決問(wèn)題: 計(jì)算兩個(gè)文本的相似度。 文本模糊聚類計(jì)算 算法概述:基于模糊聚類算法, BIC 首先計(jì)算將 n 個(gè)文本組成相似矩陣檔對(duì)第 j 個(gè)文本文檔的相似度),然后將相似矩陣似矩陣 變成模糊相似矩陣 (第 i 個(gè)文本文,通過(guò)求模糊相的等價(jià)矩陣和截矩陣,將 n 個(gè)文本文檔分成 1n個(gè)分類,同時(shí),按相同分類中的 },不同文本分類間具有最大差異 Max{ },來(lái)求解文本具有最接近的內(nèi)容相似度 Min{按文本內(nèi)容進(jìn)行最優(yōu)分類方案。 解決問(wèn)題:在不確定將文本劃分成幾類的情況下,將 n 個(gè)文本聚成 1n 個(gè)分類,以此來(lái)觀察“聚類”效果。 文本 kmeans聚類 算法概述:基于 kmeans 聚類,在 BIC 平臺(tái)上,用戶上傳或輸入n 個(gè)文本,確定希望分類數(shù)量 k和 k 個(gè)分類樣本, BIC 將以 k 個(gè)樣本作為初始迭代點(diǎn)進(jìn)行 kmeans聚類計(jì)算,將 n個(gè)文本分成 k個(gè)分類。 解決問(wèn)題:在已經(jīng)確定了 k 個(gè)分類的情況下,將文本劃分到 k 個(gè)“分類”中。 文本分類 算法概述:通過(guò)“文本模糊聚類”或“文本 kmeans”聚類 , BIC不僅將 n 個(gè)文本按內(nèi)容相似度進(jìn)行分類,同時(shí)挖掘出各個(gè)分類的“分類代表詞組”,以后,用戶任意給出一個(gè)文本, BIC 將根據(jù)其對(duì)各個(gè)“分類代表詞組”的相似度,選擇最相似的分類 MaxSim{i},將該待分類文檔分配到 MaxSim{i}類。 解決問(wèn)題:在已經(jīng)完成文本聚類的情況下,將不確定的文本劃分到“分類”中。 1關(guān)聯(lián)模式發(fā)現(xiàn) 算法概述:關(guān)聯(lián)分析的目的是挖掘隱藏的關(guān)聯(lián) (Association)模型,最著名的關(guān)聯(lián)模式應(yīng)用是挖掘“購(gòu)物籃”問(wèn)題,是從發(fā)現(xiàn)購(gòu)買行中,發(fā)現(xiàn)商品之間的關(guān)聯(lián)關(guān)系。給定 一組交易記錄: 每筆交易 ID包含 m個(gè)商品 {BIC可計(jì)算得出任意兩商品 }, n 條記錄組成二維表,構(gòu)成矩陣, 組合的 Confidence(AB)=P(A|B) 置 信 度 和 支 持 度Support(AB)=P(AUB),可用于分析商品之間的關(guān)聯(lián)性“購(gòu)物籃”問(wèn)題。 BIC 的關(guān)聯(lián)模式發(fā)現(xiàn)是一個(gè)快速、交互式 Apriore 計(jì)算過(guò)程:從發(fā)現(xiàn)最基本的 2 個(gè) Item 關(guān)聯(lián)高頻項(xiàng)集開始,計(jì)算支持度Support(AB)=P(AUB)和置信度 Confidence(AB)=P(A|B),逐步計(jì)算和發(fā)現(xiàn) 4? Item 關(guān)聯(lián)頻繁項(xiàng)集。因?yàn)椋海?1)任何求解高頻關(guān)聯(lián)事務(wù) T中的項(xiàng)數(shù) Item必然大于等于 2,如果只有 1個(gè) Item不存在關(guān)聯(lián); ( 2)任何交易記錄 T 中無(wú)論有多少個(gè) Item 組合,如果存在大于2 個(gè) Item的高頻組合,都必然存在 2關(guān)聯(lián)的高頻真子集。 如:交易記錄 T1={Item1, Item2},交易記錄 T2={Item1, Item3,Item4, Item2},則 T1為 T2 的非空真子集 T1?T2。 所以,如果存在 3關(guān)聯(lián)的高頻 Item組合,必然存在 2 關(guān)聯(lián)的高頻組合;如果存在 4關(guān)聯(lián)的 Item高頻組合,必然存在 3關(guān)聯(lián)高頻組合?。BIC 就是通過(guò)最基本的 2 關(guān)聯(lián)高頻項(xiàng)集發(fā)現(xiàn)開始,逐步縮小記錄集合,逐步發(fā)現(xiàn)所有任意數(shù)量 Item 組合的高頻項(xiàng)集。因此, BIC 的關(guān)聯(lián)計(jì)算是一個(gè)快速、交互式計(jì)算的 Apriore算法。 解決問(wèn)題:從樣本集中發(fā)現(xiàn)有較強(qiáng)“置信度”的關(guān)聯(lián)規(guī)則。 1序列模式發(fā)現(xiàn) 算法概述:算法原理同“關(guān)聯(lián)分析”,但統(tǒng)計(jì)點(diǎn)在于事物(或商品購(gòu)買)發(fā)生的先后序列。如商品購(gòu)買行為預(yù)測(cè):汽車改裝愛(ài)好者,購(gòu)買某種品牌增壓器的人,很多人 后來(lái)還購(gòu)買了活塞環(huán)、又購(gòu)買了某品牌機(jī)油?,通過(guò)序列分析,發(fā)現(xiàn)其購(gòu)買序列、預(yù)測(cè)下一步購(gòu)買行為;如疾病診斷:患有某種疾病的人,先出現(xiàn) A 癥狀、后出現(xiàn) B 癥狀、又出現(xiàn) C 癥狀?,通過(guò)出現(xiàn)癥狀的序列分析,發(fā)現(xiàn)疾病發(fā)生、發(fā)展的序列模式,對(duì)疾病進(jìn)行診斷; 如 Web 訪問(wèn)行為模式發(fā)現(xiàn):每個(gè) IP 訪問(wèn)網(wǎng)站都是一個(gè) Web 會(huì)話Session,每個(gè) Session 由一系列的 URL 序列組成,通過(guò) Session計(jì)統(tǒng)計(jì)得到高頻 URL 序列,預(yù)測(cè)用戶的訪問(wèn)行為;不限于上述例子,還包括生物進(jìn)化序列模式、 DNA 序列、地震、火災(zāi)、戰(zhàn)爭(zhēng)沖突爆發(fā)序列模 式預(yù)測(cè)等,序列規(guī)律是大量存在的,只要有足夠的統(tǒng)計(jì)數(shù)據(jù),都可以通過(guò) BIC 發(fā)現(xiàn)最率并進(jìn)行預(yù)測(cè)。 序列模式發(fā)現(xiàn)與關(guān)聯(lián)模式發(fā)現(xiàn)在算法上很相似,但序列模式強(qiáng)調(diào)Item 的先后順序,而關(guān)聯(lián)模式發(fā)現(xiàn)不關(guān)心順序,只看是否在一個(gè)事物T 中 2 個(gè) Item(或多個(gè))是否同時(shí)出現(xiàn)。 BIC 的序列模式發(fā)現(xiàn)是一個(gè)快速、交互式 Apriore 計(jì)算過(guò)程:從發(fā)現(xiàn) 2個(gè) Item序列高頻序列開始,計(jì)置信度 Confidence(AB)=P(A|B),逐步計(jì)算和發(fā)現(xiàn) 4? Item 序列頻繁序列。因?yàn)椋海?1)任何求解 高頻序列事務(wù) T中的項(xiàng)數(shù) Item必然大于等于 2,如果只有 1個(gè) Item不存在關(guān)聯(lián); ( 2)任何事務(wù)記錄 T 中無(wú)論有多少個(gè) Item 序列組合,如果存在大于 2個(gè) Item的高頻序列組合,都必然存在 2序列的高頻序列真子集。 如:事務(wù)序列記錄 T1={Item1, Item2},事務(wù)序列記錄 T2={Item1,Item3, Item4, Item2},則 T1 為 T2的非空真子集 T1?T2。 所以,如果存在 3 個(gè) Item序列的高頻 Item 組合,必然存在 2序列的高頻序列組合,如果存在 4 個(gè) Item 的高頻序列組合,必然存 在 3高頻序列組合?。 BIC 就是通過(guò)最基本的 2 序列高頻序列發(fā)現(xiàn)開始,逐步縮小記錄集合,逐步發(fā)現(xiàn)所有任意數(shù)量 Item 組合的高頻序列組合。因此, BIC 的序列計(jì)算是一個(gè) *快速、交互式計(jì)算的 Apriore算法
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1