freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本挖掘算法總結(jié)[五篇材料]-展示頁

2025-04-11 17:57本頁面
  

【正文】 和語境,通過對(duì)文檔間的相關(guān)性(接近度)進(jìn)行聚類計(jì)算,可按 Meaning“接近度”進(jìn)行自動(dòng)搜索而無需人工干預(yù),并隨文檔內(nèi)容的變化而自動(dòng)跟蹤 Meaning 變化,使搜索更加準(zhǔn)確、更加自動(dòng)化,讓搜索“隨用戶的心而動(dòng)”。 例如:“姚明”是中國(guó)籃球的驕傲,但“姚明”還投身于公益事業(yè),如果在搜索引擎中輸入“姚明”,不見得搜索的文檔內(nèi)容只包含與籃球相關(guān)的內(nèi)容,還可能包括公益及其他包含“姚明”的文檔,可見,關(guān)鍵詞搜索具有不確定性。 基于 Meaning 的文本相似度計(jì)算算法概述:給出一組 n 個(gè)文檔D{ }, BIC 為每個(gè)文檔計(jì)算出一組最具有代表性的詞組,同時(shí),計(jì)算出相互間內(nèi)容接近度及接近序列。 解決問題:將 n 條記錄按 m 個(gè)輸出神經(jīng)元聚成 m 個(gè)分類。在競(jìng)爭(zhēng)層神經(jīng)元之間的連線,它們是模擬生物神經(jīng)網(wǎng)絡(luò)層內(nèi)神經(jīng)元相互抑制現(xiàn)象的權(quán)值,這類抑制性權(quán)值滿足一定的分布關(guān)系,如距離近的抑制強(qiáng),距離遠(yuǎn)的抑制弱。這種側(cè)抑制使神經(jīng)細(xì)胞之間呈現(xiàn)出競(jìng)爭(zhēng),開始時(shí)可能多個(gè)細(xì)胞同時(shí)興奮,但一個(gè)興奮程度最強(qiáng)的神經(jīng)細(xì)胞對(duì)周圍神經(jīng)細(xì)胞的抑制作用也最強(qiáng),其結(jié)果使其周圍神經(jīng)細(xì)胞興奮程度減弱,從而該神經(jīng)細(xì)胞是這次競(jìng)爭(zhēng)的“勝者”,其它神經(jīng)細(xì)胞在競(jìng)爭(zhēng)中失敗。 SOM 神經(jīng)元網(wǎng)絡(luò)聚類算法概述:人類對(duì)事物的認(rèn)知是一個(gè)不斷積累的過程,通過對(duì)事物的觀察,不斷地認(rèn)識(shí)和修正因果關(guān)系,最后逐漸穩(wěn)定為認(rèn)知規(guī)則。 解決問題:將 n條記錄聚成 1n個(gè)分類。 模糊聚類基本計(jì)算步驟為: ( 1)將樣本集中的 n條記錄變換成 nxn的模糊相似矩陣; ( 2)通過傳遞包卷積計(jì)算將模糊相似矩陣變換成等價(jià)相似矩陣; ( 3)最后通過λ截矩陣將 n條記錄分成 1n個(gè)分類。 無限細(xì)分的模糊聚類 FuzzyClustering 算法概述:在實(shí)際解決聚類問題時(shí),很多數(shù)事物是“模糊”的,其特征屬性 A 無法確進(jìn)行量化,如:人的相貌、人與人之間的關(guān)系、人的性格、購(gòu)買商品的意愿等,這就需要用模糊數(shù)學(xué)來進(jìn)行相似性計(jì)算。對(duì) n 個(gè)樣本集記錄,指定分類個(gè)數(shù) k,為 k個(gè)分類指定初始迭代記錄為 k 個(gè)分類中心,通過計(jì)算其他記錄對(duì) k 個(gè)分類中心的距離,對(duì)不斷變換分類、變換類中心,收斂都當(dāng)分類不再變化時(shí),計(jì)算結(jié)束。 BIC 改進(jìn)了常規(guī)的 kmeans 聚類算法,在聚類過程中,同時(shí)計(jì)算分類質(zhì)量(類內(nèi)均差、類間均距 和 ),并求解最優(yōu)聚類 max{ }。 “粗糙集”分類規(guī)則為“百分之百確定型”分類規(guī)則,這是對(duì)樣本集的統(tǒng)計(jì)結(jié)果,如果出現(xiàn)非“樣本集”中出現(xiàn)過的條件變量屬性,將無法得出“粗糙集”,可轉(zhuǎn)而使用概率型“貝葉斯分類”進(jìn)行計(jì)算。所謂“最小分類規(guī)則”是,最少的條件組合。 IF 中的條件 C可以是單一條件,也可以是組合 and(并且)組合條件。 解決問題:預(yù)測(cè)所屬分類。粗糙集理論將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。粗糙集理論是繼概率論、模糊集、證據(jù)理論之后的又一個(gè)處理不確定性事物的數(shù)學(xué)工具。通過已知樣本集記錄,生成一顆“分類知識(shí)樹”,給定一個(gè)未知“標(biāo)簽 ”記錄,通過“分類知識(shí)樹”來確定其所屬分類。每個(gè)決策節(jié)點(diǎn)代表一個(gè)問題或決策,每一個(gè)葉子節(jié)點(diǎn)代表一種可能的分類結(jié)果,沿決策樹在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)測(cè)試,對(duì)每個(gè)節(jié)點(diǎn)上問題的不同取值導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)為確定所屬分類。該算法以信息論為基礎(chǔ),以信息熵和信息增益度來確定分枝生成決策樹 DTree。通過已知 n 條樣本集記錄,計(jì)算各種條件屬性組發(fā)生的概率,得出“貝葉斯分類”規(guī)則,給定一個(gè)未知“標(biāo)簽”記錄,選擇最大概率為其所屬“分類”。貝葉斯分類是一種概率型分類知識(shí)挖掘方法,不能百分之百地確定 X事件發(fā)生時(shí) Di一定發(fā)生。文本挖掘算法總結(jié) [五篇材料 ] 第一篇:文本挖掘算法總結(jié) 文本數(shù)據(jù)挖掘算法應(yīng)用小結(jié) 基于概率統(tǒng)計(jì)的貝葉斯分類 ID3決策樹分類 基于粗糙集理論 RoughSet的確定型知識(shí)挖掘 基于 kmeans 聚類 無限細(xì)分的模糊聚類 FuzzyClustering SOM神經(jīng)元網(wǎng)絡(luò)聚類 基于 Meaning 的文本相似度計(jì)算 文本模糊聚類計(jì)算 文本 kmeans 聚類 文本分類 1關(guān)聯(lián)模式發(fā)現(xiàn) 1序列模式發(fā)現(xiàn) 1 PCA 主成分分析 基于概率統(tǒng)計(jì)的貝葉斯分類算法概述:貝葉斯公式是由英國(guó)數(shù)學(xué)家 (ThomasBayes17021763)創(chuàng)造,用來描述兩個(gè)條件概率之間的關(guān)系,比如 P(A|B)為當(dāng)“ B”事件發(fā)生時(shí)“ A”事件發(fā)生的概率,按照乘法法則: P(A ∩ B)=P(A)*P(B|A)=P(B)*P(A|B),可導(dǎo)出貝葉斯公式:P(A|B)=P(B|A)*P(A)/P(B)貝葉斯分類基本思想為:設(shè)決策變量為 D,D1, D2, Di,?, Dk 為 n 條記錄組成的樣本空間 S 的一個(gè)劃分,將 n條記錄劃分成 k 個(gè)記錄集合,如果以 P(Di)表示事件 Di 發(fā)生的概率,且 P(Di)0(i=1, 2,?, k)。對(duì)于任一事件 x, P(x)0,則有: 貝葉斯分類的基本原理,就是利用貝葉斯條件概率公式,將事件X 視為多個(gè)條件屬性 Cj 各種取值的組合,當(dāng) x事件發(fā)生時(shí)決策屬性 Di發(fā)生的條件概率。 解決問題:預(yù)測(cè)所屬分類的概率。 ID3 決策樹分類算法概述: ID3 算法是 在 1975提出的分類算法,當(dāng)時(shí)還沒有“ 數(shù)據(jù)挖掘”的概念。 ID3算法以決策樹 DTree 構(gòu)建分類知識(shí)模型, DTree 中最上面的節(jié)點(diǎn)為根節(jié)點(diǎn) Root,每個(gè)分支是一個(gè)新的決策節(jié)點(diǎn),或者是樹的葉子。 解決問題:預(yù)測(cè)所屬分類。 基于粗糙集理論 RoughSet 的確定型知識(shí)挖掘算法概述: 1982年波蘭學(xué)者 提出了粗糙集理論 RoughSetsTheory,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效分析不精確、不一致( Inconsistent)、不完整( Inplete)等各種不完備信息,利用數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集理論是建立在分類機(jī)制的基礎(chǔ)上 的,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系構(gòu)成了對(duì)該空間的劃分。其主要思想是利用已知的知識(shí)庫(kù),將不精確或不確定的知識(shí)用已知的知識(shí)庫(kù)中的知識(shí)來(近似)刻畫。粗糙集分類將樣本空間 S 劃分為上近似集( Upperapproximation)、下近似集( Lowerapproximation)、邊界集( Boundaryregion),挖掘條件屬性 C 與決策屬性 D 集合所包含的不可分記錄(不能再細(xì)分,該集合中的所有記錄都屬 于某一決策屬性Di 的 取 值 ), 這 些 記 錄 形 成 不 可 辨 識(shí) 的 關(guān) 系( Indiscernibilityrelation),由此確定分類規(guī)則: IFTHEN 即,如果滿條件 C,則其所屬分類為 Di。 BIC 給出的是“最小分類規(guī)則”。例如一個(gè)人屬于“高”、“富”、“帥”,條件為:“身高”、“財(cái)富”、“工資性收入”、“財(cái)產(chǎn)性收入”、“產(chǎn)業(yè)收入”、“臉型”、“眼睛大小”、“鼻梁形狀”、“英俊”等條件來判別,通過“ 粗糙集”分類計(jì)算,得出最小分類規(guī)則可能是“ IF 財(cái)富 =XXX1and 身高 =185cmand相貌 =英俊”其他條件可以忽略不計(jì),這就是“最小分類規(guī)則”。 基于 kmeans聚類算法概述:給定一個(gè)包括 n 條記錄、每條記錄有 m 個(gè)屬性的樣本集,再給出分類數(shù) k,要求將樣本集中的記錄,按記錄間的相似性大?。ɑ蚓嚯x遠(yuǎn)近),將相 似性最大(或距離最近)的記錄劃分到 k 個(gè)類中,相同分類中記錄間的距離要盡可能地小,而分類之間的距離要盡可能地大。 解決問題:將 n 條記錄聚成 k 個(gè)分類。由此,將 n 個(gè)樣本集記錄分配到 k個(gè)分類中,得 到 k個(gè)分類中心指標(biāo)。模糊數(shù)學(xué)是伴隨著上世紀(jì)五六十年代興起的控制論、信息論、系統(tǒng)論(俗稱“老三論”)而形成的一種決策方法,是美國(guó)加利福尼亞大學(xué)伯克利分校 LotfiZadeh 教授于 1965年創(chuàng)立的。 Kmeans 聚類需事先確定聚類數(shù) k,而模糊聚類 FuzzyClustering無需事先確定聚類數(shù) k,可以從最小的 k=1(所有學(xué)習(xí)集中的 n 條記錄為 1 個(gè)分類),到 k=n(所有學(xué)習(xí)集中的 n條記錄各為 1個(gè)分類)。模糊聚類 FuzzyClustering算法完全基于數(shù)據(jù)自然狀況進(jìn)行聚類,可產(chǎn)生聚類的解集合 (k=1,2,n),因此,可以在解集合中求解最優(yōu)聚類 max{ },這對(duì)觀察分析樣本集的數(shù)據(jù)性態(tài)非常有用,可供觀察不同情況下的“聚類”狀況。醫(yī)學(xué)證明,人眼的視網(wǎng)膜、脊髓和海馬中存一種側(cè)抑制現(xiàn)象,即,當(dāng)一個(gè)神經(jīng)細(xì)胞興奮后,會(huì)對(duì)其周圍的神經(jīng)細(xì)胞產(chǎn)生抑制作用。 1981 年芬蘭學(xué)者 kohonen 提出一個(gè)稱為自組織特征映射( SelfOrganizationFeatureMapSOM 或 SOFM)網(wǎng)絡(luò),前述大腦神經(jīng)細(xì)胞興奮規(guī)律等,在該網(wǎng)絡(luò)中都得到了反應(yīng)。 通過上述可知, SOM 聚類算法設(shè)計(jì)的核心思想是體現(xiàn)神經(jīng)元在認(rèn)知過程中的 3 個(gè)特性: ( 1)根據(jù)樣本比較,逐步積累、不斷修正、漸近穩(wěn)定特性?( 2)神經(jīng)元之間的側(cè)抑由近到遠(yuǎn)、逐步衰弱制特性?( 3)神經(jīng)元興奮區(qū)域隨認(rèn)知次數(shù)逐步縮小范圍特性? BIC 采用歐氏距離作為輸入模式 Xi 與各輸出神經(jīng)元 Wj 之間的相似度,選擇具有最小距離的神經(jīng)元為興奮神經(jīng)元; 采用( 1ti/tm)作為學(xué)習(xí)衰減函數(shù),其中 ti 為當(dāng)前學(xué)習(xí)次數(shù)(第幾次樣本訓(xùn)練), tm 為總的學(xué)習(xí)數(shù),以此來體現(xiàn)上述特性“ 1”; 采用( 1ti/T)、 C/Wij作為神經(jīng)元側(cè)抑制函數(shù),其中 C為設(shè)定的常數(shù)、 Wij為被選中的神經(jīng)元與其他神經(jīng)元最遠(yuǎn)距離,來體現(xiàn)上述特性“ 2”、“ 3”。模仿人類的學(xué)習(xí)方法,對(duì)事物的認(rèn)識(shí)是一個(gè)由淺入深、逐步學(xué)習(xí)、修正的過程,將對(duì)各種要素組態(tài)的認(rèn)識(shí)逐步穩(wěn)定到認(rèn)知領(lǐng)域,由此進(jìn)行“聚類”。 BIC 的 Meaning 挖掘與自動(dòng)搜索不同于現(xiàn)有 Baidu、 Google 人工輸入關(guān)鍵詞的搜索方式,現(xiàn)有搜索引擎不考慮語義和語境,只考慮詞 W與文檔 D 的包含關(guān)系 和詞在文檔內(nèi)的頻數(shù) TF,因此,關(guān)鍵詞的搜索與文檔內(nèi)容無關(guān)。如果在搜索引擎輸入一組詞 {“姚明”、“得分”、“籃板” },搜出文檔是籃球比賽內(nèi)容的概率更大,顯 然, 形成的交集縮小了搜索范圍,但組詞 {“姚明”、“得分”、“籃板” }是經(jīng)過人思考給出的。 BIC 可用于基于 Meaning 計(jì)算的搜索、輿情分析、特定情報(bào)分析、垂直搜索和相似內(nèi)容推薦等文本挖掘。 文本模糊聚類計(jì)算算法概述:基于模糊聚類算法, BIC 首先計(jì)算將 n 個(gè)文本組成相似矩陣 (第 i 個(gè)文本文檔對(duì)第 j 個(gè)文本文檔的相似度),然后將相似矩陣 變成模糊相似矩陣 ,通過求模糊相似矩陣 的等價(jià)矩陣和截矩陣,將 n 個(gè)文本文檔分成 1n 個(gè)分類,同時(shí),按相同分類中的文本具有最接近的內(nèi)容相似度 Min{ },不同文本分類間具有最大差異 Max{ },來求解按文本內(nèi)容進(jìn)行最優(yōu)分類方案。 文本 kmeans聚類算法概述:基于 kmeans聚類,在 BIC 平臺(tái)上,用戶上傳或輸入 n 個(gè)文本,確定希望分類數(shù)量 k和 k 個(gè)分類樣本,BIC將以 k個(gè)樣本作為初始迭代點(diǎn)進(jìn)行 kmeans 聚類計(jì)算,將 n 個(gè)文本分成 k 個(gè)分類。 文本分類算法概述:通過“文本模糊聚類”或“文本 kme
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1