freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sparkmlib算法使用有代碼輸入輸出-資料下載頁

2025-06-19 14:45本頁面
  

【正文】 屬性范圍調(diào)整。均值歸一化是相應(yīng)屬性減去其平均值;而屬性范圍則在歸一化基礎(chǔ)上除以屬性方差。2. 計算特征之間的協(xié)方差矩陣。該矩陣是一個n*n的對稱矩陣3. 計算協(xié)方差矩陣的特征值和特征向量4. 將特征值從大到小排序5. 保留最上面的N個特征向量6. 將原數(shù)據(jù)映射到由N個特征向量構(gòu)成的新空間中 輸入?yún)?shù)和含義部分?jǐn)?shù)據(jù): 代碼展示代碼:結(jié)果展示: 應(yīng)用場景主要用作降維處理,對數(shù)據(jù)進行預(yù)處理第5章 統(tǒng)計 相關(guān)統(tǒng)計 算法描述和定義相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)。簡單的來說就是相關(guān)系數(shù)絕對值越大(值越接近1或者1),當(dāng)取值為0表示不相關(guān),取值為(0~1]表示負(fù)相關(guān),取值為(0,1]表示正相關(guān)。則表示數(shù)據(jù)越可進行線性擬合。 輸入?yún)?shù)和含義, , , , , , 代碼展示 應(yīng)用場景 分層采樣 算法描述和定義定義:根據(jù)在抽樣時,將總體分成互不交叉的層,然后按照一定的比例,從各層獨立地抽取一定數(shù)量的個體,將各層取出的個體合在一起作為樣本 輸入?yún)?shù)和含義將字符串長度為2劃分為層1和層2,對層1和層2按不同的概率進行抽樣數(shù)據(jù)aabbccddeeaaabbbcccDddeee 代碼展示輸出數(shù)據(jù):(2,aa)(1,bbb)(2,bb)(1,ccc)(2,cc)(1,ddd)(2,dd)(1,eee)(2,ee)(1,aaa) 應(yīng)用場景范圍:總體中由差異明顯的幾部分組成即可 卡方檢驗 算法描述和定義描述:卡方檢驗是對樣本的頻數(shù)分布所來自總體分布是否服從某種理論分布或某種假設(shè)分所所作的假設(shè)檢驗??ǚ綑z驗在多數(shù)情況下不是對總體參數(shù)的檢驗,而是對總體分布的假設(shè)檢驗。所以,卡方檢驗屬于自由分布的非參數(shù)檢驗。卡方檢驗可以同時處理一個因素分為多種類別,或多種因素各有多種類別的資料??傊?凡是可以應(yīng)用比率進行檢驗的資料,都可以應(yīng)用卡方檢驗。 輸入?yún)?shù)和含義分析一下吸煙與性別是否獨立 代碼展示代碼:結(jié)果: 統(tǒng)計量:pearson、獨立性:值:、概率:。 應(yīng)用場景 隨機數(shù)發(fā)生器 算法描述和定義描述:用于隨機數(shù)的生成,眾所周知,我們平時所使用的無論什么編程語言都會提供一個隨機數(shù)函數(shù),它是由算法計算得出的,是可以預(yù)測的,也就是說當(dāng)隨機種子相同時,對于同一個隨機函數(shù),得出的隨機數(shù)列是固定不變的,與之對應(yīng)的就是真隨機數(shù)它是真正的隨機數(shù),無法預(yù)測且無周期性;真隨機數(shù)發(fā)生器。 輸入?yún)?shù)和含義 代碼展示println(normalRDD:) val randomNum = normalRDD(sc, 3) (println) println(uniformRDD:) uniformRDD(sc, 3).foreach(println) println(poissonRDD:) poissonRDD(sc, 5,3).foreach(println) println(exponentialRDD:) exponentialRDD(sc,7, 3).foreach(println) println(gammaRDD:)gammaRDD(sc, 3,3,3).foreach(println)結(jié)果展示:normalRDD:uniformRDD:poissonRDD:exponentialRDD:gammaRDD: 應(yīng)用場景 列統(tǒng)計匯總 算法描述和定義描述:計算每列最大值、最小值、平均值、方差值、L1范數(shù)、L2范數(shù) 輸入?yún)?shù)和含義輸入數(shù)據(jù),, 代碼展示代碼: valdata_path = /home/jbhuangmeiling/ valdata = (data_path).map((\t)).map(f = (f = )) valdata1 = (f = (f)) //計算每列最大值、最小值、平均值、方差值、L1范數(shù)、L2范數(shù) valstat1 = (data1) 結(jié)果: 應(yīng)用場景 Hadamard乘積 算法描述和定義定義:設(shè)A,B為數(shù)域F上兩個mn階矩陣,A=(aij)mn,B=(bij)m*B=(aijbij)mn,稱A*B為A與B的Hadamard乘積矩陣 輸入?yún)?shù)和含義輸入數(shù)據(jù):1 2 34 5 6 代碼展示代碼:結(jié)果: 應(yīng)用場景第6章 特征抽取和變換 TFIDF 算法描述和定義描述:TFIDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TFIDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。 輸入?yún)?shù)和含義 代碼展示代碼:部分輸出結(jié)果: 應(yīng)用場景同樣可以用于統(tǒng)計銷售的產(chǎn)品中 比如全國 各大超市中 每個超市都有自己不同的商品 和相同的商品銷售 為了知道某個超市的銷售特點 可以分析超市商品的銷售量 得到銷售最多的商品集合 然后去掉其他超市同樣銷售很好的商品 最后剩下的就是滿足該超市特征的銷售商品 也就是知道了這個超市商品銷售的特點 詞到變量 算法描述和定義word2vec是一個將單詞轉(zhuǎn)換成向量形式的工具。可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。 輸入?yún)?shù)和含義MLlib中的Word2Vec實現(xiàn),使用的是skipgram模型。skipgram的目標(biāo)函數(shù)是學(xué)習(xí)擅長預(yù)測同一個句子中詞的上下文的詞向量表示 代碼展示代碼:搜索 property 字段的相關(guān)性1. 描述 :定義 使用場景2. 算法的輸入數(shù)據(jù)。(按種類列出)3. 輸入的參數(shù)(含義)4. 輸出的參數(shù)(按種類劃分)5. 輸入輸出的數(shù)據(jù)(具有業(yè)務(wù)含義6. 模型是否需要重建7. 需要看代碼建模理論 應(yīng)用場景這個模型可以說能做成研究的重點 通過還是拿商品銷售為例 通過得到全國各超市的產(chǎn)品銷售量情況 可以分析出 各個產(chǎn)品和其他產(chǎn)品的關(guān)聯(lián)度高低 如果關(guān)聯(lián)度高 就可以捆綁銷售這類商品 這種模型很好的解決了 啤酒尿布的預(yù)測方案 標(biāo)準(zhǔn)化 算法描述和定義標(biāo)準(zhǔn)化是指:對于訓(xùn)練集中的樣本,基于列統(tǒng)計信息將數(shù)據(jù)除以方差或(且)者將數(shù)據(jù)減去其均值(結(jié)果是方差等于1,數(shù)據(jù)在0附近)。這是很常用的預(yù)處理步驟。例如,當(dāng)所有的特征具有值為1的方差且/或值為0的均值時,SVM的徑向基函數(shù)(RBF)核或者L1和L2正則化線性模型通常有更好的效果。標(biāo)準(zhǔn)化可以提升模型優(yōu)化階段的收斂速度,還可以避免方差很大的特征對模型訓(xùn)練產(chǎn)生過大的影響。 輸入?yún)?shù)和含義 代碼展示 應(yīng)用場景 正規(guī)化 算法描述和定義指將每個獨立樣本做尺度變換從而是該樣本具有單位Lp范數(shù)。這是文本分類和聚類中的常用操作。例如,兩個做了L2歸一化的TFIDF向量的點積是這兩個向量的cosine(余弦)相似度。Normalizer的構(gòu)造函數(shù)有以下參數(shù): 在Lp空間的p范數(shù), 默認(rèn)p=2。Normlizer實現(xiàn)了VectorTransformer,這個類可以對Vector和RDD[Vector]做歸一化。注意:如果輸入的范數(shù)是0,會返回原來的輸入向量。正則化的過程是將每個樣本縮放到單位范數(shù)(每個樣本的范數(shù)為1),如果后面要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。Normalization主要思想是對每個樣本計算其p范數(shù),然后對該樣本中每個元素除以該范數(shù),這樣處理的結(jié)果是使得每個處理后樣本的p范數(shù)(l1norm,l2norm)等于1。p范數(shù)的計算公式:||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p該方法主要應(yīng)用于文本分類和聚類中。例如,對于兩個TFIDF向量的l2norm進行點積,就可以得到這兩個向量的余弦相似性 輸入?yún)?shù)和含義 代碼展示代碼:結(jié)果: 應(yīng)用場景主要應(yīng)用于文本分類和聚類中。例如,對于兩個TFIDF向量的l2norm進行點積,就可以得到這兩個向量的余弦相似性
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1