freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

太原理工大學(xué)數(shù)據(jù)挖掘考試題庫-wenkub.com

2024-08-12 05:20 本頁面
   

【正文】 數(shù)據(jù)清洗技術(shù)? 功能:去掉數(shù)據(jù)中的噪聲,糾正不一致? 完成:填充空缺的值、識別孤立點、消除噪聲、糾正數(shù)據(jù)中的不一致? 方法:有監(jiān)督和無監(jiān)督兩類方法:– 有監(jiān)督過程:在領(lǐng)域?qū)<抑笇?dǎo)下,分析收集數(shù)據(jù),去掉明顯錯誤的噪聲數(shù)據(jù)和重復(fù)記錄,填補缺省數(shù)據(jù);– 無監(jiān)督過程:用樣本數(shù)據(jù)訓(xùn)練算法,使其獲得一定的經(jīng)驗,并在以后的處理過程中自動采用這些經(jīng)驗完成數(shù)據(jù)清洗工作。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。xii. 目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。 何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。簡述K平均算法的輸入、輸出及聚類過程(流程)。u) 從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的MP方程并說明其含義。t) 簡述ID3算法的基本思想及其建樹算法的基本步驟。s) 簡述ID3算法的基本思想及其主算法的基本步驟。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。p) 聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點?常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。②生物學(xué):推導(dǎo)植物或動物的分類,對基于進行分類,獲得對種群中固有結(jié)構(gòu)的認識。n) 何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。k) 常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?分箱的方法主要有:① 統(tǒng)一權(quán)重法(又稱等深分箱法) ② 統(tǒng)一區(qū)間法(又稱等寬分箱法) ③ 最小熵法④ 自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。i) 簡述數(shù)據(jù)清理的基本內(nèi)容。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準確程度。物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。c) 列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。二是解決決策分析對數(shù)據(jù)的特殊需求問題。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。30 決策按其性質(zhì)可分為如下3類: a) 結(jié)構(gòu)化決策,是指對某一決策過程的環(huán)境及規(guī)則,能用確定的模型或語言描述,以適當?shù)乃惴óa(chǎn)生決策方案,并能從多種方案中選擇最優(yōu)解的決策;31 典型的物聯(lián)網(wǎng)智能決策應(yīng)用模式32 體系結(jié)構(gòu):主要由四個部分組成:數(shù)據(jù)部分:一個數(shù)據(jù)庫系統(tǒng);模型部分:模型庫(MB)及其管理系統(tǒng)(MBMS)。? 這類方法的特點是通過自適應(yīng)學(xué)習(xí)的特性,這些算法達到了全局優(yōu)化的目的,有些算法容易陷入局部最優(yōu),有時也專門求次優(yōu)解。按照這一觀點,智能是在生物的遺傳、變異、生長以及外部環(huán)境的自然選擇中產(chǎn)生的。 分類屬性:街道用城市或國家替換;252。涉及多個變量的多線性回歸是進一步擴展,即找多維面。22. 關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。20. 支持度:規(guī)則A→B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(A∪B),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。17. 決策樹:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。14. 偏差型知識:是對差異和極端特例的描述,用于揭示事物偏離常規(guī)的異?,F(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等。10. MOLAP:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1