freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

太原理工大學(xué)數(shù)據(jù)挖掘考試題庫(編輯修改稿)

2024-09-01 05:20 本頁面
 

【文章內(nèi)容簡介】 操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細(xì)節(jié)的歷史的、綜合的面向應(yīng)用、事務(wù)驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)操作支持管理決策需求d) 何謂OLTP和OLAP?它們的主要異同有哪些?OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。OLAP即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLTP和OLAP的主要區(qū)別如下表:OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動e) 何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:i. 簡單堆積結(jié)構(gòu)ii. 輪轉(zhuǎn)綜合結(jié)構(gòu)iii. 簡單直接結(jié)構(gòu)iv. 連續(xù)結(jié)構(gòu)f) 簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容。概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計時主要考慮的因素有: I/O存取時間、空間利用率和維護(hù)代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。g) 在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準(zhǔn)確程度。h) 簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。① 數(shù)據(jù)清洗:包括填充空缺值,識別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù)。② 數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。③ 數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。④ 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。i) 簡述數(shù)據(jù)清理的基本內(nèi)容。① 盡可能賦予屬性名和屬性值明確的含義;② 統(tǒng)一多數(shù)據(jù)源的屬性值編碼;③ 去除無用的惟一屬性或鍵值(如自動增長的id);④ 去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某些時候它們可能又是同時需要的)⑤ 去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果)⑥ 合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額)⑦ 去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。j) 簡述處理空缺值的方法。① 忽略該記錄;② 去掉屬性;③ 手工填寫空缺值;④ 使用默認(rèn)值;⑤ 使用屬性平均值;⑥ 使用同類樣本平均值;⑦ 預(yù)測最可能的值。k)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1