【正文】
e from titles order by price desc select top 30 PERCENT title_id, price, type from titles order by price desc,我要的不多 只需要n個,直方圖,( select 1, avg(*) from EMP where salary = (select max(salary) from EMP) * 2/3 union ( select 2, avg(*) from EMP where salary =(select max(salary) from EMP) /3 union ( select 3, avg(*) from EMP where salary (select max(salary) from EMP) / 3,rank,select T1.S, GRADE, (select count (distinct T2.GRADE) from SC AS T2 where T1.GRADE = T2.GRADE) as rank from SC as T1 where GRADE is not null order by rank,中位數(shù),declare temp INT, median INT set temp = (select count(*) from sc) / 2 declare my_curs cursor for select GRADE from SC order by GRADE open my_curs while(temp0) begin fetch my_curs temp = temp – 1 end fetch my_curs into median,給出成績排在最中間的學(xué)生的成績,落差,create view rankgrade( GRADE, graderank ) as select GRADE, (select count( distinct GRADE ) from SC as T1 where T1.GRADE = T2.GRADE) as rank from SC AS T2 select G1=V1.GRADE, G2=V2.GRADE, DIFF=(V2.GRADE V1.GRADE) from rankgrade as V1 left outer join rankgrade as V2 on (V2.graderank = V1.graderank + 1),給出所有相鄰兩個成績之間的差,Skyline: 問題的引入,找一個便宜并且離海灘近的旅館 系統(tǒng)無法決定哪些是最好的,但它會提供所有的備選(interesting)旅館,也即它們不會在兩個維上都比其他任何旅館差,稱其為Skyline,Skyline: 問題的引入,稱點x統(tǒng)治(dominate)點y,如果x在所有維上都不比y差,并且至少在一個維上好過y 旅館 (price=50, distance=0.8)統(tǒng)治 (price=100,distance=1.0),Skyline:更高、更靠近河流的建筑,東食西宿:更英俊、更有錢,Skyline的性質(zhì),一個集合M,一個單調(diào)計分函數(shù)R,如果p?M使得R最大,那么p一定在M的Skyline中 不管你如何偏好旅館的價格和距離,你最中意的旅館總是在Skyline中 對Skyline中的任意一點p,總存在一個單調(diào)計分函數(shù),p使得它最大,也即Skyline不會包含不是任何人偏好的旅館 統(tǒng)治滿足傳遞性,也即如果p統(tǒng)治q,q統(tǒng)治r,則p統(tǒng)治r,帶Skyline的SQL擴(kuò)展,SELECT…FROM…WHERE GROUP BY…HAVING… SKYLINE OF [ DISTINCT ] d1 [ MIN | MAX | DIFF ], … , dn [ MIN | MAX | DIFF ] TOP … ORDER BY…,SKYLINE OF d1 MIN ,d2 MAX ,d3 DIFF p(p1,p2,p3)統(tǒng)治q(q1,q2,q3),如果 p1≤q1, p2≥q2, p3=q3,帶Skyline的SQL示例,用嵌套子查詢實現(xiàn)Skyline,Skyline的大小,聯(lián)機(jī)分析處理(OLAP),存在著大量的分析型應(yīng)用 ——要求對大量的數(shù)據(jù)從各個角度進(jìn)行綜合分析(多維分析) 典型分析應(yīng)用: 對一些統(tǒng)計指標(biāo) (銷售金額) 從不同角度(維) (時間、地區(qū)、商品類型) 從不同級別(層次)(地區(qū):縣、地市、省、大區(qū)) 今年銷售量下降的因素(時間、地區(qū)、商品、銷售部門) 某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?,多維數(shù)據(jù)模型,關(guān)系表與多維Cube,多維數(shù)據(jù)模型的基本組成:維+度量,多維數(shù)據(jù)模型,變量(指標(biāo)) 數(shù)據(jù)的實際意義,一般是一個數(shù)值度量指標(biāo) 例如:銷售量、銷售額,…… 而具體數(shù)據(jù)(如“10000”)是變量的一個值 維 觀察數(shù)據(jù)的特定角度 例如:時間、地區(qū),…… 維的層次 特定角度的不同細(xì)節(jié)程度 例如:時間維:日、周、月、季、年 地理維:城市、地區(qū)、國家,多維分析的基本分析動作,切片(Slice) 從多維數(shù)組選定一個二維子集,切出一個“平面” 切塊(Dice) 從多維數(shù)組選定一個三維子集,切出一個“立方體” 旋轉(zhuǎn) 改變一個報告(或頁面)顯示的維方向,關(guān)系的交叉表表示,關(guān)系表,關(guān)系的交叉表表示,交叉表,用SQL生成交叉表,SELECT Model, Year, Color, SUM(Sales) FROM Sales WHERE Model = 39。 GROUP BY Model, Year UNION SELECT Model, ALL, ALL, SUM(Sales) FROM Sales WHERE Model = 39。=SUM(units_sold), model, 39。=GROUPING(theyear), color, 39。????39。????39。????39。 于是這個連鎖店的經(jīng)理當(dāng)機(jī)立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時把男士們需要的日常生活用品也就近布置。 ⑵if samples都在同一個類C then 返回N作為葉節(jié)點,以類C標(biāo)記。 ⑹for each test_attribute中的已知值ai 由節(jié)點N長出一個條件為test_attribute=ai的分枝。,利用決策樹進(jìn)行數(shù)據(jù)分類:ID3,信息增益(information gain) 設(shè)S是s個樣本的集合,假定類標(biāo)號屬性有m個不同值,定義m個不同類Ci,設(shè)si是Ci中樣本數(shù)。它的目的是使得屬于同一類別的個體之間的距離盡可能的小而不同類別上的個體間的距離盡可能的大??梢杂脤傩訟將S劃分為v個子集{s1, s2, … sv},其中si中樣本在屬性A上具有值ai。 ⑻if si 為空 then 加上一個樹葉,標(biāo)記為samples中最普通的類。 ⑷選擇attribute_list中具有最高信息增益的屬性test_attribute。,知識發(fā)現(xiàn)的定義,數(shù)據(jù)庫中的知識發(fā)現(xiàn)是識別數(shù)據(jù)中有效的(Valid)、新穎的(Novel)、潛在有用的(Potentially Useful)和最終可被理解(Ultimately Understandable)的模式(Pattern)的非平凡過程,KDD:Knowledge Discovery in Database,數(shù)據(jù)挖掘的定義,數(shù)據(jù)挖掘(Data Mining)是KDD過程的一個步驟,它是在現(xiàn)實可接受的計算效率限制下,應(yīng)用數(shù)據(jù)分析和知識發(fā)現(xiàn)算法,在數(shù)據(jù)的基礎(chǔ)上,對模式(Pattern)的特定枚舉,數(shù)據(jù)挖掘的任務(wù)與方法,關(guān)聯(lián)分析(Associations),目的和含義