【正文】
SS 未修正的平方和 CSS 關(guān)于均值修正的平方和(也稱偏差平方和) STDERR 均值的標準誤差 CV 變異系數(shù) T 檢驗總體均值為 0 假設(shè)時, t 統(tǒng)計量的值 PRT 顯著性概率(大于 t 統(tǒng)計量絕對值的概率) VAR 方差 SUMWGT 權(quán)數(shù)變量的和 PCTN 某一類中某一小類觀測所占的百分比 PCTSUM 某一類觀測在全部觀測中所占的百分比 多個分析變量和多個統(tǒng)計量能夠出現(xiàn)在 同一維中,也可以出現(xiàn)在不同的維中。如果 TABLE 語句中既沒有出現(xiàn)分析變量如 X,又沒有出現(xiàn)統(tǒng)計量如 MEAN,例如上面的例 1~ 6 中的 TABLE 語句都沒有規(guī)定分析變量和統(tǒng)計量,如 TABLE A 語句只規(guī)定了分類變量 A,則每個表單元將給出分類變量的交叉頻數(shù)。在 TABLE語句中如果沒有規(guī)定分析變量,則 N 或 PCTN(頻數(shù) N 的百分數(shù))可作為統(tǒng)計量使用,如 TABLE A*N 或 TABLE A*PCTN。 Run 。 Var X 。程序和輸出匯總報表形式如下所示: Proc tabulate Data=ABCX 。 A A1 A2 B B B1 B2 B1 B2 N N N N 3 3 3 3 例 6:使用含有圓括號、空格和星號操作符的復(fù)合表達式。 Table A *B 。 Class A B 。 A B A1 A2 B1 B2 N N N N 6 6 6 6 例 5:使用星號操作符隔開 TABLE語句的兩個表達式將產(chǎn)生一個交叉等級表格。 Table A B 。 Class A B 。 第一頁 A A1 C C1 C2 C3 N N N B 1 1 1 B1 B2 1 1 1 第二頁 A A2 C C1 C2 C3 N N N B 1 1 1 B1 B2 1 1 1 例 4:使用空格操作符隔開 TABLE語句的兩個表達式將產(chǎn)生一個連排表格。 Table A , B , C 。 Class A B C。 B B1 B2 N N A 3 3 A1 A2 3 3 例 3:使用兩個逗號操作符隔開 TABLE 語句的三個表達式將產(chǎn)生一個三維表格,第一個表達式定義頁,第二個表達式定義行,第三個表達式定義列。 Table A , B 。 873cd3f49b1c15ae658a04021af7cebe SAS 系統(tǒng)和數(shù)據(jù)分析 電子商務(wù)系列 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Created by Page 14 of 28 Class A B。 A A1 A2 N N 6 6 例 2:使用逗號操作符隔開 TABLE語句的兩個表達式將產(chǎn)生一個兩維表格,第一個表達式定義行,第二個表達式定義列。 Table A 。 Class A 。 例 1: TABLE 表達式中只有一個分類變量 A,既沒有規(guī)定分析變量,也沒有指明統(tǒng)計量,則缺省的統(tǒng)計量為頻數(shù) N,即分類變量值的交叉頻數(shù)。而 X變量是一個數(shù)值型變量,用 VAR 定義為分析變量,我們可以理解為它是一個產(chǎn)品的銷售數(shù)量或收入金額或價格等。下面列 出一些主要的操作符及其作用: TABLE 表達式中的操作符 作用 逗號 , 轉(zhuǎn)另一維 空格 表格并排連接 星號 * 交叉組合分組 圓括號 ( ) 分組或規(guī)定次序 為了便于理解 TABLE 表達式中操作符的作用,我們舉一個假設(shè)的例子來說明。元素指分類變量、分析變量和統(tǒng)計量,當表達式包含多個元素時,需要用操作符把它們連接起來。 4. TABLE 語句的使用和輸出表格結(jié)構(gòu) 如何正確地理解和使用 TABLE語句是掌握 PROC TABULATE過程的關(guān)鍵所在。 ? MISSING——要求把丟失值作為分類變量的有效水平。缺省值是FORMCHAR=?||+|?。 ? FORMCHAR(索引表 )=?字符串 ?——規(guī)定用來構(gòu)造報表輪廓和分隔線的字符。如果省略,則為最近建立的SAS 數(shù)據(jù)集。 CLASS、 VAR和 TABLE 語句是構(gòu)成 PROC TABULATE 過程最基本的三條語句。用在 TABLE 語句的分析變量必須用 VAR 語句說明。 873cd3f49b1c15ae658a04021af7cebe SAS 系統(tǒng)和數(shù)據(jù)分析 電子商務(wù)系列 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Created by Page 12 of 28 PROC TABULATE 語句總是伴隨著 至少一個 TABLE語句 來規(guī)定如何制表。 WHERE 條件表達式 。 KEYLABEL 統(tǒng)計量名字 1=“標記 1” 統(tǒng)計量名字 2=“標記 2”…… 。 TABLE 頁表達式, 行表達式, 列表達式 /表選項 。 CLASS 分類變量列表 。另外,還能格式化單元中的數(shù)據(jù)值和產(chǎn)生用戶化的行標題和列標題。 ? 表的結(jié)構(gòu)和格式 ——最多可以定義三個維度:第一維定義列,第二維定義行,第三維定義頁。 ? 分析變量 ——一定是數(shù)值型變量。 1. PROC TABULATE 過程的三要素 一個最簡單的 PROC TABULATE 過程必須定義下列三要素: ? 類變量 ——可以是數(shù)值型變量或字符型變量。與每一個單元有關(guān)的統(tǒng)計量是由該類所有觀測值計算得到的。 PROC TABULATE用分類報表的形式輸出滿足用戶要求的描述性統(tǒng)計量。我們在程序中用不帶任何內(nèi)容的 FOOTNOTE1 語句替代原先同樣號碼的腳注,實際上它能取消擁有更大號碼的腳注。 程序運行結(jié)果如圖 所示。 WHERE heigh= 。 LABEL Bdate=Date of*Brithday Ine=Total*Ine 。 TITLE2 “ Information System”。 SUM ine 。 ID sex 。 round width=min 。 PROC PRINT data= noobs n split=39。 PROC SORT Data= out= 。去掉腳注。 報表之二的要求是:修改報表一,按 SEX 變量中的值 M 和 F 進行分組求和(用 BY 語句), 同時將分組值 M 和 F 列在分組報告的最左邊(用 ID 語句)。 腳注顯示在一頁的最下方,通常一頁的長度要大于窗口的長度,所以有時正文和腳注的內(nèi)容并不一定能同時顯示在 OUTPUT窗口中。 Run 。 FORMAT Bdate DATE7. Ine 。 FOOTNOTE1 “SHANGHAI UNIVERSITY OF FINANCE AND ECONOMICS”。 TITLE1 “PROCEDURE PRINT”。 VAR name sex ine bdate heigh weight 。*39。程序如下: LIBNAME STUDY “D:\SASDATA\MYDIR”。 4. 舉例 例如,我們要輸出 SURVEY數(shù)據(jù)集的報表。如果沒有規(guī)定 SUM 語句,則將對數(shù)據(jù)集中 BY 變量以外的所有數(shù)值變量求和。 SUMBY 語句必須和 BY 語句連 用,用來對一部分 BY 組中指定的變量求和。 PAGEBY語句要求和 BY 語句一起使用,當 PAGEBY變量的值改變或者在 BY 語句中列在 PAGEBY 變量前的 BY 變量值改變時, PRINT 過程將從新的一頁開始輸出。 ? ROWS=PAGE——當數(shù)據(jù)集包含很多變量和觀測時,使用此選項將在每一頁中打印盡可能多的觀測,能減少輸出頁數(shù)。 ? WIDTH=FULL 或 MIN 或 U 或 UBY——規(guī)定使用什么作為列寬。 ? HEADING=H或 V——規(guī)定打印列抬頭的方向。 ? DOUBLE或 D——要求輸出隔行打印 。 ? NOOBS——不輸出觀測數(shù)據(jù)的序號。在這個選項里定義了某個分隔符以后,過程中的 LABEL 語句里就可以使用這個分隔符了。如果變量沒有定義標簽,則用變量名作為列抬頭。如果使用了 BY分組語句,在每一個分組后輸出各個分組輸出觀測的條數(shù)。如果省略,則為最近建立的SAS 數(shù)據(jù)集。 873cd3f49b1c15ae658a04021af7cebe SAS 系統(tǒng)和數(shù)據(jù)分析 電子商務(wù)系列 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Created by Page 8 of 28 3. PROC PRINT 的選項 PROC PRINT 的選項列表包含許多選項,選項之間以空格分隔,選項沒有先后次序。 WHERE 條件表達式 。 LABEL 變量 1=“標簽 *內(nèi)容 ” 變量 2=“標簽 *內(nèi)容 ”…… 。 TITLEn “標題內(nèi)容 ”。 SUMBY 變量 。 BY 變量列表 。 VAR 變量列表 。 1. PROC PRINT 過程的主要功能 PROC PRINT 過程輸出的數(shù)據(jù)列表具體地說主要能夠做到以下幾點: ? 變量的輸出格式用戶可以選擇( Format語句) ? 可在輸出報表中加上標題( Title)和腳注( Footnotes 語句) ? 可輸出數(shù)據(jù)集中變量的任何子集( Where 語句) ? 可以控制變量是否出現(xiàn)以及出現(xiàn)的順序( Var 語句) ? 用戶可以自己訂制列表頭( Label語句) ? 可分組輸出觀測數(shù)據(jù)( By 語句) ? 可計算所有觀測值或分組觀測值的總和( Sum/Sumby 語句)及其他統(tǒng)計量 ? 每頁報表的寬度和長度以及每列的寬度都可控制(選項 Width=) ? 當數(shù)據(jù)集中變量太多時,可分成幾部分輸出(選項 Rows=) 2. PROC PRINT 過程語句格式 在 PROC PRINT 過程中,常常配合使 用了許多其他 SAS 語句以達到所要求的輸出報表格式,我們把在 PROC PRINT 過程中常用的一些語句的基本使用格式列出,具體使用時根據(jù)需要可能使用其中的幾條語句。一份好的輸出報表可以使用戶更直觀、更清楚和更容易地了解和明白統(tǒng)計計算的結(jié)果,因此如何制作一個能充分揭示運 算結(jié)果信息和滿足要求的報告,也是非常重要的。而 BY 語句在使用時,要求數(shù)據(jù)集事先按 BY 指定的變量排序,且輸出的結(jié)果也按分組列出許多報表。 873cd3f49b1c15ae658a04021af7cebe SAS 系統(tǒng)和數(shù)據(jù)分析 電子商務(wù)系列 上海財經(jīng)大學(xué)經(jīng)濟信息管理系 IS/SHUFE Created by Page 6 of 28 第十七課 CLASS語句與 BY語句是有所區(qū)別的。 Run 。 Var Name Ine 。 Proc Print DATA= 。 By Sex 。程序如下: Libname Study d:\sasdata\mydir 。 BY 語句的使用格式為: BY DESCENDING City Zipcode NOTSORTED 選項并不是說數(shù)據(jù)不要求排序,而是要求數(shù)據(jù)按組整理,并且這些組不必按字母順序或數(shù)值的順序排序。要特別注意 BY后面的變量排列的先后次序,表示分組的的先后次序。該語句的