統計描述


統計描述
  它研究如何用科學的方法去搜集、整理、分析經濟和社會發展的實際數據,並通過統計所特有的統計指標指標體系,表明所研究的社會經濟現象的規模、水平、速度、比例和效益,以反映社會經濟現象發展規律在一定時間、地點、條件下的作用,描述社會經濟現象數量之間的關系和變動規律,也是進一步學習其他相關學科的基礎。計量資料統計描述的內容
  主要包括平均指標和變異指標的計算、資料分布形態(或特徵)的圖形表現等。實現描述性統計功能的幾個過程

描述性統計指標的計算

  描述性統計指標的計算可以用四個不同的過程來實現,它們分別是means過程、summary過程、univariate過程以及tabulate過程。它們在功能範圍和具體的操作方法上存在一定的差別,下面我們大概了解一下它們的異同點。
  相同點:
  他們均可計算出均數、標准差、方差、標准誤、總和、加權值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數、樣本分布位置的t檢驗計量、遺漏數據和有效數據個數等,均可應用by語句將樣本分割爲若幹個更小的樣本,以便分別進行分析。 不同點:
  (1)means過程、summary過程、univariate過程可以計算樣本的偏度(skewness)和峰度(kurtosis),而tabulate過程不計算這些計量
  (2)univariate過程可以計算出樣本的衆數(mode),其它三個過程不計算衆數;
  (3)summary過程執行後不會自動給出分析的結果,須引用output語句和print過程來顯示分析結果,而其它三個過程則會自動顯示分析的結果;
  (4)univariate過程具有統計制圖的功能,其它三個過程則沒有;
  (5)tabulate過程不產生輸出資料文件(存儲各種輸出數據的文件),其它三個均產生輸出資料文件。
  以上是它們的主要異同點,其它更爲具體的異同點需要在實際應用中去體會。掌握了各種過程的異同點,就可以根據具體需要選擇最佳的過程進行工作。

統計制圖的過程

  統計制圖的過程均可以實現對樣本分布特徵的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發現前兩個和後兩個只有一個字母‘g’(代表graph)的差別,其實它們之間(只差一個字母g的過程之間)的統計描述功能是相同的,區別僅在於繪制出的圖形的復雜和美觀程度。
  chart過程和plot過程繪制的圖形類似於我們用文本字符堆積起來的圖形,只能概括地反映出資料分布的大體形狀,實際上這兩個過程繪制的圖形並不能稱之爲圖形,因爲他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、分辨率等)。
  而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質和特徵。
  chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪制出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,後兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪制圖形,如散點圖和线圖等。描述性統計過程的一般格式

means過程的一般格式

  
width="476" align="">proc means 選項列表;
width="476" align=""> by 變量名稱(分組變量);
width="476" align=""> class 變量名稱(分組變量);
width="476" align=""> freq變量名稱(數值變量,用以表示相應記錄出現的頻數
width="476" align=""> weight變量名稱(數值變量,用以表示相應記錄的權重系數)
width="476" align=""> var 變量名稱(待分析的數值變量);
width="476" align="">run;

  Proc means 語句後的選項主要用來指定所要計算的計量,默認情況下,Means過程會給出頻數、均數、標准差、最大值和最小值等,其余計量的計算均需要在選項中指定。class語句所指定的分組變量用來進行分組,而by語句所指定的分組變量是用來將數據分爲若幹個更小的樣本,以便SAS分別在各小樣本內進行各自獨立的處理。freq語句和weight語句分別引導代表記錄出現頻數和權重系數的數值變量。var語句引導所要進行分析的所有變量的列表,SAS將對var語句所引導的所有變量分別進行描述性統計分析

summary過程的一般格式

  
width="476" align="">proc summary 選項列表;
width="476" align=""> by 變量名稱(分組變量);
width="476" align=""> class 變量名稱(分組變量);
width="476" align=""> freq變量名稱(數值變量,用以表示相應記錄出現的頻數
width="476" align=""> weight變量名稱(數值變量,用以表示相應記錄的權重系數)
width="476" align=""> output <out=數據集名> <計量關鍵字=自定義變量名>
width="476" align=""> var 變量名稱(待分析的數值變量);
width="476" align="">run;

  summary過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的,包括在means過程中未列出的output語句也可以應用於means過程,只是此語句在summary過程應用較多(這樣才能將分析結果顯示出來),所以才將其列入一般格式中。output語句用來對分析結果輸出爲數據文件進行控制,其後的選項可有可無,若無則SAS按照默認方式進行。“out=數據集名”用來定義輸出數據文件的文件名稱,文件名的格式和數據步中數據文件名相同。“計量關鍵字=自定義變量名”用來自定義輸出數據文件中各種計量變量名稱,前者是系統定義的(和proc語句後選項中的計量關鍵字完全相同),必須正確無誤,後者可自行定義。默認狀態下輸出計量只有頻數、均數、標准差、最大值和最小值,在默認狀態不能滿足需要時這一選項則是必需的。

univariate過程的一般格式

  
width="476" align="">proc univariate 選項列表;
width="476" align=""> by 變量名稱(分組變量);
width="476" align=""> class 變量名稱(分組變量);
width="476" align=""> freq變量名稱(數值變量,用以表示相應記錄出現的頻數
width="476" align=""> weight變量名稱(數值變量,用以表示相應記錄的權重系數)
width="476" align=""> histogram 變量名稱/選項列表
width="476" align=""> output <out=數據集名> <計量關鍵字=自定義變量名>
width="476" align=""> var 變量名稱(待分析的數值變量);
width="476" align="">run;

  univariate過程和以上兩個過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些計量只能在univariate過程中計算(如衆數),以及univariate過程中所具有的繪圖功能。histogram語句即用來指示SAS對其後所指定的變量繪制直方圖,其後的選項用來指示SAS添加不同類型的擬合圖形(如正態分布的分布密度曲线)。

tabulate過程的一般格式

  
width="592" align="">proc tabulate 選項列表;
width="592" align=""> by 變量名稱(分組變量);
width="592" align=""> class 變量名稱(分組變量);
width="592" align=""> freq變量名稱(數值變量,用以表示相應記錄出現的頻數
width="592" align=""> weight變量名稱(數值變量,用以表示相應記錄的權重系數)
width="592" align=""> table <<頁變量表達式>,<行變量表達式>,<列變量表達式>></表格選項>
width="592" align=""> var 變量名稱(待分析的數值變量計量列入相應的表單元格);
width="592" align="">run;

  tabulate過程和上述幾個過程的格式也基本相似,相同的語句和選項也代表相同的含義。最大的不同也是tabulate過程中最爲重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的計量

gchart過程的一般格式

  
width="592" align="">proc gchart 選項列表;
width="592" align=""> 圖形關鍵詞 變量名稱/選項列表
width="592" align="">run;

  此過程格式簡單,復雜的地方在於圖形關鍵字(每個圖形關鍵字對應一種圖形類型)所引導的語句,這裏是控制圖形類型及圖形要素的地方,涉及到衆多的關鍵字和選項。gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型見下表(表2.1)。
  表2.1 gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型
  
width="163" align="">圖形關鍵字 width="163" align="">繪制的圖形類型 width="163" align="">圖形關鍵字 width="163" align="">繪制的圖形類型
width="163" align="">block width="163" align="">方塊圖 width="163" align="">pie width="163" align="">圓圖
width="163" align="">hbar width="163" align="">水平的條形圖 width="163" align="">pie3d width="163" align="">三維圓圖
width="163" align="">hbar3d width="163" align="">水平的三維條形圖 width="163" align="">donut width="163" align="">環形圖
width="163" align="">vbar width="163" align="">豎立的條形圖 width="163" align="">star width="163" align="">星形圖
width="163" align="">vbar3d width="163" align="">豎立的三維條形圖

 圖形關鍵字後的變量名用以指定進行圖形描述時的分組變量,可以是數值型的(此時以各組的組中值爲分組的標志),也可以是字符型的。其後的選項比較重要的有:
  (1)type=計量關鍵字,表示以圖形對變量(sumvar所指定的變量)的哪一種計量進行描述,比如頻數(freq)、均數(mean)、總計(sum)、頻數百分比(pctn)等;
  (2)subgroup=變量名(分組變量),指定要進行分組(各組段內再分組)的變量
  (3)sumvar=變量名(數值變量),指定要進行統計計算的變量,也就是“type=計量關鍵字”選項中統 計量的計算所依據的變量。其它的選項較少用到或系統默認值即可基本滿足要求,這裏還是少羅嗦,以後用到再說。

gplot過程的一般格式

  
width="592" align="">proc gplot 選項列表;
width="592" align=""> bubble 散點圖表達式
width="592" align=""> bubble2 散點圖表達式
width="592" align=""> plot散點圖表達式
width="592" align=""> plot2散點圖表達式
width="592" align="">run;

  從gplot過程的一般格式中我們就可看出,此過程只能繪制兩種類型的圖形,bubble語句指示SAS繪制泡狀散點圖,plot語句指示SAS繪制點狀散點圖。bubble2語句和plot2語句指示SAS在同一區域內(bubble2和bubble在同一區域,plot2和plot在同一區域)繪制第二個圖形,兩者的橫坐標相同(同一變量),縱坐標分別位於左右兩側(可以是同一變量,也可以是兩個不同的變量)。
  散點圖表達式的一般形式爲:
  (1)bubble和bubble2語句:縱坐標變量名*橫坐標變量名=泡尺寸變量名(變量值以泡的大小表示),三者均應爲數值變量
  (2)plot和plot2語句:縱坐標變量名*橫坐標變量名<=n/分類變量名>,此處等號及其後的部分可以省略,此時SAS以默認的散點類型繪制散點圖;若等號後爲n(n爲正整數,是散點類型的編號),SAS則以指定的編號對應的散點類型繪制散點圖;若等號後爲分類變量名(可爲字符型或數值型,爲數值型時作爲離散型變量處理,每一個值將被當作一個類別),此變量的具體值(或與每個具體值對應的圖形)將被作爲散點用來繪制散點圖。
  chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在於後兩者中涉及到有關三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其余的語句和選項使用方法完全相同,所以在掌握了gchart過程和gplot過程後,chart過程和plot過程你會不學自通。描述性統計關鍵字及其含義
  SAS中可計算的描述性計量多達二十余種,大部分可在以上介紹的前四個過程中計算,個別計量在某些過程中不能計算,大家需要注意,要不然系統顯示錯誤信息時還不知道是怎么回事。
  我經常遇到這種情況,系統提示錯誤(此類提示信息顯示在log窗口中)時總是摸不着頭腦,費半天勁才能搞明白。沒辦法,摸着石頭過河嘛!不過這樣也並非一無是處,最起碼可以積累很多使用經驗。
  下表(表2.2)列出SAS中可以計算的所有描述性計量關鍵字及其含義,供大家使用時參考。
  表2.2 SAS中可以計算的描述性計量關鍵字及其含義
  
width="141" align="">關鍵字 width="363" align="">所代表的含義
width="141" align="">n width="363" align="">有效數據記錄數
width="141" align="">nmiss width="363" align="">缺失數據記錄數
width="141" align="">mean width="363" align="">均數
width="141" align="">std width="363" align="">標准差
width="141" align="">stderr width="363" align="">標准誤
width="141" align="">var width="363" align="">方差
width="141" align="">median width="363" align="">中位數
width="141" align="">mode width="363" align="">衆數
width="141" align="">cv width="363" align="">變異系數
width="141" align="">max width="363" align="">最大值
width="141" align="">min width="363" align="">最小值
width="141" align="">range width="363" align="">全距
width="141" align="">sum width="363" align="">總計
width="141" align="">sumwgt width="363" align="">加權值總計
width="141" align="">css width="363" align="">校正的離均差平方和
width="141" align="">uss width="363" align="">未校正的離均差平方和
width="141" align="">clm width="363" align="">可信限(上下界值)
width="141" align="">lclm width="363" align="">可信限下側界值
width="141" align="">uclm width="363" align="">可信限上側界值
width="141" align="">skew(skewness) width="363" align="">偏度
width="141" align="">kurt(kurtosis) width="363" align="">峰度
width="141" align="">t width="363" align="">分布位置假設檢驗之t計量
width="141" align="">probt width="363" align="">上述t計量對應的概率
width="141" align="">q1 width="363" align="">第一四分位數
width="141" align="">q3 width="363" align="">第三四分位數
width="141" align="">qrange width="363" align="">四分位數間距
width="141" align="">p1 width="363" align="">第一百分位數
width="141" align="">p5 width="363" align="">第五百分位數
width="141" align="">p10 width="363" align="">第十百分位數
width="141" align="">p90 width="363" align="">第九十百分位數
width="141" align="">p95 width="363" align="">第九十五百分位數
width="141" align="">p99 width="363" align="">第九十九百分位數

熱門資訊更多

TSFOREX用戶登錄
captcha
TSFOREX用戶注冊
TSFOREX密碼找回