METODOLOGI EKONOMI: 2011

BEBERAPA ANALISIS STATISTIK DENGAN MENGGUNAKAN SAS

Artikel ini disadur dari :

http://www.ats.ucla.edu/stat/sas/whatstat/whatstat.htm

Pendahuluan

Halaman ini menunjukkan bagaimana melakukan sejumlah pengujian statistik dengan menggunakan software SAS. Setiap bagian menampilkan gambaran ringkas pengujian statistik dengan menggunakan perintah dan output SAS dan ditambah dengan interpretasi ringkas terhadap outputnya.
Dalam memutuskan pilihan pengujian yang tepat untuk digunakan, penting untuk mempertimbangkan jenis variabelnya. Apakah variabelnya berbentuk kategorikal, ordinal atau interval, dan apakah variabel tersebut terdistribusi secara normal ? (lihat link).

Seputar Data File ”hsb”

Pada halaman ini banyak digunakan contoh data file dengan nama hsb2. Data file ini mengandung 200 pengamatan dari suatu sampel siswa sekolah menengah atas, dimana di dalamnya terkandung informasi mengenai aspek demografinya seperti jenis kelamin (female), status sosial ekonomi (ses) dan latar belakang etnisnya (race). Kemudian terkandung juga informasi mengenai skor hasil ujiannya, seperti : ujian membaca (read), menulis (write), matematika (math), dan kajian sosial (socst). Kita dapat menggunakan data tersebut dengan membuka link ini ”klik”. Kita dapat menyimpan file tersebut dimanapun, tapi dalam contoh yang akan disajikan, kita asumsikan data file tersebut disimpan dalam folder ”c:\mydata\hsb2.sas7bdat”.

Pengujian Satu Sampel

Metode ini ditujukan untuk menguji apakah nilai tengah atau rata-rata sampel (dari variabel interval yang didistribusikan secara normal), secara signifikan berbeda dari nilai yang ditetapkan dalam hipotesis penelitian. Sebagai contoh, kita dapat menggunakan data ”hsb2” untuk menguji, dan kita akan menguji apakah skor rata-rata menulis siswa berberda signifikan dari 50. Kita dapat melakukannya dengan menggunakan bahasa program SAS sebagai berikut :

proc ttest data = "c:\mydata\hsb2" h0 = 50;

var write;

run;

Hasilnya ditampilkan sebagai berikut :

The TTEST Procedure

Statistics

Lower CL Upper CL Lower CL Upper CL

Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

write 200 51.453 52.775 54.097 8.6318 9.4786 10.511 0.6702

T-Tests

Variable DF t Value Pr > |t|

write 199 4.14 <.0001

Nilai tengah variabel “write” untuk contoh tersebut adalah 52.775, yang mana secara statistik berbeda signifikan dari nilai skor 50. Karena itu, kita dapat menyimpulkan bahwa kelompok siswa tersebut signifikan memiliki nilai rata-rata nilai menulis yang lebih tinggi dari 50.

Pengujian Satu Median Sampel

Metode ini digunakan untuk menguji apakah median suatu sampel berbeda signifikan dari nilai yang ditetapkan dalam hipotesis penelitian. Kita akan menggunakan variabel yang sama yaitu ”write. Pengujiannya dilakukan seperti dalam pengujian satu sampel di atas, namun kita tidak menggunakan asumsi bahwa intervalnya terdistribusi normal. Kita menggunakan asumsi bahwa variabel ”write” adalah variabel ordinal. Selanjutnya, kita akan menguji apakah median skor ujian menulis (write) berbeda secara signifikan dari 50. Opsi ”loccount” dalam pernyataan ”proc univariate” menyajikan lokasi jumlah (count) dari data yang ditunjukkan pada bagian bawah hasil pengujian (output).

proc univariate data = "c:\mydata\hsb2" loccount mu0 = 50;

var write;

run;

Hasilnya ditampilkan sebagai berikut :

Basic Statistical Measures

Location Variability

Mean 52.77500 Std Deviation 9.47859

Median 54.00000 Variance 89.84359

Mode 59.00000 Range 36.00000

Interquartile Range 14.50000

Tests for Location: Mu0=50

Test -Statistic- -----p Value------

Student's t t 4.140325 Pr > |t| <.0001

Sign M 27 Pr >= |M| 0.0002

Signed Rank S 3326.5 Pr >= |S| <.0001

Location Counts: Mu0=50.00

Count Value

Num Obs > Mu0 12

Num Obs ^= Mu0 198

Num Obs < Mu0 72

Kita dapat menggunakan uji “sign” atau “ signed rank test”. Perbedaannya, uji “sign rank test” memerlukan variabel dari distribusi simetris. Hasilnya menunjukkan bahwa media variabel ”write” berbeda dengan 50 secara statistik.

Uji Binomial

Metode ini digunakan untuk menguji apakah proporsi pada variabel dependen jenis kategorikal dua tingkat (two-level) berbeda signifikan dari nilai yang menjadi hipotesis penelitian. Contoh, dengan menggunakan data ”hsb2”, kita akan menguji apakah proporsi perempuan (female) berbeda signifikan dari 50 persen atau 0.5. Kita akan menggunakan pernyataan ”exact” untuk menghasilkan ”p-values” yang eksak.

proc freq data = "c:\mydata\hsb2";

tables female / binomial(p=.5);

exact binomial;

run;

Hasilnya ditampilkan sebagai berikut :

The FREQ Procedure

Cumulative Cumulative

female Frequency Percent Frequency Percent

-----------------------------------------------------------

0 91 45.50 91 45.50

1 109 54.50 200 100.00

Binomial Proportion for female = 0

-----------------------------------

Proportion (P) 0.4550

ASE 0.0352

95% Lower Conf Limit 0.3860

95% Upper Conf Limit 0.5240

Exact Conf Limits

95% Lower Conf Limit 0.3846

95% Upper Conf Limit 0.5267

Test of H0: Proportion = 0.5

ASE under H0 0.0354

Z -1.2728

One-sided Pr < Z 0.1015

Two-sided Pr > |Z| 0.2031

Exact Test

One-sided Pr <= P 0.1146

Two-sided = 2 * One-sided 0.2292

Sample Size = 200

Hasilnya menunjukkan bahwa tidak ada perbedaan statistik yang signifikan (p= .2292). Dengan perkataan lain, proporsi perempuan dalam sampel tersebut tidak berbeda signifikan dari hipotesisnya, 50%.

Chi-square goodness of fit

Metode dapat digunakan untuk menguji apakah pengamatan terhadap proporsi variabel kategorikal berbeda dari proporsi yang ditetapkan dalam hipotesis penelitian. Sebagai contoh, suatu populasi terdiri dari 10 persen Hispanic, 10 persen Asia, 10 persen Afrika-Amerika dan 70 persen Kulit Putih. Selanjutnya, kita ingin menguji apakah pengamatan terhadap proporsi tersebut secara signifikan berbeda dari hipotesis terhadap proporsi tersebut. Pernyataan SAS untuk melakukan pengujian tersebut adalah :

proc freq data = "c:\mydata\hsb2";

tables race / chisq testp=(10 10 10 70);

run;

Hasil estimasinya adalah

The FREQ Procedure

Test Cumulative Cumulative

race Frequency Percent Percent Frequency Percent

--------------------------------------------------------------------

1 24 12.00 10.00 24 12.00

2 11 5.50 10.00 35 17.50

3 20 10.00 10.00 55 27.50

4 145 72.50 70.00 200 100.00

Chi-Square Test

for Specified Proportions

-------------------------

Chi-Square 5.0286

DF 3

Pr > ChiSq 0.1697

Sample Size = 200

Hasilnya menunjukkan bahwa komposisi rasial dalam sampel tidak berbeda signifikan dari nilai yang ditetapkan dalam hipotesis (chi-square dengan derajat kebebasan = 5.0286, p = .1697).

Pengujian Dua Sampel Independen

Metode ini digunakan ketika kita ingin membandingkan nilai tengah variabel interval yang didistribusikan secara normal untuk dua kelompok yang independen. Sebagai contoh, dengan menggunakan data ”hsb2”, katakanlah kita ingi menguji apakah nilai tengah variabel ”write” sama antara pria dan wanita.

proc ttest data = "c:\mydata\hsb2";

class female;

var write;

run;

Hasilnya disajikan sebagai berikut

The TTEST Procedure

Statistics

Lower CL Upper CL Lower CL Upper CL

Variable female N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

write 0 91 47.975 50.121 52.267 8.9947 10.305 12.066 1.0803

write 1 109 53.447 54.991 56.535 7.1786 8.1337 9.3843 0.7791

write Diff (1-2) -7.442 -4.87 -2.298 8.3622 9.1846 10.188 1.3042

T-Tests

Variable Method Variances DF t Value Pr > |t|

write Pooled Equal 198 -3.73 0.0002

write Satterthwaite Unequal 170 -3.66 0.0003

Equality of Variances

Variable Method Num DF Den DF F Value Pr > F

write Folded F 90 108 1.61 0.0187

Hasilnya menunjukkan bahwa terdapat perbedaan signifikan antara skor nilai menulis pria dan wanita (t = -3.73, p = .0002). Dengan perkataan lain, wanita memiliki skor nilai menulis In other words, females have a statistically significantly higher mean score on writing (54.991) than males (50.121).

Pengujian Wilcoxon-Mann-Whitney test

Metode ini analog dengan non-parametrik terhadap pengujian sampel independen dan dapat digunakan ketika kita tidak menggunakan asumsi bahwa variabel dependen adalah variabel interval yang berdistribusi normal. Sekurang-kurangnya kita menggunakan asumsi bahwa variabelnya adalah ordinal. Dengan menggunakan data ”hsb2” contohnya disajikan sebagai berikut :

proc npar1way data = "c:\mydata\hsb2" wilcoxon;

class female;

var write;

run;

Hasilnya adalah

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable write

Classified by Variable female

Sum of Expected Std Dev Mean

female N Scores Under H0 Under H0 Score

----------------------------------------------------------------------

0 91 7792.0 9145.50 406.559086 85.626374

1 109 12308.0 10954.50 406.559086 112.917431

Average scores were used for ties.

Wilcoxon Two-Sample Test

Statistic 7792.0000

Normal Approximation

Z -3.3279

One-Sided Pr < Z 0.0004

Two-Sided Pr > |Z| 0.0009

t Approximation

One-Sided Pr < Z 0.0005

Two-Sided Pr > |Z| 0.0010

Z includes a continuity correction of 0.5.

Hasilnya menyatakan bahwa terdapat perbedaan signifikan secara statistik antara nilai skor menulis pria dan wanita (z = -3.329, p = 0.0009).

Pengujian Chi-square

Metode ini digunakan bila kita ingin melihat hubungan antara dua variabel kategorikal. Dalam SAS, opsi ”chisq” digunakan pada pernyataan ”tables” untuk memperoleh pengujian statistik dan nilai p-value nya. Dengan menggunakan data ”hsb2”, kita coba menguji hubungan antara jenis sekolah (schtyp) dan jenis kelamin siswa (female). Perlu diingat bahwa, pengujian chi-square menggunakan asumsi bahwa nilai harapan setiap sel adalah 5 atau lebih besar dari 5. Asumsi ini mudah ditemukan dalam contoh di bawah ini. Bagaimanapun, bila asumsi ini tidak ditemukan dalam data kita, maka dapat digunakan pengujian Fisher’s exact.

proc freq data = "c:\mydata\hsb2";

tables schtyp*female / chisq;

run;

Hasilnya disajikan sebagai berikut :

The FREQ Procedure

Table of schtyp by female

schtyp(type of school)

female

Frequency|

Percent |

Row Pct |

Col Pct | 0| 1| Total

---------+--------+--------+

1 | 77 | 91 | 168

| 38.50 | 45.50 | 84.00

| 45.83 | 54.17 |

| 84.62 | 83.49 |

---------+--------+--------+

2 | 14 | 18 | 32

| 7.00 | 9.00 | 16.00

| 43.75 | 56.25 |

| 15.38 | 16.51 |

---------+--------+--------+

Total 91 109 200

45.50 54.50 100.00

Statistics for Table of schtyp by female

Statistic DF Value Prob

------------------------------------------------------

Chi-Square 1 0.0470 0.8283

Likelihood Ratio Chi-Square 1 0.0471 0.8281

Continuity Adj. Chi-Square 1 0.0005 0.9815

Mantel-Haenszel Chi-Square 1 0.0468 0.8287

Phi Coefficient 0.0153

Contingency Coefficient 0.0153

Cramer's V 0.0153

Sample Size = 200

Hasilnya menunjukkan bahwa tidak ada perbedaan signifikan antara jenis sekolah yang dipilih dengan jenis kelamin (chi-square dengan satu derajat kebebasan = 0.0470, p = 0.8283).
Mari kita lihat contoh lainnya yang melihat hubungan antara jenis kelamin (female) dan status sosial ekonomi (ses). Poin pada contoh ini adalah satu atau setiap variabel dapat memiliki lebih dari dua level, dan variabel tersebut tidak memiliki jumlah level yang sama. Dalam contoh ini, variabel female memiliki dua level (pria dan wanita), dan variabel ses memiliki tiga level (rendah, menengah dan tinggi).

proc freq data = "c:\mydata\hsb2";

tables female*ses / chisq;

run;

Hasilnya disajikan sebagai berikut :

The FREQ Procedure

Table of female by ses

female ses

Frequency|

Percent |

Row Pct |

Col Pct | 1| 2| 3| Total

---------+--------+--------+--------+

0 | 15 | 47 | 29 | 91

| 7.50 | 23.50 | 14.50 | 45.50

| 16.48 | 51.65 | 31.87 |

| 31.91 | 49.47 | 50.00 |

---------+--------+--------+--------+

1 | 32 | 48 | 29 | 109

| 16.00 | 24.00 | 14.50 | 54.50

| 29.36 | 44.04 | 26.61 |

| 68.09 | 50.53 | 50.00 |

---------+--------+--------+--------+

Total 47 95 58 200

23.50 47.50 29.00 100.00

Statistics for Table of female by ses

Statistic DF Value Prob

------------------------------------------------------

Chi-Square 2 4.5765 0.1014

Likelihood Ratio Chi-Square 2 4.6789 0.0964

Mantel-Haenszel Chi-Square 1 3.1098 0.0778

Phi Coefficient 0.1513

Contingency Coefficient 0.1496

Cramer's V 0.1513

Sample Size = 200

Hasilnya menunjukkan bahwa tidak ada hubungan signifikan secara statistik antar variabel jenis kelamin dengan status ekonomi (chi-square dengan derajat kebebasan sama dengan 2 = 4.5765, p = 0.1014).

Penguian Fisher's exact

Metode ini digunakan ketika kita ingin menggunakan pengujian chi-square, tapi satu atau lebih sel data memiliki frekuensi harapan sama dengan lima atau kurang dari lima. Perlu diingat bahwa pengujian chi-square menggunakan asumsi bahwa setiap sel memiliki frekuensi harapan sama dengan dan lebih besar dari 5, tapi pengujian Fisher’s tidak menggunakan asumsi demikian. Contoh pengujiannya disajikan sebebagai berikut :

proc freq data = "c:\mydata\hsb2";

tables schtyp*race / fisher;

run;

Hasilnya disajikan sebagai berikut :

The FREQ Procedure

Table of schtyp by race

schtyp(type of school) race

Frequency|

Percent |

Row Pct |

Col Pct | 1| 2| 3| 4| Total

---------+--------+--------+--------+--------+

1 | 22 | 10 | 18 | 118 | 168

| 11.00 | 5.00 | 9.00 | 59.00 | 84.00

| 13.10 | 5.95 | 10.71 | 70.24 |

| 91.67 | 90.91 | 90.00 | 81.38 |

---------+--------+--------+--------+--------+

2 | 2 | 1 | 2 | 27 | 32

| 1.00 | 0.50 | 1.00 | 13.50 | 16.00

| 6.25 | 3.13 | 6.25 | 84.38 |

| 8.33 | 9.09 | 10.00 | 18.62 |

---------+--------+--------+--------+--------+

Total 24 11 20 145 200

12.00 5.50 10.00 72.50 100.00

Statistics for Table of schtyp by race

Statistic DF Value Prob

------------------------------------------------------

Chi-Square 3 2.7170 0.4373

Likelihood Ratio Chi-Square 3 2.9985 0.3919

Mantel-Haenszel Chi-Square 1 2.3378 0.1263

Phi Coefficient 0.1166

Contingency Coefficient 0.1158

Cramer's V 0.1166

WARNING: 38% of the cells have expected counts less

than 5. Chi-Square may not be a valid test.

Fisher's Exact Test

----------------------------------

Table Probability (P) 0.0077

Pr <= P 0.5975

Sample Size = 200

Hasilnya menyatakan bahwa tidak ada hubungan signifikan secara statistik antara ras dan jenis sekolah (p = 0.5975). Perlu dicatat bahwa pengujian Fisher's exact test tidak memiliki "test statistic", tapi menghitung p-value secara langsung.

One-way ANOVA

Metode ini digunakan bila kita memiliki varibel independen kategorikal (dengan dua atau lebih katgori), dan interval variabel dependennya didistribusikan secara normal, serta kita akan menguji perbedaan nilai tengah variabel dependen yang dipecah oleh tingkat variabel independen. Sebagai contoh, dengan menggunakan data ”hsb2” katakanlah kita mau menguji apakah nilai tengah variabel write berbeda antara tiga jenis program (prog).

proc glm data = "c:\mydata\hsb2";

class prog;

model write = prog;

means prog;

run;

quit;

Hasilnya disajikan sebagai berikut :

The GLM Procedure

Class Level Information

Class Levels Values

prog 3 1 2 3

Number of observations 200

Dependent Variable: write writing score

Sum of

Source DF Squares Mean Square F Value Pr > F

Model 2 3175.69786 1587.84893 21.27 <.0001

Error 197 14703.17714 74.63542

Corrected Total 199 17878.87500

R-Square Coeff Var Root MSE write Mean

0.177623 16.36983 8.639179 52.77500

Source DF Type I SS Mean Square F Value Pr > F

prog 2 3175.697857 1587.848929 21.27 <.0001

Source DF Type III SS Mean Square F Value Pr > F

prog 2 3175.697857 1587.848929 21.27 <.0001

Level of ------------write------------

prog N Mean Std Dev

1 45 51.3333333 9.39777537

2 105 56.2571429 7.94334333

3 50 46.7600000 9.31875441

Nilai tengah variabel dependen secara signifikan berbeda untuk setiap level jenis program. Bagaimanapun, kita tidak tahi jika perbedaannya adalah hanya antara kedua tingkat atau semua tingkat. F test model sama dengan F test progam, karena prog hanya satu-satunya variabel yang dimasukan ke dalam model. Jika variabel lain dimasukan juga, maka F test dari model akan berbeda dari prog. Kita juga dapat melihat bahwa siswa dalam program akademik memiliki skor nilai tengah menulis yang lebih tinggi dibandingkan siswa program vokasional.

Pengujian Kruskal Wallis

Metode ini digunakan ketika kita memiliki variabel independen dengan dua atau lebih tingkat dan variabel dependen yang bersifat ordinal. Dengan perkataan lain, pengujian tersebut merupakan versi non-parametrik dari ANOVA.

proc npar1way data = "c:\mydata\hsb2";

class prog;

var write;

run;

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable write

Classified by Variable prog

Sum of Expected Std Dev Mean

prog N Scores Under H0 Under H0 Score

--------------------------------------------------------------------

1 45 4079.0 4522.50 340.927342 90.644444

3 50 3257.0 5025.00 353.525185 65.140000

2 105 12764.0 10552.50 407.705133 121.561905

Average scores were used for ties.

Kruskal-Wallis Test

Chi-Square 34.0452

DF 2

Pr > Chi-Square <.0001

Hasilnya menunjukkan bahwa terdapat perbedaan yang signifikan pada setiap jenis program (chi-square dengan dua degrees of freedom = 34.0452, p = 0.0001).

Pengujian Pasangan (Paired t-test)

Pengujian ini digunakan ketika kita memiliki dua pengamatan yang terkait. Contohnya adalah pengamatan per subjek, dan kita ingin melihat jika distribusi normal nilai tengah variabel interval nya berbeda satu sama lain.

proc ttest data = "c:\mydata\hsb2";

paired write*read;

run;

The TTEST Procedure

Statistics

Lower CL Upper CL Lower CL Upper CL

Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err

write - read 200 -0.694 0.545 1.7841 8.0928 8.8867 9.8546 0.6284

T-Tests

Difference DF t Value Pr > |t|

write - read 199 0.87 0.3868

Hasilnya menunjukkan bahwa nilai tengah variabel membaca secara statistik tidak berbeda signifikan dengan nilai tengah variabel write (t = 0.87, p = 0.3868).

*Semoga bermanfaat*

METODOLOGI EKONOMI

Selasa, 18 Januari 2011

BEBERAPA ANALISIS STATISTIK DENGAN MENGGUNAKAN SAS

BEBERAPA ANALISIS STATISTIK DENGAN MENGGUNAKAN SAS

Pendahuluan

Seputar Data File ”hsb”

Pengujian Satu Sampel

Pengujian Satu Median Sampel

Uji Binomial

Chi-square goodness of fit

Pengujian Dua Sampel Independen

Pengujian Wilcoxon-Mann-Whitney test

Pengujian Chi-square

Penguian Fisher's exact

One-way ANOVA

Pengujian Kruskal Wallis

Pengujian Pasangan (Paired t-test)

Senin, 17 Januari 2011

VARIABEL KATEGORIKAL, ORDINAL DAN INTERVAL

VARIABEL KATEGORIKAL, ORDINAL DAN INTERVAL

1. Jenis Variabel

1.1. Kategorikal

1.2. Ordinal

1.3. Interval

2. Mengapa Perlu Memahami Jenis-Jenis Variabel ?

3. Apa Masalahnya Jika Variabel Dependen Berdistribusi Normal ?

Referensi

FITUR MICROSOFT MATH ADD-IN

Cari Blog Ini