تحلیل تابع تشخیصی(DFA) در نرم افزار SAS
تحلیل تشخیصی یا Discriminant
Analysis
که به تابع ممیزی DFA نیز شهرت دارد،
یکی از روش های آماری چند متغیره است که
در تفکیک و تشخیص طبقات یک متغیر بر اساس چند متغیر کمی به کار می رود. به عنوان
مثال محققی علاقه مند به مطالعه روابط بین سه نوع شغل خدمات مشتریان، مسئولین فنی
و تکنسین های توزیع در یک شرکت خدمات تلفن های همراه است. محقق فرضیه ای مبنی بر متفاوت
بودن این سه طبقه به لحاظ تیپ های شخصیتی دارد. لذا هر کارمند به طور تصادفی در سه
آزمون تحرک پذیری، جامعه پذیری و محافظه کاری شرکت نموده و شغل وی نیز در این سه
حیطه ثبت می شود. یا محققی در صدد این است تا متغیر های اصلی تفکیک کننده سه گونه
گیاهی را شناسایی نماید. این روش را می توان با روش هایی چون رگرسیون ترتیبی
و چند جمله ای مقایسه کرد. این روش نسبت به روش های قبلی بر اساس شاخص های کمّی
انجام می پذیرد. در این مقاله سعی می شود تا در مورد مثال اول و با داشتن داده ای
فرضی کاربرد این روش کمّی در نرم افزار SAS توضیحات تکمیلی ارائه شود.
ابتدا دستور زیر برای ورود داده ها و بیان آماره های توصیفی را وارد پنجره دستورات می کنیم.
proc means data='d:\data\نام فایل' n mean std min max;
var outdoor social conservative;
run;
خروجی دستور به شرح زیر خواهد بود:
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
OUTDOOR
244
15.6393443
4.8399326
0 28.0000000
SOCIAL
244
20.6762295
5.4792621
7.0000000 35.0000000
CONSERVATIVE 244
10.5901639
3.7267890
0 20.0000000
proc means
data='d:\data\نام فایل' n mean std;
class job;
var outdoor social conservative;
run;
N
JOB
Obs
Variable
N
Mean Std Dev
1 85
OUTDOOR
85 12.5176471
4.6486346
SOCIAL
85 24.2235294
4.3352829
CONSERVATIVE 85
9.0235294 3.1433091
2 93 OUTDOOR
93 18.5376344
3.5648012
SOCIAL
93 21.1397849
4.5506602
CONSERVATIVE 93
10.1397849 3.2423535
3 66
OUTDOOR
66 15.5757576
4.1102521
SOCIAL
66 15.4545455
3.7669895
CONSERVATIVE 66
13.2424242 3.6922397
حال دستور زیر را برای بیان همبستگی ها وارد می کنیم:
proc corr
data='d:\data\discrim';
var outdoor social conservative;
run;
Pearson Correlation Coefficients, N = 244
Prob > |r| under H0: Rho=0
OUTDOOR SOCIAL CONSERVATIVE
OUTDOOR
1.00000
-0.07130 0.07938
0.2672 0.2166
SOCIAL
-0.07130
1.00000 -0.23586
0.2672
0.0002
CONSERVATIVE
0.07938
-0.23586 1.00000
0.2166 0.0002
proc freq
data='d:\data\نام فایل';
tables job;
run;
The FREQ
Procedure
Cumulative Cumulative
JOB Frequency
Percent Frequency Percent
1
85
34.84
85 34.84
2
93
38.11
178 72.95
3
66
27.05
244 100.00
دستور
proc
discrim را برای تحلیل تشخیصی وارد می کنیم.
proc
candisc data='d:\data\نام فایل' out=discrim_out ;
class job;
var outdoor social conservative;
run;
نتیجه خروجی به شرح زیر خواهد بود.
The CANDISC Procedure
Multivariate Statistics and F Approximations
S=2 M=0 N=118.5
Statistic Value F Value Num DF Den DF Pr > F
Wilks'
Lambda
0.36398797
52.38
6 478 <.0001
Pillai's
Trace
0.76206574
49.25
6 480 <.0001
Hotelling-Lawley Trace
1.40103067
55.69 6
316.9 <.0001
Roy's Greatest Root
1.08052702
86.44
3 240 <.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound.
NOTE: F Statistic for Wilks' Lambda is exact.
Adjusted Approximate
Squared
Canonical
Canonical
Standard Canonical
Correlation
Correlation
Error Correlation
1 0.720661
0.716099
0.030834 0.519353
2
0.492659
.
0.048580 0.242713
Test of H0: The canonical correlations in the
Eigenvalues of
Inv(E)*H
current row and all that follow are zero
= CanRsq/(1-CanRsq)
Likelihood Approximate
Eigenvalue Difference
Proportion Cumulative
Ratio F Value Num DF Den DF Pr > F
1 1.0805
0.7600 0.7712 0.7712
0.36398797 52.38
6 478 <.0001
2
0.3205
0.2288 1.0000
0.75728681 38.46
2 240 <.0001
دو تابع تشخیصی در این رابطه استخراج می شود که ضریب اولیه 72/0 و ضریب ثانویه 49/0 محاسبه شده است.
Standardized
canonical discriminant function coefficients
Pooled Within-Class Standardized Canonical Coefficients
Variable Can1 Can2
OUTDOOR
-.3785725108 0.9261103825
SOCIAL
0.8306986150 0.2128592590
CONSERVATIVE -.5171682475
-.2914406390
Pooled Within Canonical Structure
Variable Can1 Can2
OUTDOOR
-0.323098 0.937215
SOCIAL
0.765391 0.266030
CONSERVATIVE
-0.467691 -0.258743
این ضرایب استاندارد شده را می توان مشابه ضرایب بتای رگرسیون دانست. به عنوان مثال با افزایش یک واحد انحراف استاندارد در متغیر تحرک پذیری 32/0 کاهش انحراف استاندارد در تابع اولیه ممیزی دارد. بار تشخیصی و بار کانونی را می توان به عنوان ضرایب جایگرین این تابع دانست. این روش به لحاظ نوع برخورد با متغیر های پنهان با روش تحلیل عاملی قابل قیاس است. در مورد سایر ضرایب نیز تفسیری مشابه وجود دارد.
Class Means on Canonical Variables
JOB Can1 Can2
1 1.219100186
-0.389003864
2
-0.106724637 0.714570441
3
-1.419668555 -0.505904888
Number of Observations and Percent Classified into JOB
From
JOB
1
2
3 Total
1
69
12
4 85
81.18
14.12
4.71 100.00
2
17
64
12 93
18.28
68.82
12.90 100.00
3
3
10
53 66
4.55
15.15
80.30 100.00
Total
89
86
69 244
36.48
35.25
28.28 100.00
در
این قسمت خروجی میانگین توابع تشخیصی برای هر یک از گروه های سه گانه آورده شده
است. مقادیر مندرج در قطر این خروجی به معنای طبقه بندی صحیح هر یک از افراد در
گروه های مربوطه است.
برای دیدن چارت مربوطه از ماکروی زیر استفاده می شود.
proc
format;
value jobname
1='C '
2='M '
3='D ';
run;
data discrimplot;
set discrim_out;
format job jobname.;
run;
symbol1 interpol=none font='Times-Roman' pointlabel=("#job") height=1;
proc gplot
data=discrimplot;
plot Can2*Can1=job / haxis=axis1;
run;
همانطور که دیده می شود کارمندانی که
در بخش خدمات کار می کنند گرایش بیشتری به جامعه پذیری طبق تابع اول دارند.
مسئولین توزیع در انتهای این طیف و مسئولین فنی در ارتباط با این متغیر در حد وسط
قرار دارند. در تابع دوم نتایج به شفافی تابع اول نیست و مسئولین فنی بیشتر گرایش
به بعد تحرک پذیری دارند و مسئولین توزیع و خدمات در این متغیر و این تابع ضعیف
هستند.
نکته بسیار مهم در رابطه با این روش این است که این روش برای نمونه های بزرگ و در
شرایط توزیع نرمال قابل انجام است. در این مقاله سعی بر نحوه محاسبه این روش در
نرم افزار SAS بود. برای کسب اطلاعات بیشتر در
ارتباط با مبانی نظری این روش اماری به کتاب روش های پیشرفته آماری دکتر منصور فر از انتشارات دانشگاه
تهران مراجعه نمائید.
پورتال تخصصي.:: آمار پارسي::. سایتی تخصصي ویژه علم آمار می باشد كه به منظور از بین بردن فواصل علمی و مکانی موجود بین اساتید ، دانشجویان و علاقه مندان به علم آمار ایجاد شده است و سعي دارد گامي هر چند كوچك در آشنايي مخاطبين با مقالات، كتابها،اخبار،نرم افزارها ، سايت ها ،مراكز و انجمن هاي علم آمار در ایران و سراسر جهان بردارد و سهمي اندک در توسعه و استفاده ي صحيح از علم آمار داشته باشد.