요새는 실상(?)이 많이 알려졌지만 제가 학부 때만 해도 심리학은 프로이트만을 공부하거나 혹은 전공 후 미아리에 돗자리를 깔아야만 하는 분야로 오해받는 분위기였지요. 대부분 사회과학대학도 아닌 인문대학에 속해 있었기 때문에 들어오자마자 통계학 공부를 해야 한다는 건 상상도 못했다가 피눈물을 삼키는 심리학도들이 많았죠(저도 물론 그 중 하나. ㅠ.ㅠ).
심리학 공부를 하려면 연구 방법론을 익히는 건 선택이 아닌 필수이기 때문에 통계학에 대한 지식 뿐 아니라 통계 프로그램을 자유자재로 다룰 수 있어야 합니다. 요새는 SPSS로 통일이 된 듯 하지만 제가 공부할 때는 SAS도 많이 사용했습니다.
하지만 SPSS나 SAS는 상업용 패키지 프로그램인데다 엄청나게 고가라서 학생 신분(뿐 아니라)으로 구매해서 사용할 수는 없어서 심적인 부담을 무릅쓰고 어둠의 경로를 통해 구해서 몰래 사용해왔는데요.
오늘 소개하는 통계 프로그램인
R은 오픈 소스 프로그램이라서 무료로 이용할 수 있습니다.
R은 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 통계 분석 언어인 S를 근간으로 개발한 분석 프로그램이자 언어로 Data Mining, Machine Learning 등을 비롯한 다양한 영역에서 널리 사용되고 있습니다.
미국을 기준으로 아직까지는 SAS, SPSS 능통자를 우대하는 분위기이나 학교 장면에서는 이미 R이 더 많이 사용되고 있고 오픈 소스 프로그램의 강점을 잘 살리고 있어 시간이 지나면 지날수록 점점 더 저변을 확대할 것으로 예상됩니다.
R은 앞에서도 말씀드린 것처럼 통계 프로그램이자 동시에 프로그래밍 언어이기 때문에 새로운 통계 방법을 언제든 프로그래밍할 수 있고 지금도 계속 새로운 패키지들이 업데이트 되고 있습니다. 이런 속도와 융통성이 고가의 상업 프로그램과 차별화되는 장점이죠.
다만 상업용 프로그램처럼 마우스 클릭으로만 사용할 수 없고 프로그래밍을 하듯이 명령어 입력을 해야 해서 초기에 진입 장벽이 좀 높은 것이 단점입니다. 저는 어차피 SPSS/PC+로 통계 프로그램에 입문했기 때문에 코드 입력 방식에 거부감이 별로 없습니다만....
저도 아직까지는 SPSS, AMOS를 사용하는 것이 익숙하지만 R을 알게 된 김에 공부해 보려고 합니다.
공부하면서 도움이 되는 정보나 분석 방법 등에 대해 시간나는대로 조금씩 포스팅하겠습니다.
R에 관심이 있는 분들은 아래의 링크를 참고하시기 바랍니다.
* R의 공식 사이트이자 성지라고 부를 수 있는 보고 : https://www.r-project.org/
* R을 다운로드 받으실 수 있는 국내 경로 : http://cran.nexr.com/
* R을 이용한 프로젝트 리스트 : https://cran.r-project.org/web/views/
마지막으로 서울대학교 창업지원을 받은 (주) 센소메트릭스의 조완일 대표이사가 작성한 R의 설치 및 기본 사용법 파일(PDF)을 올려 드립니다. 이것만 다 익히셔도 기본적인 사용은 하실 수 있으니 차근차근 살펴보시기 바랍니다.
그래도 자세한 공부는 좀 더 comprehensive한 책을 참고하셔야 합니다.
태그 -
AMOS,
R,
SAS,
SPSS,
SPSS/PC+,
심리학,
연구 방법론,
조완일,
통계,
통계학,
프로이트
이 글의 트랙백 주소 :: http://walden3.kr/trackback/4159
2007년 11월 21일 현재 미국에서는 이미 SPSS 16.0이 판매되고 있다는 사실부터 말씀드리겠습니다. 업데이트 속도가 정말 빠릅니다(쳇~) . 여러가지 module을 어찌나 복잡하게 구성했는지 프로그램의 수를 세어보는 것만으로도 현기증이 날 정도네요(궁금하신 분은
여기를 클릭).
SPSS 15.0은 AMOS 7.0을 포함한 패키지 형태로 설치 프로그램 상에서 직접 AMOS 7.0 설치 여부를 통제할 수 있도록 구성되어 있습니다.
설치 후 살펴보니 기술적인 algorithm상에서는 모르겠지만 외형 상 큰 차이는 못 느꼈습니다. 14.0부터 SPSS사에서 자랑하는 다양한 유형의 Chart 제공은 개인 사용자에게는 그리 큰 메리트가 될 것 같지는 않습니다.
그것보다
반가운 소식은 결과물을 PDF 파일의 형태로 변환해서 저장할 수 있게 된 것이네요.
14.0부터 사용된 인증 마법사가 15.0에도 적용되었지만 크래킹이 되어 Key Generator를 통해 우회적으로 등록할 수 있습니다. 등록하고 나서 처음 실행할 때 등록이 되지 않았다는 에러가 뜨는 등 아직은 조금 불안하지만 프로그램을 종료했다가 다시 실행시키면 정상적인 사용이 가능합니다.
덧. 참고로
SPSS 15.0은 윈도 XP와 윈도 2000이상의 OS에서만 설치됩니다.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/1061
구조 방정식 모형의 절차는 다음과 같습니다.
* 모형 개발 -> 자료 수집 -> 모형 분석 -> 모형 평가 -> 모형 수정 -> 모형 비교
1. 모형 개발
구조 방정식 모형을 적용하는 데 있어 첫 번째 단계는 통계적으로 검증할 이론 모형을 개발하는 것입니다. 어떤 변수가 잠재 변수(latent variable)가 될 것인지, 어떤 표시 변수(indicator)를 이용해서 잠재 변수를 간접적으로 측정할 것인지 등을 결정해야 합니다.
보통 한 잠재 변수에 약 2~4개 정도의 표시 변수를 사용하는 것이 적당합니다.
2. 자료 수집
검증하려는 이론 모형의 복잡성을 고려하여 충분한 표본으로부터 자료를 수집하여야 합니다. 표본 수가 너무 작으면 추정 오차(estimation error)가 커지므로 추정된 미지수의 값을 신뢰할 수 없게 됩니다. 표본 크기에 대한 절대적인 기준은 없지만
일반적인 기준은 1) 추정하는 미지수 숫자의 5~10배 정도의 표본을 사용하는 것(Bentler & Chou, 1987), 2) 최소 150명 이상의 표본을 사용하는 것(Anderson & Gerbing, 1988) 등이 있습니다. 그 밖에
MacCallum, Browne & Sugawara(1996) 등이 제안한 power analysis 방법을 이용해서 power 수준이 0.8이 되는데 필요한 표본 수를 사용하는 방법도 있습니다.
3. 모형 분석
이론 모형을 개발하고 모형 검증을 위한 충분한 자료가 수집되면 모형을 분석하게 됩니다. 이때 구조 방정식 모형 분석 프로그램을 사용하여 개발한 모형에서 자유 미지수 값을 추정하게 됩니다.
추정 방법으로는 ML(maximum likelihood) estimation이 가장 많이 사용되는데 이는 수집된 자료의 공변량 행렬과 추정된 자유 미지수 값을 이용해 재생한 공변량 행렬 사이의 차이를 최소화하는 방법입니다. 모형의 적합도가 완벽하면 ML 방법으로 구해지는 F값(sample discrepancy function value)이 0이 되며 적합도가 나빠질수록 F값은 커집니다.
ML은 자료에 결측치(missing value)가 없다는 것을 전제로 하기 때문에 만약 결측치가 있으면 FIML(full-information maximum likelihood)를 이용합니다. FIML은 한 변수의 결측치가 무선적으로 발생했거나(missing completely at random, MCAR), 한 변수의 결측 여부가 다른 변수의 값에 의해 결정되는 경우(missing at random, MAR)에 listwise 또는 pairwise와 같은 전통적인 방법보다 정확하게 미지수 추정을 합니다(Arbuckle, 1996).
ML은 다변량 정규분포를 가정한 방법이므로 자료 수집 후 우선 다변량 정규분포 가정에 위배되지 않는지 검토해야 합니다. 가장 쉽게 사용할 수 있는 방법은 여러 통계 프로그램이 제공하는
Mardia 지수를 이용해서 검증하는 것인데 이 지수는 표본 크기에 민감하다는 사실에 유념해야 합니다.
다변량 정규분포에 대한 가정이 위배되었을 경우, ML대신 Robust ML(Satorra & Bentler, 1994)을 이용할 수 있는데, Robust ML은 EQS에서 제공하고 있습니다. Robust ML은 최근 결측치 자료에도 적용이 가능해졌습니다(Yuan & Bentler, 1998).
* 구조 방정식 모형 분석을 위한 프로그램들
1. LISREL(Joreskog & Sorbom, 1993)
1970년대 중반에 가장 먼저 개발된 프로그램입니다. 연구자가 직접 행렬표를 작성하여 프로그램을 짜야 한다는 어려움이 있었지만 회귀 분석을 바탕으로 한 SIMPLIS를 발표하면서 여전히 많이 사용되고 있습니다. LISREL의 장점은
잠재 변수 사이에 비선형 관계를 다룰 수 있어 잠재 변수 간의 상호작용 모형을 처리하는 데 있어 가장 강력합니다.
2. EQS(Bentler, 1995)
회귀 분석을 바탕으로 한 프로그램입니다. EQS는 모형에 사용되는 측정 변수의 분포가 정규 분포로부터 심하게 벗어나 있을 때에도 사용할 수 있는
Robust ML 방법을 제공하며,
모형의 특정 미지수에 동일화 제약을 하였을 때, 그 제약이 타당한지 LM(Lagrange Multiplier) 검사를 이용해서 검증할 수 있도록 해 줍니다. 따라서 동일화 제약이 많이 사용되는 다집단 분석(multi-group analysis)에 유용합니다.
3. AMOS(Arbuckle, 1999)
분석을 위해 프로그램을 짤 필요가 없고, 검증할 모형을 경로도로 직접 그려서 분석하는 그래픽 기법의 도입으로 엄청난 반향을 불러일으킨 프로그램입니다. 사용하기가 매우 쉽다는 장점이 있으며 잠재 변수의 평균을 추정해야 하는 LGM같은 복잡한 모형도 쉽게 분석할 수가 있습니다.
4. Mplus(Muthen & Muthen, 2001)
최근 주목받고 있는 프로그램입니다. AMOS에 비해 사용하기는 어려우나 다른 프로그램에서는 찾아볼 수 없는 강력한 기능을 많이 가지고 있어 주목받고 있는 프로그램입니다. Mplus는
구조 방정식 모형에서 비연속 변수를 종속 변수로 이용할 수 있으며 latent class model을 회귀 분석이나 LGM 등에 결합한 mixture model을 검증하거나 GGMM, Event history analysis 등 다양한 종단 모형과, 다층 모형과 구조 방정식 모형을 결합한 다층 구조 방정식 모형(multi-level SEM)도 검증할 수 있습니다.
출처 : 구조 방정식 모형의 원리와 응용(홍세희, 2003)
- 온라인 문법/맞춤법 점검 -
이 글의 트랙백 주소 :: http://walden3.kr/trackback/181
* 미지수(parameter)
간단히 말하면 미지수는 추정하고자 하는 값을 말합니다. 예를 들어, 독립 변수가 하나인 단순 회귀 분석에서의 미지수는 절편과 기울기(즉, 회귀 계수)입니다.
미지수에는 두 가지 종류가 있는데 하나는
자유 미지수(free parameter)로, 모형에서 자유롭게 추정되는 미지수이고, 다른 하나는
고정 미지수(fixed parameter)로 추정되지 않고 특정 값으로 고정된 미지수입니다. 구조 방정식 모형에 사용되는 잠재 변수는 실제로 존재하지 않는 변수로 척도(scale)가 없습니다. 따라서 척도를 부여하기 위해 잠재 변수의 변량을 특정 값으로 고정하거나, 여러 측정 변수 중 하나의 요인 계수(요인 부하량)를 특정 값으로 고정하게 됩니다. 이것이 고정 미지수입니다. 다른 예로는 특정한 미지수 값이 두 집단에 대해 같을 것이라는 가설에 따라, 두 값을 동일하게 고정해 놓고 그 가설을 검증하는 것이 있습니다. 특정 계수를 두 집단에 대해 같게 고정하는 방법을
동일화 제약(equality constraint)이라고 하고, 동일한 모형을 두 집단 또는 그 이상의 집단에 적용하여 집단 간 차이를 검증하는 분석을 다집단 분석(multi-group analysis)이라고 합니다.
* 자유도(degree of freedom)
SEM에서 자유도는 모형이 간단한 정도(간명성, parsimony)를 의미합니다. 정해진 수의 변수를 이용해 모형을 만들 때, 모형 A의 자유도가 10이고, 모형 B의 자유도가 15라면, 모형 B가 더 간단하다고 하는 겁니다. 즉, 정해진 수의 변수를 이용해 모형을 만들 때, 모형의 자유도가 클수록 모형은 더 간단하다고 할 수 있습니다.
자유도는 최대 가능한 미지수의 수와 이론 모형에서 구하고자 하는 미지수간의 차이값을 말합니다. 예를 들어, 포화 모형(saturated model)은 모든 미지수를 추정해야 하므로 최대 가능한 미지수의 수와 이론 모형에서 구하는 미지수가 동일하므로 자유도가 0이 됩니다.
또한 미지수의 수와 자유도의 합은 항상 최대 가능한 미지수의 수가 됩니다. p가 모형에서 사용되는 측정 변수의 수이고 q가 모형에서 구하고자 하는 미지수의 수라고 정의하면 수학적으로 최대 가능한 미지수의 수는 p(p+1)/2가 되며 자유도는 (p(p+1)/2)-q가 됩니다.
출처 : 구조 방정식 모형의 원리와 응용(홍세희, 2003)
- 온라인 문법/맞춤법 점검 -
이 글의 트랙백 주소 :: http://walden3.kr/trackback/177
구조 방정식 모형(Structural Equation Modeling; 이하 SEM)은 1990년대 중반 이후로 경영학, 심리학, 교육학, 사회학, 가정학, 간호학 등 여러 분야에서 널리 사용되고 있는 통계 기법으로 사회 과학 분야에 몸담고 있는 사람이라면 반드시 알고 있어야 하는 매우 중요한 통계 기법입니다.
* 구조 방정식 모형의 장점
1. 여러 개의 측정 변수를 이용해서 추출된 공통 변량을 변수(잠재 변수)로 사용하므로 측정 오차(measurement error)가 통제됩니다. 따라서 측정 변수만을 사용해 계수를 추정하는 회귀 분석 등에 비해 더욱 정확한 값을 추정해 줍니다.
2. 매개 변수(mediator)의 사용이 용이합니다. 매개 변수는 특성상 모형에서 독립 변수 및 종속 변수의 역할을 동시에 해야 하는데 회귀 분석에서 한 변수는 하나의 역할만을 해야 하므로 매개변수의 도입 및 평가가 쉽지 않고, 이것이 가능한 경로 분석(path analysis)의 경우는 잠재 변수가 아닌 측정 변수가 사용되므로 측정 오차를 제대로 통제할 수 없다는 문제가 있습니다.
3. 이론 모형에 대한 통계적 평가가 가능하기 때문에 연구자가 개발한 이론 모형이 실제 자료에 얼마나 부합되는지를 평가하고 수정할 수 있습니다.
* 구조 방정식 모형의 주요 개념
1. 잠재 변수(latent variable)
잠재 변수는 이론적, 추상적 개념으로 직접 관측할 수 없는 변수입니다. 행동 과학에서 사용되는 대부분의 개념이 잠재 변수에 해당합니다. 요인 분석(factor analysis)에서는 잠재 변수를 요인(factor)이라고 하고 path diagram에서는 원 모양으로 표시됩니다.
2. 측정 변수(measured variable)
측정 변수는 직접 관측할 수 있는 변수로 예를 들어, 지능, 길이, 무게 등이 해당합니다. 측정 변수는 잠재 변수를 간접적으로 측정하는데 사용될 수 있습니다. 측정 변수는 표시 변수(indicator)로 불리기도 하며 path diagram에서는 사각형 모양으로 표시됩니다.
3. 잠재 변수와 측정 변수의 관계
측정 변수의 값은 잠재 변수의 값과 오차에 의해 결정되는데 이를 수학적으로 표현하면 '측정 변수=k*잠재 변수+측정 오차'가 되고, 이 때 계수 k는 측정 변수와 잠재 변수의 관련성 정도를 반영하는데 k의 값이 클수록 측정 변수의 신뢰도가 높은 것을 의미합니다. 잠재 변수와 측정 변수의 관계를 그림으로 나타내면 아래와 같습니다.
(잠재 변수) -> [측정 변수] <- (측정 오차)
* 내생(endogenous) 변수와 외생(exogenous) 변수
간단히 말하면 어떤 모형 내에서
다른 변수에 의해 설명되는 변수를 내생 변수라고 하고
다른 변수에 의해 설명되지 않는 변수를 외생 변수라고 합니다. 이는 독립 변수, 종속 변수와 다른 개념인데 아래의 그림을 보시면,
[V1] -> [V2] -> [V3] : V2와 V3의 오차는 설명의 편의상 생략
위의 그림에서 V1은 V2에 대한 독립 변수, V2는 V1에 대한 종속 변수인 동시에 V3에 대한 독립 변수, V3는 V2에 대한 종속 변수입니다. V2의 경우처럼 독립 변수와 종속 변수의 개념은 한 변수의 다른 변수에 대한 상대적인 개념입니다. 이에 반해, 내생 변수와 외생 변수는 절대적인 개념입니다.
V1은 다른 변수에 의해 설명되지 않으므로 외생 변수이고, V2와 V3는 다른 변수에 의해 설명되므로 모두 내생 변수입니다. 위의 그림에서는 생략되었지만 V2와 V3의 오차 변수도 다른 변수에 의해 설명되지 않으므로 외생 변수입니다.
내생 변수는 다른 변수에 의해 설명되는데 아무리 많은 변수를 이용해서 설명한다고 하더라도 완벽하게 설명하기가 불가능합니다. 따라서 내생 변수의 변량 중, 설명되지 않은 나머지는 오차에 해당됩니다. 따라서
모든 내생 변수는 반드시 오차를 설정해주어야 합니다. 오차는 실제로 존재하는 변수가 아니므로 잠재 변수로 간주합니다(path diagram에서 원으로 그린다는 의미). 오차는 측정 오차와 설명 오차(또는 예측 오차)의 두 종류가 있습니다. 우선 그림을 보시겠습니다.
1) (F1) -> [V1] <- (E1)
측정 변수 V1은 잠재 변수 F1에 의해 완벽하게 설명되지 않으므로(측정 변수의 신뢰도가 완벽하지 않으므로) 설명되지 않는 나머지는 측정 오차(E1)입니다.
2) (F1) -> (F2) <- (E2)
설명 오차 E2는 내생 변수 F2가 외생 변수 F1에 의해 설명되고 남은 오차입니다. 측정 변수와 잠재 변수의 관계가 아닌 잠재 변수 간의 관계라는 점에 주목하기 바랍니다.
출처 : 구조 방정식 모형의 원리와 응용(홍세희, 2003)
- 온라인 문법/맞춤법 점검 -
이 글의 트랙백 주소 :: http://walden3.kr/trackback/176