요새는 실상(?)이 많이 알려졌지만 제가 학부 때만 해도 심리학은 프로이트만을 공부하거나 혹은 전공 후 미아리에 돗자리를 깔아야만 하는 분야로 오해받는 분위기였지요. 대부분 사회과학대학도 아닌 인문대학에 속해 있었기 때문에 들어오자마자 통계학 공부를 해야 한다는 건 상상도 못했다가 피눈물을 삼키는 심리학도들이 많았죠(저도 물론 그 중 하나. ㅠ.ㅠ).
심리학 공부를 하려면 연구 방법론을 익히는 건 선택이 아닌 필수이기 때문에 통계학에 대한 지식 뿐 아니라 통계 프로그램을 자유자재로 다룰 수 있어야 합니다. 요새는 SPSS로 통일이 된 듯 하지만 제가 공부할 때는 SAS도 많이 사용했습니다.
하지만 SPSS나 SAS는 상업용 패키지 프로그램인데다 엄청나게 고가라서 학생 신분(뿐 아니라)으로 구매해서 사용할 수는 없어서 심적인 부담을 무릅쓰고 어둠의 경로를 통해 구해서 몰래 사용해왔는데요.
오늘 소개하는 통계 프로그램인
R은 오픈 소스 프로그램이라서 무료로 이용할 수 있습니다.
R은 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 통계 분석 언어인 S를 근간으로 개발한 분석 프로그램이자 언어로 Data Mining, Machine Learning 등을 비롯한 다양한 영역에서 널리 사용되고 있습니다.
미국을 기준으로 아직까지는 SAS, SPSS 능통자를 우대하는 분위기이나 학교 장면에서는 이미 R이 더 많이 사용되고 있고 오픈 소스 프로그램의 강점을 잘 살리고 있어 시간이 지나면 지날수록 점점 더 저변을 확대할 것으로 예상됩니다.
R은 앞에서도 말씀드린 것처럼 통계 프로그램이자 동시에 프로그래밍 언어이기 때문에 새로운 통계 방법을 언제든 프로그래밍할 수 있고 지금도 계속 새로운 패키지들이 업데이트 되고 있습니다. 이런 속도와 융통성이 고가의 상업 프로그램과 차별화되는 장점이죠.
다만 상업용 프로그램처럼 마우스 클릭으로만 사용할 수 없고 프로그래밍을 하듯이 명령어 입력을 해야 해서 초기에 진입 장벽이 좀 높은 것이 단점입니다. 저는 어차피 SPSS/PC+로 통계 프로그램에 입문했기 때문에 코드 입력 방식에 거부감이 별로 없습니다만....
저도 아직까지는 SPSS, AMOS를 사용하는 것이 익숙하지만 R을 알게 된 김에 공부해 보려고 합니다.
공부하면서 도움이 되는 정보나 분석 방법 등에 대해 시간나는대로 조금씩 포스팅하겠습니다.
R에 관심이 있는 분들은 아래의 링크를 참고하시기 바랍니다.
* R의 공식 사이트이자 성지라고 부를 수 있는 보고 : https://www.r-project.org/
* R을 다운로드 받으실 수 있는 국내 경로 : http://cran.nexr.com/
* R을 이용한 프로젝트 리스트 : https://cran.r-project.org/web/views/
마지막으로 서울대학교 창업지원을 받은 (주) 센소메트릭스의 조완일 대표이사가 작성한 R의 설치 및 기본 사용법 파일(PDF)을 올려 드립니다. 이것만 다 익히셔도 기본적인 사용은 하실 수 있으니 차근차근 살펴보시기 바랍니다.
그래도 자세한 공부는 좀 더 comprehensive한 책을 참고하셔야 합니다.
태그 -
AMOS,
R,
SAS,
SPSS,
SPSS/PC+,
심리학,
연구 방법론,
조완일,
통계,
통계학,
프로이트
이 글의 트랙백 주소 :: http://walden3.kr/trackback/4159
통계 분석 결과가 얼토당토 않게 나왔다는 건 흔히 이야기하는 '별이 뜨지 않은' 경우가 아니라 나와서는 안 되는 결과가 나온 경우를 말합니다.
예를 들어 -값이 나올 수 없는 영역에서 -값이 나왔다든가, 0~1 사이의 값이 나와야 하는 분석에서 2.7이 나왔다든가 하는 경우입니다. +값이 나와야 하는 상황에서 -값이 나오는 식으로 방향이 정반대인 산출 결과가 나오는 것도 포함됩니다.
전혀 예상치 않은 결과가 나왔기 때문에 분석자는 당황하기 마련인데 이럴 때 살펴봐야 하는 내용은 다음과 같은 것들이 있습니다.
1. 원자료 점검
:
위에서 설명한 경우의 90% 이상은 원자료(엄밀히 말하자면 코딩 실수)의 문제 때문에 발생합니다. 통계 분석 과정에서 이런 상황이 발생하는 경우는 의외로 그리 많지 않습니다. 따라서 역채점 문항이 있는지 모르고 정방향으로 채점한 변인(이 경우가 굉장히 많음)이 섞여 있거나 composite variable을 구성하는 과정에서 실수를 했거나 누락값이나 outlier를 처리하는 과정에서 뭔가 실수를 했거나 하는 경우에 위의 상황이 발생합니다.
이를 점검하기 위해서는 sample size가 크지 않은 임상, 상담 연구라면 원자료를 완전히 처음부터 다시 코딩하는 것도 하나의 방법입니다. 점검 과정이 그리 녹록지 않기 때문이죠. 하지만 sample size가 큰 양적 연구라면 재코딩을 하는 것이 큰 부담일테니 통계 분석 flow에 맞춰 하나하나 살펴봐야 합니다. 이 때 일을 줄이기 위해서는 분석 과정을 미리 flow chart로 만들어 놓고 각 분석 단계마다 명령어 파일(SPSS라면 Syntax 파일)을 순서대로 저장해 놔야 합니다. 그러지 않으면 나중에 하나하나 살펴보는데 너무 많은 시간이 걸리게 되니까요. 이런 실수 때문이 아니더라도 통계 분석을 할 때에는 각 단계마다 항상 명령어와 결과물을 잘 정리해놔야 합니다.
2. 선행 연구 재점검
: 통계 분석에 아무런 오류가 없는 경우 생각해 볼 수 있는 하나의 가능성은 연구 가설 설정이 잘못되었을 수 있습니다. 선행 연구에 대한 review가 충분하지 않아서 실제로 -값이 나올 수 있는 관계인데 +값이 나오는 연구 결과만 참고하여 가설을 설정했을 수 있습니다. 시간에 쫓겨 가장 핵심이 되는 선행 연구 중심으로만 연구 가설을 설정하면 그렇게 되기 쉬운데 major journal에서부터 키워드 검색을 통해 최신 연구 동향을 다시 살펴볼 필요가 있습니다.
태그 -
composite varible,
major journal,
outlier,
sample size,
SPSS,
syntax,
상담,
선행 연구,
역채점,
연구 가설,
원자료,
임상,
코딩,
통계 분석
이 글의 트랙백 주소 :: http://walden3.kr/trackback/4055
제가 일하는 기관에서는 작년에 수억 원대의 대규모 연구 용역을 발주했습니다. 표본 수가 2만 명이 넘는, 제가 일하는 분야에서는 국내 최초의 전국 실태 조사였습니다.
이 연구 프로젝트는 본 연구 조사 설계를 위한 사전 연구, 본 연구, 본 연구에 대한 감리 연구의 3단계로 이루어진 국내 유일의 연구 프로젝트였죠.
본 연구비만 해도 4억 원이 넘는 대형 프로젝트였습니다. 그래서 SKY 심리학과 교수팀 중 하나에게 맡겼습니다.
얼마 전에 이 연구의 분석 결과물 파일을 CD로 받았습니다. 그 안에 들어있던 내용물은 다음과 같습니다.
종합보고서(PDF파일), 요약보고서(PDF파일), SPSS원자료(SAV파일), 원자료엑셀파일(이건 열어봤더니 결과표를 편집한 파일을 잘못 보냈더군요. -_-;;;) 달랑 4개입니다. 그나마 연구 보고서 파일을 빼면 제대로 된 통계 분석 결과 자료는 SPSS 원자료 파일 하나가 답니다. 제 눈을 의심했습니다.
4억 원이 넘는 프로젝트의 통계 분석 결과 자료가 원자료 하나라...
하도 어이가 없어서 공동 연구원에게 전화를 했습니다. 이런 저런 사정을 설명하고 SPSS로 분석을 했으면 output 파일과 syntax 파일을 달라고 했습니다.
그랬더니 처음에는 박사 과정이 분석을 했기 때문에 잘 모른다고 하더니 그 다음에는 어차피 기본적인 분석 방법이 기술 통계이기 때문에 syntax 파일을 만들지 않았다고 하더군요. 나중에는 원자료만 주면 되지 왜 그런 것을 요구하냐, 연구자에 대한 지나친 간섭 아니냐는 말까지 들었습니다.
정말 개가 웃을 일입니다.
syntax 파일 작성은 SPSS를 이용한 분석의 기본인데 명문대 박사 과정이 그런 것도 모른다는 것 자체가 한심하고 박사 과정생이 덜 떨어졌으면 공동 연구원이나 하다 못해 연구 책임자라도 최종 점검을 해야 하는 것인데 4억 원짜리 프로젝트를 진행하면서 최종 확인도 안 하고 결과물 CD를 그냥 보낸다? 프로젝트가 애들 장난입니까?
기술 통계이기 때문에 syntax 파일을 만들지 않았다는 말도 웃기는 것이 나중에 누가 replication을 해도 동일한 결과가 나오는지를 확인하기 위해 만드는 것이 syntax 파일인데 syntax 파일을 안 주면 나중에 확인하는 사람 엿 먹으라는 말 밖에 더 됩니까? 그걸 어떻게 일일이 확인하라는 말입니까? 게다가 이 연구는 워낙 민감한 사안이라 원자료를 완전 공개하고 검증을 받을 예정인데 하다 못해 사감위에서 결과 확인을 하겠다고 하면 대체 이 원자료로 동일한 결과가 나오는지 누가 검증해 줄 겁니까? 잔금 다 치렀는데 그 때 가서 도와줄겁니까?
연구자에 대한 지나친 간섭 운운도 웃기기는 마찬가지입니다. 제가 석사 학위 논문 분석을 도와줄 때에도 저는 분석 flow를 하나하나 작성해 텍스트 파일로 만들고 모든 분석 결과는 일일이 syntax 파일(SPS파일)을 만들어서 원자료와 syntax 파일, output 파일을, 구분하기 좋도록 각각의 디렉토리를 만들어 저장한 다음, 혹시 SPSS 프로그램이 없을 지 모르기 때문에 각 결과와 histogram 등을 이미지 파일로 저장해서 일련 번호를 붙인 다음 압축해서 줬습니다. 의뢰자가 압축을 풀기만 하면 분석 순서대로 카테고리를 열어서 분석을 그대로 다시 재현해서 확인할 수 있도록 했지요.
20만 원짜리 개인 대 개인 통계분석도 그렇게 해 주는 것이 당연하거늘 수억 원짜리 프로젝트 결과로 그런 것을 요구하는 것이 연구자에 대한 지나친 간섭이라고요?
그럼 원자료의 신뢰성을 확인하기 위해 최초 코딩된 엑셀 파일을 달라고 하니 리서치 회사에는 주지 말라고 했고 자기네들이 가진 것만 보내준 건 또 뭡니까? 구린 것이 없다면 왜 cross checking을 못하게 합니까? 이건 엑셀을 변환한 원자료에 뭔가 장난질을 쳤다는 의미 아닙니까. 아니면 그냥 기분 나쁘니 감정대로 처리하자는 건가요?
뭐 앞으로 그 학교 연구팀에게는 연구 용역을 맡기지도 않겠지만(그런 한심한 자세로 일하는 교수에게 뭘 믿고 연구를 맡기겠습니까. 제가 도시락 싸들고 다니면서 말릴 겁니다) 책임 연구원의 선배라는 분이 제가 위에서 이야기했던 결과물을 요구하는 것은 평판과 신뢰를 깎아먹는 문제라는 말씀에 또 한번 기절했습니다. 이 분 제가 개인적으로 좋아하는 분이고 평소 공명정대하다고 평가했던 분인데 무슨 이런 섭섭한 말씀을 하시나요. 많이 실망했습니다. 초록은 동색이라고 교수라서 교수편을 드시는 건가요?
연구를 제대로 했다면 '갑'(제가 볼 때 이 교수팀은 우리 기관을 갑으로 생각하지도 않는 것 같습니다만)이 무슨 무리한 요구를 해도 떳떳하게 공개하면 되는거지요.
그냥 넘어가려고 했는데 확실하게 분석을 했는지 믿을 수가 없습니다. 시간을 내서 하나하나 점검을 좀 해봐야 겠습니다. 불안해서 그냥 놔둘 수가 없습니다.
우리나라 최고의 명문대 수준이 이렇다면 심리학계의 앞날이 참으로 걱정됩니다. 다른 대학은 안 그러길 간절히 빕니다.
태그 -
output 파일,
replication,
SPSS,
syntax 파일,
기술통계,
심리학,
연구,
연구 용역,
연구자,
전국 실태 조사,
통계,
통계분석
이 글의 트랙백 주소 :: http://walden3.kr/trackback/2184
2007년 11월 21일 현재 미국에서는 이미 SPSS 16.0이 판매되고 있다는 사실부터 말씀드리겠습니다. 업데이트 속도가 정말 빠릅니다(쳇~) . 여러가지 module을 어찌나 복잡하게 구성했는지 프로그램의 수를 세어보는 것만으로도 현기증이 날 정도네요(궁금하신 분은
여기를 클릭).
SPSS 15.0은 AMOS 7.0을 포함한 패키지 형태로 설치 프로그램 상에서 직접 AMOS 7.0 설치 여부를 통제할 수 있도록 구성되어 있습니다.
설치 후 살펴보니 기술적인 algorithm상에서는 모르겠지만 외형 상 큰 차이는 못 느꼈습니다. 14.0부터 SPSS사에서 자랑하는 다양한 유형의 Chart 제공은 개인 사용자에게는 그리 큰 메리트가 될 것 같지는 않습니다.
그것보다
반가운 소식은 결과물을 PDF 파일의 형태로 변환해서 저장할 수 있게 된 것이네요.
14.0부터 사용된 인증 마법사가 15.0에도 적용되었지만 크래킹이 되어 Key Generator를 통해 우회적으로 등록할 수 있습니다. 등록하고 나서 처음 실행할 때 등록이 되지 않았다는 에러가 뜨는 등 아직은 조금 불안하지만 프로그램을 종료했다가 다시 실행시키면 정상적인 사용이 가능합니다.
덧. 참고로
SPSS 15.0은 윈도 XP와 윈도 2000이상의 OS에서만 설치됩니다.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/1061
이미 미국의 SPSS 본사에서는 SPSS 15.0과 AMOS 7.0의 선주문을 받고 있는 상황이니 3월에 출시된 14.0을 소개하는 것이 때늦은 감은 있습니다만...
Base System의 경우 현재 미국에서 1,599불에 판매되고 있습니다.
새로 추가된 기능은 크게
1. 그래픽 기능 향상
2. 데이터와 엑세스 관리 기능 향상
3. Data Validation 기능 추가로 나눌 수 있는데
그래픽 기능에서는 Graph와 Chart가 대거 추가되었고 새로운 chart 생성 interface가 추가되어 보다 쉽게 그래프를 작성할 수 있게 되었습니다.
데이터 관리 기능에서는 이전 version과 달리 여러 개의 data set을 동시에 창으로 띄워 관리할 수 있게 되었고 원본 데이터를 유지하면서 복제된 데이터를 이용해 변환이나 분석을 실행할 수 있게 되었습니다. 엑세스 관리 기능에서는 SAS 압축 파일을 읽어들일 수 있게 되었고 Stata 파일의 읽기/쓰기도 가능하게 되었습니다.
또한 분석 전에 데이터의 타당성을 검증하여 부적절한 케이스를 제거하거나 수정하는 기능과 다변량 이상치를 쉽게 식별하는 data validation기능이 새로 추가되었습니다.
SPSS 14.0은 AMOS 6.0을 포함할 수 있으며 10월에 한글판이 출시될 예정입니다.
덧. SPSS 14.0은 기존의 version과 달리 설치할 때, License Code뿐 아니라 License Authorization Wizard라는 프로그램을 통해 인터넷, 이메일, 전화 등을 이용한 정품 사용자 인증 절차를 마련해 두었습니다. 아직까지는 이 Authorization Wizard를 우회하거나 무시하고 설치할 수 있는 크랙킹 파일이 나오지 않은 상태입니다.
이것이 License Authorization Wizard입니다.
보시는 것처럼 인터넷, 전화, 이메일을 통해 Authorization을 받도록 되어 있습니다.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/630
SPSS 13.0에 포함된 새로운 기능
지금까지 11.5 버전을 사용하다가 어둠의 통로를 이용(저도 어지간하면 정품을 사용하자는 주의지만 SPSS만큼은 개별 구입 불가능 품목입니다. 너무 비싸요. ㅠ.ㅠ)해 12.0을 구한 기쁨이 채 가시기도 전에 13.0이 출시되었다는 메일을 받았습니다. 뭘까요. 뒤처지고 있다는 이 느낌은(괜히 기분 나쁘다~).
쭉 훑어보니 12.0과 차별화할 수 있을 정도로 새로운 점은 찾지 못했습니다.
그래프 기능과 출력 매니지먼트 기능 강화는 제가 11.5에서도 제대로 구현하고 있지 못하니 특별히 영양가가 높아 보이지는 않고, 주목할 만한 것은 'Classification Trees'라는 새로운 분석 module이 포함된 것인데 아마도 clementine과 같은 data mining tool의 일부 기능을 사용할 수 있도록 한 것이 아닌가 싶습니다.
올해는 그냥 12.0을 충실하게 사용하는데 매진해야겠네요. 새로운 프로그램만 보면 제대로 사용하지도 못하면서 지름병이 도지니...
덧글. AMOS 5.0도 출시되었는데 쩝...
- 온라인 문법/맞춤법 점검 -
이 글의 트랙백 주소 :: http://walden3.kr/trackback/44