요새는 실상(?)이 많이 알려졌지만 제가 학부 때만 해도 심리학은 프로이트만을 공부하거나 혹은 전공 후 미아리에 돗자리를 깔아야만 하는 분야로 오해받는 분위기였지요. 대부분 사회과학대학도 아닌 인문대학에 속해 있었기 때문에 들어오자마자 통계학 공부를 해야 한다는 건 상상도 못했다가 피눈물을 삼키는 심리학도들이 많았죠(저도 물론 그 중 하나. ㅠ.ㅠ).
심리학 공부를 하려면 연구 방법론을 익히는 건 선택이 아닌 필수이기 때문에 통계학에 대한 지식 뿐 아니라 통계 프로그램을 자유자재로 다룰 수 있어야 합니다. 요새는 SPSS로 통일이 된 듯 하지만 제가 공부할 때는 SAS도 많이 사용했습니다.
하지만 SPSS나 SAS는 상업용 패키지 프로그램인데다 엄청나게 고가라서 학생 신분(뿐 아니라)으로 구매해서 사용할 수는 없어서 심적인 부담을 무릅쓰고 어둠의 경로를 통해 구해서 몰래 사용해왔는데요.
오늘 소개하는 통계 프로그램인
R은 오픈 소스 프로그램이라서 무료로 이용할 수 있습니다.
R은 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 통계 분석 언어인 S를 근간으로 개발한 분석 프로그램이자 언어로 Data Mining, Machine Learning 등을 비롯한 다양한 영역에서 널리 사용되고 있습니다.
미국을 기준으로 아직까지는 SAS, SPSS 능통자를 우대하는 분위기이나 학교 장면에서는 이미 R이 더 많이 사용되고 있고 오픈 소스 프로그램의 강점을 잘 살리고 있어 시간이 지나면 지날수록 점점 더 저변을 확대할 것으로 예상됩니다.
R은 앞에서도 말씀드린 것처럼 통계 프로그램이자 동시에 프로그래밍 언어이기 때문에 새로운 통계 방법을 언제든 프로그래밍할 수 있고 지금도 계속 새로운 패키지들이 업데이트 되고 있습니다. 이런 속도와 융통성이 고가의 상업 프로그램과 차별화되는 장점이죠.
다만 상업용 프로그램처럼 마우스 클릭으로만 사용할 수 없고 프로그래밍을 하듯이 명령어 입력을 해야 해서 초기에 진입 장벽이 좀 높은 것이 단점입니다. 저는 어차피 SPSS/PC+로 통계 프로그램에 입문했기 때문에 코드 입력 방식에 거부감이 별로 없습니다만....
저도 아직까지는 SPSS, AMOS를 사용하는 것이 익숙하지만 R을 알게 된 김에 공부해 보려고 합니다.
공부하면서 도움이 되는 정보나 분석 방법 등에 대해 시간나는대로 조금씩 포스팅하겠습니다.
R에 관심이 있는 분들은 아래의 링크를 참고하시기 바랍니다.
* R의 공식 사이트이자 성지라고 부를 수 있는 보고 : https://www.r-project.org/
* R을 다운로드 받으실 수 있는 국내 경로 : http://cran.nexr.com/
* R을 이용한 프로젝트 리스트 : https://cran.r-project.org/web/views/
마지막으로 서울대학교 창업지원을 받은 (주) 센소메트릭스의 조완일 대표이사가 작성한 R의 설치 및 기본 사용법 파일(PDF)을 올려 드립니다. 이것만 다 익히셔도 기본적인 사용은 하실 수 있으니 차근차근 살펴보시기 바랍니다.
그래도 자세한 공부는 좀 더 comprehensive한 책을 참고하셔야 합니다.
태그 -
AMOS,
R,
SAS,
SPSS,
SPSS/PC+,
심리학,
연구 방법론,
조완일,
통계,
통계학,
프로이트
이 글의 트랙백 주소 :: http://walden3.kr/trackback/4159
제가 일하는 기관에서는 작년에 수억 원대의 대규모 연구 용역을 발주했습니다. 표본 수가 2만 명이 넘는, 제가 일하는 분야에서는 국내 최초의 전국 실태 조사였습니다.
이 연구 프로젝트는 본 연구 조사 설계를 위한 사전 연구, 본 연구, 본 연구에 대한 감리 연구의 3단계로 이루어진 국내 유일의 연구 프로젝트였죠.
본 연구비만 해도 4억 원이 넘는 대형 프로젝트였습니다. 그래서 SKY 심리학과 교수팀 중 하나에게 맡겼습니다.
얼마 전에 이 연구의 분석 결과물 파일을 CD로 받았습니다. 그 안에 들어있던 내용물은 다음과 같습니다.
종합보고서(PDF파일), 요약보고서(PDF파일), SPSS원자료(SAV파일), 원자료엑셀파일(이건 열어봤더니 결과표를 편집한 파일을 잘못 보냈더군요. -_-;;;) 달랑 4개입니다. 그나마 연구 보고서 파일을 빼면 제대로 된 통계 분석 결과 자료는 SPSS 원자료 파일 하나가 답니다. 제 눈을 의심했습니다.
4억 원이 넘는 프로젝트의 통계 분석 결과 자료가 원자료 하나라...
하도 어이가 없어서 공동 연구원에게 전화를 했습니다. 이런 저런 사정을 설명하고 SPSS로 분석을 했으면 output 파일과 syntax 파일을 달라고 했습니다.
그랬더니 처음에는 박사 과정이 분석을 했기 때문에 잘 모른다고 하더니 그 다음에는 어차피 기본적인 분석 방법이 기술 통계이기 때문에 syntax 파일을 만들지 않았다고 하더군요. 나중에는 원자료만 주면 되지 왜 그런 것을 요구하냐, 연구자에 대한 지나친 간섭 아니냐는 말까지 들었습니다.
정말 개가 웃을 일입니다.
syntax 파일 작성은 SPSS를 이용한 분석의 기본인데 명문대 박사 과정이 그런 것도 모른다는 것 자체가 한심하고 박사 과정생이 덜 떨어졌으면 공동 연구원이나 하다 못해 연구 책임자라도 최종 점검을 해야 하는 것인데 4억 원짜리 프로젝트를 진행하면서 최종 확인도 안 하고 결과물 CD를 그냥 보낸다? 프로젝트가 애들 장난입니까?
기술 통계이기 때문에 syntax 파일을 만들지 않았다는 말도 웃기는 것이 나중에 누가 replication을 해도 동일한 결과가 나오는지를 확인하기 위해 만드는 것이 syntax 파일인데 syntax 파일을 안 주면 나중에 확인하는 사람 엿 먹으라는 말 밖에 더 됩니까? 그걸 어떻게 일일이 확인하라는 말입니까? 게다가 이 연구는 워낙 민감한 사안이라 원자료를 완전 공개하고 검증을 받을 예정인데 하다 못해 사감위에서 결과 확인을 하겠다고 하면 대체 이 원자료로 동일한 결과가 나오는지 누가 검증해 줄 겁니까? 잔금 다 치렀는데 그 때 가서 도와줄겁니까?
연구자에 대한 지나친 간섭 운운도 웃기기는 마찬가지입니다. 제가 석사 학위 논문 분석을 도와줄 때에도 저는 분석 flow를 하나하나 작성해 텍스트 파일로 만들고 모든 분석 결과는 일일이 syntax 파일(SPS파일)을 만들어서 원자료와 syntax 파일, output 파일을, 구분하기 좋도록 각각의 디렉토리를 만들어 저장한 다음, 혹시 SPSS 프로그램이 없을 지 모르기 때문에 각 결과와 histogram 등을 이미지 파일로 저장해서 일련 번호를 붙인 다음 압축해서 줬습니다. 의뢰자가 압축을 풀기만 하면 분석 순서대로 카테고리를 열어서 분석을 그대로 다시 재현해서 확인할 수 있도록 했지요.
20만 원짜리 개인 대 개인 통계분석도 그렇게 해 주는 것이 당연하거늘 수억 원짜리 프로젝트 결과로 그런 것을 요구하는 것이 연구자에 대한 지나친 간섭이라고요?
그럼 원자료의 신뢰성을 확인하기 위해 최초 코딩된 엑셀 파일을 달라고 하니 리서치 회사에는 주지 말라고 했고 자기네들이 가진 것만 보내준 건 또 뭡니까? 구린 것이 없다면 왜 cross checking을 못하게 합니까? 이건 엑셀을 변환한 원자료에 뭔가 장난질을 쳤다는 의미 아닙니까. 아니면 그냥 기분 나쁘니 감정대로 처리하자는 건가요?
뭐 앞으로 그 학교 연구팀에게는 연구 용역을 맡기지도 않겠지만(그런 한심한 자세로 일하는 교수에게 뭘 믿고 연구를 맡기겠습니까. 제가 도시락 싸들고 다니면서 말릴 겁니다) 책임 연구원의 선배라는 분이 제가 위에서 이야기했던 결과물을 요구하는 것은 평판과 신뢰를 깎아먹는 문제라는 말씀에 또 한번 기절했습니다. 이 분 제가 개인적으로 좋아하는 분이고 평소 공명정대하다고 평가했던 분인데 무슨 이런 섭섭한 말씀을 하시나요. 많이 실망했습니다. 초록은 동색이라고 교수라서 교수편을 드시는 건가요?
연구를 제대로 했다면 '갑'(제가 볼 때 이 교수팀은 우리 기관을 갑으로 생각하지도 않는 것 같습니다만)이 무슨 무리한 요구를 해도 떳떳하게 공개하면 되는거지요.
그냥 넘어가려고 했는데 확실하게 분석을 했는지 믿을 수가 없습니다. 시간을 내서 하나하나 점검을 좀 해봐야 겠습니다. 불안해서 그냥 놔둘 수가 없습니다.
우리나라 최고의 명문대 수준이 이렇다면 심리학계의 앞날이 참으로 걱정됩니다. 다른 대학은 안 그러길 간절히 빕니다.
태그 -
output 파일,
replication,
SPSS,
syntax 파일,
기술통계,
심리학,
연구,
연구 용역,
연구자,
전국 실태 조사,
통계,
통계분석
이 글의 트랙백 주소 :: http://walden3.kr/trackback/2184
★★★☆☆
이미지 출처 :
YES24
예전에 포스팅한
'진정한 실수요자가 되겠습니다'에서 이미 말했듯이 저는 부동산은 기본적으로 공공재라고 생각하며 자동차와 마찬가지로 구입하는 순간부터 감가상각에 의해 가격이 하락해야 마땅하고, 서구와 마찬가지로 보유세를 1% 수준까지 올려야 한다고 생각하는 사람입니다. 그렇기 때문에 이 책의 저자가 주장한 것처럼 주거 문제를 해결하기 위해서는 싱가포르 수준(약 90%)으로 택지를 국유화해야 하고 이를 위해 정부가 유상몰수를 통해 사들이는 특단의 대책이 필요하다고 생각합니다. 현재의 주택 소유자가 살아있는 한 현재 소유하고 있는 주택의 택지를 죽을 때까지 국가에 팔지 않더라도 무방하게 만드는 정도의 권리 인정만 인정하고요.
이 책의 저자인 손낙구는 19년 동안 노동현장에서 일한 대표적인 노동 운동가입니다. 민주노총 대변인으로 일 할 때에는 출입 기자들로부터 최고의 대변인이라는 평가를 받기도 했고 심상정 전 의원의 대변인으로 일했던 사람입니다.
저자는 이 책을 통해 한국 사회는 부동산이 결정한다는 사회 통념을 방대한 양의 통계 자료를 분석해서 증명해냈습니다.
작년에 나온 이 책은 그야말로 대한민국 부동산의 역사와 지평을 낱낱이 분석한 책입니다. 부동산 격차와 빈곤층의 실상, 대한민국 부동산 100대 부자가 소유한 부동산의 현 실상이 어떠한지, 부동산 투기가 한국 경제를 어떻게 위기에 빠뜨리고 있는지, 부동산 투기에 의해 사회계급이 갈리고 삶의 질이 어떻게 결정되는지에 대해 꼼꼼히 기술하고 있습니다. 그리고 이런 종류의 책에서는 용두사미 격으로 빠지기 쉬운 대안 제시까지 빠뜨리지 않았습니다.
이 책을 읽으면서 우리나라 땅을 팔면 캐나다를 6번 살 수 있다든가, 우리나라 최고 집 부자가 1,083채를 가졌다든가, 전 국민이 가구 당 한 채씩 집을 가져도 100만 채가 넘게 남는다든가 하는 이런 충격적인 사실에 놀라지도 않게 된 제 무신경이 더 놀랍더군요. 그래도 임대소득 및 임대사업 비과세 제도는 좀 놀라웠습니다. 왜 사람들이 다들 돈 모으면 건물 지어서 임대업으로 먹고 살 생각을 하는 지 이제서야 이해하게 되었습니다.
우리나라는 10년에 한 번씩 주기적으로 부동산이 폭등했는데 지금은 4차 부동산 투기가 진행 중입니다. 저자는 투기가 일어날 강력한 징후라고 할 수 있는 3대 조건을 제시하고 있는데 1) 막대한 투기 자금이 사회적으로 조성된 직후이고, 2) 투기를 예방하거나 규제하는 제도와 장치를 완화하고, 3) 역대 정권이 경기 부양을 위해 부동산 투기를 자극하는 개발 정책을 쏟아 내 투기에 불을 당기는 것입니다. 이 조건대로라면 대운하 사업을 시작해서 건설 자금이 풀리는 시점이 바로 폭등의 도화선에 불이 붙는 시점이 되겠네요. 문제는 세계적인 경기 불황의 여파가 어느 정도 투기 폭발의 완충 효과로 작용할지인 것 같습니다.
6장으로 나누어 놓은 이 책은 각 장이 끝날 때마다 통계의 폭격에서 혼란스러워진 머리를 간단 요약을 통해 정리하는 미덕을 발휘합니다.
이 책의 장점이면서 동시에 단점이 되는 건 엄청난 통계 자료인데 너무나 많은 수치가 난무하다보니 흐름을 읽는데 방해가 됩니다. 통계 자료가 필요한 부동산 전문가나 연구자는 고맙겠지만 저같은 문외한은 흐름이 끊기는 글을 읽는 것이 상당히 번거로운 일이거든요.
한국과 일본에만 있는 '토건국가현상'과 '사유재산권 절대주의'가 우리나라를 망국의 구렁텅이로 몰아가고 있습니다. 문제는 이런 사고방식이 이미 국민들 머릿속에 어느 정도 자리잡고 있어 제도로만 접근해서는 답이 나오기 어려운 시점이 되었다는 것이죠.
우리나라 부동산 문제에 대한 인식을 공유하고 싶은 분들에게 추천합니다.
덧. 이 책은 북 크로싱 대상입니다.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/1848
광우병과 관련해 포스팅된 글을 읽어보면 통계와 확률의 관점에서만 접근하는 분들이 계시더군요. 물론 그분들의 심정이 이해가 되지 않는 것도 아닙니다.
"Don't Panic"이라고 하고 싶은 거겠죠. 일단 그 심정에는 동감합니다.
그런데 광우병은 확률의 문제로만 볼 게 아니거든요. 메티오닌 동질접합체 문제로 한국인이 광우병에 걸릴 확률이 95%라고 호들갑떠는 사람들도 문제이기는 하지만 광우병에 걸릴 확률보다 오늘 집에 가다가 교통사고로 죽을 확률이 높다고 해서 차를 없애야 하는 것은 아니지 않느냐면서 안심하고 있을 문제도 아니라는 것이죠.
어디선가 본 댓글인데 총에 맞아 죽을 확률이 핵폭탄에 맞아 죽을 확률보다 높다고 해서 핵폭탄에 대한 걱정을 할 필요가 없어지는 것은 아니죠. 총은 총, 핵폭탄은 핵폭탄 나름대로 걱정해야 하는 문제입니다.
또 누군가는 영국에서 확인된 광우병 환자의 수가 154명 밖에 되지 않기 때문에 확률이 낮다고 하는데 제가 알기로 1만 2천 명을 대상으로 한 표본 조사에서 3명이 발견되었거든요. 그걸 영국의 전 국민을 대상으로 일반화하면 3,800명이나 됩니다. 이미 광우병 환자가 1만 명을 넘어섰다는 추정 결과도 있고요.
문제는 광우병이 발병하기까지 잠복기가 10년 이상이라는 것이고 그 동안 수혈, 체액 감염 등으로 잠재적인 광우병 환자가 기하급수적으로 늘어날 가능성이 있다는 겁니다. 게다가 무엇보다도 에이즈, 암, 하다못해 AI 조류독감과 달리 광우병은 걸리면 100% 사망입니다. 치료 방법이 전혀 없어요. 그런데 걱정하지 않아도 된다는 사람이 저는 더 이해가 가지 않습니다.
그리고 자꾸 확인된 vCJD환자의 수가 극소수라는 말을 하는데 인간 광우병은 부검을 해서 뇌조직을 확인하기 전까지는 확인이 안 됩니다. 사용한 수술 도구는 모두 버려야 하고 부검 과정에서 감염될 가능성이 있기 때문에 부검의들이 굉장히 꺼리는 것이 광우병 환자입니다. 전에도 제가 포스팅한 적이 있지만 CJD환자 중 광우병 환자로 의심되지만 확인되지 않은 환자의 수가 굉장히 많고 그 수가 최근에 점점 늘고 있습니다. CJD는 보통 50대 이후에 발병하는데 요새는 젊은 층, 때로는 아이들에게서도 나타나고 있거든요. 따라서 유사 CJD 중 상당 수가 광우병일 가능성이 큽니다. 그런데 확인된 환자의 수가 소수이니 괜찮다고 하면 확률 상으로는 낮지만 별로 안심이 안 되는 말이거든요.
지금까지 광우병의 원인이 되는 프리온을 없앨 수 있는 방법 중 효과적인 것은, 단 하나 양잿물에 48시간 이상 담그어 놓는 것인데 그렇다면 이건 식용에 사용할 수 없는 방법이라는 것이죠. 결과적으로 어떤 방법으로도 광우병을 차단하기는 어렵다는 이야기...
일본의 경우는 6년 전에 쇠고기 개방을 할 때 300만 마리가 넘는 소를 전수조사해서 광우병 소 26마리를 찾아냈습니다. 겨우 26마리 밖에 안 되었는데도 일본 전체가 발칵 뒤집어 졌고, 그 과정에서 채 30개월이 되지 않은 소도 광우병에 걸린 것을 확인했습니다. 그래서 미국에 20개월 이하만 수입하겠다고 통보했고 미국도 받아들일 수 밖에 없었죠. 그런데도 광우병 환자가 발생했습니다. 게다가 일본은 거의 완벽한 이력추적제를 시행하는 나라이고 곧 식당에서 사용하는 쇠고기도 어디에서 수입된 고기인지 추적할 수 있는 제도를 시행할 예정입니다. 그런데 우리나라는 아무 것도 준비된 것이 없습니다. 살코기만 수입하겠다고 했지만 SRM을 제대로 제거할거라는 아무런 보장이 없고, 30개월 이상 연령의 소도 수입하기로 했고요. 그런데도 걱정을 안 해도 된다고요? 전 이런 시스템 부재가 걱정이 되는데요?
단순히 미국산 쇠고기가 수입되면 온 국민이 모두 광우병에 걸려 죽어 자빠지기 때문에 이민을 가야하나하고식음을 전폐하고 고민할 문제는 아니지만 그렇다고 그거 거의 안 걸리니까 걱정 안 해도 되거든 하면서 마음놓고 미국산 쇠고기를 먹고 있을 상황도 아니거든요. 미국에 살고 있으면서 그런 글 올리는 분들은 정말 카길 같은 기업이 생산한 미국산 쇠고기를 마음껏 드시면서 그런 이야기를 하시는 건지, 또는 자기가 광우병 걸린 줄도 모르고 아직 발병하지 않아서 용감한 것인지 궁금해요.
최악의 상황을 예방하려면 최소한 일본처럼 한우를 포함한 모든 소에 대해 전수 조사를 시행해야 하고 그 결과를 토대로 미국산 쇠고기의 수입 연한에 압력을 행사해야 합니다. 정확한 정보를 전달해서 국민들이 알아서 광우병 의심 쇠고기를 사용하지 않도록 해야 하고요. 그래서 미국인들이, 일본인들이 했듯이 자연스럽게 시장에서 퇴출될 수 있도록 해야 합니다.
확률이 낮으니까, '확인된' 광우병 환자의 수가 매우 적으니까, 안심해도 된다는 논리는 자칫 잘못하면 큰 화를 불러 일으킬 수 있습니다. 저 같으면 차라리 그냥 심하게 걱정하면서 만일에 하나라도 있을 수 있는 결과를 예방하는 쪽을 택하겠습니다.
숫자에만 집착하다 보면 숲을 보는 시야를 잃게 되는 법이죠.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/1263
최근에 석사 논문 3편의 통계 분석을 동시에 의뢰 받아서 한동안 정신이 없었습니다. 두 편은 공변량 구조 분석을 통해 매개 모형을 검증하는 것이고, 다른 하나는 기술통계분석과 상관분석, T검증을 하는 간단한 것이었습니다.
그런데 이 중 아주 기본적인 통계 방법론의 지식도 모르는 의뢰인이 있어서 적지않이 충격을 받았습니다. 그래도 소위 명문대에 속하는 대학의 석사 과정생인데 말이죠. 물론 심리학과 출신이 아닐 수도 있습니다만 대학원에도 통계 방법론 강의가 있을텐데 제 상식으로는 도무지 이해가 되지 않습니다. 이건 담당 교수의 책임도 크다고 봅니다.
하기는 최근에 많은 심리학과 교과 과정에서 방법론 관련 과목들이 필수에서 선택으로 변경되면서 많은 학생들이 방법론을 외면하고 있다는 이야기를 들었습니다. 아마도 그런 경향의 연장이 아닌가 싶은데 참으로 걱정스럽습니다.
사회 과학은 명칭에 과학이라는 말이 들어가 있는 것에서도 알 수 있듯이 연구에서 다양한 통계 방법론을 사용하기 때문에 기본적인 통계 지식과 프로그램의 운용 기술은 필수적이라고 할 수 있습니다.
자신의 연구 아이디어를 어떻게 구현하는지 모르는 사람이 어떻게 연구를 할 수 있겠습니까? 프로그램의 운용 기술은 technical한 것이라고 하더라도 기본적인 개념은 잡고 있어야 하지 않을까요?
'심리학 공부를 잘하기 위해서 필요한 것들'이라는 포스팅에서도 강조했지만 통계 방법론은 심리학과 뗄레야 뗄 수 없는 불가분의 관계입니다.
제발 미리미리 공부를 해 두시기 바랍니다.
저요? 저 학력고사 시험에서 수학 반타작을 한 수학맹입니다. 그래서 위기감에 대학 때 통계 방법론 만큼은 정말 열심히 공부했고 지금도 방법론 워크샵이라면 시간, 장소 불문하고 따라다니면서 듣습니다.
노력으로 안되는 것은 없습니다. 최소한 통계 방법론은 그렇습니다.
이 글의 트랙백 주소 :: http://walden3.kr/trackback/699