설문조사, 제대로 알고 유익하게 활용하자
설문조사, 제대로 알고 유익하게 활용하자
  • 전치혁/산경 교수
  • 승인 2009.04.15 00:00
  • 댓글 0
이 기사를 공유합니다

표본 추출·오차 범위·층별 분석·문항 척도 등에 주의해야
설문조사는 여론을 반영하기 위한 도구로 자주 사용된다. 설문조사는 특히 언론에서 많이 이용되는데, 포항공대신문사도 기사를 쓰기 위한 자료로서 설문조사를 적극적으로 이용하고 있다. 하지만 본지가 진행하는 설문조사는 전문가의 조언을 받지 않은 채 진행되므로 항상 그 결과의 사실성에 대해 의문을 품어왔다. 이에 본지에서는 전문가의 눈을 통해 지금까지 본지가 실시해온 설문조사에 대한 조언을 들어보고, 그 밖에 설문조사를 계획하고 결과를 해석하는 데 있어 주의해야 할 점을 알아보았다. <편집자 주> 여론조사의 대표적인 실패사례로 1948년 미국 대통령 선거에서의 당선 예측을 손꼽고 있다. 1948년 미국의 대통령 선거를 앞두고 갤럽 등 여러 조사회사들은 토마스 듀이 후보가 해리 트루만 대통령을 누르고 당선될 것이라고 예측했고, ‘시카고 트리뷴’ 등 많은 언론이 이를 인용 보도했다가 결과적으로 커다란 오보를 내고 말았다.
물론 위와 같은 사례는 극히 드문 경우이며, 단지 여론조사 또는 설문조사에도 주의가 필요하다는 것을 말해주고 있다. 오히려 우리는 대통령 선거에 대한 여론조사 결과가 실제 개표결과와 신기할 정도로 크게 다르지 않음을 경험하고 있다. 우리나라의 경우에 유권자수가 3,000만 명이 넘는데, 보통 여론조사에서 사용되는 표본 크기는 많아야 3,000명, 즉 0.01%에 지나지 않으므로 통계의 힘이 대단함을 알 수 있다.
설문조사는 사회과학의 연구방법 수단으로 널리 사용되고 있다. 이 경우 가장 먼저 필요한 사항은 연구에 대한 가설을 수립하는 것이며, 설문조사는 수립된 가설에 대한 판단을 내리고자 데이터 수집을 위해 필요한 단계이다. 따라서 설문을 어떻게 설계하고, 설문지를 어떻게 배포하고, 결과를 어떻게 분석하는가에 따라 결론이 다를 수 있다.
그러나 교내에서 학생들이 주로 실행하는 설문조사는 단순히 어떤 주제에 대한 의견수집의 목적이 대부분이라 생각된다. 결론적으로 미리 말하면, 이와 같이 참고용으로 사용하는 의견수집의 목적으로 설문조사를 행하는 경우, 설문의 작성 및 표본추출의 방법 등을 심각하게 고려할 필요는 없다고 본다. 다만 제한적인 상황에서 설문조사가 이루어진 경우 결과해석에서 이러한 한계를 충분히 숙지해야 할 것이다. 이 글에서는 설문조사에서 일반적으로 알아야 하거나 유의해야 할 몇 가지 사항을 기술하고자 한다.
첫째, 표본은 모집단을 대표하는 것이어야 한다. 우리는 궁극적으로 모집단의 성향을 알고자 하지만 전수조사가 어려운 경우 샘플링을 바탕으로 한 추출된 표본의 성향으로 모집단을 추론코자 하는 것이다. 따라서 모집단이 균질하다면 표본크기가 작아도 되지만, 이질적이라면 표본은 커야 될 것이다. 예를 들어 학생들의 성향이 남녀지역학과학년에 따라 다르다고 생각되면 이를 고려한 샘플링이 이루어져야 한다. 사전에 샘플링이 층별을 고려하여 잘 설계되었다 하더라도 실제 응답 결과가 불균형을 이룬다면 분석단계에서 재조정이 필요할 것이다.
둘째, 오차범위에 대한 이해가 필요하다. 모집단의 어떤 성향의 평균을 표본을 통해 알고자 하는 데는 모평균의 추정치를 표본평균으로 취하는 점 추정(point estimation)과 구간형태의 구간추정(interval estimation)이 있다. 구간추정의 경우 구간의 너비를 오차범위(또는 신뢰구간, confidence interval)라 한다. 언론발표에서 여론조사에 의한 지지율을 말하고 마지막에 ‘표본오차는 95% 신뢰수준에서 최대허용오차 ±3.1%다’라는 표현을 흔히 볼 수 있다. 지지율이 30% ±3.1%라 하면 26.9%에서 33.1% 사이라는 것이며, 95% 신뢰수준(confidence level)이란 이와 같은 조사를 반복적으로 하는 상황에서 실제 지지율이 이 구간에 포함되는 경우가 100번 중 95번이란 의미이다.
지지율을 p로, 표본크기를 n으로 표기할 때, 95% 신뢰수준의 오차범위는 으로 산출되는데, p=0.5인 경우 제곱근이 최대가 되므로 이때의 오차범위를 최대허용오차라 부른다. 예를 들어 n=1000인 경우 최대허용오차는 ±3.1%가 됨을 확인할 수 있다. 두 후보의 지지율을 비교하는 경우 해석에 유의할 필요가 있다. A후보의 지지율이 30%, B후보의 지지율이 32%이며 오차범위가 ±3.1%라면 두 후보의 지지율 구간이 서로 겹치기 때문에 실제 지지율에 차이가 없다고 할 수 있다.
셋째, 설문의 결과분석에 있어 지나친 층별 분석은 곤란하다. 모집단의 모르는 평균을 표본평균으로 추정할 때, 표본크기는 물론 클수록 좋겠지만 조사의 여러 한계로 작게 될 수 있다. 적절한 표본크기를 정하는 것은 노력비용 등의 요소가 고려되어야 하겠지만, 통계적으로만 보면 원하는 오차범위에 대응되는 것을 위에서 언급한 식을 사용하여 산출할 수 있다. 결과분석을 지역학과 등과 같이 세분화하여 집계하는 소위 층별 분석의 경우 이와 관련된 표본크기는 더욱 작아지기 때문에 문제가 될 수 있다. 층별 결과에 대한 오차범위가 커지기 때문에 무의미한 결과가 초래될 수 있을 것이다. 하나의 통계량을 집계할 때 이론적 근거는 약하지만 경험적으로 약 30개 정도의 표본크기는 필요한 것으로 알려져 있다. 넷째, 설문 설계에서 문항의 척도에 대한 유의사항이 있다. 통상적으로 설문의 각 문항별로 보기를 주어 선택하도록 설계하고 있다. 이 때 보기들을 어떻게 나열하고 측정토록 하는가가 중요할 수 있겠다. 기본적으로 보기에 나열된 것들이 모든 경우를 포함해야 할 것이다.
설문조사에서 흔히 사용하는 척도에는 명목척도(nominal scale), 서열척도(ordinal scale), 등간척도(interval scale) 등이 있다. 이 중 등간척도는, 예를 들어 만족도 조사에서 5가지(매우만족, 조금만족, 보통, 조금불만족, 매우불만족)로 구분하는 리커트 척도 등을 일컫는 것으로 큰 문제는 없을 것이다. 그러나 보기를 주고 우선순위를 매기게 하는 서열척도나, 보기 중 하나를 선택하게 하는 명목척도의 경우 보기의 선정이 중요하다고 하겠다.
모집단의 성향에 대하여 전혀 정보가 없이 설문 설계를 하는 경우 보기 리스트가 모든 경우를 망라하기 어렵다. 몇 개만을 리스트하고 나머지는 기타로 답하게 하는 경우가 많지만, 당연히 기타가 차지하는 부분이 최소화되어야 할 것이다. 서열 및 명목척도의 경우 중요한 보기가 빠진 상태에서 조사한다면 결과발표에서 큰 오류를 초래할 수 있다. 명목척도의 경우 예/아니오 등의 보기는 문제가 없겠지만, 어떤 사안에 대한 예상되는 의견을 나열할 때 의견들에 중복이 있다거나 한 의견(보기)이 길어 부분적으로는 동의하나 일부는 동의하지 않는 경우가 있다면 설계에 문제가 있다고 하겠다.
설문조사는 연구의 조사방법론으로 또는 의견수집용으로 널리 사용되고 있다. 전문가가 아니더라도 위에서 언급한 몇 가지 사항에 유의한다면 보다 유용한 정보를 얻는 데 설문조사를 활용할 수 있을 것이다.