[ Article ]

Journal of Social Science - Vol. 36, No. 3, pp.309-328

ISSN: 1976-2984 (Print)

Print publication date 31 Jul 2025

Received 06 Feb 2025 Revised 20 Jun 2025 Accepted 15 Jul 2025

DOI: https://doi.org/10.16881/jss.2025.07.36.3.309

주관성 연구에서 대규모 응답자의 신뢰성: Q방법론의 P표본 크기에 대한 실증 분석

진상현^†

경북대학교

Empirical Analysis of Reliability of Large P Samples in Q Methodology

Sang-Hyeon Jin^†

Kyungpook National University

Correspondence to: ^†진상현, 경북대학교 행정학부 교수, 공공문제연구소·지역개발연구소 겸임연구원, 대구광역시 북구 대학로 80, E-mail : upperhm@knu.ac.kr

초록

사회과학 분야에서 주관성 연구의 대표적인 분석 기법으로 자리잡은 Q방법론은 상당한 역사에도 불구하고, 여전히 몇 가지 논란이 제기되고 있다. 그중에는 P표본의 크기가 클 경우에 발생하는 분석 가능성 및 결과 해석의 신뢰성에 대한 논쟁도 포함된다. 이에 본 논문은 이론적 검토를 바탕으로, 대규모 응답자 표본의 신뢰도를 실증적으로 분석하였다. 구체적으로는 P표본이 100명 이상이었던 선행연구 두 편의 원자료를 이용해서 대규모 응답자 데이터의 정규성뿐만 아니라, 소규모 하위 표본과의 오차를 이용한 신뢰성 검정이 진행되었다. 연구 결과 대규모 표본의 원자료는 정규분포에서 상당히 벗어난 것으로 나타났다. 또한 응답자의 크기뿐만 아니라 P표본의 추출 및 조사 방식에 의해서도 신뢰도가 영향을 받는다는 사실까지 확인되었다. 결론적으로는 대규모 응답자 표본의 정규성 및 신뢰성 저하라는 한계에도 불구하고, 추가적인 통계분석의 가능성 및 정책적 시사점의 도출이라는 장단점을 함께 고려해서 연구 설계가 진행되어야 한다는 함의가 제시될 수 있었다.

Abstract

Despite its long history in the field of subjectivity studies, Q methodology continues to encounter several theoretical controversies. One is an argument about the possibility and feasibility of utilizing large P samples. In that context, this study reviews the theory and attempts to empirically analyze the reliability of large P samples. Specifically, two previous studies that employed large P samples of more than 100 persons were utilized. The normality of the raw data was assessed, and error scores between original-large and sub-small P samples were estimated. As a result of the analysis, the original-large P samples deviated considerably from normal distributions. In addition, not only the size of the P sample but also the method of sampling affects the reliability gaps observed. In conclusion, while large P samples inevitably have the limitations of low normality and reliability, researchers need to consider not only weaknesses but also strengths, such as the potential for statistical analysis.

Keywords:

Q technique, Factor analysis, Small-sample doctrine, Normality test

키워드:

Q기법, 요인분석, 소표본 원칙, 정규성 검정

1. 서 론

사회과학은 사람들이 살아가는 집단의 사회 현상도 자연과학과 마찬가지로 객관적 연구가 가능하다는 실증주의 철학의 출현과 더불어서 시작되었다. 그렇지만 과학을 넓은 의미의 학문으로 통칭했던 독일이나 프랑스와 달리, 영미권에서는 인간의 상호작용 및 그 결과인 사회적 현상만을 연구의 대상으로 국한했다는 측면에서 학풍의 차이가 있었다. 이후 두 차례의 세계대전을 겪으면서 체계화된 ‘논리 실증주의(Logical Positivism)’ 덕분에 현대 사회과학의 토대가 마련되었다. 그렇지만 정작 주류 사회과학에 의해 거의 다뤄지지 않았던 인간의 주관성이라는 인식 영역을, 요인분석이라는 통계학적 분석과 결합해서 연구하려고 시도했던 Q방법론이 1950년대 무렵부터 등장하게 되었다(길병옥, 이소희, 이송이, 정희정, 2020; 김태진, 2014).

이처럼 주관성을 연구하는 계량분석기법인 Q방법론은 윌리엄 스티븐슨(William Stephenson)이 1953년에 출판한 ｢The Study of Behavior｣에 기원을 지니고 있다. 이 책이 발간된 이후인 1989년 미주리 대학에서 개최되었던 포럼에서는 ‘국제주관성연구학회(ISSSS: International Society for the Scientific Study of Subjectivity)’의 설립이 결정되었으며, 지금까지도 활발히 운영되고 있다. 그보다 앞선 1977년에는 국제저널인 ｢Operant Subjectivity｣가 창간호를 시작으로 2024년 현재 45권까지 발행된 상태이다. 한편으로 또 다른 국제 학술지인 ｢Journal of Human Subjectivity｣도 2003년에 창간된 바 있다. 마찬가지로 국내에서는 ‘한국주관성연구학회’의 1996년 출범과 더불어서, 학술적 논의를 계승해 오고 있다(김흥규, 2008; Brown, 1977, 1989).

이처럼 오랜 역사를 지닌 Q방법론이 국내외에서 학문적 토대를 구축해 오고 있기는 하지만, 여전히 몇 가지 이론적 논란이 제기되고 있다. 그중의 하나가 응답자 크기에 관한 논쟁이다. 그동안 학계에서는 분석의 대상이 되는 주관성 영역의 진술문 추출과 관련해서 세밀한 검토가 이루어진 반면에, 응답자 표본은 비교적 수월한 문제로 간주해 왔던 게 사실이다. 즉, 응답자는 무작위로 선정해도 충분하고, 아니면 이해당사자에 치우치지 않게 적절히 선택하는 것도 가능하다는 입장이었다. 특히 응답자의 크기와 관련해서는 소표본 원칙이 적용되는 것으로 알려져 있다(김흥규, 2008).

그렇다면 100명이 넘는 대규모 응답자에 대한 Q분석의 신뢰성에 대해서는 의문이 제기될 수 있다. 즉, 이처럼 많은 사람들이 참여했던 원자료를 이용해서 분석이 과연 가능할 것인지, 아니면 수백 명의 주관성을 소수의 요인으로 유형화시키는 작업이 타당할 것인지에 대한 문제가 제기될 수 있다. 실제로 학계에서는 이와 관련해서 상당한 논란이 진행된 바 있다(Kampen & Tamas, 2014; Brown, Danielson, & Exel, 2015). 이와 관련해서는 2장 선행연구 검토에서 본격적으로 살펴볼 예정이다.

반면에 본 논문은 응답자 크기의 한계를 실증적인 차원에서 분석함으로써 결과의 신뢰성을 검증하고자 한다. 구체적으로는 이미 발행된 선행연구 2편의 원자료를 이용해 대규모 응답자 표본의 정규성 검토 및 소규모 표본과의 차이에 대한 신뢰성 분석이 이루어질 것이다. 이러한 연구 목적을 달성하기 위해, 2장에서는 Q방법론에 대한 개괄적 설명과 더불어서 응답자 표본의 크기에 대한 논쟁을 이론적인 측면에서 검토할 것이다. 다음으로 3장과 4장에서는 이들 두 편의 선행연구 각각에 대한 대규모 표본의 신뢰도가 분석될 예정이다. 끝으로 5장에서는 연구 결과를 바탕으로 함의를 제시하고자 한다.

2. Q방법론에서 응답자의 표본 크기 논쟁

1) Q방법론 개요

“Q방법론(Q Methodology)”은 사람들의 생각이나 인식 같은 주관성을 체계적·과학적으로 분석하는 연구 방법론이다. 즉, 분석 대상인 주관성 영역에 대한 진술문을 응답자인 사람들이 자신의 가치체계에 맞게 우선순위에 따라 정렬하면, 이렇게 해서 만들어진 행렬 데이터를 이용해서 요인분석으로 가치 유형을 찾아내는 분석 기법이다. 그로 인해 Q방법론은 ‘Q분석(Q analysis)’ 혹은 ‘Q기법(Q-tech)’이라고 불리며, 응답자 사이의 상관관계를 이용해서 진술문으로 표현된 사고 체계의 잠재적 유형을 찾아내는 특징 덕분에, 지금은 주관성 연구의 대표적인 방법론으로 받아들여지고 있다(김흥규, 1990; Stephenson, 1953).

이때 사회에서 존재하는 무수히 많은 담론들 가운데 연구자가 관심을 가지고 수집·선정한 진술문을 ‘Q표본(Q sample)’이라고 한다. 일반적인 설문조사에서는 연구자가 궁극적으로 밝혀내려는 모집단에서 추출된 소규모 집단을 표본이라고 하는 것처럼, Q표본은 주관성이라는 인식의 전체 영역에서 추출된 소수의 진술문을 가리킨다. 통상적으로는 문장 형태로 작성되어 인간의 주관적 인식이 표현되기 때문에 진술문으로 통칭된다. 그렇지만 글자와 언어에 국한될 필요는 없으며, 때로는 도시계획 관련 풍경이나 관광정책 관련 이미지가 카드 형태로 제공되기도 한다(강현두, 1996; 진상현, 2006).

다음으로 실질적인 조사가 진행되는 응답자를 ‘P표본(P sample)’이라고 한다. 이때 표본이라는 표현이 사용되고 있기는 하지만, 설문조사의 모집단에서 추출된 표본과는 관련성이 없다. 오히려 통상적인 사회조사에서 채택되는 설문지 문항인 변수와 직접적으로 대응한다. 즉, 연구자가 확인하려는 특성치인 변수를 조작적으로 정의 내려서 질문을 작성하는 것처럼, 많은 사람들 가운데 몇몇 사람을 선정해서 주관적 인식유형을 분류하기 위한 수단으로 활용하게 된다(김흥규, 2008; 김현수, 원유미, 2000).

이상으로 간략히 살펴본 Q방법론은 통계학의 계량 기법인 ‘요인분석(factor analysis)’에 기술적인 기반을 두고 있다. 그로 인해 초창기에는 ‘도치된(inverted) 요인분석’에 불과하다는 비판을 받기도 했었다. 이런 논란 속에서 윌리엄 스티븐슨(William Stephenson)은 기존의 요인분석인 R방법론과 Q분석을 비교하며 주관성 연구의 의미를 설명한 바 있다.¹⁾ 예를 들면, 20명을 대상으로 인간의 신체 특성인 키, 팔 길이, 손 크기, 허리 둘레 등의 25개 특성을 조사한 매트릭스를 이용해서 객관성과 주관성 연구의 차이를 도식화시킬 수 있었다(Brown, 1997).

구체적으로 <그림 1>의 좌측 예시는 사람의 신체 관련 측정 데이터를 이용해서 요인분석한 결과이다. 15세기 레오나르도 다빈치가 스케치했었던 이상적인 인간의 신체라고 불리는 ‘비트루비우스적 인간(Vitruvian Man)’ 혹은 ‘인체 비례도(Canon of Proportions)’라고 보일 정도이다. 반면에 <그림 1>의 우측 예시는 객관적으로 측정된 신체 길이가 아니라 사람들이 생각하는 신체의 중요도를 이용해서 그려진 주관적 인식이라는 측면에서 차이가 있다. 실제로 유아기 아동들은 객관적 세계라는 인식틀에 의해 규정되기 이전의 연령대이기 때문에, 자신의 느낌 그대로 사람들을 그리는 특징을 가지고 있으며, 특히 부모의 얼굴을 과다하게 크게 그리는 경향을 보인다.

<그림 1>

R방법(左)과 Q방법(右)의 인체 그림 예시출처: Brown, 1997; 김흥규, 1990.

이러한 특성을 지닌 Q방법론은 주관성을 연구하기 위한 분석 기법으로 국내외 연구자들에 의해 활발히 적용되고 있다. 다만 본 논문은 아직까지 명확하게 정리되지 않은 대규모 응답자의 신뢰성을 검토하려는 연구 목적을 지닌다. 따라서 Q분석에서의 응답자 크기 논란에 대해 본격적으로 살펴보기에 앞서, 기술적으로 동일한 통계기법인 요인분석에서 제기되었던 변수의 크기 관련 쟁점부터 검토할 필요가 있다.

2) 요인분석의 표본 크기 관련 논란

물론 요인분석은 Q방법론에 비해 오랜 역사를 지니고 있다. 스피어만(Charles Spearman)의 자서전에 따르면, 그는 골턴(Francis Galton)의 작업에 흥미를 느껴 인간의 지능 특성에 대한 연구를 구상하기 시작했다고 한다. 그리고 1904년 ｢The American Journal of Psychology｣에 두 편의 논문을 발간함으로써 요인분석의 기초를 마련할 수 있었다. 구체적으로는 첫 번째 논문이 통계학적 방법론을 검토했으며, 두 번째 논문에서는 실제로 적용하는 작업까지 진행되었다. 이러한 이론적·실증적 기초 덕분에, 당시까지만 해도 요인분석이라는 용어가 직접적으로 사용되지 않았음에도 불구하고, 지금은 그 무렵이 현대 요인분석의 기원으로 알려져 있다(Vincent, 1953).

이처럼 오랜 역사에도 불구하고 요인분석에 대한 방법론적 논란이 여전히 존재하며, 그중의 하나가 바로 관측치와 변수 숫자의 관계에 대한 부분이다. 실제로 요인분석의 초기인 1950년대에 연구자들은 이론적 근거 없이 참여자의 숫자가 200명을 넘어야 한다고 주장했었다. 이후 1970년대 들어서는 관측치와 변수의 비율로 5대 1이 적당하다고 제안된 바 있다. 한편으로는 이들 비율과 절대 수치를 결합한 기준으로, 10대 1이라는 비율뿐만 아니라 관측치의 숫자도 250명 이상이어야 한다는 주장까지 제기될 정도였다(Barrett & Kline, 1981; Mundfrom, Shaw, & Ke, 2005).

그렇지만 이러한 요인분석의 기준은 Q방법론에 적용이 불가능하다. 먼저 절대값 기준으로 제기된 100명도 충족하기 어려운 조건이다. 왜냐하면 기술적으로 완벽하게 도치된 방식의 ‘요인분석’이어서 R방법론의 관측치가 Q방법론의 진술문에 대응하기 때문이다. 통상적으로 Q분석에서 주관성 영역의 모집단에 해당되는 ‘통합체(concourse)’는 100～300개 정도의 진술문으로 구성된다. 그렇지만 요인분석의 최소 기준은 모집단이 아닌 직접 관찰된 수치 데이터이기 때문에, Q방법론의 통합체가 아닌 실제 분석에 사용된 Q표본이 해당되며, 이때 진술문의 숫자는 보통 30개 내외여서 기준치의 충족이 불가능하다. 실제로 사람들에게 100개 이상의 진술문을 정렬하도록 요구하기는 어려울 수밖에 없다. 다음으로 비율 기준도 마찬가지이다. 일반적으로 진술문이 30개라고 가정했을 때, 5대 1 조건을 충족하려면 응답자인 P표본은 6명 이하여야 한다. 물론 10대 1 기준이면, 더 적은 3명이어야 한다. Q방법론에서 보통 20～40명 정도를 대상으로 조사가 진행된다고 했을 때, 이 역시도 적합하지 않은 기준일 수밖에 없다(김흥규, 2008).

그렇지만 정작 요인분석 내부에서도 이들 두 가지 기준의 신뢰성에 대해서는 여전히 논란이 존재하는 실정이다. 예를 들면, 메타분석을 토대로 선행연구의 비율 기준이 타당하지 않기 때문에, 절대적인 최소 관측치가 중요하다는 결론이 내려진 바 있다(Barrett & Kline, 1981). 한편으로는 ‘공통성(commonality)’의 높낮이 같은 부가적인 기준과 비율 조건을 활용해서 최소 표본의 범위를 복잡한 테이블 형태로 제시한 연구마저 발표되었을 정도이다(Mundfrom et al., 2005). 오늘날에는 요인분석에 적합한 최소 표본의 크기가 단순하게 결정되지 않으며, 관찰된 변수의 숫자뿐만 아니라 요인·변수의 비율 및 관련성 정도를 종합적으로 고려해서 결정해야 하는 것으로 알려져 있다. 다만 정량적 통계기법인 요인분석은 가급적 많은 숫자의 표본이 필요한 것으로 간주되는 상황이다(Watkins, 2018).

3) Q방법론의 P표본 크기 관련 지침

이상으로 살펴본 바와 같이 계량적 분석 기법인 요인분석에서 표본 및 변수 크기의 최소 조건 관련 논란이 존재했던 반면에, 주관성을 다루는 질적 연구인 Q방법론은 P표본과 관련해서 큰 숫자가 요구되지 않는 편이다. 이러한 차이를 이해하기 위해서는 Q분석의 기본적인 논리부터 살펴볼 필요가 있다. <그림 2>는 요인분석과 Q방법론의 개념적 특징을 비교해서 보여주고 있다. 즉, 좌측 그림이 모집단인 사람들로부터 측정된 변수들 사이의 상관관계를 바탕으로 잠재적 인자를 찾아내는 기존의 요인분석인 반면에, 우측 그림은 모집단인 주관성 영역에서 응답자 사이의 관련성을 이용해 인식유형을 밝혀내는 분석기법인 Q방법론이라는 측면에서, 이들 그림은 차이가 있다.

<그림 2>

요인분석(左)과 Q방법론(右)의 개념도자료: 진상현, 2006, 2014 수정

이때 본 논문의 연구 주제인 대규모 P표본의 신뢰성에 대해 파악하기 위해서는, 이렇게 간략히 직관적으로 설명하는 <그림 2>의 개념도를 이용할 수 있다. 예를 들면, 초창기 요인분석의 주제였던 학습 능력 혹은 지능 유형을 밝혀내려는 의도라면, 대략 3～5개의 요인으로 충분하다. 실제로 사람들이 인지적으로 구분할 수 있는 유형의 종류도, 이 정도의 숫자가 적당한 수준이다. 심지어 Q방법론의 경우에는 대부분의 분석 프로그램들이 요인의 최대 숫자를 8개로 제한하고 있을 정도이다. 이처럼 최종 결과물인 요인을 3개 정도 찾아낼 계획이라면, 요인분석의 측정 변수도 많을 필요가 없다. 예를 들면, 국어, 영어, 수학, 과학, 사회, 미술, 음악 정도의 교과목 성적이면 충분하다. 물론 국어 교과목의 경우에도 문법, 작문, 문학, 고전 등으로 세분화해서 측정한 여러 변수들이 요인분석에 활용될 수 있겠지만, 3개 정도의 학습 능력 파악이 목적인 연구에서 이 정도의 세분화는 필요하지 않다. 물론 이때 어떤 변수를 측정하는가와 관련해서는, 앞서 1절의 요인분석 관련 논쟁에서 살펴보았듯이 최종 요인과 변수의 관련성을 고려해서 적합한 선택이 이루어져야 한다.

마찬가지로 Q방법론에서도 주관성을 모집단으로 요인을 탐색하기 위해 활용되는 P표본은 많을 필요가 없다. 즉 해당 연구 주제를 정확히 파악하고 진술문을 정렬할 수 있는 정도의 응답자면 충분하다. 왜냐하면 Q분석의 경우에도 소수의 요인을 찾아내려는 탐색적인 목적을 지니고 있기 때문에, 변수 축약의 기능을 갖고 있는 요인분석과 마찬가지로 응답자의 숫자는 많을 필요가 없다. 이러한 질적 연구의 특성을 지닌 Q방법론의 P표본 선택 기준을 ‘소표본 원칙(small-sample doctrine)’이라고 한다(김흥규, 2008).

결과적으로 많은 연구자들이 비슷한 크기의 응답자를 기준치로 제시하고 있다. 예를 들면, 김흥규(1990; 2008)는 20～60명, 김현수, 원유미(2000)는 30～60명, 길병옥 등(2020)은 30～50명을 표본 선정의 지침으로 제시하고 있다. 실제로 선행연구에 대한 메타분석에서도 유사한 결과를 보여주고 있다. 구체적으로는 보전생물학 분야에서 Q방법론을 적용했던 논문 52편에서도 P표본은 대부분 26～46명 사이였다(Zabala, Sandbrook, & Mukherjee, 2018). 마찬가지로 간호학 분야의 선행연구 분석에서도 응답자는 12～47명 정도였다(Hensel, Toronto, Lawless, & Burgess, 2022). 다만 이들 교과서 및 선행연구에서는 P표본이 최대 얼마만큼 클 수 있는지, 혹은 대규모 응답자가 가져오는 문제점에 대해서는 명확히 다루지 않고 있다. 다음 절에서는 대규모 P표본 관련 논란에 대해 본격적으로 살펴보고자 한다.

4) Q방법론에서 대규모 P표본 관련 논란

먼저 김흥규(2008)는 P표본이 아무리 크더라도 100명을 넘는 것은 곤란하다고 언급한 바 있다. 첫 번째 이유로는 Q분석을 위한 컴퓨터 프로그램에서 응답자를 100명 이내로 제한하고 있기 때문이라고 설명했다. 실제로 국내에서 초창기에 발표되었던 선행연구 중에는 186명을 대상으로 신문기자의 특성을 분석했던 논문에서 컴퓨터 프로그램의 제약으로 인해 전체 응답자의 절반인 93명만을 데이터로 활용했을 정도였다(김정탁, 1986). 그렇지만 이들이 초창기에 사용했던 QUANAL은 1960년대에 개발된 구형 프로그램이다. 실제로 ‘Q방법론 홈페이지’²⁾에서는 분석 패키지를 소개하는 부분에서, ‘유물(legacy)’로 분류하며 링크도 제공하지 않는 실정이다. 그렇지만 국내에서는 한국주관성연구학회 홈페이지의 자료실에 공개되면서, 아직까지도 활발히 활용되는 문제가 있다. 심지어 국제저널에서는 18편의 선행연구 중에서 QUANAL을 이용한 논문 9편이 모두 한국인 저자로 언급되었을 정도이다(Hensel et al., 2022). 그렇지만 최근 들어 가장 많은 연구자들이 활용하는 프로그램 가운데 하나인 PQmethod는 응답자를 최대 299명까지 허용하고 있다. 따라서 컴퓨터 프로그램의 제약을 이유로 100명이 최대 응답자의 상한이라는 주장은 타당하지 않다(Kampen & Tamas, 2014; 김흥규, 2008).

다음으로 김흥규(1990; 2008)는 많은 사람들이 참여할 경우에 항목의 점수가 평균값으로 회귀해 1～2개의 요인으로 편중시켜 요인 숫자를 제한시키기 때문에, 요인의 특성이 명확히 드러나지 않는다는 문제를 제기하며 100명을 넘지 말아야 한다고 주장한 바 있다. 다만 지금은 요인의 개수가 분석 프로그램 때문에 최대 8개로 제한되는 상황일 뿐만 아니라, 인간의 인식능력을 고려해서 통상적으로 3～5개의 요인만이 추출되기 때문에, 소수의 요인으로 집중된다는 이유만으로 P표본을 100명으로 제한해야 한다는 주장도 마찬가지로 신뢰성을 담보하지 못한다.

물론 해외 연구자의 경우에도 P표본의 크기를 제한해야 한다고 주장했던 사례가 있다. 예를 들면, Q표본 대비 P표본의 비율로 제시된 ‘3 대 1’이라는 기준이 바로 여기에 해당된다(Rahma, Mardiatno, & Hizbaron, 2020). 구체적으로는 응답자가 진술문의 숫자 보다 적어야 하며, 이때 3대 1이라는 비율이 이러한 판단의 기준치로 제시된 것이다. 그렇지만 이 지침은 현실에서 준수하기 힘든 실정이다. 왜냐하면 이 조건을 수용할 경우에는 Q표본이 30개인 상황에서 응답자가 10명으로 제한되기 때문이다. 실제로 52편의 선행연구에 대한 메타분석에서도 이 비율은 0.8에서 1.8 정도였으며, 이 기준을 충족한 연구는 한 편에 불과했다(Zabala et al., 2018).

반면에 P표본의 크기와 관련된 논란은 주관성 연구자 공동체의 외부에서 강력하게 제기되고 말았다(Ramlo, 2024). 즉, Q방법론을 주로 활용했던 학회가 아니라 전통적인 연구조사방법 관련 국제저널인 ｢Quality & Quantity｣에서 통계학적 이론을 바탕으로 주관성 연구에 대한 비판이 이루어졌다. 구체적으로는 “지나치게 야심찬: Q방법론의 기여와 현황(Overly ambitious: contributions and current status of Q methodology)”이라는 제목으로 논문이 발표되었다(Kampen & Tamas, 2014). 이 연구에서는 2010년에 발간된 Q기법 논문 39편에 대한 메타분석이 시도되었다. 결론적으로는 Q분석이 인간의 주관성에 대한 올바른 통찰력을 제공하지 않을 뿐만 아니라, 연구 기법의 정당성도 확보하지 못했다는 비판이 제기되었다.

특히 이 연구에서는 본 논문의 연구 주제인 대규모 응답자와 관련해서 P표본의 평균값이 52.6이고 표준편차가 62.0이었을 뿐만 아니라, 전체 범위 자체가 7명에서 388명으로 대단히 넓다는 문제마저 지적되었다. 게다가 P표본이 Q표본 보다 숫자가 적어야 함에도 불구하고, <그림 3>에서 확인되듯이 많은 연구에서 이 원칙이 준수되지 않는다는 비판까지 이루어졌다. 특히 다음과 같은 극단의 가상적인 사례까지 언급하면서 비난되었을 정도였다. 즉, 100개의 진술문에 대해 70억 명이 정렬하는 경우를 예시로, 최대 100개의 요인밖에 추출되지 않아야 하기 때문에 70억 개의 요인이 발견될 수 없다는 이유로 분석 기법의 부적절성이 지적되었다(Kampen & Tamas, 2014).

<그림 3>

P·Q 표본의 크기 관련 산점도자료: Kampen & Tamas, 2014 수정주: 점선은 P·Q표본과 숫자가 같은 대각선을 의미함

이에 Q방법론의 계승자인 스티븐 브라운(Steven R. Brown)과 그의 동료들은 이듬해에 동일한 학술지에 “지나치게 야심찬 비판과 메디치 효과(Overly ambitious critics and the Medici Effect: a reply to Kampen and Tamas)”라는 제목으로 반박 논문을 게재했다. 이 논문에서는 Q방법론과 R방법론 관련 논쟁의 역사를 설명했을 뿐만 아니라, Kampen과 Tamas의 논문에서 지적된 사항에 대해 하나하나 반론을 제시했다. 특히 70억 명이 100개의 진술문에 대해 정렬하는 가상적 상황의 경우에도, Q분석을 통해 도출되는 요인의 개수가 통상적으로 2～6개면 충분하다며 반박할 수 있었다(Brown et al., 2015).

게다가 이들의 논쟁은 감정적인 차원으로까지 진행되었을 정도였다. 실제로 스티븐 브라운은 ｢논어(論語)｣의 경구를 인용하며 “불가능하다고 말하는 사람은 꾸준히 정진하는 사람들을 방해하지 말아야 한다(知其不可而不爲者勿擾知其不可而爲之者)”고 비판했다. 마찬가지로 Kampen과 Tamas도 같은 해에 동일한 학술지의 편집자로부터 재반박의 기회를 얻어 발표했던 2쪽의 짧은 답변에서 갈릴레오의 “그래도 지구는 돈다(Eppur si muove)”라는 문구로 응수했다(Tamas & Kampen, 2015). 그렇지만 최근까지의 논문을 검색해 보면, 이처럼 치열했던 논쟁 이후에 Kampen과 Tamas은 정작 Q방법론 관련 연구를 진행하지 않고 있으며, 다른 일반적인 통계분석 논문만 발표하고 있는 것으로 확인된다.

5) 실증 분석 대상 및 평가 설계

이상으로 살펴본 바와 같이 대규모 P표본에 대한 논란은 다양하게 진행된 바 있다. 사실 김흥규(2008)의 경우에도 100명 이상의 대표본이 곤란하다고 언급했을 뿐이기 때문에, 명확한 금지가 아닌 주의 혹은 경고 형태로 지침을 제시한 것으로 해석된다. 이에 본 논문은 국내 학술지에 발간된 선행연구의 원자료를 활용해서, 즉 기존의 대규모 응답자 표본을 이용해서 신뢰성을 검증하고자 한다.

이때 대규모 P표본의 신뢰성을 판단하기 위한 계량적 지표로는 먼저 ‘정규성 검정(normality test)’을 채택할 것이다. 구체적으로 ‘왜도(skewness)’와 ‘첨도(kurtosis)’에 대한 개괄적 검토를 바탕으로, 응답자의 ‘Q정렬(Q sort)’이 정규분포의 형태를 취하는지에 대한 진단이 이루어질 예정이다. 다음으로는 본격적인 정규성 테스트를 통해 통계학적 가설 검정이 진행될 것이다. 다만 진술문이 50개 이상일 경우에는 Kolmogorov-Smirnov 기법을 채택할 수 있지만, Q방법론의 경우에는 진술문의 숫자가 작은 편이기 때문에, 본 논문에서는 50개 미만에 대한 정규성 검정이 가능한 Shapiro-Wilk 방법을 적용하고자 한다.

다음으로는 대규모 P표본의 ‘신뢰도(reliability)’ 자체를 확인하고자 한다. 이때 신뢰도란 동일한 대상의 동일한 특성을 여러 차례 반복해서 측정했을 때, 같은 결과를 보여주는지에 대한 정도로 정의된다(Babbie, 2014). 이러한 자료의 신뢰성을 확인하기 위해, 본 논문에서는 사회과학의 ‘반분법(split-half method)’과 유사한 방식으로 ‘오차 점수’를 산정하고자 한다. 즉, 100명이 넘는 응답자들 가운데 무작위 표본 추출을 통해 30명 크기의 하위 그룹을 3개 구성한 뒤, 동일한 요인 개수로 Q분석을 수행해 소규모 표본의 하위 그룹 1·2·3과 대규모 표본의 차이값을 비교하고자 한다.³⁾ 구체적으로는 오차 계산식을 활용해서, 요인별 신뢰도의 변화를 제시하고자 한다.⁴⁾ 다만 선행연구 2편의 점수 범위가 ±3과 ±2로 다르기 때문에, 동등한 기준으로 비교하기 위해 본 논문에서는 표준점수로 환산해서 오차 점수가 계산되었다.

끝으로 이들 신뢰성 검토를 진행할 선행연구는 “임진강 유역의 농경지 저류지 관련 인식유형(진상현, 허은녕, 김현준, 2006)”과 “기후변화 관련 유권자의 인식유형(진상현, 2024)”이라는 두 편이다. 이들 2편의 논문을 분석 대상으로 선정한 이유는 다음과 같다. 첫째, 이들 연구가 대규모 표본을 활용한 Q분석이기 때문이다. 앞의 <그림 3>에서 확인된 것처럼 해외 주관성 연구의 경우에도 P표본이 Q표본 보다 적은 소규모 연구가 대부분이며, 여기에서도 100명을 넘을 정도의 대규모 표본은 한 편밖에 존재하지 않는다. 반면에 본 논문에서 활용하려는 2편의 연구는 응답자가 각각 127명과 266명으로 주관성 분석을 대규모로 수행한 연구라는 측면에서 의미를 지닌다. 둘째, 이들 연구는 조사 기법이라는 측면에서도 대면 조사와 인터넷 서베이라는 차이를 지니고 있다. 따라서 분석 결과는 조사 방식의 차이로 인한 신뢰도의 변화까지도 제시할 수 있다. 셋째, 같은 맥락에서 응답자 선정 방식도 차이가 있다. 즉, 임진강 연구는 상하류의 특정 주민을 대상으로 조사가 진행된 반면에, 기후변화 연구는 익명의 개방된 참여 방식이었다. 넷째, 자료의 구득성이라는 측면에서도 이들 2편의 선행연구만이 데이터로 활용될 수 있었다. 물론 국내에서도 186명의 신문기자를 대상으로 분석했던 선행연구가 존재하기는 하지만, 이 연구의 원자료는 공개되지 않았을 뿐만 아니라 획득이 불가능했다(김정탁, 1986). 결론적으로는 대규모 응답자의 데이터 활용이 가능했던 이들 2편의 논문을 대상으로 응답자 크기의 신뢰성을 검토하고자 한다. 다만 본 논문의 핵심 분석자료로 활용될 예정인 이들 2편의 논문에 대한 개략적인 설명은, 이후의 3장과 4장 도입부에서 각각 진행될 예정이다.

3. 대규모 응답자 실증분석1: 임진강 연구

1) 선행연구 및 조사 방법 개요

본 논문에서 대규모 P표본의 사례로 활용될 예정인 첫 번째 논문은 2005년에 조사되었던 임진강 연구이다(진상현 외, 2006). 구체적으로 이 연구는 당시에 심각했던 홍수 피해를 예방하기 위한 대안 가운데 하나로 논의되었던 농경지 저류지 관련 갈등의 인식유형을 분석하기 위한 목적을 지니고 있다. 즉, 중앙정부가 제시했던 홍수 방지용 댐 건설이나 제방 확충이라는 토목공학적 해결책이 아니라, 인근의 농지를 일시적인 침수지로 활용함으로써 도심의 피해를 예방하는 대신에 농민들에게 적절한 보상을 제공하는 대안에 대한 사람들의 인식과 수용성을 파악하려는 의도로 기획되었다.

이때 진술문은 농업 및 토지관, 홍수 피해, 수해 대책, 농경지 저류, 지역발전 방향이라는 5개 영역에서 추출된 22개의 문항으로 구성되었다. 이후 상·중·하류 주민들에 대한 면담은 2005년 2월 16일부터 17일까지 대면조사 방식으로 진행되었다. 최종적으로 Q정렬에 참여했던 지역주민은 127명이었다. 분석 결과에 따르면 환경보전·지역개발·농업중시·현실농업이라는 4개 인식유형이 발견될 수 있었다.

2) 대규모 P표본의 정규성 검토

그렇지만 대규모 응답자를 대상으로 조사가 진행될 경우에는 원자료의 품질에 문제가 있을 수 있다. 물론 강제적인 Q정렬이 불가능한 것은 아니지만, 소규모 P표본에 비해 정규분포를 충족시키지 못하는 한계를 지닐 수밖에 없다. 이때 ‘임진강 연구(진상현 외, 2006)’의 경우에는 전형적인 설문조사 방식이었으며, 구체적으로는 조사원이 현장을 방문해서 인식 조사의 취지 및 문항의 의미를 설명하는 절차에 따라 서베이가 진행되었다. 물론 개별 진술문에 답변하는 방식이기 때문에, 응답자별로 정규분포의 조건은 충족되지 않을 가능성이 높았다.

먼저 127명이 답변했던 Q정렬의 왜도는 평균 -0.502였다. 이처럼 왜도가 음수일 경우에는 확률밀도함수가 오른쪽으로 치우치고 꼬리가 왼쪽으로 길게 늘어진 분포를 나타낸다. 이때 왜도를 이용해서 분포의 정규성을 판단하는 기준인 절대값 2보다 작을 경우에 문제가 없는 것으로 해석이 가능하다. 따라서 왜도의 수치만을 근거로 판단한다면, 정규성의 문제는 크지 않을 수 있다.

다음으로 첨도는 평균 -0.888이었다. 따라서 정규분포에 비해 꼬리가 짧고 중앙 부분에 집중된 형태라는 짐작이 가능하다. 이러한 첨도의 정규성 판단 기준은 절대값 4가 적용되기 때문에, 이 경우에도 역시 정규성의 문제는 크지 않을 것으로 해석된다. 다만 왜도와 첨도는 자료의 분포를 이해하는 참고 수치일 뿐이지, 정규성 판단의 근거가 되지는 못한다.

이에 보다 엄밀한 의미의 정규성 검정은 Shapiro-Wilk 분석으로 확인이 가능하다. 분석결과, p값은 평균적으로 0.0108이었다. 따라서 유의 수준의 기준값인 0.05 보다 작기 때문에, 전반적으로는 Q정렬이 정규분포에서 벗어난 것으로 판단되었다. 개별적으로 분포의 정규성을 살펴보면, 전체 127명 가운데 정규성을 충족했던 응답자는 8명 뿐이었다.

3) 소규모 하위 그룹을 통한 신뢰도 검정

‘임진강 연구’에서 조사된 127명이라는 대규모 응답자 표본의 신뢰도를 검토하기 위해, 본 논문에서는 무작위로 추출된 30명의 소규모 하위 그룹 1·2·3을 구성했다. 물론 그 밖의 나머지 조건은 동일하게, 요인 개수도 4개로 일치시켰다. 이때 1그룹의 요인별 고유값은 각각 7.51, 4.49, 3.10, 2.40이었으며, 누적 설명력은 58.4%였다. 다음으로 2그룹은 고유값 6.76, 3.64, 3.45, 2.77에 설명력 55.4%였으며, 3그룹은 고유값 6.38, 4.47, 3.10, 2.64에 설명력 55.3%였다. 이때 원자료의 대규모 표본이 고유값 27.22, 14.40, 9.98, 8.68에 설명력 47.4%였기 때문에, 표본 크기의 차이로 인한 결과치의 해석에도 어느 정도 차이가 존재하는 것으로 추정되었다.

다음으로는 하위 그룹의 소규모 표본을 이용한 대규모 표본의 신뢰도 검토가 진행되었다. 구체적으로 소규모 하위 그룹의 분석 결과를 대규모 표본의 Q점수와 비교한 결과는 <표 1·2·3·4>와 같다. 먼저 ‘제1유형’에서 통계적으로 유의미한 특징적 진술문은 11개였다. 이때 하위 그룹이 3개이기 때문에 전체 33개 항목 가운데 26개에서 불일치하는 것으로 확인되었다. 다음으로 ‘제2유형’은 11개 진술문 33개 항목에서 30개, ‘제3유형’은 14개 진술문 42개 항목에서 33개, ‘제4유형’은 10개 진술문 30개 항목에서 25개의 답변이 상이한 것으로 나타났다.

‘임진강1유형’ 특징적 진술문

‘임진강2유형’ 특징적 진술문

‘임진강3유형’ 특징적 진술문

‘임진강4유형’ 특징적 진술문

이상의 결과표 비교를 통해 인식유형별로 소규모 표본의 하위 그룹을 설명하는 특징적 진술문은 고유값이 작은 요인일수록, 즉 유형의 숫자가 커질수록 오차가 확대되는 현상이 확인되었다.⁵⁾ 그렇지만 보다 객관적인 검증은 2장 4절에서 제시된 오차 점수를 통해 비교가 가능하다. 이에 네 가지 인식유형의 오차 점수는 제1유형이 0.93, 제2유형이 1.53, 제3유형이 1.12, 제4유형이 1.30으로 추정되었다.⁶⁾ 따라서 이들 표를 통해 도식적으로 살펴보았듯이, 소규모 표본으로 무작위 추출할 경우에는 설명력이 높은 1유형에 비해, 2·3·4 유형의 오차가 큰 것으로 나타났다.⁷⁾

4. 대규모 응답자 실증분석2: 기후변화 연구

1) 선행연구 및 조사 방법 개요

두 번째로 활용될 대규모 P표본의 사례는 ‘기후변화 연구’이다(진상현, 2024). 이 연구는 최근의 22대 국회의원 선거 기간에 진행되었던 기후정치 캠페인과 관련해서 유권자의 인식유형을 밝혀내려는 목적을 지니고 있다. 즉, 문재인 대통령의 2050년 탄소중립 선언에도 불구하고 입법부를 포함한 정치권의 미온적 대응을 개선하려는 정치 운동과 관련해서 시민들의 인식 체계를 드러내려는 의도로 기획되었다.

다만 ‘임진강 연구’가 주관성 모집단으로부터 최적의 진술문을 추출하기 위해 구조화된 방식을 채택했을 뿐만 아니라 통합체(concourse) 구성까지 절차를 세심하게 준수했던 반면에, 기후변화 연구는 선거관리위원회로부터 ‘우수 기획 기사’라는 상을 받았던 사회적 함의에도 불구하고, 주관성 영역의 모집단 구성이나 진술문의 추출 과정까지는 엄밀하지 않은 편이었다. 사실상 이 연구는 기존의 설문조사에서 진행되었던 리커드 5점 척도를 Q방법론의 방식으로 분석했다고 보는 편이 타당하다.

그렇지만 이처럼 R방법론의 설문조사 데이터를 Q방법론으로 전환해서 분석을 시도했던 경우가 이번이 처음은 아니다. 대표적으로, “누가 신문기자가 되는가?”라는 제목의 선행연구도 Q모집단의 설정을 생략했으며, 6개 일간지의 기자들을 대상으로 진행되었던 설문조사의 문항을 그대로 Q방법론 형태로 분석해 인식유형을 도출했던 사례이다(김정탁, 1986). 실제로 이 연구는 한국 Q방법론의 역사를 정리했던 논문에서 R데이터를 Q진술문으로 변경했던 사례로 의미가 부여되었을 정도였다(강현두, 1996). 따라서 기후변화 연구의 경우에도 동일한 맥락에서, 이러한 한계점이 허용될 수 있다.

그렇지만 ‘기후변화 연구’의 경우에는 임진강 연구와 조사 기법이라는 측면에서 또 다른 차이점을 지니고 있다. 즉, ‘임진강 연구’가 전형적인 설문지 방식의 대면조사로 진행되었다면, 기후변화 연구는 인터넷 서베이 방식을 채택함으로써 시간적·공간적 제약에 얽매이지 않는 형태의 자유로운 조사였다. 결과적으로 2024년 3월 25일부터 4월 8일까지 진행되었던 당시의 인식 조사에 참여했던 응답자는 266명이었다. 이는 또 다른 대규모 표본인 임진강 연구의 응답자 127명보다 두 배 가량 많은 수치이다. 그렇지만 이 경우에도 300명을 넘지 않았기 때문에, 마찬가지로 PQmethod 프로그램의 활용이 가능했다. 최종적으로 확인되었던 인식유형은 강제적 국가규제, 자발적 차량중독, 개인적 생활실천이라는 세 가지였다.

2) 대규모 P표본의 정규성 검토

특히 ‘기후변화 연구’는 인터넷 설문조사 방식을 채택했기 때문에, 정규성을 충족하지 못할 가능성이 더 크다. 왜냐하면 ‘임진강 연구’에서는 조사자와 대면한 상태에서 설문지의 답안을 작성하기 때문에, 응답자가 상대적으로 집중해서 문항을 검토하고 답변을 신중하게 선택할 수밖에 없다. 반면에 아무런 강제 없이 자발적으로 제공받은 링크에 접속해서 개별적으로 조사가 진행될 경우에는, 응답의 성실도가 낮아질 것으로 예상된다.

이러한 ‘기후변화 연구’의 인터넷 조사에서 Q정렬의 왜도는 평균 -0.8457이었으며, 이 경우에도 음수이기 때문에 중심이 오른쪽에 위치하고 좌측으로 긴 꼬리를 지닌 분포라고 판단된다. 마찬가지로 절대값 기준인 2보다 작았기 때문에, 왜도만으로는 정규성의 문제를 단언하기가 어려웠다. 다만 ‘임진강 연구’의 왜도 값이었던 -0.502와 비교하면, 역시나 치우침이 더 큰 편이었다.

다음으로 첨도의 평균값은 0.0375였다. 이처럼 양수인 경우에는 t분포처럼 중앙이 낮고 꼬리가 두터워지는 형태를 지니게 된다. 물론 절대값 기준인 4 보다 작기 때문에 정규성 문제를 예단할 수는 없었다. 다만 ‘임진강 연구’의 첨도가 -0.888이었던 것과 비교하면, 답변이 중앙에 몰리기 보다는 극단적인 찬성과 반대의 견해 차이가 컸던 것으로 판단된다. 이 역시도 조사자와 대면하지 않는 인터넷 설문의 특징 가운데 하나일 수 있다.

끝으로 정규성에 대한 통계학적 검정을 위해 Shapiro-Wilk 분석도 실시되었다. 결과적으로 p값은 평균 0.0002였다. 마찬가지로 기준값인 0.05 보다 현저히 작기 때문에, 이 경우에도 Q정렬이 정규분포를 따르지 않는 것으로 확인되었다. 특히 응답자별로 정규성을 검토한 결과에서는 전체 266명의 P표본 가운데 정규분포를 충족했던 경우는 전혀 발견되지 않았다. 정리하자면, 대면 설문조사에 비해 인터넷 조사의 자료 분포가 정규성 조건을 더 심각하게 위배하는 것으로 결론 내려질 수 있었다.

3) 소규모 하위 그룹을 통한 신뢰도 검정

‘기후변화 연구’에서 활용된 266명 응답자의 경우에도 동일하게 30명 단위로 하위 그룹 3개가 무작위로 추출되었다. 먼저 1그룹의 요인별 고유값은 각각 10.74, 4.18, 2.17이었으며, 설명력은 57.0%였다. 다음으로 2그룹은 고유값 10.59, 3.64, 2.25에 설명력 54.9%였으며, 3그룹은 고유값 9.22, 4.67, 2.23에 설명력 53.7%였다. 이때 원자료의 대규모 표본이 고유값 86.77, 38.18, 11.65에 설명력 51.3%였기 때문에, 결과 해석에는 큰 차이가 없는 것으로 추정되었다.

다음으로는 소규모 표본의 분석 결과를 이용해서 대규모 표본의 신뢰성을 검토하는 작업이 진행되었다. 구체적으로 소규모 하위 집단의 Q점수를 대규모 표본의 점수와 비교한 결과는 <표 5·6·7>과 같다. 먼저 ‘1유형’에서 통계적으로 유의미한 특징적 진술문은 24개였고, 3개 하위 그룹의 전체 72개 항목 가운데 23개에서 불일치가 확인되었다. 다음으로 ‘제2유형’은 24개 진술문 72개 항목 중에 26개에서 차이가 존재했다. 끝으로 ‘제3유형’은 19개 진술문 57개 항목 가운데 41개의 점수가 달랐을 뿐만 아니라, 유일하게 부호의 방향마저 다른 심각한 차이의 항목까지 3개일 정도로 격차가 컸다.

<표 5>

‘기후1유형’ 특징적 진술문

<표 6>

‘기후2유형’ 특징적 진술문

<표 7>

‘기후3유형’ 특징적 진술문

끝으로 ‘기후변화 연구’에서도 세 가지 인식유형 가운데 고유값이 작은 요인일수록 오차가 늘어난다는 사실이 직접적으로 확인될 수 있었다.⁸⁾ 이에 이들 세 가지 인식유형의 오차 점수를 추정한 결과, 제1유형이 0.48, 제2유형이 0.53, 제3유형이 1.11로 계산되었다.⁹⁾ 역시나 이 연구에서도 설명력이 높은 1유형에 비해, 고유값이 줄어드는 2·3유형에서 오차가 커지는 것으로 나타났다.¹⁰⁾

5. 결론 및 함의

본 논문은 사회과학 분야에서 주관성을 연구하는 분석기법인 Q방법론과 관련해서 대규모 응답자의 신뢰성을 검토하려는 목적을 지니고 있다. 구체적으로는 선행연구 두 편의 원자료를 분석한 결과, 모두 정규성 분포에서 상당히 벗어나 있었다. 물론 Q분석에서 정규성이 엄밀한 요구 조건은 아니지만, 분석 결과의 신뢰성을 떨어뜨릴 수 있다. 다만 이러한 비정규성은 조사 방식의 차이로 인해 발생했던 응답 분포의 특성으로도 해석될 수 있다. 구체적으로는 진술문 상호 간의 비교·검토가 가능한 카드 방식이 아니라 문항별 개별적 판단에 기반한 설문조사 방식을 채택했기 때문에 발생하는 Q정렬의 한계와 관련된다.

게다가 이들 두 편의 연구는 응답자 선정 방식에서도 차이를 지니고 있다. 먼저 ‘임진강 연구’는 상·중·하류라는 지역별로 구분해서 조사가 진행되었으며, 수자원 갈등은 유역의 위치에 따라 이해관계 및 갈등 구조가 달라질 수밖에 없다. 반면에 ‘기후변화 연구’는 인터넷에 기반한 웹 조사이기 때문에, 응답자가 구조화되지 않은 상태에서 누구나 참여하는 방식이라는 측면에서 차이가 있다. 그로 인해 ‘임진강 연구’에서 하위 그룹은 무작위 추출이었음에도 불구하고 어떤 지역의 주민이 포함되는가에 따라서 인식유형이 크게 달라지고 있었다. 반면에 ‘기후변화 연구’는 응답자가 구조화되지 않았기 때문에, 무작위로 추출된 하위 그룹에서 오차가 상대적으로 작았다.

이러한 차이는 소규모 하위 그룹의 P표본을 선정하는 무작위 추출 방식이, 설문조사로 인한 신뢰성 저하뿐만 아니라 조사 대상의 이질성에 의해 영향받기 때문인 것으로 판단된다. 왜냐하면 인터넷 조사는 익명으로 참여하는 개방형 조사이기 때문에, 전체 266명 가운데 30명을 무작위 추출해도 큰 차이를 보이지 않았다. 반면에, 대면조사는 임진강을 상·중·하류로 구분해서 서베이가 진행했기 때문에 누가 소규모 표본에 포함되는가에 따라서 인식유형의 격차가 커지는 것으로 해석될 수 있었다.

결론적으로는 주관성 연구에서도 100명이 넘는 대규모 응답자에 대한 Q분석이 가능하기는 하지만, 원자료의 품질 저하라는 한계가 불가피한 것으로 판단된다. 물론 20여 명의 조사원을 고용해서 카드 방식으로 진행할 경우에는 데이터의 정규성이 개선될 수도 있겠지만, 이 역시도 조사 비용을 고려해서 판단해야 할 사항이다. 또한 응답자 선정 및 조사 방식에 따라서도 대규모 P표본의 신뢰성에 차이가 존재하는 것으로 확인되었다. 그렇다면 주관성 연구는 소규모뿐만 아니라 대규모 P표본의 경우에도 응답자를 치우치지 않게 선정하는 작업이 중요할 수밖에 없다.

다만 이러한 데이터의 품질 저하 및 신뢰도 하락이라는 단점에도 불구하고 대규모 응답자를 이용한 Q분석은 몇 가지 측면에서 장점을 지닌다. 예를 들면, ‘기후변화 연구’의 경우에는 인터넷 조사를 활용함으로써, 기존의 R방법론이 밝혀내지 못했던 새로운 인식유형을 찾아냈다는 측면에서 의미를 지닌다. 다음으로 ‘임진강 연구’의 경우에는 응답자가 127명이기 때문에, Q분석을 통해서 밝혀낸 인식유형을 다른 인구통계 변수들과 결합함으로써, 독립성 검정 및 회귀분석을 수행해 수자원 갈등관리의 정책적 함의를 추가적으로 밝혀낼 수 있었다.

끝으로는 본 논문이 대규모 응답자 표본의 신뢰성에 대한 실증 분석에 초점을 맞추고 있기 때문에, 다음과 같은 측면에서는 한계점도 지니고 있다. 먼저 이론 검토와 관련해서 선행연구의 논의를 정리하는 수준에 머물렀다는 한계가 지적될 수 있다. 이는 향후에 통계학자들을 중심으로 수리적 검증이 이루어져야 할 것이다. 예를 들면, 300명을 초과하는 대규모 표본 혹은 일반 여론조사처럼 1,000명 규모의 서베이 데이터를 이용하는 방대한 규모의 주관성 연구에서의 신뢰성에 대한 통계학적 검토가 필요할 수 있다. 다음으로 본 논문은 실증 분석을 위한 대규모 표본의 사례 연구가 두 편에 국한되었던 한계도 존재한다. 물론 자료의 구득성 때문에 불가피한 부분이었지만, 후속 연구에서는 국내외의 다양한 대규모 표본 연구로 확대될 필요가 있다. 다만 이러한 이론적·실증적 한계에도 불구하고, 본 논문은 주관성 연구의 응답자 표본 크기 관련 논란을 정리했다는 측면에서 학술적 의미를 지닐 수 있다.

한편으로 본 논문은 정책적인 측면에서도 시사점을 제공할 수 있다. 특히 현대사회는 상반된 가치관을 지닌 사람들 사이의 극단적인 대립으로 특징 지워진다. 즉, 진보와 보수, 개발과 보존 같은 가치 갈등이 점점 더 격렬해지는 양상을 보인다. 이러한 세계관의 차이로 인한 갈등 구조를 이해하는 데 있어서는, Q방법론에 기반한 주관성 연구가 중요한 역할을 담당할 수 있다. 예를 들면, 4대강 사업의 재자연화, 공무원 및 공공기관의 여성 할당제, 신규 원전의 추가 건설, 보편적 혹은 선별적 복지 관련 정치적 대립이 대표적인 가치 갈등의 사례일 수 있다. 그렇다면 이처럼 복합적인 사회문제의 해석과 관련해서는 소수의 응답자뿐만 아니라 대규모의 국민들을 대상으로 조사와 분석을 실시할 필요가 있다. 물론 자금력과 행정력을 구비한 정부 및 공공기관은 대규모 응답자를 대상으로 신뢰성의 저하 없이도 주관성 분석이 가능할 수 있다. 이때 본 논문은 주관성 연구의 한계로 여겨졌던 응답자 크기의 신뢰성을 검토함으로써, 향후 한국 사회의 갈등관리에 대한 과학적 기반을 제공했다는 측면에서 정책적 함의도 지닐 것이다.

Acknowledgments

본 논문은 한국정부학회의 2024년 동계학술대회에서 발표된 바 있다.

Notes

1) 이때 “R방법론”에서는 요인분석의 기초인 상관계수 ‘r’ 기호가 사용되었으며, 주관성연구에서는 동일한 분석기법을 활용함에도 불구하고 진술문과 응답자가 바뀌었다는 측면에서 앞 글자인 ‘Q’라는 영문자가 상징적으로 채택되었다(Brown, 1980; 진상현, 2024).

2) https://qmethod.org/resources/software (2025년 6월 22일 접속)

3) 이때 응답자의 크기인 30명은 많은 교재에서 제시된 기준일 뿐만 아니라, 실증분석 논문에서도 선행연구의 P표본 평균값과도 유사한 수치이다(김흥규, 2008; 김현수, 원유미, 2000; 길병옥 외, 2020). 게다가 Q방법론에서 응답자의 크기는 소표본 원칙이 적용되기 때문에, 30명이면 충분하다. 이에 최근 메타분석에서 확인되었던 최소 인원인 30명이 본 논문의 소규모 응답자 크기로 채택되었다(<그림 3> 참조).

4) 이때 오차 점수는 ‘제곱평균제곱근(RMS: Root Mean Square)’과 마찬가지로 합산한 수치로 계산되었다.

5) 한편으로는 척도의 신뢰성 검정 기준인 ‘크론바흐 알파(Cronbach’s alpha)’ 계수를 통해서도 소규모 표본의 오차가 커지는 경향성을 확인할 수 있다. 다만 크론바흐 알파는 대등한 측정 문항들 사이의 일관성을 검토하는 통계학적 기준인 데 반해, 본 논문에서는 원자료인 대표본을 기준으로 소표본의 차이를 검토하기 때문에 오차점수가 바람직한 기준치일 수 있다. 다만 개별 소표본들 사이의 일관성은 크론바흐 알파 계수를 통한 비교가 가능하다. 즉, 유형 1·2·3에 대한 크론바흐 알파 값은 각각 0.88, 0.63, 0.49여서 신뢰도가 낮아지는 경향이 확인되었다. 심지어 유형4에서는 -0.02여서 공분산이 음수라는 비합리적인 수치까지 도출될 정도였다.

6) 이들 인식유형별 대표본과 소표본의 관련성은 상관관계 분석으로 확인이 가능하다. 먼저 유형1의 상관계수는 각각 0.19, 0.63, 0.79였으며, 평균값은 0.54였다. 다음으로 유형2는 -0.47, -0.04, -0.22였으며, 평균값은 -0.24였다. 유형3은 0.91, 0.23, -0.12였으며, 평균값은 0.34였다. 유형4는 -0.58, -0.04, 0.90이었으며, 평균값은 0.09였다.

7) 추가적으로는 크론바흐 알파에서 나타나는 신뢰도의 과소 추정 문제를 극복할 수 있는 대안으로 ‘복합 신뢰도(CR: Composite Reliability)’ 기준도 폭넓게 사용된다(심준섭, 2015). 이때 CR 값이 0.7 이상일 경우에는 바람직한 것으로 판단된다. “임진강 연구”에서는 소표본 1의 유형별 신뢰도가 각각 0.97, 0.96, 0.96, 0.94였고, 소표본 2에서 0.96, 0.97, 0.96, 0.95였으며, 소표본 3에서 0.97, 0.95, 0.952, 0.94였기에, 문제는 없는 것으로 판단되었다.

8) 마찬가지로 유형 1·2·3에 대한 크론바흐 알파 값은 각각 0.90, 0.92, 0.52였으며, 전반적으로는 고유값이 작은 요인에서 신뢰도가 낮아지고 있었다.

9) 참고로 유형1의 상관계수가 각각 0.84, 0.88, 0.93이었으며, 평균값은 0.88이었다. 다음으로 유형2는 각각 0.88, 0.92, 0.80이었으며, 평균값은 0.85였다. 유형3은 각각 0.45, 0.13, 0.49였으며, 평균값은 0.36이었다.

10) 추가적으로는 ‘복합 신뢰도’의 CR 값에 대한 검토도 진행되었다. 소표본 1의 유형 1·2·3에 대한 신뢰도가 각각 0.98, 0.97, 0.96였고, 소표본 2에서 0.97, 0.97, 0.97이었으며, 소표본 3에서 0.98, 0.97, 0.92였기 때문에, “기후변화 연구”에서도 문제는 없었다.

References

강현두 (1996). 한국의 Q 연구: 역사와 현황. <주관성연구>, 1, 5-14.
길병옥·이소희·이송이·정희정 (2020). <Q방법론의 이해와 적용>. 대전: 충남대학교 출판문화원.
김정탁 (1986). 누가 신문기자가 되는가?: 6개 일간지 기자를 중심으로. <관훈저널>, 42, 7-46.
김태진 (2014). 실증주의 이론과 행정학: 방법론의 비판과 현대적 적용 방향. <현대사회와 행정>, 24(4), 19-40.
김현수·원유미 (2000). <Q방법론>. 서울: 교육과학사.
김흥규 (1990). <Q방법론의 이해와 적용>. 서울: 서강대언론문화연구소.
김흥규 (2008). <Q방법론: 과학철학, 이론, 분석 그리고 적용>. 서울: 커뮤니케이션 북스.
심준섭 (2015). 행정학 및 정책학 연구에서 확증적 요인분석의 경향과 쟁점: 탐색적 요인분석과의 비교를 중심으로. <정책분석평가학회보>, 25(2), 247-278.
진상현 (2006). <Q방법론: 주관적 의식에 관한 연구로의 초대>, 국토, 302, 123-131.
진상현 (2024). 기후변화 관련 유권자의 인식유형 분석: 제22대 국회의원 선거를 중심으로. <주관성연구>, 68, 49-68.
진상현·허은녕·김현준 (2006). 사전 예방적 갈등관리를 위한 갈등 원인 분석: 임진강 유역의 농경지 저류지 도입을 중심으로. <환경정책>, 14(2), 57-87.
Babbie, E. (2014). The Practice of Social Research, 14th edition, Wadsworth/Cengage Learning.
Barrett, P. T., & Kline, P. (1981). The Observation to Variable Ratio in Factor Analysis. Personality Study & Group Behaviour, 1(1), 23-33.
Brown, S. R. (1977). Editor’s Forward. Operant Subjectivity, 1(1), 1-2. [https://doi.org/10.22488/okstate.77.100500]
Brown, S. R. (1980). Political Subjectivity: Application of Q Methodology in Political Science. Yale University Press.
Brown, S. R. (1989). The Founding Of ISSSS. Operant Subjectivity, 13(1), 1-2. [https://doi.org/10.22488/okstate.89.100543]
Brown, S. R. (1997). The History and Principles of Q Methodology in Psychology and the Social Sciences. Kent State University.
Brown, S. R., Danielson, S., & Exel, J. (2015). Overly ambitious critics and the Medici Effect: a reply to Kampen and Tamas. Qual Quant, 49, 523-537. [https://doi.org/10.1007/s11135-014-0007-x]
Hensel, D., Toronto, C., Lawless, J., & Burgess, J. (2022). A scoping review of Q methodology nursing education studies. Nurse Education Today, 109, 105220. [https://doi.org/10.1016/j.nedt.2021.105220]
Kampen, J. K., & Tamas, P. (2014). Overly ambitious: contributions and current status of Q methodology. Qual Quant, 48, 3109-3126. [https://doi.org/10.1007/s11135-013-9944-z]
Mundfrom, D. J., Shaw, D. G., & Ke, T. L. (2005) Minimum Sample Size Recommendations for Conducting Factor Analyses. International Journal of Testing, 5(2), 159-168. [https://doi.org/10.1207/s15327574ijt0502_4]
Rahma, A., Mardiatno, D., & Hizbaron, D. R. (2020). Q methodology to determine distinguishing and consensus factors (a case study of university students’ ecoliteracy on disaster risk reduction). E3S Web Conferences, 200, 01003. [https://doi.org/10.1051/e3sconf/202020001003]
Ramlo, S. (2024). Q methodologist views on the future of Q: a study of a research community. Qual Quant, 58, 4897-4914. [https://doi.org/10.1007/s11135-024-01884-z]
Stephenson, W. (1953). The Study of Behavior: Q-Technique and Its Methodology. The University of Chicago Press.
Tamas, P. A., & Kampen, J. K. (2015). Heresy and the Church of Q: a reply. Qual Quant, 49, 539-540. [https://doi.org/10.1007/s11135-014-0031-x]
Vincent, D. F. (1953). The Origin and Development of Factor Analysis. Journal of the Royal Statistical Society. Series C (Applied Statistics), 2(2), 107-117. [https://doi.org/10.2307/2985729]
Watkins, M. W. (2018). Exploratory Factor Analysis: A Guide to Best Practice. Journal of Black Psychology, 44(3), 219-246. [https://doi.org/10.1177/0095798418771807]
Zabala, A., Sandbrook, C., & Mukherjee, N. (2018). When and how to use Q methodology to understand perspectives in conservation research. Conservation biology: the journal of the Society for Conservation Biology, 32(5), 1185-1194. [https://doi.org/10.1111/cobi.13123]

번호	대표본	소표본1	소표본2	소표본3
주: 점수가 상이하면 옅은 음영, 부호의 방향까지 다른 항목은 짙은 음영으로 처리함
3	3	0	2	3
12	2	1	3	3
6	2	-2	0	0
8	2	0	-1	0
2	0	1	1	2
11	0	3	2	1
4	-1	2	0	0
1	-2	0	-1	-2
13	-2	-1	-2	-2
5	-3	0	0	-1
19	-3	-3	-3	-3