곧게 뻗은 길만이 능사는 아닙니다. 구불구불 돌아가는 길에서도 배우고 느낄 것들은 얼마든지 있기 마련입니다. 얼핏 생각하기에 비선형(혹은 비선형 회귀, non-linear)모델의 선형화(linearize)는 “산발적인 정보에서 규칙성이나 관계성을 찾기 위해 그 정보를 정리하는 통계분석의 필수적인 과정”처럼 보일 수도 있습니다. 실제 많은 학생들에게 비선형모델의 선형화는 논문작성 시 밟고 넘어가는 보편적인 단계로 여겨지기도 합니다.

그러나 역시 곧게 뻗은 직선을 그린다고 해서 선형(혹은 선형 회귀, linear)모델만이 능사는 아닙니다. Tirtha Dhar와 Charles B. Weinberg의 논문, “Measurement of interactions in non-linearmarketing models: The effect of critics’ ratings and consumer sentiment on movie demand”는 다수의 변수간의 상호작용이나 관계를 분석하는 데 있어 이와 같은 접근법이 문제가 있을 수 있음을 지적합니다. 동시에 “평론가의 비평이 영화 소비자의 정서에 영향을 미치는 정도”를 예시상황으로 분석하며, 같은 상황에서 비선형모델 그 자체의 분석이 더 방대한 시각을 제공할 수 있음을 제시하고 있습니다.

그럼 위의 논문이 통계분석법에 대한 어떠한 시각을 어떠한 통계 증명방식을 통해 어떻게 설명하였는지 분석하기 전에 비선형과 선형 회귀 모형에 대해 간단히 집고 넘어가고자 합니다. 각각 비선형과 선형 회귀는 무엇이며 어떤 때에 어떻게 사용되고 있을까요?

통계학에서는 파라미터(parameter)가 선형(linear)일 때 그 회귀모델(regression model)을 선형 모형이라 합니다. 보통 비선형보다 선형모형이 더 널리 사용되는 이유는 파라미터를 모르는 상태에서 선형모형을 설계하는 것이 비선형 모형을 설계하는 것보다 더 간단 하기 때문입니다. 그러나 더 많이 쓰인다고 해서 그것이 꼭 절대적으로 효율적이다고 단정지을 수는 없습니다.

(일반적으로 선형회귀모형은 <1> y 값을 모르는 경우 계산된 선형 모델과 x값을 사용하여 y 의 값을 예측할 때 <2> y 값과 x1, x2 … xk 값들과의 관계를 정량화시키고 싶을 때 사용됩니다.)

아래에 표는 각각 비선형과 선형모형의 특징을 비교하여 보여주고 있습니다.

Screen Shot 2017-05-31 at 3.01.57 PM.jpg

비선형과 선형 모형의 성질이 이처럼 정리되는 가운데, Dhar와 Weinberg의 저널은 (1) 비선형 상호작용 모형이 선형의 그것보다 더 풍부한 결과물을 도출해낼 수 있고 (2) 더 다양한 각도에서 평가되고 분석되기에 용이하다는 것을 강조합니다.

위와 같은 주장을 더 상세하게 설명하기 위해, 논문은 “비평가의 평과 영화 소비자의 정서가 영화의 수요에 영향을 미치는 정도를 측정”하는 상황을 설정합니다. 이 상황에서 비평가의 평(Critics’ ratings)과 영화 소비자의 정서(Consumer sentiment)라는 두 가지 변수의 상호작용(interaction effect)의 정도와 그것이 영화 수요와 갖는 상관관계 및 이에 대한 영향을 측정하는 것이죠.

이 때 비선형과 선형 모형 간에 차이를 보여주기 위해 이 두가지 변수의 상호관계의 척도를 나타내는 회귀모형(regression graph)을 나타내는 3가지의 수식(=모델)을 제시합니다.

Screen Shot 2017-05-31 at 3.27.37 PM.jpg

위의 그래프가 보여주듯, Model 1, 3는 비선형모형을, Model 2는 선형모형을 나타냅니다.

Screen Shot 2017-05-31 at 3.43.40 PM.jpg

Table 1의 수식에 대한 regression results는 위에 Table 2가 나타내고 있는 다양한 수치를 통해 확인할 수 있습니다. 위의 수치들은 Table 3에서 결과를 더 심층적으로 분석할 때 사용됩니다. 그런데 Table 3로 넘어가기 전 우리는 여기서 Square root of MSE(mean squared error)와 R-square 값, 즉 평균제곱오차의 제곱과 R값의 제곱 값에 주목하고 넘어갈 필요가 있습니다. 이러한 수치가 아래 언급될 level of signifcance를 계산하는데에 사용되기 때문이죠.

Screen Shot 2017-05-31 at 3.57.14 PM.jpg

Table 3은 위에서 정리한 3가지 모델의 “주간 영화 관람객 수에 미치는 영향의 예측치”를 정리해주고 있습니다.  모델1은 앞서 정리한 3가지 변수에서 모두 99.55%로 상당히 높은 유의 수준(% significant)을 보이고 있습니다.  그에 반해 모델 2와 3는 각각 2개의 변수에서 1보다 더 낮은 유의수준을 보이고 있습니다. 더하여 선형모형인 모델2에서 가장 낮은 유의수준이 나타나고 있음을 확인할 수 있습니다.

또한, 각각 모형의 표준편차(standard deviation)를 비교해 봤을 때, 모형 1의 표준편차가 모형2과 3의 그것보다 현저히 낮다는것 알 수 있습니다. 작은 표준편차는 데이터 혹은 샘플이 비교적 균일한 양상(homogenous)을 띄고 있다고 해석할 수 있는데, 이로써 대체적으로 비선형모형의 데이터가 더 균일하게 분포되어 있고 높은 level of significance를 보이며, 그 중에서도 모형1이 가장 위와 같은 상황에서 적합한 회귀분석 모형임을 확인할 수 있습니다.

-출처-

Dhar, Tirtha, and Charles B. Weinberg. “Measurement of Interactions in Non-linear Marketing Models: The Effect of Critics’ Ratings and Consumer Sentiment on Movie Demand.” International Journal of Research in Marketing 33.2 (2016): 392-408. Web.