2017년 7월 첫째주

Weekly 통계 소식: P-value, 과학과 사기 사이

 

2012년 미국의 생명과학자 글렌 베글리(Glenn Begley)는 저명한 학술지 네이처(Nature)를 통해 2000년대 초반 10년 동안 발표된 암 관련 주요 연구 53건 중 단 6개, 즉 11%의 연구만이 재현에 성공했다는 사실을 밝힙니다.

이러한 의학연구의 재현성 문제는 하루이틀 논란이 된 주제가 아닙니다. 도대체 무엇이 이러한 문제가 사그라지지 않게 하는 것일까요? <수학산책>에서 수학동아의 조가현 기자는 이 문제의 다양한 원인들 중 연구자의 무지로 인한 P-value의 오용에 집중합니다.

많은 연구자들은 실험의 유효성을 수치로 나타내기 위해 통계의 힘을 빌립니다. 그러나 모든 연구자가 통계 전문가가 될 수는 없는데요. 이 때문에 많은 연구자들이 가장 쉽고 유용한 P-value를 사용해 왔습니다.

P-value는 귀무가설(null-hypothesis)이 참이라는 전제하에 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타내는 확률입니다. 예를 들어 대게 0.05 정도를 기준값으로 잡고 P-value의 값이 그보다 작으면 귀무가설을 기각하고 크면 받아들이는 것이죠. 하지만 이는 어디까지나 확률이기 때문에 귀무가설이 받아들여진다 하더라고 0.05, 즉 100번 중 적어도 5번은 틀리는 경우의 수가 나타납니다.

여기에 더해서, 보통 연구의 신뢰도를 높이기 위해 더 많은 데이터를 수집하는데, 데이터가 많아질수록 오류의 횟수 또한 증가합니다. 10만 개의 데이터를 수집한다면 그 중 적어도 5000개의 데이터는 어떤 변수와 연관성이 없으면서도 있다고 나오게 되고, 그렇다고 오류를 줄이기 위해 P-value 기준값을 낮추면 그 변수와 관련성이 있는 데이터가 하나도 없는 경우가 발생하는 것이죠.

P-value에 대한 잘못된 인식 또한 이러한 문제에 기인합니다. 많은 사람들이 P-value의 값이 작아 0.02 정도로 매우 작아 귀무가설이 기각되었을 때 대립가설을 지지하는 확률이 98%라고 생각합니다. 그러나 P-value는 귀무가설이 옳다는 가정하에 구한 값으로, 그 값이 기준값보다 작을 경우 단지 실험 데이터를 대표하는 통계량이 귀무가설과 매우 다르다는 것을 뜻한다고 이 기사는 말합니다.

Screen Shot 2017-07-04 at 3.09.02 PM

 

P-value, 그럼 어떻게 사용해야 할까요? <수학산책>의 기사는 미국통계학회(ASA)의 말을 빌리며, P-value의 태생적 한계는 이를 만들어낸 로널드 피셔도 인정하는 것이라고 말합니다. 그렇기 때문에 P-value만큼 유용하면서 오류 걱정도 없고 사용하기도 쉬운 방법이 개발되기 전까지는 P-value를 제대로 알고 올바르게 사용해야 한다고 강조하며 기사의 끝맺음을 맺고 있습니다.