통계는 데이터를 다루는 목적에 따라 기술통계와 추론통계로 나뉩니다.
기술통계는 수집한 데이터의 정리 및 요약을 통해 데이터의 특성을 밝혀내는 방법입니다. 데이터의 특성은 대푯값을 통해 표현할 수도 있고 그림을 통해서도 나타낼 수 있습니다. 대푯값이란 평균, 분산 등 데이터의 특성을 반영한 하나의 값으로 표현될 수 있습니다. 또한 수치 자료의 구간 별 빈도를 볼 수 있는 히스토그램이나 다양한 종류의 그래프들이 있을 수 있습니다. 이와 같이 기술통계가 뜻하는 바는 누구나 쉽게 이해할 수 있습니다. 주로 통계학이라고 한다면 추론 통계학을 이야기하는 경우가 많습니다.
통계학이 어렵다는 이야기를 하는 경우 대부분이 추론통계일 것입니다. 추론통계에서는 모집단(population)과 표본집단(sample)이라는 개념이 존재합니다. 예를 들어 어떤 예능 프로그램의 시청률을 조사하고 싶다면, 해당 프로그램을 시청하는 전체 시청자 수를 알아내면 될 것입니다. 하지만 현실적으로 이는 불가능하기 때문에 통계적 추론을 통해 조사를 해야 합니다. 통계적 추론이란 모집단에서 표본을 추출하고 그 표본집단을 조사하여 모집단의 특성을 추정하는 것입니다. 리서치 회사 입장에서는 통계적 추론을 통해 시청률을 조사하는 것이 시간, 비용 등을 줄일 수 있을 것입니다.
이처럼 표본공간이란 모집단에서 표본추출을 통해 만들어지는 실제로 우리가 얻을 수 있는 관측값들로 구성된 집합입니다.
예를 들어 세 개의 동전을 던지기 실험을 할 때, 나올 수 있는 경우의 수는 다음과 같습니다.
앞이 0번: (뒤뒤뒤)
앞이 1번: (앞뒤뒤), (뒤앞뒤), (뒤뒤앞)
앞이 2번: (앞앞뒤), (앞뒤앞), (뒤앞앞)
앞이 3번: (앞앞앞)
이렇게 총 8개의 부분집합이 생길 것입니다. 이러한 표본공간에 대한 부분집합을 사건이라고 부릅니다.
순서쌍 (x,y) 가 있을 때 x+y=2 가 되는 모든 순서쌍의 집합(표본공간)은 다음과 같이 나타낼 수 있습니다.
위의 표본공간에서 사건은 (1,1), (-1,3), (4,-2) 등 무수한 순서쌍 집합이 될 것입니다.
'통계학개론' 카테고리의 다른 글
[확률변수와 확률분포] 6. 확률변수(random variable) (0) | 2021.02.12 |
---|---|
[확률론] 5. 베이즈 정리(Bayes' theorem) (0) | 2021.02.11 |
[확률론] 4. 독립과 배반사건의 개념 (0) | 2021.02.11 |
[확률론] 3. 조건부 확률의 정의 (0) | 2020.05.19 |
[확률론] 2. 확률의 정의 (0) | 2020.05.13 |