반응형
부트스트래핑(bootstrapping)은 통계학에서 사용되는 재표본화(resampling) 방법 중 하나입니다. 이 방법은 주어진 데이터 집합으로부터 복원 추출(반복 추출)을 통해 샘플을 생성하고, 이를 통해 통계적 추론이나 예측을 수행하는 방법입니다. 부트스트래핑은 특히 데이터가 한정적인 경우에 유용하게 활용됩니다.
부트스트래핑의 작동 방식은 다음과 같습니다:
- 원본 데이터에서 복원 추출: 주어진 데이터 집합에서 무작위로 데이터를 선택하고, 선택된 데이터를 다시 원본 데이터에 복원합니다. 이 과정을 원하는 횟수만큼 반복합니다. 복원 추출은 데이터 집합의 크기와 동일한 크기의 샘플을 생성합니다.
- 통계 계산: 각 복원 추출된 샘플에 대해 통계량(예: 평균, 분산, 회귀 계수 등)을 계산합니다. 이렇게 생성된 통계량의 분포를 통해 추정치를 얻을 수 있습니다.
- 신뢰 구간 추정: 부트스트래핑은 주로 신뢰 구간(confidence interval) 추정에 사용됩니다. 추정된 통계량의 분포를 이용하여 원하는 신뢰 수준에 해당하는 신뢰 구간을 계산합니다. 예를 들어, 평균의 신뢰 구간을 추정할 때는 추정된 평균 값을 중심으로 신뢰 수준에 해당하는 분포의 양쪽 꼬리를 이용하여 신뢰 구간을 형성합니다.
다음은 부트스트래핑의 예시입니다:
- 원본 데이터: [2, 4, 6, 8, 10]
- 복원 추출: 원본 데이터에서 복원 추출을 수행하여 크기가 5인 샘플을 생성합니다.
- 샘플 1: [4, 2, 10, 8, 4]
- 샘플 2: [2, 2, 6, 4, 8]
- 샘플 3: [6, 6, 4, 10, 10]
- ...
- 통계 계산: 각 샘플에 대해 통계량을 계산합니다.
- 샘플 1의 평균: 5.6
- 샘플 2의 평균: 4.4
- 샘플 3의 평균: 7.2
- ...
- 신뢰 구간 추정: 통계량의 분포를 이용하여 신뢰 구간을 추정합니다. 예를 들어, 평균의 95% 신뢰 구간을 추정한다면, 평균 값의 2.5%와 97.5% 백분위로 신뢰 구간을 형성합니다.
부트스트래핑은 통계적 추론을 위한 자유도가 낮은 가정이나 분포에 의존하지 않는 비모수적 방법으로 간주됩니다. 따라서, 부트스트래핑은 데이터에 대한 신뢰할 수 있는 추정치를 얻고, 모델의 예측 불확실성을 평가하는 데 유용하게 활용될 수 있습니다.
'Data Science' 카테고리의 다른 글
PCA (Principal Component Analysis) 주성분 분석이란? (0) | 2023.06.02 |
---|---|
K-fold 교차검증 이란 무엇인가? (0) | 2023.06.02 |
Data Science 를 위한 대표적인 R package 들은? (0) | 2023.05.25 |
머신러닝을 써야 할 때는 언제일까? (0) | 2023.05.25 |
Data Interpolation (0) | 2023.05.25 |