분류 전체보기23 generalization error 란 무엇인가? Generalization error는 머신 러닝에서 모델의 학습 성능과 새로운 입력 데이터에 대한 예측 성능 사이의 차이를 나타내는 오차입니다. 모델이 학습 데이터에서 잘 동작하지만 새로운 데이터에 대해 제대로 일반화하지 못하는 경우, generalization error가 증가할 수 있습니다. 일반화 오차는 모델이 학습 데이터를 통해 획득한 패턴과 특징을 새로운 데이터에 적용할 때 발생하는 오차입니다. 모델이 학습 데이터에서는 높은 정확도를 보이지만, 새로운 데이터에 대해서는 성능이 저하되거나 예측이 부정확해지는 것을 의미합니다. 이는 모델이 학습 데이터에 지나치게 적합(overfitting)되었거나, 데이터의 다양성을 충분히 반영하지 못한 경우에 발생할 수 있습니다. Generalization er.. 2023. 6. 3. PCA (Principal Component Analysis) 주성분 분석이란? 주성분 분석(Principal Component Analysis, PCA)은 데이터의 차원을 줄이고 주요한 정보를 추출하는 데 사용되는 다변량 통계 기법입니다. PCA는 데이터를 저차원 공간으로 변환하여 데이터의 구조와 상관 관계를 파악하고, 주요한 패턴과 변동성을 포착하는 데 도움을 줍니다. PCA의 작동 방식을 설명하기 위해 다음과 같은 예시를 사용해보겠습니다: 데이터 준비: 예를 들어, 키와 몸무게라는 두 가지 변수를 가지는 사람들의 데이터가 있다고 가정해봅시다. 이 데이터는 다음과 같이 표현될 수 있습니다:사람키 (cm) 몸무게 (kg) A 170 70 B 165 60 C 180 75 D 155 50 E 175 65 데이터 표준화: PCA를 적용하기 전에, 변수들을 표준화하여 스케일을 동일하게 맞.. 2023. 6. 2. Bootstrapping 교차 검증이란 무엇인가? 부트스트래핑(bootstrapping)은 통계학에서 사용되는 재표본화(resampling) 방법 중 하나입니다. 이 방법은 주어진 데이터 집합으로부터 복원 추출(반복 추출)을 통해 샘플을 생성하고, 이를 통해 통계적 추론이나 예측을 수행하는 방법입니다. 부트스트래핑은 특히 데이터가 한정적인 경우에 유용하게 활용됩니다. 부트스트래핑의 작동 방식은 다음과 같습니다: 원본 데이터에서 복원 추출: 주어진 데이터 집합에서 무작위로 데이터를 선택하고, 선택된 데이터를 다시 원본 데이터에 복원합니다. 이 과정을 원하는 횟수만큼 반복합니다. 복원 추출은 데이터 집합의 크기와 동일한 크기의 샘플을 생성합니다. 통계 계산: 각 복원 추출된 샘플에 대해 통계량(예: 평균, 분산, 회귀 계수 등)을 계산합니다. 이렇게 생성된.. 2023. 6. 2. K-fold 교차검증 이란 무엇인가? k-fold 교차 검증(k-fold cross-validation)은 기계 학습 모델의 성능을 평가하기 위한 통계적 방법 중 하나입니다. 주어진 데이터를 여러 개의 부분 집합으로 나누고, 각각의 부분 집합을 훈련 및 검증에 사용하여 모델의 성능을 평가합니다. 일반적으로 k-fold 교차 검증은 다음과 같은 단계로 진행됩니다: 데이터 분할: 주어진 데이터를 k개의 동일한 크기의 부분 집합으로 나눕니다. 이때, 각 부분 집합을 '폴드'라고 합니다. 예를 들어, k를 5로 설정하면 데이터는 5개의 폴드로 나누어집니다. 모델 훈련 및 검증: k개의 폴드 중 하나를 선택하여 검증 세트로 사용하고, 나머지 k-1개의 폴드를 훈련 세트로 사용하여 모델을 훈련합니다. 이 과정을 k번 반복하며, 각 반복에서 다른 폴드를.. 2023. 6. 2. 이전 1 2 3 4 ··· 6 다음