본문 바로가기
Data Science

Feature Engineering 이란?

by fusionInformation 2023. 5. 25.
반응형

Feature 엔지니어링은 데이터의 특성을 활용하여 새로운 유용한 Feature을 만들거나 선택하는 과정입니다. 주로 feature selection과 Feature 추출 두 가지 유형으로 구분됩니다. 아래에서 각 유형에 대해 설명해드리겠습니다.

특성 선택(Feature Selection):

필터링 기반 선택: 통계적 측정치(예: 상관 계수, 정보 이득 등)를 사용하여 Feature의 중요도를 평가하고, 중요한 Feature들을 선택합니다.
래퍼 기반 선택: Feature 부분 집합을 사용하여 모델을 구성하고, 교차 검증 등의 기법을 사용하여 최적의 Feature 집합을 찾습니다.
임베디드 기반 선택: 모델 훈련 과정에서 Feature의 중요도를 고려하고, 중요하지 않은 Feature들을 제외하거나 가중치를 조정합니다.


특성 추출(Feature Extraction):

주성분 분석(PCA): 상관 관계가 있는 다차원 데이터를 저차원의 부분공간으로 변환하여 정보 손실을 최소화합니다.
자동 인코더 Autoencoders: 입력 데이터의 표현을 학습하여 저차원의 Feature을 추출합니다.
텍스트 데이터의 벡터화: 텍스트 데이터를 단어, 문장 또는 문서 수준에서 수치적으로 표현하기 위해 TF-IDF, Word2Vec, GloVe 등의 기법을 사용합니다.
이미지 데이터의 Feature 추출: 사전 훈련된 합성곱 신경망(CNN)을 사용하여 이미지 데이터의 저수준 Feature을 추출하거나, 전이 학습을 통해 이미 학습된 모델을 활용합니다.
Feature 엔지니어링은 데이터의 Feature과 도메인에 따라 다양한 방법을 사용하여 수행됩니다. 적절한 Feature 선택 및 추출은 모델의 성능 향상, 차원의 저감, 잡음 감소, 설명력(interpretability) 향상 등을 도모하며, 데이터의 Feature을 잘 반영하여 더 정확하고 유의미한 결과를 얻을 수 있습니다.