본문 바로가기

전체 글23

왜 AI, Machine Learning 을 써야 하는가? 인공지능(AI) 및 기계학습(ML)은 전통적인 알고리즘보다 더 적합한 경우가 있는 이유가 있습니다. 아래는 그러한 이유들을 설명해드리겠습니다. 복잡한 문제 해결: AI/ML은 복잡하고 비선형적인 문제를 다룰 수 있습니다. 전통적인 알고리즘은 명시적으로 프로그래밍되고 제한된 규칙에 따라 작동하는 경우가 많습니다. 하지만 AI/ML은 데이터에서 패턴을 학습하고 복잡한 상호작용과 비선형성을 처리할 수 있어, 복잡한 문제를 해결하는 데 적합합니다. 대규모 데이터 처리: AI/ML은 대규모 데이터 처리에 능숙합니다. 전통적인 알고리즘은 정형화된 데이터에 적용되기 쉽지만, 대량의 비정형 데이터에서 의미 있는 정보를 추출하는 데 어려움이 있을 수 있습니다. AI/ML은 대량의 데이터에서 특징을 추출하고 패턴을 학습하.. 2023. 5. 24.
통계적 유의성 (statistical significance)이란? 통계적 유의성 (statistical significance) 은 통계 분석 결과가 우연에 의한 것이 아니라 실제로 존재하는 패턴 또는 차이를 나타내는 것인지를 판단하는 것을 의미합니다. 즉, 통계적 유의성은 관찰된 결과가 우연에 의한 것이 아니라 진짜로 의미 있는 것인지를 확인하는 통계적 검증 과정입니다. 통계적 유의성은 주로 가설 검정(Hypothesis Testing)과 관련이 있습니다. 가설 검정은 주어진 데이터를 기반으로 특정 가설을 검증하는 과정으로, 보통 "귀무 가설"과 "대립 가설"을 설정하고 이를 통계적으로 평가합니다. 귀무 가설은 일반적으로 기존의 믿음이나 가정을 나타내며, 대립 가설은 관심 대상이 되는 새로운 주장이나 가정을 의미합니다. 통계적 유의성은 가설 검정을 통해 얻은 결과에서.. 2023. 5. 24.
Data science 용어 정리 머신러닝 (Machine Learning): 컴퓨터 시스템이 데이터에서 학습하고 패턴을 식별하여 예측하거나 의사 결정을 내리는 알고리즘과 기술을 의미합니다. 딥러닝 (Deep Learning): 인공 신경망(Artificial Neural Network)의 한 형태로, 다층 구조의 신경망을 사용하여 복잡한 패턴을 학습하고 분류, 예측 또는 생성하는 기술입니다. 데이터 마이닝 (Data Mining): 대규모 데이터에서 통계적 기법과 패턴 인식 기술을 사용하여 유용한 정보와 패턴을 추출하는 과정입니다. 피처 엔지니어링 (Feature Engineering): 기존 데이터에서 유용한 특징이나 속성(피처)을 추출하거나 새로운 피처를 생성하는 과정입니다. 모델의 성능 향상을 위해 중요한 단계입니다. 클러스터링 .. 2023. 5. 24.
dplyr 와 pandas 차이점 R 언어에서 dplyr 패키지는 데이터 전처리와 관련된 가장 인기 있는 패키지 중 하나입니다. dplyr은 데이터 프레임의 조작, 필터링, 정렬, 그룹화 및 집계 작업을 수행하도록 설계되어 있으며, 이를 위해 다양한 함수와 연산자를 제공합니다. Python에서는 pandas 패키지가 dplyr과 유사한 기능을 제공합니다. pandas는 데이터 프레임을 다루는 데 사용되는 가장 인기있는 패키지 중 하나입니다. pandas는 R의 dplyr과 거의 동일한 기능을 제공합니다. 공통점: 두 패키지 모두 데이터 프레임을 다루는 데 사용됩니다. 두 패키지 모두 데이터 필터링, 정렬, 그룹화 및 집계 작업을 수행하는 데 사용됩니다. 두 패키지 모두 데이터 전처리 작업을 수행하는 데 사용됩니다. 차이점: dplyr은 .. 2023. 5. 12.