본문 바로가기
반응형

AI 공부/ML & DL47

[Machine Learning] 데이터 불균형 극복하기: 머신러닝에서의 핵심 전략들 Imbalanced Dataset 안녕하세요, 오늘은 머신러닝 모델링에서 자주 마주치는 중요한 도전 과제 중 하나인 '데이터 불균형(Imbalanced Dataset)'에 대해 이야기해볼까 합니다. 🚀 데이터 불균형은 특정 클래스의 관측치가 다른 클래스에 비해 현저히 적을 때 발생하며, 이는 모델의 성능에 영향을 미칠 수 있습니다. 이 블로그에서는 데이터 불균형을 해결하기 위한 여러 전략들을 탐구해보겠습니다. 📘 데이터 불균형 문제 해결방법들 오버샘플링(Over-sampling)과 언더샘플링(Under-sampling): 오버샘플링은 소수 클래스의 샘플 수를 인위적으로 늘리는 기법입니다. 가장 널리 알려진 방법 중 하나는 'SMOTE(Synthetic Minority Over-sampling Technique)'로, 소수 클래스의 샘플들.. 2024. 1. 22.
[Machine Learning] KNN 머신러닝 알고리즘을 활용한 환자 맞춤형 약물 예측 🌟 K-Nearest Neighbors(KNN) 알고리즘은 머신러닝에서 가장 기본적이면서도 강력한 방법 중 하나입니다. 이 알고리즘은 분류와 회귀 문제에 모두 사용되며, 그 구현의 단순함과 효율성으로 인해 널리 사용됩니다. 오늘은 KNN을 활용하여 실제 문제를 해결하는 방법을 Kaggle의 Drug Classification 데이터셋을 사용하여 살펴볼 것입니다. K-Nearest Neighbors, KNN 알고리즘이란? K-Nearest Neighbors Algorithm 설명 KNN 알고리즘은 마치 새로운 학생이 학교에 올 때 그 주변에 있는 친구들을 보고 그 학생의 특성을 유추하는 것과 비슷합니다. 이 알고리즘은 주변의 'K'개 데이터 포인트(이웃)를 보고, 그 데이터 포인트가 가장 많이 속한 그룹으.. 2024. 1. 20.
[Time Series] 시계열 예측의 기초: MA, ARMA, ARIMA 모델 완벽 가이드 - 2탄 AR(Auto-Regressive) 자기회귀(AR) 모델에 대해 더 자세히 알아보겠습니다. 🌟 AR 모델은 시계열 데이터의 과거 값들을 기반으로 미래 값을 예측하는 모델로, 시간의 흐름에 따른 데이터 패턴을 분석하는 데 매우 유용합니다. 📈 자기회귀(AR) 모델의 개념 🔍 AR 모델은 시계열 데이터의 현재 값이 과거의 값들에 선형적으로 의존한다고 가정합니다. 이는 '자기회귀'라는 용어에서도 알 수 있듯이, 변수가 자신의 과거 값에 대해 회귀하는 것을 의미합니다. 간단한 예시: AR(1) 모델 어제 판매량이 100잔이었다면, 오늘의 판매량을 예측할 때 어제의 판매량을 사용합니다. 이것이 AR(1), 즉 하나의 지연값을 사용하는 모델입니다. AR(p) 모델의 표현 y(t): 시간 t에서의 변수 값 c: 상수항 φ: 자기회귀 계수 ε_t: 오차.. 2024. 1. 19.
[Time Series] 시계열 예측의 기초: MA, ARMA, ARIMA 모델 완벽 가이드 - 1탄 SMA & EMA 안녕하세요, 데이터 과학과 금융 분석에 관심 있는 여러분! 오늘은 시계열 예측에서 중요한 역할을 하는 MA(이동 평균), ARMA(자기회귀 이동 평균), ARIMA(자기회귀 누적 이동 평균) 모델에 대해 알아보려고 합니다. 이 모델들은 복잡한 시장 데이터의 패턴을 이해하고 미래의 트렌드를 예측하는 데 큰 도움이 됩니다. 이 글을 통해 각 모델의 기초와 활용 방법을 이해하고, 여러분의 데이터 분석 능력을 한층 더 향상시킬 수 있기를 바랍니다. 간단한 이동 평균(Simple Moving Average, SMA)의 계산 간단한 이동 평균(Simple Moving Average, SMA): 최근 n개 관측치의 평균을 계산하는 방법입니다. 이를 통해 데이터의 단기 변동을 평활화하고 추세를 파악할 수 있습니다. 엔.. 2024. 1. 15.
반응형