본문 바로가기
반응형

AI 공부100

[Machine Learning] 데이터 불균형 극복하기: 머신러닝에서의 핵심 전략들 Imbalanced Dataset 안녕하세요, 오늘은 머신러닝 모델링에서 자주 마주치는 중요한 도전 과제 중 하나인 '데이터 불균형(Imbalanced Dataset)'에 대해 이야기해볼까 합니다. 🚀 데이터 불균형은 특정 클래스의 관측치가 다른 클래스에 비해 현저히 적을 때 발생하며, 이는 모델의 성능에 영향을 미칠 수 있습니다. 이 블로그에서는 데이터 불균형을 해결하기 위한 여러 전략들을 탐구해보겠습니다. 📘 데이터 불균형 문제 해결방법들 오버샘플링(Over-sampling)과 언더샘플링(Under-sampling): 오버샘플링은 소수 클래스의 샘플 수를 인위적으로 늘리는 기법입니다. 가장 널리 알려진 방법 중 하나는 'SMOTE(Synthetic Minority Over-sampling Technique)'로, 소수 클래스의 샘플들.. 2024. 1. 22.
[Machine Learning] KNN 머신러닝 알고리즘을 활용한 환자 맞춤형 약물 예측 🌟 K-Nearest Neighbors(KNN) 알고리즘은 머신러닝에서 가장 기본적이면서도 강력한 방법 중 하나입니다. 이 알고리즘은 분류와 회귀 문제에 모두 사용되며, 그 구현의 단순함과 효율성으로 인해 널리 사용됩니다. 오늘은 KNN을 활용하여 실제 문제를 해결하는 방법을 Kaggle의 Drug Classification 데이터셋을 사용하여 살펴볼 것입니다. K-Nearest Neighbors, KNN 알고리즘이란? K-Nearest Neighbors Algorithm 설명 KNN 알고리즘은 마치 새로운 학생이 학교에 올 때 그 주변에 있는 친구들을 보고 그 학생의 특성을 유추하는 것과 비슷합니다. 이 알고리즘은 주변의 'K'개 데이터 포인트(이웃)를 보고, 그 데이터 포인트가 가장 많이 속한 그룹으.. 2024. 1. 20.
[Time Series] 시계열 예측의 기초: MA, ARMA, ARIMA 모델 완벽 가이드 - 2탄 AR(Auto-Regressive) 자기회귀(AR) 모델에 대해 더 자세히 알아보겠습니다. 🌟 AR 모델은 시계열 데이터의 과거 값들을 기반으로 미래 값을 예측하는 모델로, 시간의 흐름에 따른 데이터 패턴을 분석하는 데 매우 유용합니다. 📈 자기회귀(AR) 모델의 개념 🔍 AR 모델은 시계열 데이터의 현재 값이 과거의 값들에 선형적으로 의존한다고 가정합니다. 이는 '자기회귀'라는 용어에서도 알 수 있듯이, 변수가 자신의 과거 값에 대해 회귀하는 것을 의미합니다. 간단한 예시: AR(1) 모델 어제 판매량이 100잔이었다면, 오늘의 판매량을 예측할 때 어제의 판매량을 사용합니다. 이것이 AR(1), 즉 하나의 지연값을 사용하는 모델입니다. AR(p) 모델의 표현 y(t): 시간 t에서의 변수 값 c: 상수항 φ: 자기회귀 계수 ε_t: 오차.. 2024. 1. 19.
[LLM] 🤗 Hugging Face 설치하기 🤗 ft.나만의 요약하기 모델 만들기 예제 Hugging Face"는 인공 지능, 특히 자연어 처리(NLP) 분야에서 인기 있는 라이브러리와 모델을 제공하는 플랫폼입니다. Hugging Face의 가장 유명한 라이브러리는 "Transformers"이며, 여기에는 BERT, GPT, T5 등과 같은 다양한 사전 훈련된 모델이 포함되어 있습니다. 🤗 Hugging Face 설치하기 🤗 커뮤니티 가입: 간단한 이메일과 패스워드 입력으로 Hugging Face 커뮤니티에 가입하고, 다양한 자료와 지식을 공유받을 수 있어요. 환경 설정: 새로운 폴더를 만들어 가상 환경을 설정하고, 필요한 패키지들을 설치해보세요. 이 과정을 통해 여러분만의 AI 프로젝트를 시작할 준비가 됩니다. 토큰 받기: 이메일 인증을 마치고 토큰을 받으면, 이를 통해 Hugging F.. 2024. 1. 18.
반응형