본문 바로가기
AI/ML & DL

[Machine Learning] 불순도 차이 = 정보 이득(Information Gain) 이해하기

by 데이터 벌집 2024. 1. 31.

데이터 과학과 머신 러닝 분야에서, 의사결정트리(Decision Tree)와 같은 학습 알고리즘의 핵심 요소 중 하나는 '정보 이득(Information Gain)'입니다. 정보 이득은 의사결정트리가 어떤 기준으로 데이터를 분할할지 결정하는 데 사용되는 중요한 지표입니다. 이 지표는 불순도 차이를 기반으로 하여, 데이터를 어떻게 분할할 때 가장 유용한 정보를 얻을 수 있는지를 나타냅니다. 🤔💡

 

 

IG


불순도 차이와 정보 이득의 정의와 계산 방법 📊

불순도 차이의 개념

불순도 차이는 특정 분할 전후의 데이터 집합의 불순도(혼잡도)를 비교하는 개념입니다. 의사결정트리에서는 이 불순도 차이를 최대화하는 방향으로 데이터를 분할합니다. 불순도의 측정에는 지니 불순도(Gini Impurity)나 엔트로피(Entropy)와 같은 지표가 사용됩니다. 🌲🔍

정보 이득의 정의

정보 이득은 특정 분할에 의해 얻어지는 순수도(purity)의 증가 또는 불순도의 감소를 의미합니다. 즉, 어떤 분할이 데이터를 더 잘 분류할 수 있게 만드는지를 수치화한 것입니다.

정보 이득(IG)의 계산 방법은 다음과 같습니다:

IG 계산 방법


정보 이득(Information Gain)에 대한 예제

 

예제 1: 단순한 이진 분류 🍎🍌

상황: 데이터 집합에 사과(Apple) 6개, 바나나(Banana) 6개가 있습니다. 우리는 색깔(Color)을 기준으로 분류하려 합니다 (빨간색, 노란색).

단순한 이진 분류

예제 2: 사이즈(Size)에 따른 분류 🍏🥝🍐

상황: 데이터 집합에 사과 4개, 키위 4개, 배 4개가 있습니다. 우리는 사이즈를 기준으로 분류하려 합니다 (작음, 중간, 큼).

사이즈에 따른 분류

예제 3: 기후(Climate)에 따른 과일 분류 🍇🍈🍉

상황: 데이터 집합에 포도 6개, 멜론 6개, 수박 6개가 있습니다. 기후(온대, 열대)를 기준으로 분류하려 합니다.

 

기후에 따른 과일 분류

 

이러한 예제들은 정보 이득이 의사결정트리에서 어떻게 활용되는지를 보여줍니다. 데이터를 분류할 때, 높은 정보 이득을 제공하는 속성을 선택함으로써 더 효율적이고 정확한 분류가 가능합니다. 🌳📈🔍


정보 이득은 의사결정트리에서 데이터를 어떻게 분할할지 결정하는 데 핵심적인 역할을 합니다. 높은 정보 이득을 가진 속성을 분할 기준으로 선택함으로써, 모델은 더 정확하고 효율적으로 데이터를 분류할 수 있습니다. 🎯🌳

 

정보 이득의 이해는 머신 러닝 모델의 성능을 향상시키는 데 매우 중요합니다. 따라서, 데이터 과학자와 머신 러닝 엔지니어들에게 이 개념은 효율적인 모델을 구축하는 데 필수적인 도구입니다. 💪😃🔍