본문 바로가기
반응형

AI 공부/자연어 처리 (NLP)6

[자연어 처리 NLP] 단어 임베딩과 문맥적 임베딩: NLP의 핵심 이해하기 🌟 자연어 처리(NLP)에서 단어의 의미와 관계를 어떻게 표현할 수 있을까요? 🤔 단어 임베딩은 이 문제를 해결하기 위한 중요한 도구로 자리 잡았습니다. 이 글에서는 전통적인 단어 임베딩과 문맥적 단어 임베딩의 차이점을 설명하고, 각각의 예제를 통해 그 개념을 쉽게 이해해보겠습니다. 📚  단어 임베딩 (Word Embeddings) ✨단어 임베딩은 단어들의 의미, 문법적 속성, 그리고 다른 단어들과의 관계를 밀집된 벡터로 표현하는 방법입니다. 전통적인 방법인 Bag of Words나 TF-IDF는 단어를 개별적인 엔티티로 다루지만, 단어 임베딩은 단어를 연속된 벡터 공간에 매핑하여 의미적으로 유사한 단어들이 가까운 위치에 있도록 합니다. 🔍 이 방식 덕분에 단어의 의미를 더 잘 표현할 수 있게 되었고,.. 2024. 11. 21.
[자연어 처리 NLP] 🌟 TF-IDF를 이용한 특징 추출 (Term Frequency-Inverse Document Frequency) 🛠️ 1. 단어 빈도 (Term Frequency, TF)단어 빈도(TF)는 특정 단어가 문서에서 얼마나 자주 등장하는지를 측정합니다. 일반적으로 문서 내 총 단어 수로 정규화하여 더 긴 문서로 인한 편향을 방지합니다. 예를 들어, "강아지가 마당에서 놀고 있다"라는 문서에서 "강아지"라는 단어의 빈도는 해당 단어가 몇 번 등장했는지를 나타냅니다. 😊 🛠️ 2. 역문서 빈도 (Inverse Document Frequency, IDF)역문서 빈도(IDF)는 특정 단어가 전체 코퍼스 내에서 얼마나 중요한지를 측정합니다. 많은 문서에 등장하는 단어일수록 중요도가 낮아지며, 일부 문서에만 등장하는 단어일수록 중요도가 높아집니다. 분모에 +1을 추가하여 특정 단어가 어떤 문서에도 등장하지 않는 경우에 0으로.. 2024. 11. 21.
[자연어 처리 NLP] Bag-of-Words를 이용한 특징 추출 (Feature Extraction with Bag-of-Words) 많은 전통적인 머신러닝 기법들은 특징(feature)에 기반하여 작동하며, 이 특징은 보통 문서를 코퍼스와 관련 지어 설명하는 숫자들로 이루어져 있습니다. 이 중 Bag-of-Words는 가장 기본적이고 널리 사용되는 특징 추출 기법입니다. 😊  🛠️ Bag-of-Words (BoW)정의: Bag-of-Words는 텍스트 데이터를 각 문서의 단어들이 들어 있는 멀티셋으로 표현하는 방식입니다. 이 때 문법과 단어 순서는 무시하고 단어의 빈도만을 유지합니다.Bag-of-Words의 주요 개념단어 빈도 유지: Bag-of-Words에서는 각 문서에서 등장하는 단어의 빈도를 계산하여 해당 단어를 특징으로 사용합니다. 단어의 순서나 문법적인 구조는 고려되지 않기 때문에, 텍스트 데이터를 단순하고 효율적으로 수.. 2024. 11. 20.
[자연어 처리 NLP] 🛠️ NLP 데이터 처리 방법: 데이터 전처리 (Data Pre-processing) ✨ 자연어 처리(NLP)에서 데이터 전처리는 텍스트를 분석할 수 있는 형태로 변환하는 첫 번째 단계입니다. 이 과정에서는 대화나 문맥 내에서 의미를 이해하는 데 중점을 둡니다. 주요 목표는 챗봇 사람 간의 의미 있는 대화를 촉진하는 것입니다. 😊 예를 들어, "최고의 요리법 좀 알려줘" 또는 "파티 음악 좀 재생해줘" 같은 명령을 챗봇에 주는 것도 이 과정의 일환입니다. 데이터 전처리를 통해 모델이 텍스트를 더 잘 이해하고 처리할 수 있도록 하기 위해, 다음과 같은 여러 기술들이 사용됩니다. 🌟   🔹 데이터 전처리 단계데이터 전처리는 텍스트를 모델이 이해할 수 있는 형태로 변환하여 성능을 향상시키는 데 큰 역할을 합니다. 이 과정에는 토큰화, 스테밍, 표제어 추출, 정규화, 품사 태깅과 같은 다양한 .. 2024. 11. 19.
반응형