본문 바로가기
AI 공부/자연어 처리 (NLP)

[자연어 처리 NLP] 📚 NLP 용어 알아보기

by 데이터 벌집 2024. 11. 18.
반응형

자연어 처리(NLP)에서 자주 사용되는 용어들은 복잡하게 느껴질 수 있지만, 기초적인 개념을 이해하면 훨씬 쉽게 접근할 수 있어요. 오늘은 NLP의 기본 용어인 문서(Document), 코퍼스(Corpus), 특징(Feature)에 대해 살펴보겠습니다. 이 용어들은 NLP 모델을 이해하고 적용하는 데 중요한 개념이니, 예시와 함께 차근차근 배워봅시다! 😊

 

[자연어 처리 NLP] 📚 NLP 용어 알아보기

 


📄 1. 문서(Document)

문서(Document)는 NLP 모델이 처리하는 기본 단위의 텍스트입니다. 문서는 한 문장일 수도 있고 한 권의 책일 수도 있으며, 이메일, 웹페이지, 기사, 트윗 등 다양한 형태로 존재할 수 있습니다.

✔️ 예시:

  • 신문에서 발췌한 한 개의 뉴스 기사 📰
  • 트윗: "Just saw Elon Musk" 💬
  • 이메일: "Dear Emily, I hope this email finds you well..."

문서는 NLP에서 텍스트를 이해하고 분석하는 기초적인 단위로, 이러한 다양한 형태의 문서를 모델에 입력함으로써 언어의 의미를 파악하게 됩니다.


🗃️ 2. 코퍼스(Corpus, Corpora)

코퍼스(Corpus)는 다수의 문서로 이루어진 큰 텍스트 집합입니다. NLP 모델을 훈련하고 평가하기 위해 사용되는 데이터셋 역할을 하며, 보통 특정 주제, 언어, 장르와 관련된 문서들을 포함합니다. 코퍼스는 언어적 패턴을 분석하고 통계 모델을 구축하는 데 필수적인 자원입니다.

✔️ 예시:

  • 특정 신문사의 1년 치 모든 기사 모음 📅
  • 이커머스 웹사이트의 고객 리뷰 데이터셋 🛍️
  • 구텐베르크 코퍼스: 프로젝트 구텐베르크의 문학 텍스트 모음 📚

코퍼스를 통해 우리는 다양한 언어적 특징을 추출하고, 이를 기반으로 머신러닝 모델을 훈련시킬 수 있습니다.


🌟 3. 특징(Feature)

특징(Feature)은 텍스트에서 추출한 분석 가능한 속성으로, NLP에서 중요한 역할을 합니다. 특징은 모델이 텍스트를 분석하고 학습하는 데 필요한 데이터를 제공하는 핵심 요소입니다. 이를 통해 텍스트의 내용, 구조, 패턴 등을 파악할 수 있게 되죠.

 

특징은 다양한 방식으로 추출될 수 있으며, 텍스트의 단어 빈도, 특정 문법 요소, 문장의 길이 등 여러 가지 속성을 포함합니다. 이러한 특징들은 머신러닝 모델이 텍스트의 의미를 이해하고 분류하거나 예측하는 데 필수적인 정보로 사용됩니다.

✔️ 예시:

  • Bag-of-Words (BoW): 텍스트에서 단어의 등장 빈도를 계산하여 각 단어를 특징으로 사용하는 방법입니다.
    • 문서: "Natural language is amazing."
    • 특징: {"Natural": 1, "language": 1, "is": 1, "amazing": 1}
  • TF-IDF (Term Frequency-Inverse Document Frequency): 특정 단어가 문서와 전체 코퍼스에서 가지는 중요도를 평가하여 특징으로 사용하는 방법입니다.
    • 문서: "NLP makes machines smart."
    • 특징 (TF-IDF 점수): {"NLP": 0.7, "makes": 0.4, "machines": 0.5, "smart": 0.8}
  • 품사 태그 (Part of Speech, POS Tags): 각 단어의 문법적 역할을 특징으로 나타내는 방법입니다. 이를 통해 단어들이 문장에서 어떻게 기능하는지 파악할 수 있습니다.
    • 문서: "The cat sat on the mat."
    • 특징: {"The": "DET", "cat": "NOUN", "sat": "VERB", "on": "PREP", "mat": "NOUN"}

이와 같이 특징을 추출함으로써, 모델은 텍스트를 분석 가능한 형태로 변환하고, 이를 바탕으로 텍스트의 의미와 패턴을 학습할 수 있게 됩니다. 특징은 NLP에서 매우 중요한 개념이며, 올바른 특징을 선택하는 것이 모델의 성능에 큰 영향을 미칩니다.


📝 코퍼스와 특징 예시

예를 들어, 아래의 두 문장을 문서로 간주해 볼게요:

  • 문서 1: "Birds are singing. The sky is clear."
  • 문서 2: "The sun is shining brightly. Birds love sunny days."

이 두 문서를 결합하여 하나의 코퍼스를 만들 수 있습니다:

코퍼스 = "Birds are singing. The sky is clear. The sun is shining brightly. Birds love sunny days."

 

그리고 이 코퍼스에서 모든 고유한 단어들을 추출하면, 이를 특징 벡터라고 부릅니다:

 

특징 벡터: ['are', 'birds', 'brightly', 'clear', 'days', 'love', 'shining', 'singing', 'sky', 'sun', 'sunny', 'the']

 

이러한 특징 벡터는 모델이 텍스트를 학습하고 예측하는 데 필요한 핵심 정보가 됩니다. 😊


자연어 처리의 기본 용어들을 이해하는 것은 NLP 모델을 잘 다루기 위한 첫걸음입니다. 앞으로도 NLP의 다양한 개념과 기술에 대해 배우며 더욱 깊이 있는 이해를 쌓아가길 바랍니다! 💡✨

반응형