본문 바로가기
프로그래밍 언어(Programming Languages)/파이썬(Python)

[파이썬 Python] Python 라이브러리 Camelot으로 PDF에서 테이블 추출하기! 🧙‍♂️📊

by 데이터 벌집 2025. 1. 22.
반응형

[파이썬 Python] Python 라이브러리 Camelot으로 PDF에서 테이블 추출하기! 🧙‍♂️📊

📜 Camelot 소개

Camelot은 PDF에서 테이블을 추출하는 데 유용한 Python 라이브러리입니다.
특히, PDF 파일의 경로만 코드에 지정하면 데이터를 자동으로 추출하여 한 곳에 정리해줍니다. 📂✨

PDF에서 중요한 데이터를 쉽게 가져와 활용할 수 있으니, 투자 보고서나 금융 데이터 분석 같은 프로젝트에 유용합니다. 💻

 

🛠️ 코드 구현 방법

다음은 Camelot을 활용하여 PDF에서 테이블을 추출하는 간단한 코드 예제입니다.

 

import camelot

# PDF 파일 경로 지정
file_path = "/path/to/your/pdf/financial_report.pdf"

# PDF에서 테이블 읽기 (페이지 번호 지정 가능)
tables = camelot.read_pdf(file_path, pages="1")

# 발견된 테이블 수 출력
print(f"Total tables found: {len(tables)}")

# 첫 번째 테이블 데이터 출력
print(tables[0].df)

# 첫 번째 테이블을 CSV로 저장
output_csv = "quarterly_revenue.csv"
tables[0].to_csv(output_csv)

print(f"Table saved to {output_csv}")

 

📝 단계별 설명

1. PDF 파일 경로 설정 📂

먼저, PDF 파일의 위치를 찾아 경로를 복사합니다.

 

예: /path/to/your/pdf/financial_report.pdf

 

코드 편집기에 해당 경로를 붙여넣으면 됩니다.

2. 테이블 추출 🛠️

camelot.read_pdf() 함수에 파일 경로와 페이지 번호를 지정하면 테이블 데이터를 추출합니다.

3. 데이터 확인 🔍

tables[0].df를 통해 추출된 첫 번째 테이블 데이터를 확인할 수 있습니다. 추출된 데이터를 바로 출력하거나 CSV 파일로 저장할 수 있습니다. quarterly_revenue.csv 파일에 테이블 데이터가 저장됩니다. 이를 엑셀로 열거나 추가 분석에 활용할 수 있습니다.

 

✨ 결론

Camelot은 PDF에서 테이블 데이터를 빠르게 추출하고 활용할 수 있는 강력한 도구입니다. 📄

반응형