반응형
📜 Camelot 소개
Camelot은 PDF에서 테이블을 추출하는 데 유용한 Python 라이브러리입니다.
특히, PDF 파일의 경로만 코드에 지정하면 데이터를 자동으로 추출하여 한 곳에 정리해줍니다. 📂✨
PDF에서 중요한 데이터를 쉽게 가져와 활용할 수 있으니, 투자 보고서나 금융 데이터 분석 같은 프로젝트에 유용합니다. 💻
🛠️ 코드 구현 방법
다음은 Camelot을 활용하여 PDF에서 테이블을 추출하는 간단한 코드 예제입니다.
import camelot
# PDF 파일 경로 지정
file_path = "/path/to/your/pdf/financial_report.pdf"
# PDF에서 테이블 읽기 (페이지 번호 지정 가능)
tables = camelot.read_pdf(file_path, pages="1")
# 발견된 테이블 수 출력
print(f"Total tables found: {len(tables)}")
# 첫 번째 테이블 데이터 출력
print(tables[0].df)
# 첫 번째 테이블을 CSV로 저장
output_csv = "quarterly_revenue.csv"
tables[0].to_csv(output_csv)
print(f"Table saved to {output_csv}")
📝 단계별 설명
1. PDF 파일 경로 설정 📂
먼저, PDF 파일의 위치를 찾아 경로를 복사합니다.
예: /path/to/your/pdf/financial_report.pdf
코드 편집기에 해당 경로를 붙여넣으면 됩니다.
2. 테이블 추출 🛠️
camelot.read_pdf() 함수에 파일 경로와 페이지 번호를 지정하면 테이블 데이터를 추출합니다.
3. 데이터 확인 🔍
tables[0].df를 통해 추출된 첫 번째 테이블 데이터를 확인할 수 있습니다. 추출된 데이터를 바로 출력하거나 CSV 파일로 저장할 수 있습니다. quarterly_revenue.csv 파일에 테이블 데이터가 저장됩니다. 이를 엑셀로 열거나 추가 분석에 활용할 수 있습니다.
✨ 결론
Camelot은 PDF에서 테이블 데이터를 빠르게 추출하고 활용할 수 있는 강력한 도구입니다. 📄
반응형
'프로그래밍 언어(Programming Languages) > 파이썬(Python)' 카테고리의 다른 글
[파이썬 (Python)] If/Else: 파이썬 제어 흐름의 새로운 접근법 🐍✨ (0) | 2025.01.25 |
---|---|
[Python 파이썬] Drawdata로 데이터셋 직접 그려보기 🖌️: 데이터 과학자가 꼭 알아야 할 꿀팁! (0) | 2025.01.21 |
[파이썬 Python]🧑💻 파이썬으로 이해하는 동시성, 스레딩, 병렬 처리 🛠️ (1) | 2025.01.16 |
[파이썬 Python] Python Celery로 작업 스케줄링과 비동기 처리 쉽게 배우기 ⏰ (1) | 2025.01.15 |
[파이썬 Python] 🐍 Python 3.14 릴리스: 꼭 알아야 할 새로운 5가지 기능 ✨ (0) | 2025.01.14 |