반응형
✅ 1. 법적 리스크 회피
- 대부분의 뉴스 사이트는 이용약관에서 크롤링을 금지하고 있어요.
- robots.txt에서 허용되더라도, 약관 위반 시 법적 책임을 물을 수 있습니다.
- 반면, Firecrawl, NewsData.io, Serper.dev 등은 공식 API나 검색 엔진을 통한 접근이므로 안전합니다.
✅ 2. 속도 + 구조 통일성
- 직접 접근 시:
- 뉴스 사이트마다 구조가 다름 (html tag, class name 등)
- 구조 변경되면 크롤링 코드도 자주 수정해야 함
- API는 구조가 통일되어 있고 포맷 일관성 유지가 쉽습니다.
✅ 3. 토큰 최적화 + 요약 최적화
- Firecrawl은 이미 요약된 정보도 포함해서 반환하기 때문에, GPT에 보내는 토큰이 절약됩니다.
- 직접 HTML 파싱하면, 본문 길이 조절이나 불필요한 정보 필터링도 수작업 필요
✅ 4. 중복/필터링 처리 쉬움
- API 기반은 뉴스 출처, 날짜, 중복, 언어 필터링이 간편
- 직접 접근은 이 필터링을 코드로 직접 구현해야 함
✍️ 언제 직접 크롤링이 유리할까?
상황 | 설명 |
💡 특정 언론사 기사만 수집 | 예: 조선일보, 블룸버그 등 타겟이 명확할 때 |
💡 API가 너무 비싸거나 제한적일 때 | 많은 양을 무료로 수집하고 싶을 때 |
💡 기사 외의 데이터가 필요할 때 | 예: 댓글, 사이드바, 그래프 등 |
💡 결론
목적 | 추천 방식 |
초반 테스트 / 개인 용도 | 직접 크롤링 OK (robots.txt 확인 必) |
자동화 서비스 / 외부 사용자 제공 | Firecrawl, NewsData.io, Serper.dev 권장 |
💡 보완 팁
- ❓HTML 파싱은 HTML Extract 노드로 간단하게 가능하나, 복잡한 DOM이면 XPath를 써야 함
- ✨ 오픈 API가 있는 경우 (예: 뉴스 API, Google News RSS)는 되도록 API 우선
- 📁 반복 크롤링 시 Read Binary File → HTML 파싱 → 데이터 정제도 가능
반응형
'IT 개인학습 > Memo' 카테고리의 다른 글
🔥 Firecrawl 완전정복: 웹 자동화 & AI 추출 도구 정리 (0) | 2025.06.02 |
---|---|
뭐가 이렇게 인증 절차가 많은걸까?🥴 (1) | 2025.05.22 |
리눅스 터미널 - nano (0) | 2025.05.21 |
💻 컴퓨터 재부팅 시 자동으로 ngrok 실행하기 (PM2 + 작업 스케줄러 활용) (0) | 2025.05.09 |
💡 Node.js와 PM2로 ngrok을 상시 실행하는 방법 (0) | 2025.05.09 |
댓글