본문 바로가기
IT 개인학습/Memo

🔍 왜 직접 접근(크롤링)이 아닌 API/서비스를 쓰는가?

by 그때 그때 끄적 2025. 5. 29.
반응형

✅ 1. 법적 리스크 회피

  • 대부분의 뉴스 사이트는 이용약관에서 크롤링을 금지하고 있어요.
  • robots.txt에서 허용되더라도, 약관 위반 시 법적 책임을 물을 수 있습니다.
  • 반면, Firecrawl, NewsData.io, Serper.dev 등은 공식 API나 검색 엔진을 통한 접근이므로 안전합니다.

 

✅ 2. 속도 + 구조 통일성

  • 직접 접근 시:
    • 뉴스 사이트마다 구조가 다름 (html tag, class name 등)
    • 구조 변경되면 크롤링 코드도 자주 수정해야 함
  • API는 구조가 통일되어 있고 포맷 일관성 유지가 쉽습니다.

 

✅ 3. 토큰 최적화 + 요약 최적화

  • Firecrawl은 이미 요약된 정보도 포함해서 반환하기 때문에, GPT에 보내는 토큰이 절약됩니다.
  • 직접 HTML 파싱하면, 본문 길이 조절이나 불필요한 정보 필터링도 수작업 필요

 

✅ 4. 중복/필터링 처리 쉬움

  • API 기반은 뉴스 출처, 날짜, 중복, 언어 필터링이 간편
  • 직접 접근은 이 필터링을 코드로 직접 구현해야 함

 

✍️ 언제 직접 크롤링이 유리할까?

상황  설명
💡 특정 언론사 기사만 수집 예: 조선일보, 블룸버그 등 타겟이 명확할 때
💡 API가 너무 비싸거나 제한적일 때 많은 양을 무료로 수집하고 싶을 때
💡 기사 외의 데이터가 필요할 때 예: 댓글, 사이드바, 그래프 등

💡 결론

목적 추천 방식
초반 테스트 / 개인 용도 직접 크롤링 OK (robots.txt 확인 必)
자동화 서비스 / 외부 사용자 제공 Firecrawl, NewsData.io, Serper.dev 권장

 

💡 보완 팁

  • ❓HTML 파싱은 HTML Extract 노드로 간단하게 가능하나, 복잡한 DOM이면 XPath를 써야 함
  • ✨ 오픈 API가 있는 경우 (예: 뉴스 API, Google News RSS)는 되도록 API 우선
  • 📁 반복 크롤링 시 Read Binary File → HTML 파싱 → 데이터 정제도 가능
반응형

댓글