본문 바로가기

IT 개인학습/Memo

🔍 왜 직접 접근(크롤링)이 아닌 API/서비스를 쓰는가?

by 그때 그때 끄적 2025. 5. 29.

✅ 1. 법적 리스크 회피

대부분의 뉴스 사이트는 이용약관에서 크롤링을 금지하고 있어요.
robots.txt에서 허용되더라도, 약관 위반 시 법적 책임을 물을 수 있습니다.
반면, Firecrawl, NewsData.io, Serper.dev 등은 공식 API나 검색 엔진을 통한 접근이므로 안전합니다.

✅ 2. 속도 + 구조 통일성

직접 접근 시:
- 뉴스 사이트마다 구조가 다름 (html tag, class name 등)
- 구조 변경되면 크롤링 코드도 자주 수정해야 함
API는 구조가 통일되어 있고 포맷 일관성 유지가 쉽습니다.

✅ 3. 토큰 최적화 + 요약 최적화

Firecrawl은 이미 요약된 정보도 포함해서 반환하기 때문에, GPT에 보내는 토큰이 절약됩니다.
직접 HTML 파싱하면, 본문 길이 조절이나 불필요한 정보 필터링도 수작업 필요

✅ 4. 중복/필터링 처리 쉬움

API 기반은 뉴스 출처, 날짜, 중복, 언어 필터링이 간편
직접 접근은 이 필터링을 코드로 직접 구현해야 함

✍️ 언제 직접 크롤링이 유리할까?

상황	설명
💡 특정 언론사 기사만 수집	예: 조선일보, 블룸버그 등 타겟이 명확할 때
💡 API가 너무 비싸거나 제한적일 때	많은 양을 무료로 수집하고 싶을 때
💡 기사 외의 데이터가 필요할 때	예: 댓글, 사이드바, 그래프 등

💡 결론

목적	추천 방식
초반 테스트 / 개인 용도	직접 크롤링 OK (robots.txt 확인 必)
자동화 서비스 / 외부 사용자 제공	Firecrawl, NewsData.io, Serper.dev 권장

💡 보완 팁

❓HTML 파싱은 HTML Extract 노드로 간단하게 가능하나, 복잡한 DOM이면 XPath를 써야 함
✨ 오픈 API가 있는 경우 (예: 뉴스 API, Google News RSS)는 되도록 API 우선
📁 반복 크롤링 시 Read Binary File → HTML 파싱 → 데이터 정제도 가능

'IT 개인학습 > Memo' 카테고리의 다른 글

🔥 Firecrawl 완전정복: 웹 자동화 & AI 추출 도구 정리 (0)	2025.06.02
뭐가 이렇게 인증 절차가 많은걸까?🥴 (1)	2025.05.22
리눅스 터미널 - nano (0)	2025.05.21
💻 컴퓨터 재부팅 시 자동으로 ngrok 실행하기 (PM2 + 작업 스케줄러 활용) (0)	2025.05.09
💡 Node.js와 PM2로 ngrok을 상시 실행하는 방법 (0)	2025.05.09

댓글

티스토리툴바