IT 개인학습52 🔥 Firecrawl 완전정복: 웹 자동화 & AI 추출 도구 정리 웹페이지 크롤링, 콘텐츠 추출, 구조화 데이터 분석까지Firecrawl 하나로 끝내는 웹 자동화 도구 가이드🔧 Firecrawl란?Firecrawl은 웹 데이터를 효율적으로 수집하고 가공하는 데 특화된 AI 기반 도구입니다. 단순한 크롤링뿐 아니라, LLM을 활용한 구조화 정보 추출, 검색 기반 콘텐츠 요약, 심층 리서치까지 가능합니다.🛠️ 주요 기능 한눈에 보기도구 이름주요 기능추천 사용 시점주의 사항사용 예시firecrawl_scrape특정 URL의 콘텐츠 추출 (Markdown, HTML 등)단일 페이지 대상여러 URL 대상일 땐 batch_scrape 사용{"url": "https://example.com", "formats": ["markdown"]}firecrawl_map웹사이트의 전체 U.. 2025. 6. 2. 🔍 왜 직접 접근(크롤링)이 아닌 API/서비스를 쓰는가? ✅ 1. 법적 리스크 회피대부분의 뉴스 사이트는 이용약관에서 크롤링을 금지하고 있어요.robots.txt에서 허용되더라도, 약관 위반 시 법적 책임을 물을 수 있습니다.반면, Firecrawl, NewsData.io, Serper.dev 등은 공식 API나 검색 엔진을 통한 접근이므로 안전합니다. ✅ 2. 속도 + 구조 통일성직접 접근 시:뉴스 사이트마다 구조가 다름 (html tag, class name 등)구조 변경되면 크롤링 코드도 자주 수정해야 함API는 구조가 통일되어 있고 포맷 일관성 유지가 쉽습니다. ✅ 3. 토큰 최적화 + 요약 최적화Firecrawl은 이미 요약된 정보도 포함해서 반환하기 때문에, GPT에 보내는 토큰이 절약됩니다.직접 HTML 파싱하면, 본문 길이 조절이나 불필요한 정보.. 2025. 5. 29. 뭐가 이렇게 인증 절차가 많은걸까?🥴 자동화의 첫 관문, 왜 이렇게 복잡한 거야?n8n에 Gmail이나 Google Calendar를 연결하려고 했을 때, 혹은 Oracle Cloud에 n8n을 배포하려고 했을 때 느꼈던 첫 감정은 딱 하나였다."와, 왜 이렇게 해야 할 게 많아?"처음엔 그냥 이메일 한 통 자동화하거나, 일정을 자동으로 추가하고 싶은 거였는데 말이다. 단지 자동으로 처리하고 싶다는 의도였을 뿐인데, 그걸 구현하려면 엄청난 절차를 거쳐야 했다. Google Developer Console에서 앱 등록하고, OAuth 설정하고, 인증 URL 지정하고, 다시 동의 화면 설정하고…"왜 이렇게 복잡하게 만든 거지?"라는 의문이 들었다.하지만 이 모든 과정의 의미를 ‘은행 금고에 들어가려는 로봇 비서’라는 비유로 풀어보니, 완전히 납.. 2025. 5. 22. 리눅스 터미널 - nano 🧾 nano란?nano는 리눅스 터미널에서 실행되는 텍스트 편집기입니다.쉽게 말해, "메모장"의 터미널 버전이에요.언제 사용하나요?리눅스에서 파일을 만들거나 수정할 때 사용합니다. 예를 들어:nano docker-compose.yml→ 도커 설정 파일 작성할 때nano ~/.bashrc→ 환경 변수 수정할 때nano /etc/nginx/nginx.conf→ 서버 설정 수정할 때📚 기본 단축키 (파일 하단에 보이는 단축키들) 단축키기능 설명Ctrl + O저장 (Write Out)Ctrl + X종료 (Exit)Ctrl + K현재 줄 잘라내기 (Cut)Ctrl + U붙여넣기 (Paste)Ctrl + W특정 단어 찾기 (Search) 왜 nano를 쓰나요?다른 편집기보다 간단하고 직관적기본적으로 대부분의 L.. 2025. 5. 21. 💻 컴퓨터 재부팅 시 자동으로 ngrok 실행하기 (PM2 + 작업 스케줄러 활용) 로컬에서 실행 중인 n8n을 외부에서 접근하려면 ngrok을 통해 터널링을 해야 합니다.하지만 매번 재부팅 후 ngrok을 다시 실행해야 하는 번거로움을 겪고 있다면,작업 스케줄러 + PM2를 활용해 자동 실행되는 환경을 만들어 보세요!🛠 작업 순서1️⃣ 작업 스케줄러(Task Scheduler) 등록Win + R → taskschd.msc 입력 후 실행좌측 메뉴에서 "작업 만들기" 클릭이름은 자유롭게 설정 (Auto Ngrok, ngrok boot, 등)보안 옵션에서 가장 높은 권한으로 실행 체크2️⃣ 트리거 설정탭에서 [트리거] → 새로 만들기작업 시작 조건: 로그온할 때 선택확인 클릭3️⃣ 동작 설정[동작] → 새로 만들기 클릭프로그램/스크립트:아래 명령어로 pm2의 경로를 확인합니다:where .. 2025. 5. 9. 💡 Node.js와 PM2로 ngrok을 상시 실행하는 방법 ngrok은 로컬 서버를 외부에 노출시킬 수 있도록 해주는 매우 유용한 도구입니다. 하지만 일반적으로 터미널에서 실행하면 창을 닫거나 컴퓨터를 재시작할 경우 ngrok도 꺼지게 됩니다. 이 문제를 해결하기 위해 Node.js의 프로세스 관리자 PM2를 사용하면 ngrok을 백그라운드에서 상시 가동되도록 유지할 수 있습니다. 1. PC가 켜져있는 한 ngrok이 상시 가동되도록 설정ngrok.exe를 pm2로 관리하면 터미널 종료와 상관없이 계속 실행할 수 있습니다.📦 준비물Node.js 설치: https://nodejs.org/npm 설치 시 기본 포함됨PM2 설치:npm install -g pm2 2. PM2에 ngrok 등록 시 발생하는 문제와 해결❗ 오류: [PM2][ERROR] Script no.. 2025. 5. 9. AI의 똑똑함을 완성하는 두 축 - MCP와 RAG란? 1. 한눈에 이해하는 차이점 MCP (Model Context Protocol)RAG (Retrieval-Augmented Generation)설명사용자 정보와 맥락을 기억하고 반영하는 기술외부 문서나 데이터베이스에서 정보를 검색해 답변 생성초점“누구에게 말하고 있는가?”“무엇에 대해 말하고 있는가?”정보 출처사용자 이름, 직무, 과거 질문 등PDF, 위키, DB, 내부 문서 등대표 예시“kiimy님은 데이터팀이시죠?”“A 정책에 대한 사내 문서 내용을 기반으로 요약드릴게요.” MCP (Model Context Protocol)→ “사용자 중심 정보”를 기억하고 전달해주는 표준 프로토콜(예: 이 사람은 Kiimy, 데이터팀, 과거에 이런 질문을 했었음)RAG (Retrieval-Augmented Gene.. 2025. 5. 7. Github, 유용한 윈도우 app https://www.itworld.co.kr/news/295987 “상상하던 기능이 현실로” 깃허브에 있는 유용한 윈도우 앱 28가지 깎아내리려는 의도는 없다. 그러나 마이크로소프트 스토어는 새로운 윈도우 소프트웨어를 발견하기 즐거운 장소가 아니다. 워드, 어도비 포토 www.itworld.co.kr 2023. 6. 23. 이전 1 2 3 4 ··· 7 다음