본문 바로가기
728x90

메모장171

Deploy 1. 마트화 쿼리 작성(= Jupyter에서 제공할 테이블 코드 작성) 2. Github에 pyspark, DAG 코드 -> PR 리뷰어 설정 후 Slack PR확인 요청, 확인 후 Merge = 다른 배치 영향안주는지 확인해보는 것이 좋음 3. DAG에 추가 수정 있을 경우 Jenkins 배포(배포 전 release 최신버전 필요) Pyspark 쿼리만 변경 시 x DAG 란? 데이터파이프라인을 의미하는 하나의 단위 - 하나 이상의 Task를 가지고 있고, 각각의 task들은 실행 순서를 가지고 실행 Deploy 순서 1. S3에 pyspark script 업로드(= Airflow는 S3에 있는 pyspark 파일을 읽어서 작업) 경로 : Croquis-data-emr-da > application >.. 2022. 5. 7.
Jenkins 젠킨스 Jenkins - CI/CD 툴 CI/CD - 애플리케이션 개발 단계를 자동화하여 애플리케이션을 보다 짧은 주기로 고객에게 제공하는 방법 Continuous Integration(개발자를 위한 자동화 프로세스인 지속적인 통합하는 것) Continuous Delivery(지속적인 서비스 제공 및 지속적인 배포가능한 상태를 유지하는 것) 1. 자동화된 방식으로 연속적인 데이터 통합 작업을 실행할 수 있는 Java 기반 오픈 소스 서버입니다. 2. 데이터 통합을 촉진하고 소프트웨어 프로젝트를 위한 데이터의 안전한 전달을 보장합니다. 또한 프로젝트 구축, 테스트 및 배포와 관련된 다양한 작업을 자동화합니다. 다수의 개발자들이 하나의 프로그램을 개발할 때 버전 충돌을 방지하기 위해 각자 작업한 내용을 공유영역에 .. 2022. 5. 7.
SQL SQL 읽히는 순서 FROM : 각 테이블 확인 ON : 조인 조건 확인 JOIN : 테이블 조인 (병합) WHERE : 데이터 추출 조건 확인 GROUP BY : 특정 칼럼으로 데이터 그룹화 HAVING : 그룹화 이후 데이터 추출 조건 확인 SELECT : 데이터 추출 DISTINCT : 중복 제거 ORDER BY : 데이터 정렬 CASE조건 SELECT Price, IF (Price > 30, 'Expensive', 'Cheap'), CASE WHEN Price < 20 THEN '저가' WHEN Price BETWEEN 20 AND 30 THEN '일반' ELSE '고가' END FROM Products; ## switch 문 방식 ''' 조건을 부여할 수는 없고 컬럼의 값만 체크하여 값을 반환할.. 2022. 5. 7.
Airflow Airflow - workflow관리 툴 Airflow는 Python 코드로 워크플로우(workflow)를 작성하고, 스케쥴링, 모니터링 하는 플랫폼입니다. Airflow를 통해서 데이터엔지니어링의 ETL 작업을 자동화하고, DAG(Directed Acyclic Graph) 형태의 워크플로우 작성이 가능합니다. 이를 통해 더 정교한 dependency를 가진 파이프라인을 설정할 수 있습니다. 또한 AWS, GCP 모두 Airflow managed service를 제공할 정도로 전세계 데이터팀들에게 널리 사용되고 있으며 그만큼 넓은 커뮤니티를 형성하고 있습니다. Apache Airflow는 자동화된 워크플로를 예약하는 기능도 제공합니다. 즉, 사람의 개입 없이 워크플로가 지정된 시간에 실행됩니다. 따라서 .. 2022. 5. 7.
AWS Cloud Pratitioner 시험 정리, 최종합격 덤프문제 : https://www.awslagi.com/aws-certified-cloud-practitioner/ AWS 시험 평가: https://explore.skillbuilder.aws/learn/course/1928/play/6248/aws-cloud-practitioner-essentials-korean Self-paced digital training on AWS - AWS Skill Builder Loading your learning experience... explore.skillbuilder.aws AWS Certified Cloud Practitioner Exam Dumps Questions Ver-2022 It's free for all. Include 100% real ques.. 2022. 5. 5.
AWS Well-Architected 프레임워크 Well-Architected 프레임워크 AWS 아키텍트, 개발자 및 사용자가 애플리케이션을 위해 를 구현하도록 설계되었습니다. 이 프레임워크는 다섯 개의 핵심 요소로 구성되어 아키텍처 검토 및 설계에 대한 일관된 접근 방식을 보장합니다. 1. 운영 우수성입니다. 비즈니스 가치를 제공하기 위한 시스템 실행 및 모니터링과 이를 통한 프로세스 및 절차 개선에 초점을 맞춥니다. 예를 들어 배포 파이프 라인을 사용한 변경 자동화 또는 트리거된 이벤트에 대한 응답입니다. 시스템을 실행 및 모니터링하여 비즈니스 가치를 제공하고 지속적으로 지원 프로세스 및 절차를 개선하는 능력입니다. 클라우드에서의 운영 우수성을 위한 설계 원칙에는 코드로 작업 수행, 문서에 주석 추가, 실패 예측, 되돌릴 수 있는 소규모 변경을 자.. 2022. 4. 26.
AWS Snow 패밀리 일부 고객이 AWS로 데이터를 가져와야 하고 이들은 대부분 효율적이고 시기 적절한 방식으로 이 작업을 수행하려고 합니다. 통상적인 경로는 단순히 인터넷을 통해 필요한 데이터를 복사하는 것입니다. Direct Connect 라인이 있다면 더욱 좋고요. 그러나 일반적으로 대역폭이라는 제한 사항이 있고 이 작업은 며칠, 몇 주 또는 몇 달이 걸릴 수 있습니다. 예를 들어 전용 1Gbps 네트워크 연결에서는 이론적으로 약 100일 동안 100페타바이트의 데이터를 이동할 수 있고 실제로는 이보다 오래 걸리고 비용도 더 많이 들 가능성이 있습니다. AWS Snow 패밀리 - 이런 종류가 있다고만 알고 넘어가자 - AWS와 고객 간에 최대 엑사바이트 규모의 데이터를 물리적으로 이동할 수 있는 물리적 디바이스 모음입니.. 2022. 4. 26.
Cloud Adoption Framework, CAF / 6R <Migration> Cloud Adoption Framework, CAF - AWS로 신속하면서도 원활하게 마이그레이션할 수 있도록 조언을 제공하기 위해 존재합니다. 이 프레임워크는 지침을 마이그레이션에 관여해야 하는 다양한 유형의 사람에 초점을 맞춰 가이드를 6개 영역으로 구성합니다. - HR 팀은 인력 관점에 해당 - 비즈니스 또는 재무 분석가라면 비즈니스 관점에 해당 , 클라우드 아키텍트는 플랫폼 관점에 해당 비즈니스 또는 재무 분석가라면 비즈니스 관점에 해당 각 관점은 역량 및 프로세스의 격차를 밝히는 데 사용되며 이러한 격차는 입력으로 기록됩니다. 이러한 입력은 AWS Cloud Adoption Framework 실행 계획을 작성하기 위한 토대로 사용됩니다. 그런 다음 이 실행 계획은 조직의 클라우드 여정에서 변화.. 2022. 4. 26.