본문 바로가기

airflow3

[Airflow] 비트코인 일일 분 봉 데이터 파이프라인 프로젝트 (작업편) 개요 이전 환경 설정 포스트는 아래 링크를 이용하면 된다. [Airflow] 비트코인 일일 분 봉 데이터 파이프라인 프로젝트 (환경 설정편) [Airflow] 비트코인 일일 분 봉 데이터 파이프라인 프로젝트 (환경 설정편) 개요 최근 Airflow에 대해서 공부해보며 데이터에 대해 간단한 파이프라인을 만들어 데이터베이스에 저장하는 프로젝트라도 직접 해보면 좋겠다 싶었다. 요즘 가격이 미친듯이 오르는 비트코인 bestech49.tistory.com 이 포스트에서는 실제 코딩을 통한 Upbit API 호출 및 데이터베이스 저장 과정을 다룬다. Upbit API 확인 분(Minute) 캔들 업비트 개발자 센터 docs.upbit.com 먼저 내가 사용할 API는 Upbit의 분봉 호출 API이다. 아주 친절하.. 2024. 3. 6.
[Airflow] DAG 개요에서 말한 것처럼 DAG는 자료구조 시간에 배운 Directed Acyclic Graph의 줄임말로 싸이클이 없는 그래프를 의미한다. Airflow에서의 DAG란 노드들이 Task로 이루어져있고, 이를 종속성과 관계로 구성해 전체 워크 플로우가 어떻게 실행되는지를 알려주는 역할을 한다. 즉, 작업의 흐름을 정의하는 구조이다. Task 그렇다면 DAG를 구성하는 Task는 무엇일까? Task는 말 그대로 워크 플로우 과정에서 해야하는 업무들을 의미한다. 이때 이들은 Operator라는 클래스의 인스턴스로 구현되며 실제로 실행되어 작업을 수행한다. 이때 Operator는 특정 행위를 할 수 있는 기능을 모은 클래스이다. Task는 데이터베이스에 쿼리를 실행하거나 Python 코드를 실행하거나 Bash 명.. 2024. 3. 4.
[Airflow] 개요 및 설치 방법 Airflow는 복잡한 워크 플로우와 데이터 처리 파이프라인을 구성 및 스케쥴링하고 모니터링하는데 특화된 오픈소스 Orchestration 플랫폼으로 Python으로 작성되어있다. Orchestration이란? PostgreSQL의 데이터를 불러와 Spark에서 작업한다던지, HDFS에 올린다던지 하는 솔루션과 솔루션과의 연계와 데이터 통신을 제어하는 것을 Orchestration이다. Airflow는 이러한 제어를 확장성있게 제공하기에 매우 큰 인기를 얻고 있는 중이다. Airflow란 💡 Airflow는 파이썬을 활용해 워크플로우를 만들고 관리할 수 있는 **오픈소스** 기반 워크플로우 관리 도구이다. 워크플로우란 업무의 단계를 의미한다. 예를 들어 아래와 같은 업무가 있다고 하자. API를 사용해 .. 2024. 3. 4.