Airflow

Airflow

Airflow | url 접속 시 접속이 되지 않을 때, airflow config 수정, airflow db 초기화, Ooops! Something bad has happened. For security reasons detailed information about the error is not logged.

물리적으로 다른 서버에서 airflow를 설정 한 후 DB 초기화도 하고 Webserver 및 scheduler를 실행했는데 url을 통해 접속을 하려고 했으나 아래와 같이 접속이 안되어서 당황한 적이 있다.이럴 땐 가장 먼저 확인 해야 할 것이 config이다. 1. config base url 수정airflow.cfg 파일에서 base_url이 접속하고자 하는 IP로 제대로 작성이 되어 있는지 확인을 해 봐야 한다.airflow config list위 명령어를 통해 config를 확인 했을 때 [api]부분에서 base_url이 제대로 수정되었는지 확인 후 수정이 안되어 있다면 IP 수정을 해 주면 된다.export AIRFLOW__API__BASE_URL=http://:8080source ~/.ba..

Airflow

Airflow | Airflow DAG 작성하기, 기본 DAG 작성법, DAG 실행법

Airflow에서 DAG(Directed Acyclic Graph)는 워크플로우를 정의하는 핵심 개념으로 어떤 작업(Task)들이 어떤 순서로 실행되어야 하는지를 나타내는 설계도이다. 기본 DAG 작성법은 아래와 같다.module 추가defualt arguments 추가DAG 작성 (id, args, schedul_interval)Task 정의Dependencies 연결 module 추가from airflow import DAG # airflow DAG 모듈from airflow.providers.standard.operators.empty import EmptyOperatorfrom airflow.providers.standard.operators.p..

Airflow

Airflow | Airflow 설치, 가상 환경 내 Airflow 설치하기

Airflow 설치 방법에는 크게 두가지가 있다.1. docker compose로 쉽고 간단하게 설치하기 -> https://iambeginnerdeveloper.tistory.com/3222. 가상환경 내에 airflow 설치하여 환경 셋팅하기 이번엔 가상환경 내에 airflow를 설치하는 방법을 정리 하려고 한다. 1. 가상환경 생성python3.10 -m venv env-airflow 2. airflow 설치pip install apache-airflow 3. airflow 명령어 및 config 확인airflowcfg는 airflow 설정 파일로 airflow.cfg 파일 내용을 아래 명령어로 확인 가능하다.airflow config list 4. DB 초기화→ airflow에서 사용하는 db는 ..

Airflow

Airflow | Airflow 설치, Airflow docker compose로 설치하기

Airflow 설치 방법에는 크게 두가지가 있다.1. docker compose로 쉽고 간단하게 설치하기2. 가상환경 내에 airflow 설치하여 환경 셋팅하기 우선 간단한 docker compose로 설치하는 방법부터 정리하려고 한다. 1. docker installRequirementsLinux (Ubuntu 20.04 +)Install Docker using the aptInstall Docker Engine on Ubuntu참고 링크 [Docker, Ubuntu 22.04] 도커 설치부터 Nvidia-toolkit까지딥러닝 서버를 만들기 위한 도커 설정 과정Ubuntu server를 설치한다.Docker를 설치한다Nvidia driver를 설치한다Nvidia-container tooklit을 설..

Airflow

Airflow | Airflow란?, Airflow 구성 및 구조, 구동 요소

Airflow란파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크로 Airbnb에서 시작한 Apache 오픈소스 프로젝트이다.→ 가장 많이 사용되는 데이터 파이프라인 관리 및 작성 프레임워크로 python 코드로 workflow를 작성하고 스케줄링, 모니터링 하는 플랫폼이며 데이터 파이프라인 스케줄링을 지원한다. (한 ETL 실행 끝나면 다음 ETL 실행)→ 웹 UI를 제공하며 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합하는 모듈도 제공하고 있다.https://airflow.apache.org/docs/ DocumentationPlatform created by the community to programmatically author, schedule and monitor workflows.a..

토오오끼
'Airflow' 카테고리의 글 목록