rsync란Remote Sync(원격 동기화)의 약자로 이름처럼 한 위치(로컬/원격) 의 파일을 다른 위치로 동기화하는 데 쓰인다.로컬 시스템끼리 동기화하거나, 네트워크를 통해 원격 서버와 동기화할 수 있다.단순 복사가 아니라, 이미 있는 파일과 비교해서 변화된 부분만 전송하는 효율적인 방식이라 빠르고 대역폭 절약에 유리하다. rsync 장점존에 있는 파일과 비교해서 변경된 부분만 보내므로 전체를 매번 다시 복사하지 않는다로컬 ↔ 원격 어디든 사용 가능하다SSH 등 보안 연결로 파일 전송이 가능하다 rsync를 crontab에 등록하여 주기적으로 실행되도록 설정함으로써, 변경된 파일만 증분 전송하는 효율적인 백업 자동화 환경을 구축할 수 있다. 1. cron, rsync 설치 및 실행sudo apt up..
오늘날 데이터 기반의 의사결정과 서비스 향상을 위해 데이터 인프라 구축은 필수적이다. 그 중심에는 다양한 소스로부터 데이터를 수집하고 가공하여 목적지로 전달하는 데이터 파이프라인이 자리 잡고 있다. 1. 데이터 파이프라인이란?이는 통계 분석, 리포팅, 머신러닝 분석을 위한 필수적인 선행 과정이며, 대량의 데이터를 안정적으로 저장하고 관리하기 위한 빅데이터 아키텍처의 근간이라고 할 수 있다.◾ 주요 구성 요소와 단계일반적인 파이프라인은 데이터가 생성되는 소스(Sources), 이를 수집하고 변환하는 추출 및 변환(Ingestion & Transformation), 데이터를 보관하는 저장(Storage), 그리고 최종적으로 결과를 도출하는 분석 및 출력(Output) 단계로 구성된다. 소스는 MySQL 같은..
airflow를 사용하다가 DAG 코드와 설정값을 어떻게 분리해야 할지 고민이 될 때가 있었다.이런 고민을 해결하기 위해 airflow는 Variable이라는 기능을 제공하고 있다.https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/variables.html Variables — Airflow 3.1.6 Documentation airflow.apache.org하지만 Variable은 잘 쓰면 약, 잘못 쓰면 장애의 원인이 되기도 하는 만큼 개념과 역할, 올바른 사용법 등을 숙지하고 있어야 한다. 1. Airflow에서 Variable이란airflow variable은 airflow metadata DB에 저장되는 전역 key-val..
cloudflare에서 구매했던 도메인으로 사이드 프로젝트를 배포하기 위해 cloudflare tunnel을 사용해 내 fastapi를 연결했다. 아래 과정은 전부 fastapi 실행 경로에서 실행하였다. 1. Cloudflare Tunnel 설치curl -L https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb -o cloudflared.debsudo dpkg -i cloudflared.deb위 명령어를 이용해서 wsl2에서 cloudflare tunnel을 설치 해 준다. 2. 설치 확인cloudflared --version > cloudflared version 2025.11.1 (..
최근에 사이드프로젝트를 진행하면서 내 pc를 서버로 해서 배포를 해 보려고 했는데 개인 pc ip 주소와 포트를 공개해야 한다는 부담이 있어서 방법을 찾던 중 cloudflare로 배포가 가능하다는 것을 알게 됐다.무료 플랜으로도 충분히 배포가 가능하다고 해서 먼저 cloudflare에서 도메인부터 구매했다. 1. 회원 가입https://www.cloudflare.com/ko-kr/products/registrar/ Cloudflare Registrar | 도메인 등록 및 갱신Cloudflare는 Cloudflare Registrar를 통해 간편한 원가 도메인 등록 및 갱신 서비스를 제공합니다. 추가 수수료 없이 도메인을 구매, 이전 및 관리하세요.www.cloudflare.com위 링크에서 회원가입을..
물리적으로 다른 서버에서 airflow를 설정 한 후 DB 초기화도 하고 Webserver 및 scheduler를 실행했는데 url을 통해 접속을 하려고 했으나 아래와 같이 접속이 안되어서 당황한 적이 있다.이럴 땐 가장 먼저 확인 해야 할 것이 config이다. 1. config base url 수정airflow.cfg 파일에서 base_url이 접속하고자 하는 IP로 제대로 작성이 되어 있는지 확인을 해 봐야 한다.airflow config list위 명령어를 통해 config를 확인 했을 때 [api]부분에서 base_url이 제대로 수정되었는지 확인 후 수정이 안되어 있다면 IP 수정을 해 주면 된다.export AIRFLOW__API__BASE_URL=http://:8080source ~/.ba..
Airflow에서 DAG(Directed Acyclic Graph)는 워크플로우를 정의하는 핵심 개념으로 어떤 작업(Task)들이 어떤 순서로 실행되어야 하는지를 나타내는 설계도이다. 기본 DAG 작성법은 아래와 같다.module 추가defualt arguments 추가DAG 작성 (id, args, schedul_interval)Task 정의Dependencies 연결 module 추가from airflow import DAG # airflow DAG 모듈from airflow.providers.standard.operators.empty import EmptyOperatorfrom airflow.providers.standard.operators.p..
Airflow 설치 방법에는 크게 두가지가 있다.1. docker compose로 쉽고 간단하게 설치하기 -> https://iambeginnerdeveloper.tistory.com/3222. 가상환경 내에 airflow 설치하여 환경 셋팅하기 이번엔 가상환경 내에 airflow를 설치하는 방법을 정리 하려고 한다. 1. 가상환경 생성python3.10 -m venv env-airflow 2. airflow 설치pip install apache-airflow 3. airflow 명령어 및 config 확인airflowcfg는 airflow 설정 파일로 airflow.cfg 파일 내용을 아래 명령어로 확인 가능하다.airflow config list 4. DB 초기화→ airflow에서 사용하는 db는 ..
Airflow 설치 방법에는 크게 두가지가 있다.1. docker compose로 쉽고 간단하게 설치하기2. 가상환경 내에 airflow 설치하여 환경 셋팅하기 우선 간단한 docker compose로 설치하는 방법부터 정리하려고 한다. 1. docker installRequirementsLinux (Ubuntu 20.04 +)Install Docker using the aptInstall Docker Engine on Ubuntu참고 링크 [Docker, Ubuntu 22.04] 도커 설치부터 Nvidia-toolkit까지딥러닝 서버를 만들기 위한 도커 설정 과정Ubuntu server를 설치한다.Docker를 설치한다Nvidia driver를 설치한다Nvidia-container tooklit을 설..
Airflow란파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크로 Airbnb에서 시작한 Apache 오픈소스 프로젝트이다.→ 가장 많이 사용되는 데이터 파이프라인 관리 및 작성 프레임워크로 python 코드로 workflow를 작성하고 스케줄링, 모니터링 하는 플랫폼이며 데이터 파이프라인 스케줄링을 지원한다. (한 ETL 실행 끝나면 다음 ETL 실행)→ 웹 UI를 제공하며 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합하는 모듈도 제공하고 있다.https://airflow.apache.org/docs/ DocumentationPlatform created by the community to programmatically author, schedule and monitor workflows.a..