MLOps/Data Engineering

MLOps/Data Engineering

rsync | rsync란?, crontab + rsync 사용해서 주기적으로 파일 백업하기

rsync란Remote Sync(원격 동기화)의 약자로 이름처럼 한 위치(로컬/원격) 의 파일을 다른 위치로 동기화하는 데 쓰인다.로컬 시스템끼리 동기화하거나, 네트워크를 통해 원격 서버와 동기화할 수 있다.단순 복사가 아니라, 이미 있는 파일과 비교해서 변화된 부분만 전송하는 효율적인 방식이라 빠르고 대역폭 절약에 유리하다. rsync 장점존에 있는 파일과 비교해서 변경된 부분만 보내므로 전체를 매번 다시 복사하지 않는다로컬 ↔ 원격 어디든 사용 가능하다SSH 등 보안 연결로 파일 전송이 가능하다 rsync를 crontab에 등록하여 주기적으로 실행되도록 설정함으로써, 변경된 파일만 증분 전송하는 효율적인 백업 자동화 환경을 구축할 수 있다. 1. cron, rsync 설치 및 실행sudo apt up..

MLOps/Data Engineering

ETL과 ELT, DL(Data Lake)과 DW(Data Warehouse)

오늘날 데이터 기반의 의사결정과 서비스 향상을 위해 데이터 인프라 구축은 필수적이다. 그 중심에는 다양한 소스로부터 데이터를 수집하고 가공하여 목적지로 전달하는 데이터 파이프라인이 자리 잡고 있다. 1. 데이터 파이프라인이란?이는 통계 분석, 리포팅, 머신러닝 분석을 위한 필수적인 선행 과정이며, 대량의 데이터를 안정적으로 저장하고 관리하기 위한 빅데이터 아키텍처의 근간이라고 할 수 있다.◾ 주요 구성 요소와 단계일반적인 파이프라인은 데이터가 생성되는 소스(Sources), 이를 수집하고 변환하는 추출 및 변환(Ingestion & Transformation), 데이터를 보관하는 저장(Storage), 그리고 최종적으로 결과를 도출하는 분석 및 출력(Output) 단계로 구성된다. 소스는 MySQL 같은..

토오오끼
'MLOps/Data Engineering' 카테고리의 글 목록