Data Science

Data Science

빅데이터 처리 기본 패턴 | 맵리듀스 기본 로직 | 하둡, 스파크 개요

빅데이터란? 빅데이터란 디지털 환경에서 발생하는 대량(수십 테라바이트)의 데이터를 말한다. 데이터 그 자체의 의미도 있지만 기존 데이터베이스 관리 도구의 능력을 넘어 데이터에서 가치를 추출하고 결과를 분석하는 기술을 의미하기도 한다. 이러한 빅데이터를 처리하기 위한 방법으로는 병렬 컴퓨팅 또는 분산 컴퓨팅의 사용과 클러스터 컴퓨팅의 사용 등이 있다. 분산환경의 빅데이터 처리 ➡ 병렬 컴퓨팅(Parallel Computing) 한 대의 컴퓨터 안에서 CPU 코어를 여러 개 사용해서 한 대의 컴퓨터가 처리하는 데이터의 총량과 처리속도를 증가시키는 것이다. 이와 관련해서 멀티 프로세스, 멀티 스레드 개념이 중요하게 다뤄진다. - 멀티 프로세스 멀티 프로세스는 2개 이상의 프로세스를 사용 것이다. 프로세스는 컴..

토오오끼
'Data Science' 카테고리의 글 목록