자바와 파이썬으로 만드는 빅데이터 시스템 하둡, 카프카, 아파치 스파크로 연결하는 나만의 빅데이터 전처리 파이프라인 구현

정가

30,000 원

판매가

30,000 원

적립금

1,500 P

배송비

무료배송

배송일정

24시간 이내 배송 예정 배송일정안내

ISBN

9791192987057

쪽수 : 436쪽

황세규 | 제이펍 | 2023년 05월 08일

소득공제 가능도서 (자세히보기)

주문수량

책 소개

빅데이터 프로그래밍을 위한 최고의 입문서. 로컬에서 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두며, 빅데이터 사용과 구현방식의 다양성을 위해 이 책은 자바와 파이썬으로 실습 애플리케이션을 구현하고, 각 빅데이터 기술의 설치와 설정에 있어서도 윈도우 11과 우분투 22.04에서 작업을 수행하며, 마지막으로 통합 개발환경은 이클립스 IDE를 사용하여 단일 개발환경에서 이 모든 개발을 진행한다.

상세이미지

저자 소개

저자 및 역자소개 황세규 (지은이) 저자파일 신간알리미 신청 연세대학교에서 기계공학을 전공했고 동 대학원에서 석사학위를 취득하였다. 소프트웨어 사업을 천직으로 여기며 끊임없는 자기계발과 인사이트를 찾으려 하는 기술 작가다. 오픈소스 기술이 가져오는 열린 마음, 포용적이고 개방적인 영향력을 체험하며 오픈소스 관련 개발 언어와 서비스에 대한 서적을 집필하고 있다. 《Eclipse와 JBoss7을 이용한 Java 웹서비스 구축》(홍릉과학출판사), 《빅데이터 프로그래밍》(지앤선)을 집필하였다. 최근작 : <자바와 파이썬으로 만드는 빅데이터 시스템>,<빅데이터 프로그래밍>, … 총 5종 (모두보기)

목 차

머리말 viii 베타리더 후기 xii CHAPTER 1 빅데이터 개론 1 1.1 빅데이터란? 1 1.2 빅데이터 저장과 분석 12 1.3 데이터 전처리와 람다 아키텍처 23 CHAPTER 2 개발 통합 환경 29 2.1 자바 설치 29 2.2 파이썬 설치 34 2.3 이클립스 설치 및 설정 39 2.4 저장소 설치 51 2.5 실습 데이터 63 CHAPTER 3 하둡 파일 시스템 I 89 3.1 하둡 구조 및 기능 89 3.2 하둡 파일 시스템 설치 및 설정 93 3.3 하둡 파일시스템 API 114 CHAPTER 4 하둡 파일 시스템 II 129 4.1 자바 실습 프로젝트 129 4.2 파이썬 실습 프로젝트 172 CHAPTER 5 카프카를 이용한 데이터 송수신 197 5.1 카프카의 개념과 기능 197 5.2 카프카 설치 및 설정 202 5.3 카프카 메시지 서비스의 API 211 5.4 자바 실습 프로젝트 224 5.5 파이썬 실습 프로젝트 231 CHAPTER 6 아파치 스파크 배치 작업 I 237 6.1 아파치 스파크의 개념과 하부 프로젝트 237 6.2 아파치 스파크 설치 및 설정 242 6.3 아파치 스파크 SQL API 252 CHAPTER 7 아파치 스파크 배치 작업 II 295 7.1 자바 실습 프로젝트 295 7.2 파이썬 실습 프로젝트 306 CHAPTER 8 아파치 스파크 스트리밍 작업 317 8.1 아파치 스파크의 구조화 스트리밍 개념 317 8.2 아파치 스파크 구조화 스트리밍 API 322 8.3 자바 실습 프로젝트 329 8.4 파이썬 실습 프로젝트 335 CHAPTER 9 MySQL 데이터 작업 341 9.1 관계형 데이터베이스 정의와 개념 341 9.2 SQL 및 Python API 347 9.3 파이썬 실습 프로젝트 376 CHAPTER 10 몽고디비 데이터 작업 389 10.1 몽고디비 개념과 특징 389 10.2 몽고디비 API 394 10.3 파이썬 실습 프로젝트 406 찾아보기 415

출판사 서평

P. 9 이 책은 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두고 있습니다. 클라우드 서비스에서 각각의 서비스 모듈을 구입하여 사용하더라도 그 모듈의 기능과 내재된 아키텍처를 이해한다면 더욱 클라우드 서비스를 효율적으로 구축하고 사용할 수 있을 것입니다. P. 7 인공지능은 데이터를 생성하는 것이 아니라 데이터를 학습하여 가중치와 편차를 정하고 최적의 프로그램을 생성하는 패러다임입니다. 양질의 데이터가 많을수록 더 정확한 가중치와 편차를 생성하여 원하는 결과를 얻을 수 있습니다. 이 인공지능 프로그램의 학습용 데이터를 빅데이터 기술로 제공할 수 있습니다. 이렇듯 현재에는 양질의 데이터가 꼭... 더보기 P. 29 사용하는 운영체제로는 윈도우의 경우는 윈도우 11을 사용하고 리눅스로는 우분투 22.04를 사용하였습니다. 현재 우분투의 최신 LTE 버전은 22.04입니다. 그리고 ETL 실습 프로젝트는 윈도우의 경우는 자바로 구현하였으며 리눅스의 경우는 파이썬으로 구축되었습니다. 물론 약간의 소스를 수정하면 자바 프로젝트를 리눅스에서 실행할 ... 더보기 P. 237 아파치 스파크에서 버전 2.0까지 중심이 되는 데이터 타입은 RDD(Resilient Distributed Datasets)입니다. 직역하면 복원성이 있는 분산 데이터 모음으로 번역될 수 있습니다. 아파치 스파크는 메모리 기반의 처리와 수정이 불가능한 데이터 구조를 생성하는 리니지(lineage) 방식, action이 이루어지기 전까지 실행을 유보하는 게으른 실행(lazy-execution)을 이용하여 빠르고 편리하게 빅데이터 분석을 수행할 수 있습니다. 분석 대상이 되는 데이터 요소는 RDD 데이터 타입으로 변환하여 스파크 클러스터에 저장됩니다. 수정이 불가능한 리니지 방식의 RDD 데이터는 만들어진 과정을 기억하고 있습니다.

고객 리뷰

고객리뷰 쓰기 새 창 더보기

평점	리뷰제목	작성자	작성일	내용보기

아직 작성된 리뷰가 없습니다.

반품/교환

자바와 파이썬으로 만드는 빅데이터 시스템

회원메뉴

쇼핑몰 검색

자바와 파이썬으로 만드는 빅데이터 시스템 하둡, 카프카, 아파치 스파크로 연결하는 나만의 빅데이터 전처리 파이프라인 구현

고객센터

(평일 09:30~17:30)

(점심 12:00~13:00)