프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다.
저자 소개
서울에서 태어나 줄곧 서울에서 학교를 다녔다.
”수학의 놀라움은 쉽게 알 수 없는 사실을 논리적으로 밝혀낸다 것이었다. 그 논리를 따라가면 어쩔 수 없다. (평면 위의) 모든 삼각형의 내각의 합은 180도이고, 모든 직각삼각형은 피타고라스의 정리를 따른다.“
하지만 학교 수업에 불만이 많았다. ‘컴퓨터가 인수분해, 미분, 적분을 척척 해내는 21세기에 우리가 배워야 할 것은 수학적 지식이 아니라 수학적 사고 능력이 아닌가?’
그래서 시대의 요구에 부합하는 수학책의 집필을 시작한다. 그리고 10여 년이 흘렀다. 대학원 수학교육심리학 수업에서 현직 중고등학교 선생님과의 토론을 통해 책의 완성도를 높였다. 출판사의 요구로 일반 독자가 어려워할 만한 부분은 과감하게 삭제했다. 이번 책에서 미처 다 담지 못한 내용을 가지고 <수학의 숨은 원리, 제 2권을 계획하고 있다.
물론 프로그래밍 언어으로 원하는 목적을 달성하는 가장 빠른 방법은 이미 작동하는 소스 코드를 실행하는 것이다. 하지만 소스 코드를 고쳐야 한다면!?!
그 때부터는 수많은 문법오류, 논리오류(버그)에 잘 돌아가던 프로그램도 안 돌아가는 신비한 경험을 하게 된다. 그 버그란 무엇 때문에 생기는가? 실수, 수면부족, 주의 산만 등 다양한 원인이 있겠지만, 또 다른 주요 원인은 튼튼하지 못한 기초에 있다!
? NA 3은 왜 NA이고, NA | TRUE는 왜 TRUE인가? ? 데이터테이블(data.table)의 복잡한 문법은 어떻게 이해해야 하는가? ? 정규표현식의 메타문자는 무엇이고, 어떻게 다루어야 하는가? ? ggplot2의 수많은 옵션은 어떻게 외워야 할까?
패키지, 벡터, 데이터프레임 등 기초부터 데이터테이블, 정규표현식, ggplot2까지 데이터 전처리와 시각화를 위한 핵심을 모두 담았다!
이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인 데이터테이블을 dplyr 패키지의 함수와 비교하여 이해를 도왔고,ggplot2의 설명에서는 플롯의 수많은 옵션을 정하는 방법을 한 눈에 보기 싶게 보여준다. 그 밖에도 부록으로 RStudio의 치트시트를 수록하였다. 어느 정도 R에 익숙한 독자들에게도 R의 데이터 전처리와 시각화에 대해 좀 더 깊이 알 수 있게 하였다. 레퍼런스 북으로도 손색이 없다.
? ? ? R 최신 버전 3.5.2(2018-12-20) 반영 ? 빅데이터 분석을 위한 최선의 선택-data.table 패키지(최신버전 1.12.0)에 대한 설명 수록 ? RStudio의 ggplot2(최신버전 3.1.0) 등 패키지 치트시트(cheatsheet) 수록 ? 백과사전식의 나열이 아니라 개념 중심의 체계적인 이해 중시 ? 좀 더 테크니컬한 심층 활용 방법과 오류를 사전에 방지하는 방법 설명 ? 각종 참고 자료 및 표 수록 ? 다양한 원서의 내용 종합 - Spector(2008). Data Manipulation with R. - Kabacoff(2015). R in Action: Data Analysis and Graphics with R - Wickham(2016). ggplot2: Elegant Graphics for Data Analysis. - Lander(2017). R for Everyone: Advanced Analytics and Graphics. - Wickham & Grolemund(2017). R for Data Science. - Van Der Loo & De Jong(2018). Statistical Data Cleaning with Applications in R. ? ds.sumeun.org 홈페이지 운영