글 / 사진 : 서원준 ( news@toktoknews.com )
* 이 포스팅은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
오늘 살펴볼 도서는 데이터 분석과 관련된 도서이다. 그 중 세계 최대 규모를 자랑하는 데이터 분석 경진대회의 공식 플랫폼이라 하는 캐글에 대한 이야기이다.
세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용되곤 하는데, 이를 이해하고 체득하여 활용하는 것은 대회에만 한정되는 것이 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 있어서 매우 유용하다. 특징을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권이 잘 정리해 주고 있는 것이다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶은 사람, 그리고 캐글이 무엇인지 알고 싶다면 일독을 권한다.
이 책의 주요 내용에 대해서 살펴보자면 정밀도가 높은 모델을 구축하고. 데이터에서 특징 추출하고. 변수를 변환해 특징을 생성하는 방법과 평가지표를 이용해 예측 결과를 최적화하는 방법, 하이퍼파라미터 튜닝, 앙상블 기법과 스태킹, 시계열 데이터 종류와 취급 방법을 배울 수 있다. 한 마디로, 데이터 분석의 모든 것을 배울 수 있는 책이다.
데이터가 뛰어노는 AI 놀이터, 캐글의 표지 전면, 책등, 후면.
데이터가 뛰어노는 AI 놀이터, 캐글 책의 내용이다.
서평을 마치면서
필자는 데이터 분석의 중요성에 대해서는 b2b 방식의 웨비나를 많이 수강하여 잘 알고 있으나 관련 도서가 부족하여 잘 알지는 못했다. 데이터가 뛰어노는 AI 놀이터, 캐글이 그 해결책이 되어 주리라 믿는다. 이 책은 캐글에 도전하고 싶지만 어떻게 해야 할지 모르는 사람, 데이터분석의 기초와 실제를 함께 배우고자 하는 사람, 캐글로 진행하는 데이터 분석 경진대회에서 좋은 성적을 내고 싶은 사람들이 읽으면 좋을 책이라고 생각한다.