친절한 R with 스포츠 데이터 - 스포츠 통게로 알아보는 데이터 과학
스포츠 통계로 알아보는 데이터 과학, 스포츠 속 데이터 과학
'코로나19 이후 무관중으로 진행된 경기에서 홈팀의 승률은 코로나 이전과 다를까?',
'나달은 정말 클레이 코트에서 강할까?', '만원 관중이 들어찬 고척돔에서 여성 팬 비율은 얼마나 될까?', 'FIFA 랭킹 1위를 꺾은 최저 랭킹 국가는?', '배구의 어떤 기록이 승리를 잘 설명할까?' 농구, 배구, 야구, 축구, 테니스 등 스포츠 통계를 이용해 사소하지만 흥미로운 주제들을 데이터 과학으로 풀어내 답을 증명해 봅니다.
tidyverse, tidymodels 패키지를 활용한 데이터 정리 및 변형, 모델링, 분석 결과 정리 등 누구나 쉽게 R로 데이터 분석을 시작하고 활용할 수 있도록 도와줍니다.
동아일보에서 스포츠 기자로 일하고 있습니다. 인문대 출신인 주제에 '야구 기록은 비키니와 같다. 많은 걸 보여주지만 다 보여주지는 않는다'는 격언에 꽂혀 2005년부터 세이버메트릭스(야구 통계학)를 주제로 블로그 운영을 시작했습니다. 2013년 스포츠 기자가 된 뒤로도 '베이스볼 비키니', '발리볼 비키니', '데이터 비키니' 등을 문패로 스포츠와 데이터의 결합을 추구하고 있습니다. 이 노력을 인정받아 '구글 코리아'에서 주최한 '제1회 데이터 저널리즘 컨퍼런스'에 발표자로 초청을 받기도 했습니다. 대학원 졸업 논문 주제도 '머신러닝으로 장수 외국인 투수를 예측할 수 있을까'였습니다.
Chapter 1 R 언어학 입문
Chapter 3 그림을 그립시다
Chapter 5 데이터 모양 바꾸기
Chapter 7 날짜 데이터 다루기
Chapter 9 일부로 전체를 추론하기
Chapter 11 (원리)코로나19는 안방 팀 승률을 어떻게 바꿨을까?
Chapter 13 나달은 정말 클레이 코트에서 강할까?
Chapter 15 어떤 야구 기록이 득점을 제일 잘 설명할까?
Chapter 17 진짜 어떤 배구 기록이 승리를 제일 잘 설명할까?