한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2017.08.21 Data Science

    야구 데이터 분석 #5 야구 분석의 단위

    지난 글까지 야구 기록과 세이버메트릭스의 역사에 대해 간단히 살펴 보았는데요. 오늘은 야구 분석의 근간이 되는 단위에 대해서 살펴보려고 합니다.


    야구 분석의 단위는 세 가지의 중요한 축을 가지고 3차원처럼 생각해 볼 수 있는데요. 먼저 기간에 따른 단위를 보겠습니다.

    기간

    야구에서 분석이 가능한 가장 작은 단위는 “투구”라고 할 수 있습니다. 투수가 공을 던지는 것을 기록하여 이를 분석하는 것이죠.

    투수가 던진 공에 타자가 스윙을 하였는지, 그래서 타격이 되었는지, 타격이 되지 않았다면 스트라이크가 되었는지, 공이 스트라이크존에 들어갔는지, 구속은 어떠했는지 등을 모두 기록하고 분석에 활용합니다.

    또한, 최근에는 투구 추적 기술이 발전하여, 각각의 투구에 대해서 공의 릴리스 포인트, 회전수, 회전 방향, 무브먼트 등이 모두 데이터로 축적되고 있습니다.

    최근 KBO 리그에서는 한 경기당 양 팀 합쳐서 300여개의 공을 던지고 있는데요, 한 시즌을 치르고 나면 22만 개가 넘는 공의 데이터가 모인답니다.

    이렇게 해서 공 하나 하나에 대해 분석을 하기도 하고, 특정한 카운트에서의 투구에 대해 분석을 하기도 하지요.

    투구가 모이면 “타석”이 됩니다.

    타석은 투수와 타자 간 승부의 결과라고 할 수 있는데요. 오랜 세월 동안 야구 데이터 분석의 중심이 되었던 단위이기도 합니다.

    타율, 출루율, 장타율과 같이 흔히 쓰이는 타격 지표들은 주로 타석을 단위로 하지요.

    최근의 KBO리그는 경기당 양 팀 합쳐서 80명 정도의 타자가 타석에 들어서고 있고요. 한 시즌으로 보면 5만~6만 사이의 타석이 기록됩니다.

    투구를 볼카운트별로 나눠서 볼 수 있듯이, 타석도 아웃카운트와 주자상황에 따라 득점권, 선두타자 등으로 세분하여 분석하기도 합니다.

    타석보다 큰 단위로는 “이닝”을 들 수 있습니다.

    수비측이 아웃을 세 개 잡는 동안 어떤 일이 일어났는지를 기록하는 것이죠.

    평균자책, WHIP(이닝당 출루 허용 비율) 등 전통적인 투수의 지표들은 주로 이닝을 단위로 사용합니다. 이닝 소화 능력을 선발투수의 미덕으로 꼽기도 하지요.

    한 시즌의 이닝 수는 대략 “경기수 x 9”에 가깝습니다만, 홈팀이 앞서는 경우 9회말을 생략한다든지, 연장전을 벌인다든지 하는 경우에 따라서 약간의 오차가 생기게 됩니다.

    이닝도 1~3회를 초반 이닝, 7~9회를 종반 이닝으로 나눠서 보기도 하고요.

    정규이닝과 연장이닝으로 나눌 수도 있습니다. 점수차를 기준으로 앞선 이닝과 뒤진 이닝으로 볼 수도 있고요.

    무엇을 보고 싶은가에 따라 분석의 틀을 정하게 되지요.

    이보다 더 큰 단위로는 “경기”를 들 수 있고요.

    경기를 일정 기간 모아서 “주간”, “월간”, “상반기/하반기”로 살펴볼 수도 있습니다.

    상반기와 하반기를 합치면 한 “시즌”이 되고요. 정규시즌과 별개로 포스트시즌이 또 있지요.

    KBO도 이제 36년째를 맞는 리그이므로, 여러 시즌을 모아서 비교 분석을 하는 것도 가능합니다.

    1980년대/1990년대/2000년대/2010년대의 야구를 비교할 수 있는 것이지요.

    기록을 쌓는 주체

    이렇게 투구에서 시즌에 이르기까지의 다양한 단위를 살펴 보았는데요. 야구 데이터 분석의 다른 한 축으로는 기록을 쌓는 주체를 들 수 있습니다.

    선수 한 명 한 명의 개인 기록이 있고요. 이를 “투수” “야수” “2루수” “내야수” “외야수” 등 포지션 별로, 혹은 타순별로 묶어서 보는 특정 집단의 기록이 있습니다.

    팀별 기록도 여기에 해당한다고 할 수 있지요. 이를 모두 모으면 가장 큰 단위인 리그 기록이 됩니다.

    영역

    세 번째의 중요한 축은 이러한 활동들이 야구의 어떤 영역에서 이루어졌는가입니다.

    야구는 크게 득점을 하기 위한 공격과 실점을 막기 위한 방어로 나누어지는데요.

    공격은 다시 타격주루로, 방어는 투수수비로 나누어지게 됩니다.

    야구 데이터의 분석은 “무엇을 보고자 하는가”의 목적에 따라 이 세 가지 축을 적절히 조합하여 이루어집니다.

    아주 미시적으로 투구 단위에서 특정 타자와 투수 간의 승부 양상을 볼 수도 있고요.

    거시적으로 90년대 KBO리그와 2000년대 KBO리그의 도루 시도율 변화와 같은 장기 리그 추이를 볼 수도 있습니다.

    야구 데이터를 바라보는 틀은 무궁무진합니다. “어떻게” 보다는 “무엇을”과 “왜”가 더 중요한 것이지요. ^^


    임선남

    대기업 사무직 직원으로 살다가
    엔씨소프트 데이터정보센터(DIC)를 거쳐
    현재 NC다이노스 데이터팀 팀장으로 재직 중입니다.
    스스로 야구 덕후라고 생각해 본 적이 없습니다.
    그냥 야구를 좋아하고 데이터를 좋아하다보니
    자연스럽게 야구 데이터가 업이 된 것이 아닌가 합니다.
    세이버메트릭스는 야구를 합리적, 객관적으로
    잘 이해하기 위한 노력으로 이러한 이해가
    야구를 더 재미있게 해 줄 수 있다고 믿습니다.

    대기업 사무직 직원으로 살다가
    엔씨소프트 데이터정보센터(DIC)를 거쳐
    현재 NC다이노스 데이터팀 팀장으로 재직 중입니다.
    스스로 야구 덕후라고 생각해 본 적이 없습니다.
    그냥 야구를 좋아하고 데이터를 좋아하다보니
    자연스럽게 야구 데이터가 업이 된 것이 아닌가 합니다.
    세이버메트릭스는 야구를 합리적, 객관적으로
    잘 이해하기 위한 노력으로 이러한 이해가
    야구를 더 재미있게 해 줄 수 있다고 믿습니다.