한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2018.03.14 Data Science

    야구 데이터 분석 #12 야구 지표 계산법 (타석 단위 비율 지표 편)

    세이버메트릭스를 기반으로 야구 경기를 더 재미있게 관람할 수 있도록 도와드리는 ‘야구 데이터 분석’!

    이번 편에서는 오늘은 타석 단위를 사용하는 비율 지표들에 대해 살펴보겠습니다.


    1. K% – 타석당 삼진 개수 (Strikeout Per PA)

    지난 편에서, 서로 다른 이닝 수를 투구한 투수들의 탈삼진 능력을 비교하기 위해 이닝 당 삼진 비율을 계산했습니다.

    그럼 타자의 경우는 어떨까요? 이닝 대신 타석(PA)당 삼진 개수를 주로 사용합니다.

    100타석에서 30번 삼진을 당한 타자 A와 150타석에서 40번 삼진을 당한 타자 B를 비교해보겠습니다. 타석당 삼진 개수는 다음과 같이 간단히 구합니다.

    타석당 삼진 개수를 그대로 K/PA라고 표기하기도 합니다만, 요즘은 K%를 많이 쓰는 추세입니다.

    만약 타석 대신 타수(AB)를 단위로 사용하게 되면 어떻게 될까요? 사사구로 출루한 횟수가 위 식의 분모에서 빠지게 되어, 볼넷을 잘 고르는 타자가 오히려 불이익을 받게 되는 문제가 생깁니다. 볼넷을 많이 얻는 타자에게 칭찬을 해줄망정 오히려 저평가를 해서는 안되겠지요!

    위의 예를 다시 본다면, A의 K%는 30%이고 B의 K%는 26.7%이므로, B가 더 삼진을 덜 당하는 타자라고 할 수 있습니다.

    타석을 단위로 하는 계산은 타자의 경우에 주로 씁니다만, 투수의 경우에도 같은 방법으로 계산하여 활용할 수 있습니다. 세이버메트릭스 사이트 팬그래프(Fangraphs)에서는, K/9와 함께 K%도 같이 표기하는 것을 보실 수 있습니다. (참고: 팬그래프 내 류현진 선수 페이지 http://bit.ly/2GnDwDP)

    이닝 단위 지표에서, 고의사구를 제외하여 좀 더 계산의 정확도를 높일 수 있다는 점을 설명 드렸는데요.

    타석 단위에서도 동일합니다. 즉, 다음과 같이 계산하여 좀 더 순수하게 타자의 삼진 회피 능력을 계산할 수 있습니다. 단, 이렇게 계산한 경우 주석 등을 통해서 고의사구를 제외했다는 점을 밝혀 주셔야겠지요.

    2. BB% – 타석당 볼넷 개수 (Base on Balls Per PA)

    삼진과 동일하게, 타석당 볼넷 비율을 계산할 수 있습니다.

    K/9와 BB/9가 투수의 제구력을 보는 지표로 많이 쓰이듯이, K%와 BB%도 타자의 선구안을 나타내는 지표로 널리 사용되고 있습니다.

    고의사구를 제외하여 계산의 정확도를 높이려면, 이번엔 분자와 분모에서 똑같이 제외해주셔야 합니다. 이것이 이닝을 단위로 할 때와 다른 점입니다.

    3. K-BB% – 삼진-볼넷 비율 격차 (Strikeout Percentage minus Walk Percentage)

    이닝 단위 지표에서 ‘삼진 대 볼넷 비율’을 소개해 드렸는데요. 이와 유사한 개념입니다만, 비율 대신 뺄셈을 통해 계산합니다. 이 지표는 주로 투수에게 사용합니다. 계산 방법이 이보다 쉬울 순 없죠.

    고의사구를 제외한 버전입니다.

    이 식이 앞에서 나온 삼진 대 볼넷 비율, 소위 ‘볼삼비’와 다른 점은 무엇일까요? 다음의 두 투수를 봅시다.

    삼진 대 볼넷 비율을 계산하면, 두 투수는 모두 2입니다.

    하지만 삼진-볼넷 비율 격차를 계산하면, 투수 C는 10%, 투수 D는 1% 여서, 투수 C가 훨씬 더 우수한 것으로 나옵니다.

    반대로, 격차는 동일하지만 비율이 다른 경우도 상상해볼 수 있습니다.

    두 투수의 삼진-볼넷 비율 격차는 5%로 동일하지만, 삼진 대 볼넷 비율은 E가 1.2인 반면 F는 2여서, F의 비율이 훨씬 더 우수합니다.

    그렇다면, 어느 쪽이 더 좋은 지표일까요? 삼진 대 볼넷 비율 지표(K/BB)의 경우, 볼넷이 매우 적어지면 분모가 급격히 작아지면서 왜곡이 발생하기 쉽다는 문제가 있습니다.

    투수 D와 같이 극단적인 경우, 삼진 2개와 볼넷 1개를 제외한 97번의 타석에서 아마도 타자가 타격을 하였을 것이고, 상당한 비율이 홈런을 포함한 안타로 연결되었을 것입니다.

    그렇다고 무조건 K-BB%가 낫다고 하기가 좀 애매한 것이, 투수 E와 같이 반대쪽 극단에 있는 경우도 있을 수 있기 때문입니다. 이런 투수는 볼넷을 지나치게 많이 허용하여 신뢰를 하기 어렵지요.

    일반적으로 KBO리그나 MLB, NPB 등 프로야구의 가장 높은 레벨에 올라와 있는 투수들의 경우, 위와 같이 극단적인 사례는 많지 않습니다. 투수 E와 같이 볼넷을 많이 허용하면 아마도 퓨처스리그 등 하위 레벨로 강등될 가능성이 높겠지요. ^^

    실제 데이터를 보면 이렇게 극단적인 예는 많지 않고, 선수의 미래 성적을 예측하는 데 있어 K-BB%가 좀 더 좋은 결과를 보여 주는 것이 사실입니다. 하지만, K/BB는 여전히 간단하고 유용한 지표이기도 합니다. 두 가지 지표를 모두 사용하면 양 극단을 걸러내고 좀 더 균형 잡힌 시각을 얻을 수 있지 않을까요? ^^

    다음 시간에는 이닝과 타석 외 다른 단위를 사용하는 비율 지표들을 좀 더 살펴보겠습니다.


    임선남

    대기업 사무직 직원으로 살다가
    엔씨소프트 데이터정보센터(DIC)를 거쳐
    현재 NC다이노스 데이터팀 팀장으로 재직 중입니다.
    스스로 야구 덕후라고 생각해 본 적이 없습니다.
    그냥 야구를 좋아하고 데이터를 좋아하다보니
    자연스럽게 야구 데이터가 업이 된 것이 아닌가 합니다.
    세이버메트릭스는 야구를 합리적, 객관적으로
    잘 이해하기 위한 노력으로 이러한 이해가
    야구를 더 재미있게 해 줄 수 있다고 믿습니다.

    대기업 사무직 직원으로 살다가
    엔씨소프트 데이터정보센터(DIC)를 거쳐
    현재 NC다이노스 데이터팀 팀장으로 재직 중입니다.
    스스로 야구 덕후라고 생각해 본 적이 없습니다.
    그냥 야구를 좋아하고 데이터를 좋아하다보니
    자연스럽게 야구 데이터가 업이 된 것이 아닌가 합니다.
    세이버메트릭스는 야구를 합리적, 객관적으로
    잘 이해하기 위한 노력으로 이러한 이해가
    야구를 더 재미있게 해 줄 수 있다고 믿습니다.