棒球大數據- 擊球的科學

想必大家看過魔球這部電影。裡面用的數據分析就是運動大數據的濫觴。美國統計學會(AMSTAT)創刊12年的Journal of Quantitative Analysis in Sports ,學術論文越來越精彩,未來極有可能成為主流刊物之一。為什麼會這樣?因為運動數據分析,不只是記錄比賽結果的數據,融合了運動力學。利用熱力圖和高速拍攝技術,整理2015年MLB的瞬間擊球點,X軸Exit velocity是球被擊中後的速度,Y軸是角度。此文指出: 25-50的角度配合高擊球速度(100-110 mph),是全壘打的標準部位。

 

arthur-statcast-1

 

下面這張圖,則說明了擊球越用力,不見得會帶來更多的安打。X軸Exit velocity是球被擊中後的速度,Y軸則是預期安打數。X軸兩端是極快和極慢,利用統計方法,我們可以看出,雖然速度最快的右端,有較高的安打,但是不確定性(uncertainty)卻是最高的:因為較為寬大的信任區間(灰階區域);極端慢的也是一樣。不確定高的意思是「成為真的安打」機率相對很低。

最穩的是中間區域,以75-100 mph的速度擊出去,成為安打的機率是最高的。

這樣的數據科學,也相當符合直覺:球跑得快,內野手等它快速滾進手套就好;跑得慢,兩三下就撿起來。不過,我們也質疑一件事:兩極端速度的事件,應該也比較少,所以,所謂的「不確定」也可能反應的樣本觀察值少。

arthur-statcast-21

 

再來是一張更有趣的圖。下面這張圖說明了「滾地球變成安打」的分析。兩軸定義如上圖,裡面的三條微笑曲線,代表了打者跑壘速度。這張圖的看法,我們先在水平0的地方畫一條較粗的線,再在Middle 3rd 和水平線交點,順X軸畫一條垂直線,此時測量的滾地球擊球速度約94。此處,跑得快的有正的預期安打,跑得慢的預期安打是負的。擊球速度太慢,跑得快也沒用。

arthur-statcast-3

觀看原文