NBA體育決策和數(shù)據(jù)挖掘分析

| 2022-09-13 admin

業(yè)務(wù)挑戰(zhàn)

體育運(yùn)用大數(shù)據(jù)主要體現(xiàn)在以下三個方面: 預(yù)測比賽結(jié)果和獎牌歸屬;更好地訓(xùn)練運(yùn)動員 。數(shù)據(jù)和模型驅(qū)動體育決策讓獲勝和成功變得更有可能,體育統(tǒng)計(jì)(Sports Analytics)成為體育競爭的“殺手锏”。

具體服務(wù)

要在運(yùn)動中有效地使用分析,我們要知道如何處理數(shù)據(jù)、識別數(shù)據(jù)源、收集數(shù)據(jù)、組織和準(zhǔn)備進(jìn)行分析、從數(shù)據(jù)構(gòu)建模型。

 從面向體育組織的咨詢工作中,推動“數(shù)據(jù)科學(xué)即服務(wù)”。最終,實(shí)施我們的想法和模式。

數(shù)據(jù)源準(zhǔn)備

隨著網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)來源豐富,有文本數(shù)據(jù)以及數(shù)字?jǐn)?shù)據(jù)。通過爬蟲技術(shù)抓取網(wǎng)絡(luò)并利用應(yīng)用程序編程接口(API),可以從公共數(shù)據(jù)源中獲取很多信息。

構(gòu)造

想要更好地了解在這些場景中大數(shù)據(jù)是如何進(jìn)行預(yù)測性分析的,我們需要考慮在預(yù)測比賽時所需處理的數(shù)據(jù)性質(zhì)。

首先確定關(guān)鍵指標(biāo),可用數(shù)據(jù)包括國別、賽事、成績、運(yùn)動員姓名、年齡、過往表現(xiàn)記錄、賽場溫度、觀眾出席率、晝夜等。

劃分訓(xùn)練集和測試集

確定指標(biāo)后,把數(shù)據(jù)分成兩個子數(shù)據(jù)集,即訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

數(shù)據(jù)洞察

球員薪酬情況

職業(yè)運(yùn)動隊(duì)在勞動力市場上相互競爭,而明星球員的勞動力供不應(yīng)求。薪資上限是保持競爭平衡所必需的,工資也幫助球隊(duì)限制球員的支出。

美國最專業(yè)的運(yùn)動員有薪資上限。NFL隊(duì)的2016年薪金上限為5328萬美元,平均工資約為270萬美元。NBA球隊(duì)在16賽季的薪金上限為7000萬美元,球隊(duì)的薪金上限以服務(wù)年限。例如,擁有十年經(jīng)驗(yàn)的勒布朗·詹姆斯,最高工資為2300萬美元。安東尼·戴維斯的平均工資為2900萬美元,是NBA球員中最高的 。2016年MLB的年薪最低為505,700美元。底特律老虎隊(duì)Miguel Cabrera(MLR)的MLB年薪最高為3100萬美元。

下圖顯示了2016年8月MLB,NBA和NFL的球員薪酬情況。

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_02

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_03

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_04

NFL球員的平均工資約為170萬美元,中位數(shù)為63萬美元。 NBA球員的平均工資約為510萬美元,中位數(shù)為280萬美元。 MLB玩家的平均工資約為410萬美元,中位數(shù)為110萬美元。同時可以看到明星球員的薪資遠(yuǎn)高于普通球員,拉高了平均水平。

團(tuán)隊(duì)支出和勝率的關(guān)系

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_05

從2016賽季初的團(tuán)隊(duì)支出和在常規(guī)賽中勝率的關(guān)系圖中,我們可以看到團(tuán)隊(duì)支出對是否能贏得比賽有直接影響。

出席觀眾和日期的關(guān)系

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_06

從中我們可以發(fā)現(xiàn)日期和出席情況的關(guān)系,從而找到用于預(yù)測和評估出席率的模型。

球隊(duì)實(shí)力表現(xiàn)

根據(jù)15年到16年NBA常規(guī)賽的20項(xiàng)指標(biāo)進(jìn)行綜合分析,我們對 NBA參賽球隊(duì)進(jìn)行排序,評出最具實(shí)力的球隊(duì)。

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_07

建模

預(yù)測觀眾出席人數(shù)——線性模型

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_08

估計(jì)獲勝概率——蒙特卡羅模擬

當(dāng)我們發(fā)現(xiàn)勝率符合經(jīng)驗(yàn)分布的時候,使用蒙特卡羅模擬方法來估計(jì)某個隊(duì)伍的獲勝概率。

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_09

預(yù)測結(jié)果

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_10

可以看出,預(yù)測值的趨勢已經(jīng)基本與真實(shí)趨勢保持一致。

模擬結(jié)果

通過對比賽日雙方球隊(duì)的表現(xiàn)模擬,我們得到下面的獲勝概率熱圖,從ROC曲線的表現(xiàn)來看,模擬效果理想。

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_11

【大數(shù)據(jù)部落】NBA體育決策和數(shù)據(jù)挖掘分析_大數(shù)據(jù)_12

展望

除了以上列舉的一些方法, 已經(jīng)在嘗試更復(fù)雜的體育統(tǒng)計(jì)模型,如深度學(xué)習(xí)(Long Short-Term Memory網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN))等;同時需要考慮到模型的可解釋性、可落地性和可擴(kuò)展性、避免“黑箱”預(yù)測;還在嘗試采用混合的機(jī)器學(xué)習(xí)模型,比如GLM+SVR,GAM+ NNET等。

用數(shù)據(jù)驅(qū)動體育決策,這種看待體育的獨(dú)特視角讓我們能更好地察覺趨勢、選取角度,同時幫助體育愛好者更深入地理解他們喜愛的運(yùn)動隊(duì)。