基於機器學習的大學體育成績預測與分析 - 體育運動

王晶
摘要：為了科學評價大學生身體素質，提出基於機器學習算法的體育成績預測模型。對當前大學生體育成績預測的研究現狀進行分析，指出導致當前模型預測精度低的原因，採用機器學習算法——支持向量機建立大學生體育成績預測模型，並採用粒子群算法選擇模型參數，最後將該模型應用於某大學的體育成績建模和預測中。應用實例結果表明，機器學習算法可以克服傳統模型的不足，使得大學體育成績預測效果得到改善，預測結果可以指導大學體育學科的改革。
關鍵詞：體育訓練；機器學習算法；預測模型；粒子群算法
中圖分類號： TN911.1?34； TP391 文獻標識碼： A 文章編號： 1004?373X（2017）17?0116?04
Machine learning based prediction and analysis of college sports performance
WANG Jing
（Sias International University， Zhengzhou University， Xinzheng 451150， China）
Abstract： In order to evaluate the physical quality of college students scientifically， a sports performance prediction model based on machine learning algorithm is put forward. The research status of the current college students sports performance prediction is analyzed to point out the reason causing the low prediction accuracy of current model. The machine learning algorithm （support vector machine） is used to establish the sports performance prediction model of college students. The particle swarm optimization algorithm is adopted to choose the parameters of the model. The model is applied to the physical performance modeling and prediction of a certain college. The application results show that the machine learning algorithm can eliminate the shortcomings of the traditional model， improve the prediction effect of the college sports performance， and its prediction results can guide the reformation of the college physical education.
Keywords： physical training； machine learning algorithm； prediction model； particle swarm optimization algorithm
0 引言
隨著人們生活水平的不斷提高，大學生物質生活更加豐富，他們缺少鍛鍊，部分大學生身體素質有不同程度的下降[1?2]。大學生體育課是提高大學生身體素質的一個重要途徑，而大學生體育成績預測可以幫助大學體育管理部門合理開設相關的課程，制定最科學的訓練機制，因此如何建立精度高的體育成績預測模型引起了廣大高校的高度重視[3]。
最原始的大學體育成績預測方法主要是通過體育老師實現，它們採用統計學方法對大學生體育成績進行計算和估計，但是由於大學生體育成績受多方面因素的影響，體育老師不可能全面考慮到，即使全面考慮到了各種因素，計算過程也相當複雜，體育成績預測效率低，無法滿足現代大學生體育訓練的要求[3?4]。隨著信息技術、自動化技術以及人工智慧理論研究的不斷深入，許多高校體育老師和體育方面的研究專家提出了大量的大學體育成績自動預測模型[5]。大學體育成績預測實質是一種回歸問題，因此當前模型可以劃分為兩種：線性回歸模型和非線性回歸模型[6]。應用最廣泛的線性模型為多元線性回歸模型，根據大學生體育歷史成績對模型的相關參數進行估計，建立大學生體育預測模型，然後對某個大學生的體育成績進行預測，當影響因素比較少時，預測精度高[7]。大學體育成績建模是一個十分複雜的過程，影響因素有大學生自身因素，還包括外界因素，因此大學體育成績沒有什麼變化規律可循，隨機性大，而線性模型不能描述大學體育成績的隨機性[8]。非線性模型採用隨機性理論對大學生體育成績進行建模，建立的模型預測精度更高，當前主要為機器學習算法中的神經網絡[9?10]。神經網絡是基於經驗風險最大化原則的機器學習算法，非線性擬合能力相當強，可以無限擬合大學生體育成績的變化特點，取得了不錯的應用效果。但其基於經驗風險最大化原則，因此需要大量的大學體育成績樣本才能獲得理想的大學生體育預測結果，而一個學生的體育成績歷史樣本相當少，難以滿足該條件[11?12]。
支持向量機是一種新型的機器學習算法，採用結構風險最小化原則，沒有神經網絡的大樣本要求，在小樣本條件下仍然可以獲得良好的擬合能力[13]。為了提高大學生體育成績的預測效果，提出基於支持向量機的大學體育成績預測模型，並採用粒子群算法選擇模型參數，最後將該模型應用於某大學的體育成績建模和預測中，結果表明，支持向量機解決了其他傳統模型的不足，改善了大學體育成績的預測效果。
1 機器學習算法的大學體育成績預測模型
1.1 機器學習算法?支持向量機
相對於神經網絡以及其他傳統機器學習算法，支持向量機的限制條件更少，且不存在「過擬合」缺陷，十分適合於小樣本、非線性大學生體育成績的建模與預測[11]。
設大學生體育成績樣本集為支持向量機的回歸方式具體為：
（1）
式中和均為支持向量機的參數。
要建立大學生體育成績預測模型，必須找到最合理的和的值，為此，根據結構風險最小化原則，將其轉化成如下形式：
（2）
式中：為回歸誤差；為誤差的懲罰參數。
為了簡化求解過程，降低建模的計算複雜度，引入鬆弛因子和得到二次規劃形式為：
（3）
採用拉格朗日乘子和進一步對式（3）進行變換，得到：
（4）
式中表示核函數。
支持向量機的回歸函數可以描述為：
（5）
選擇RBF函數作為核函數，其定義為：
（6）
式中表示RBF的參數。
1.2 粒子群算法
粒子群算法的當前最優解為pbest，當前群體的最優解為gbest，構建描述粒子個體優劣程度的適應度函數為：
（7）
和為粒子第次疊代的速度和位置，它們的更新方式為：
（8）
（9）
式中：為學習因子；Rand（）為隨機數；為慣性權重。
為了解決支持向量機參數的確定問題，採用粒子群優化算法對支持向量機的訓練過程進行在線優化，確定最優參數和根據最優參數和提高大學生體育成績的預測精度。
1.3 機器學習算法的大學體育成績預測模型
（1）對於某一個體育項目的歷史數據進行收集，並進行如下處理：
（10）
式中和表示大學生體育成績的最小和最大值。
（2）根據經驗確定支持向量機的參數和範圍。
（3）初始化粒子群，每一個粒子的位置向量包括一組參數和。
（4）根據每一組參數和對大學生體育成績訓練樣本採用支持向量機進行學習，並計算每一個粒子的適應度函數值。
（5）根據適應度函數值對全部粒子進行排序，並對當前最優解pbest和當前群體最優解gbest進行替換操作。
（6）更新粒子群的速度和位置。
（7）粒子群算法的疊代次數增加。
（8）如果疊代次數超過預先設定的最大值，那麼就終止算法執行，否則返回步驟（4）繼續執行優化操作。
（9）根據群體最優解gbest得到支持向量機的最優參數和值。
（10）根據和對大學生體育成績重新訓練，建立基於支持向量機的大學生體育成績預測模型。
（11）採用大學生體育成績測試樣本對大學生體育成績預測模型的性能進行測試和分析。
綜上可知，基於機器學習算法的大學生體育成績預測模型工作流程如圖1所示。
2 大學生體育成績預測模型的應用實例
2.1 大學生體育成績數據
為了全面分析基於機器學習算法的大學生體育成績預測模型的有效性和優越性，選擇鄭州大學的大學生體育成績作為實驗對象，首先選擇100 m跑的成績進行測試，共500個成績如圖2所示，其中300個100 m用於建立大學生體育成績預測模型，其他用於檢測模型的泛化性能。
2.2 模型的有效性測試
200個100 m跑的成績組成的測試樣本預測結果如圖3所示，對圖3的預測結果進行詳細分析可以發現，基於機器學習算法的大學生體育成績預測模型可以描述500個100 m跑的成績變化趨勢，獲得了理想的100 m跑的成績預測結果，實驗結果驗證了該模型的有效性。
2.3 模型的優越性測試
為了測試機器學習算法的大學生體育成績預測模型的優越性，選擇文獻[3]的線性回歸模型、文獻[8]的神經網絡進行對比實驗，統計它們的男生100 m跑成績的預測精度，精度如表1所示，對表1的結果進行對比和分析，可以得到如下結論：
（1）在全部大學生體育成績的預測模型中，線性回歸模型的預測精度最低，這是因為線性回歸模型只能對男生100 m跑成績的部分變化特點進行描述，無法描述全面的變化特點，大學生體育成績預測效果差。
（2）相對於線性回歸模型，神經網絡的大學生成績預測精度得到了一定的提高，這是因為神經網絡是一種機器學習算法，可以對男生100 m跑成績的線性和非線性變化特點進行擬合，取得更優的預測效果，但由於要求樣本數量多，導致部分點的預測偏差大，預測誤差隨之增大，模型的大學生成績預測效果整體欠佳。
（3）相對於線性回歸模型以及神經網絡，支持向量機的大學生體育成績預測精度最高，這是因為支持向量機要求的訓練樣本少，克服了線性回歸模型的缺陷，解決了神經網絡的局限性，提高了男生100 m跑成績預測的精度，具有十分明顯的優越性。
2.4 通用性分析
為了測試機器學習算法的大學生體育成績預測模型的通用性，採用鄭州大學的男生三級跳遠、男生3 000 m跑、男生引體向上、女生1 000 m跑、女生立定跳遠成績作為研究對象，統計它們的預測精度，結果如表2所示。從表2的預測精度可以發現，全部大學生體育成績的預測精度均超過90%，遠遠大於實際應用範圍的85%，這表明該模型的通用性強，可以應用於實際的大學體育成績預測中。
3 結語
體育訓練是提高大學生身體素質的一個重要因素，而體育成績預測可以幫助大學制定有效的體育訓練方案。為了提高大學生體育成績的預測效果，解決當前大學生體育成績預測模型的缺陷，構建了基於機器學習算法的大學體育成績預測模型，採用機器學習算法中性能最優的支持向量機對大學生體育成績數據進行建模和擬合，具體應用實例結果表明，該模型的通用性能強，可以應用於各種大學生體育成績預測，而且預測結果可靠，可以為大學體育訓練提供有價值的信息。
參考文獻
[1] 許晶.我國頂尖男子十項全能運動員競技特徵及實力分析[J].廣州體育學院學報，2008，28（5）：61?64.
[2] 趙波.十項全能世界頂尖男子運動員成績分析及預測研究[J].體育文化導刊，2013（3）：76?79.
[3] 趙丙軍.運用多元回歸方法建立我國男子跳遠項目訓練模型的研究[J].西安體育學院學報，2001，18（1）：81?82.
[4] 周偉.對中外優秀女子三級跳遠運動員三跳技術的灰色關聯分析[J].吉林體育學院學報，2004，20（3）：64?65.
[5] 鄧美蘭.奧運會男子十項全能前三名成績的灰色預測模型的研究[J].數學的實踐與認識，2009（18）：44?49.
[6] 魏春玲.我國十項全能運動成績的因子分析及灰色系統回歸預測研究[J].體育科學，2004，24（11）：66?69.
[7] 孫群，劉國璧，程偉，等.基於模糊神經網絡的劉翔110 m欄成績預測[J].重慶科技學院學報（自然科學版），2011，10（2）：104?107.
[8] 王宗平，孫光.應用BP神經網絡算法對運動成績預測的實證研究[J].南京體育學院學報，2006，20（4）：109?111.
[9] 李征宇，閆生.神經網絡模型在運動成績預測中的應用[J].哈爾濱體育學院學報，2009，27（2）：110?113.
[10] 戴敏.基於數據挖掘的運動員體能測試數據分析[J].計算機工程與應用，2003（9）：38?40.
[11] 劉昊.非線性篩選因子和加權的體育成績建模與預測[J].計算機應用與軟體，2014，31（11）：105?108.
[12] 夏軒，許偉明.改進的粒子群算法對RBF神經網絡的優化[J].計算機工程與應用，2012，48（5）：37?40.
[13] 龍斌.基於支持向量機的劉翔110 m欄成績預測[J].天津體育學院學報，2009，24（4）：330?333.