• <bdo id="iiikg"><center id="iiikg"></center></bdo>
  • ?
    Sci論文 - 至繁歸于至簡,Sci論文網。 設為首頁|加入收藏
    當前位置:首頁 > 計算機論文 > 正文

    隨機森林算法研究與分析論文

    發布時間:2022-09-22 09:32:04 文章來源:SCI論文網 我要評論














    SCI論文(www.crossfitdunsborough.com):
     
      摘要:在大數據、大信息環境下,“信息”和“數據”隨處可見,獲取信息和數據的渠道也多種多樣。如何有效快捷地分析和處理這些龐大的信息和數據,是人們長期以來討論的熱點話題。在數據處理過程中,應用最廣泛、最有效的是分類方法,而將多個分類器集成來進行預測便是集成學習算法。隨機森林算法是這種個多分類器組合的分類方法之一。本文先對隨機森林算法進行概述,再講述其演繹過程及這種思想的來源和思想構成原理,分析其特點和優勢,探討算法改進方法,希望能夠推動相關理論的進一步發展。

           關鍵字:分類回歸;隨機森林算法;研究分析
     
      Research and analysis of random forest algorithm
     
      Wen Yang1,liumeiqi2
     
      (1.Chengdu QiGeng Technology Co.,Ltd.,Chengdu Sichuan,610000;2.Sichuan Tianao Aerospace Information Technology Co.,Ltd.,Chengdu Sichuan,610094)
     
      Abstract:In the big data and big information environment,there are"information"and"data"everywhere.At the same time,it is easy to obtain information and data.How to deal with and analyze these huge amounts of information and data e?ectively and quickly has been a hot topic for a long time.In the process of data processing,the most widely used and effective method is the classification method,and integrating multiple classifiers to predict is the integrated learning algorithm.The random forest algorithm is one of the classi?cation methods of this combination of multiple classi?ers.This paper?rst introduces the random forest algorithm,then describes its deductive process,the source of this idea and its composition principle,analyzes its characteristics and advantages,and discusses the algorithm improvement methods,hoping to promote the further development of related theories.

           Keywords:classi?ed regression;random forest algorithm;research analysis
     
      在數據處理環節中,雖然存在很多方法,但應用最廣泛、最有效的是分類方法。而分類器是數據挖掘中對樣本進行分類的方法的總稱,用戶將需要分析分類的數據通過這個分類器進行處理,就能得到該分類器預測的分類結果。分類技術有單分類器和多分類器技術之分,主要由分類器的個數決定。單分類器雖然推動了分類技術的發展,甚至一時達到了巔峰,但是由于其自身的缺陷,很快便碰到了瓶頸?;诖?,多分類器組合思想應運而生。本文圍繞隨機森林算法,分析其特點和優勢[1]。

    \
     
      一、隨機森林理論概述
     
      隨機森林在數學上的定義是由h1(x),h2(x),……hk(x)構成的隨機森林[1]。
     
      其邊際函數定義:
     
      \
     
      邊際函數表示的意思是,在正確分類的情況下,得到的票數比在不正確分類的情況下得到的票數多的函數表現,顯然,函數越大,原分類器分類效果越可靠。
     
      二、隨機森林性能指標
     
      (一)分類效果系列指標
     
      眾所周知,森林算法主要用來進類預測,那么,分類預測效果自然有對應指標進行衡量。下面介紹一下二分類混淆矩陣[2]。如表1所示。

    \
     
      上表為二分類混淆矩陣,假設有正分類和負分類兩種分類,如上表列向顯示,TP、TN表示正確分類的正負類樣本數,FN、FP表示錯誤分類的正負類樣本數。
     
      (二)泛化誤差與OOB估計
     
      1.泛化能力與泛化誤差
     
      機器學習分析數據背后的規律,依照這些規律得出分類預測結果,對數據集以外但有著同樣規律的數據進行分析,也能得出一定的結果。這種舉一反三的能力即為泛化能力[3]。分析模型常用于簡單線性問題的誤差估計,而交叉驗證是將樣本劃分為訓練集和驗證集,因為驗證集輸出已經給出,所以可以計算其分化誤差[4]。
     
      \
     
      泛化誤差定義:
     
      代表概率定義空間。
     
      2.OOB估計
     
      隨機森林采用bagging方法訓練,而這種訓練方式會有一1-1MM部分數據不被抽取,這些不被抽取的數據個數約為。若M很大,其值約為1/e,即0.368,這些數據被稱為OBB數據。對于沒有被抽取的數據,利用這些數據進行估計的方法稱為OOB估計。OOB數據不僅能估計誤差,還能計算強度與相關系數,從而保證分類結果的準確性。

           (三)隨機森林算法運行效率指標
     
      任何算法的可行性都要考慮其運行效率,即需要考慮算法運行時的執行量和工作量,以及占用多少計算機資源。因此,時間復雜度和空間復雜度成為必須考慮的影響算法運行效率的兩大因素[5]。
     
      1.時間復雜度
     
      時間復雜度,簡單來說就是計算機執行指令需要的工作量和時間。若直接計算算法執行多長時間往往比較困難,這時,則可以引入時間復雜度的概念來描述算法執行快慢。時間復雜度可通過代碼中指令條數、循環次數及語句重復次數計算得出。從理論上說,指令越多,重復執行的次數越多,需要的運行時間越長。
     
      2.空間復雜度
     
      空間復雜度,簡單來說就是該算法占用計算機內存空間的大小。指標可以估計算法在運行過程中需要占用多大的計算機內存來執行算法。技術人員既需要處理程序本身的變量,又需要在CPU與主存之間留存一些虛擬存儲空間來提供算法需要變量的存儲空間。
     
      三、隨機森林的構建過程
     
      (一)訓練集的生成
     
      每棵決策樹都有自己的訓練集,構建N棵決策樹,就對應著N個訓練集,從原始訓練集到N個子訓練集可以采用抽樣的方法,包括不放回抽樣和有放回抽樣。
     
      不放回抽樣的意思是從多個容量為M的個體中不放回地抽取一定數量為m的樣本。簡單隨機抽樣時,在每次不放回抽樣的過程中,每個個體被抽取的概率是相等的。

    \
     
      有放回抽樣,顧名思義是在每次抽取完樣本時,將樣本再放回訓練集,這樣每次抽樣不會減少數據集,且生成的樣本可能重復。
     
      大多數隨機森林都是采用有放回抽樣的方法,該方法生成訓練集樣本的數量約為原始訓練集樣本數量的2/3,且樣本有重復,這能避免單決策樹非全局最優解的問題,從而提高整體性能水平。
     
      (二)森林的形成
     
      在之前的基礎上,反復測試訓練生成多棵決策樹,并在每棵決策樹上對預測樣本進行訓練分類,最終結果由所有決策樹投票產生。所有決策樹需先對樣本進行分類,再對每棵決策樹的結果進行匯總分析,最后選出票數最多的結果作為最終輸出[6]。
     
      隨機森林形成如圖3所示。
     
      (三)隨機森林的構成
     
      \
     
      在樣本的眾多特征中,算法可限制其中一些樣本,利用其余樣本來訓練生成決策樹。樹上的分裂點可通過貪婪算法進行分析和評估。和之前的方法一樣,隨機森林是通過抽取復合樣本進行演算,但與之前的區別在于數據在分裂時會完全分裂融入樹中,且用一個固定的子集樣本儲存在樹中。
     
      四、隨機森林算法應用場合
     
      受分類預測的有效性和可行性影響,隨機森林算法在多數領域得到了廣泛應用,其可以對數據進行處理和分析,并合理預測其他類似的樣本。
     
      (一)預測能力
     
      隨機森林算法能對已有樣本進行訓練,總結一定規律,進而獲得相似樣本的預測能力。比如,對沉船事件的生還幾率進行預測。
     
      在這個交通便利的社會,意外每天都在發生,如何在意外發生的第一時間,對生還者進行預測,然后及時搶救,是關鍵的一步。如果相關部門不能第一時間準確預測生還者數量及狀態,不僅會導致搶救行動效率降低,還會導致生還者數量減少。為避免這一情況,相關部門可利用隨機森林算法的預測算法,在事件中快速預測生還者的狀況,以及準確定位生還者的位置,從而及時進行搶救。
     
      (二)分類能力
     
      隨機森林在樣本訓練的同時,可根據選取目標的不同特征將樣本分成不同子集,再根據這些特征對一個新事物進行分類。
     
      例如,對一群動物進行分類時,可根據“生活區域”“繁殖方式”“生活習性”“樣貌特征”等屬性進行分類,最后得到該生物種類的相關屬性。利用隨機森林算法進行分類,能提升分類的準確率,快速識別該動物的物種,且可靠性和可行性更強。

            五、總結
     
      當下,隨機森林算法是一種非常實用且應用十分廣泛的算法,雖然復雜度較高,但其大幅度優化了單個分類器的性能,能通過組合多個分類實現分類預測,預測結果更加準確、高效,因此在實際生活中得到了廣泛應用。該算法因其簡單高效、快捷方便的特質,在生物信息、物流信息、經濟社會、計算機等領域獲得了巨大成就。
     
      【參考文獻】
     
      [1]文耀寬,王獻軍,王峻,等.基于隨機森林算法的電力計量大數據分析平臺研究[J].計算機技術與發展,2021(6).
     
      [2]蒲東川,王桂周,張兆明,等.基于獨立成分分析和隨機森林算法的城鎮用地提取研究[J].地球信息科學學報,2020(8).
     
      [3]劉勇,興艷云.基于改進隨機森林算法的文本分類研究與應用[J].計算機系統應用,2019(5).
     
      [4]莊巧蕙.基于改進隨機森林算法的研究與應用[D].泉州:華僑大學,2019.
     
      [5]賈文超,戚蘭蘭,施凡,等.采用隨機森林改進算法的WebShell檢測方法[J].計算機應用研究,2018(5).
     
      [6]李揚,祁樂,聶佩蕓.大規模數據的隨機森林算法[J].統計與信息論壇,2020(6).
     
    關注SCI論文創作發表,尋求SCI論文修改潤色、SCI論文代發表等服務支撐,請鎖定SCI論文網!
     

    文章出自SCI論文網轉載請注明出處:http://www.crossfitdunsborough.com/jisuanjilunwen/43628.html

    發表評論

    Sci論文網 - Sci論文發表 - Sci論文修改潤色 - Sci論文期刊 - Sci論文代發
    Copyright ? Sci論文網 版權所有 | SCI論文網手機版 | 豫ICP備2022008342號-1 | 網站地圖xml | 百度地圖xml
    午夜精品A片一区二区三区资源看
  • <bdo id="iiikg"><center id="iiikg"></center></bdo>