“決策樹”——數(shù)據(jù)挖掘數(shù)據(jù)分析

數(shù)據(jù)挖掘 分析 數(shù)據(jù) 決策樹| 2022-09-02 admin

“決策樹”——數(shù)據(jù)挖掘、數(shù)據(jù)分析

決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關系。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。 決策樹的實現(xiàn)首先要有一些先驗(已經(jīng)知道結果的歷史)數(shù)據(jù)做訓練,通過分析訓練數(shù)據(jù)得到每個屬性對結果的影響的大小,這里我們通過一種叫做信息增益的理論去描述它,期間也涉及到熵的概念。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術,可以用于分析數(shù)據(jù),同樣也可以用來作預測(就像上面的銀行官員用他來預測貸款風險)。

從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。

一個決策樹包含三種類型的節(jié)點: 1.決策節(jié)點——通常用矩形框來表式 2.機會節(jié)點——通常用圓圈來表式 3.終結點——通常用三角形來表示

決策樹學習也是資料探勘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進行修剪。 當不能再進行分割或一個單獨的類可以被應用于某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。

決策樹對于常規(guī)統(tǒng)計方法的優(yōu)缺點

優(yōu)點:

  1) 可以生成可以理解的規(guī)則;

  2) 計算量相對來說不是很大;

  3) 可以處理連續(xù)和種類字段;

  4) 決策樹可以清晰的顯示哪些字段比較重要。

  缺點:

  1) 對連續(xù)性的字段比較難預測;

  2) 對有時間順序的數(shù)據(jù),需要很多預處理的工作;

  3) 當類別太多時,錯誤可能就會增加的比較快;

  4) 一般的算法分類的時候,只是根據(jù)一個字段來分類。

決策樹的適用范圍

  科學的決策是現(xiàn)代管理者的一項重要職責。我們在企業(yè)管理實踐中,常遇到的情景是:若干個可行性方案制訂出來了,分析一下企業(yè)內(nèi)、外部環(huán)境,大部分條件是己知的,但還存在一定的不確定因素。每個方案的執(zhí)行都可能出現(xiàn)幾種結果,各種結果的出現(xiàn)有一定的概率,企業(yè)決策存在著一定的勝算,也存在著一定的風險。這時,決策的標準只能是期望值。即,各種狀態(tài)下的加權平均值。

  針對上述問題,用決策樹法來解決不失為一種好的選擇。

  決策樹法作為一種決策技術,已被廣泛地應用于企業(yè)的投資決策之中,它是隨機決策模型中最常見、最普及的一種規(guī)策模式和方法此方法,有效地控制了決策帶來的風險。所謂決策樹法,就是運用樹狀圖表示各決策的期望值,通過計算,最終優(yōu)選出效益最大、成本最小的決策方法。決策樹法屬于風險型決策方法,不同于確定型決策方法,二者適用的條件也不同。應用決策樹決策方法必須具備以下條件:

 ?、倬哂袥Q策者期望達到的明確目標;

 ?、诖嬖跊Q策者可以選擇的兩個以上的可行備選方案;

  ⑧存在著決策者無法控制的兩種以上的自然狀態(tài)(如氣候變化、市場行情、經(jīng)濟發(fā)展動向等);

 ?、懿煌袆臃桨冈诓煌匀粻顟B(tài)下的收益值或損失值(簡稱損益值)可以計算出來;

  ⑤決策者能估計出不同的自然狀態(tài)發(fā)生概率。

決策樹的決策程序

  決策樹法的決策程序如下:

  (1)繪制樹狀圖,根據(jù)已知條件排列出各個方案和每一方案的各種自然狀態(tài)。

  (2)將各狀態(tài)概率及損益值標于概率枝上。

  (3)計算各個方案期望值并將其標于該方案對應的狀態(tài)結點上。

  (4)進行剪枝,比較各個方案的期望值,并標于方案枝上,將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。

  決策樹法在企業(yè)決策中有著廣泛的應用。下面舉一實例說明其應用。某企業(yè)在下年度有甲、乙兩種產(chǎn)品方案可供選擇。每種方案都面I臨滯銷、一般、和暢銷三種市場狀態(tài)。各狀態(tài)的概率和損益值如下:

  根據(jù)給出的條件運用決策樹法選擇一個最佳決策方案。

  解題方法如下:

  由此可以看出,決策樹法的決策過程就是利用了概率論的原理,并且利用一種樹形圖作為分析工具。其基本原理是用決策點代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結果,經(jīng)過對各種方案在各種結果條件下?lián)p益值的計算比較,為決策者提供決策依據(jù)。

決策樹的應用前景

  從以上介紹可以看出決策樹法具有許多優(yōu)點:條理清晰,程序嚴嚴謹,定量、定性分析相結合,方法簡單,易于掌握,應用性強,適用范圍廣等。人們逐漸認識到,在投資方案比較選擇時考慮時間因素,建立時間可比原則和條件的重要性。當今的社會經(jīng)濟活動中,競爭日趨激烈,現(xiàn)代企業(yè)的經(jīng)營方向面臨著許多可供選擇的方案,如何用最少的資源,贏得最大的利潤以及最大限度地降低企業(yè)的經(jīng)營風險,是企業(yè)決策者經(jīng)常面對的決策問題,決策樹法能簡單明了地幫助企業(yè)決策層分析企業(yè)的經(jīng)營風險和經(jīng)營方向。必然地,隨著經(jīng)濟的不斷發(fā)展,企業(yè)需要做出決策的數(shù)量會不斷地增加,而決策質(zhì)量的提高取決于決策方法的科學化。企業(yè)的決策水平提高了,企業(yè)的管理水平就一定會提高。

  西蒙說:管理就是決策。

決策樹的應用舉例

案例一:利用決策樹評價生產(chǎn)方案

  決策樹是確定生產(chǎn)能力方案的一條簡捷的途徑。決策樹不僅可以幫助人們理解問題,還可以幫助人們解決問題。決策樹是一種通過圖示羅列解題的有關步驟以及各步驟發(fā)生的條件與結果的一種方法。近年來出現(xiàn)的許多專門軟件包可以用來建立和分析決策樹,利用這些專門軟件包,解決問題就變得更為簡便了。

  決策樹由決策結點、機會結點與結點間的分枝連線組成。通常,人們用方框表示決策結點,用圓圈表示機會結點,從決策結點引出的分枝連線表示決策者可作出的選擇,從機會結點引出的分枝連線表示機會結點所示事件發(fā)生的概率。

  在利用決策樹解題時,應從決策樹末端起,從后向前,步步推進到?jīng)Q策樹的始端。在向前推進的過程中,應在每一階段計算事件發(fā)生的期望值。需特別注意:如果決策樹所處理問題的計劃期較長,計算時應考慮資金的時間價值。

  計算完畢后,開始對決策樹進行剪枝,在每個決策結點刪去除了最高期望值以外的其他所有分枝,最后步步推進到第一個決策結點,這時就找到了問題的最佳方案。

  下面以南方醫(yī)院供應公司為例,看一看如何利用決策樹作出合適的生產(chǎn)能力計劃。

  南方醫(yī)院供應公司是一家制造醫(yī)護人員的工裝大褂的公司。該公司正在考慮擴大生產(chǎn)能力。它可以有以下幾個選擇:1、什么也不做;2、建一個小廠;3、建一個中型廠;4、建一個大廠。新增加的設備將生產(chǎn)一種新型的大褂,目前該產(chǎn)品的潛力或市場還是未知數(shù)。如果建一個大廠且市場較好就可實現(xiàn)$100,000的利潤。如果市場不好則會導致$90,000的損失。但是,如果市場較好,建中型廠將會獲得$ 60,000,小型廠將會獲得$40,000,市場不好則建中型廠將會損失$10,000,小型廠將會損失$5,000。當然,還有一個選擇就是什么也不干。最近的市場研究表明市場好的概率是0.4,也就是說市場不好的概率是0.6。

  在這些數(shù)據(jù)的基礎上,能產(chǎn)生最大的預期貨幣價值(EMV)的選擇就可找到。

EMV(建大廠)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000

EMV(中型廠)=(0.4) *($ 600,000))+(0.6)* (-$10,000)=+$18,000

EMV(建小廠)=(0.4)* ($40,000)+(0.6)*(-$5,000)=+$13,000

EMV(不建廠)=$0

  根據(jù)EMV標準,南方公司應該建一個中型廠。

案例二:決策樹法在投標決策中的應用

  施工企業(yè)在同一時期內(nèi)有多個工程項目可以參加投標,由于本企業(yè)資源條件有限,不可能將這些項目都承包下來,這類問題可用分析風險決策的決策樹法來進行定量分析。

  繪制方法

  1.先畫一個方框作為出發(fā)點,這個方框又稱為決策點

  2.從決策點向右引出若干根直線或折線每根直線或折線代表一個方案,這些直線或折線稱為方案枝

  3.每個方案枝的彩A畫,個圓圈,這個圓圈稱為概率分叉點,也稱為自然狀態(tài)點

  4.從自然狀態(tài)點引出若干根直線或折代表各自然狀態(tài)的分枝這些直線或折線稱為概率分枝

  5.在概率分枝的AFaM標明各自然狀態(tài)的損益值

  決策樹的分析最佳方案過程是比較各方案的損益值哪個方案的期望值最大則該方案為最佳方案

  【例】某市屬建筑公司面臨A, B兩項工程。因受本單位資源條件限制,只能選擇其中一項工程投標或者這兩項過程均不參加投標。根據(jù)過去類似工程投標的經(jīng)驗數(shù)據(jù),A工程投高標的中標概率為0.3,投低標的中標概率為0.8,編制該工程投標文件的費用為4萬元;B工程投高標的中標概率為0.5,投低標的中標概率為0.6,編制該工程投標文件的費用為2.5 萬元各方案承包的效果、概率、損益值

  計算決策樹上各機會點的期望值,并將計算出來的期望值標注在各機會點上方

  機會點⑦: 180×0.3 + 120×0.5+ 60×0.2= 126

  機會點②: 126×0.3 - 4×0.7=35

  機會點⑧: 125×0.2+ 75×0.7 + 0×0.1=77.5

  機會點③: 77.5×0.8- 4×0.2 = 61.2

  機會點⑨: 115×0.4 + 75×0.5 + 40×0.1 = 87.5

  機會點④: 87.5×0.5- 2.5×0.5 = 42.5

  機會點⑩: 90×0.2 + 40×0.5 - 20×0.3 =32

  機會點⑤: 32×0.6- 2.5×0.4=18

  機會點⑥: 0

  選擇最佳方案

  方案枝上機會點③的期望值(61.2)最大方案(A低標) 為最佳方案,該施工企業(yè)應對A工程投低標。

利用excel研究決策樹

今天隨便瀏覽微博,突然發(fā)現(xiàn)Excel也能做決策樹。立刻凌亂了。本人真是見識淺薄了。隨即百度了一下,下了一個決策樹的加載項,也就是宏,然后試著運行了一下。發(fā)現(xiàn)感覺還可以,雖然比起R,spss的決策樹過程稍微復雜點,但是還是很靠譜的。你完全懂得樹是如何生成的,挺靠譜的。有人說決策樹是白箱,有人說是灰箱,不同的軟件實現(xiàn)過程有點差別。

R做決策樹的包是基于Breiman(名字沒拼錯吧)的那本《regression tree and decision tree》,具體的可以參考手冊,R的特點就是事先數(shù)據(jù)準備好,然后按照規(guī)定的數(shù)據(jù)結構輸入,調(diào)用函數(shù),設置參數(shù)即可。

spss也是類似,只不過spss的算法選擇沒有R的包那么多。

excel完全是自己按照數(shù)據(jù)來畫一棵決策樹,自己控制樹的生長,是一種不同的體驗。首先下載treeplan宏,加載之后,點擊生成一棵新樹。然后根據(jù)數(shù)據(jù)的實際情況,把相應的節(jié)點改變?yōu)楦?jié)點,再生成新樹枝。這個宏的選項還不是很多,但是對于一般商業(yè)用的數(shù)據(jù)挖掘我感覺是夠用了。