回上層

Enterprise Miner

SAS EM實戰演練-【系列3-2】輕鬆建好信用卡升等模型(實際建模資料準備)

延續上篇介紹,在現實中想要建構出必須經過抽樣、分割樣本、補遺失值...等資料準備的程序,才能建構出好的模型。

 

◎ 資料準備

使用過去資料(creditcard.sas7bdat)建立模型以前,若目標特徵明顯時,用大量與用較小的資料建模,結果會一致,因此可先抽樣,再觀察樣本的變數特性。

接著將樣本分為訓練及驗證樣本,然後將收入與其它收入中遺失值的部分進行補值的動作,最後再找出對於客戶是否升級有較高關係的重要變數:

所以可使用EM中的哪些節點(Node)來完成上述任務呢?

 

資料準備5步驟

Step 1. 抽取樣本-目標特徵明顯時,使用1億筆資料跟使用1萬筆資料,結果會一致,所以不須使用這麼龐大的資料來建模

Step 2. 觀察變數特性-拿到資料時,要先了解變數的特性,如:類別變數的各類人數、數值變數的平均數、標準差,及遺失值情況

Step 3. 資料分割-建模需將資料分為訓練與驗證,訓練樣本拿去建模,驗證樣本則拿來檢驗模型是否有過度配適問題

Step 4. 補遺失值-資料中經常有遺失值,若將這些樣本都刪除,則會損失許多資訊,所以要對遺失值進行補值的動作

Step 5. 選取重要變數-若沒有背景知識知道哪些變數對目標會有影響,則可使用此Node幫助您挑選重要變數

 

45

 

 

資料準備-抽取樣本

雙擊左側【Workshop】→點選工具調色盤【樣本】→將【樣本】拖曳至【流程圖】→將Creditcard與樣本路徑相連→參數設定【準則】選【以層級為基礎】。

 

46

 

【樣本】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

 

47

 

原始資料可升等的客戶占18.5%;抽出的樣本資料,可升等的客戶占50%

 

48

 

 

 

資料準備-變數特性

點選工具調色盤【勘查】→將【StatExplore】拖曳至【流程圖】→將樣本與StatExplore路徑相連→參數設定【變數】選【…】。

 

49

 

按ctrl選取要看的變數→【勘查】→變更【抽樣方法】與【提取大小】→【套用】

 

50

 

在申請信用卡時,客戶都不願意填寫月收入及其它月收入,所以此兩個變數的遺失值較多,後續會對這兩個變數進行補值的動作。

 

51

 

 

點選【確定】→【StatExplore】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

 

52

 

從此結果中可看到,本行產品數、普卡額度、年資…等變數,對於客戶是否升等有較大影響。

 

53

 

 

 

資料準備-資料分割

點選工具調色盤【樣本】→將【資料分區】拖曳至【流程圖】→將StatExplore與資料分區路徑相連→參數設定【訓練】改為【70.0】→【測試】改為【0.0】。

 

54

 

【資料分區】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

 

55

 

即資料分割結果如下:

將70%的樣本切割為訓練資料;30%為驗證資料。在兩資料中有升級及未升等的客戶各占一半。

 

56

 

 

 

資料準備-補遺失值

點選工具調色盤【修改】→將【設算】拖曳至【流程圖】→將資料分區與設算路徑相連→參數設定【預設輸入方法】改為【無】→點選【變數】的【…】。

 

57

 

按ctrl選取要看的變數→【確定】→【設算】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

 

58

 

即補遺失值結果如下:

在此,雖然選取其它月收入進行補值的動作,但是由於此變數中的遺失值超過50%以上,資訊過少,所以並未進行補值。

而月收入有進行補值,並且將補完的變數命名為IMP_income

 

59

 

 

 

資料準備-重要變數

點選工具調色盤【勘查】→將【變數選取】拖曳至【流程圖】→將設算與變數選取路徑相連。

 

60

 

【變數選取】按右鍵→【執行】→執行此路徑【是】→執行完成【結果】。

 

61

 

即重要變數結果如下:

使用R2的值計算每個變數對客戶是否升等的影響,可得到本行產品數、普卡額度、與本行往來時間…等變數對是否升等有較大影響。另外根據變數重要性,決定後面的模型當中要放入哪些變數。

 

62

 

 

資料都已經準備好了,現在馬上來體驗EM強大建模功能吧!

下一篇我們將以決策樹與迴歸模型讓操作~

 

我要繼續學習:SAS EM實戰演練-輕鬆建好信用卡升等模型(決策樹與迴歸模型)

回上層