回上層

Text Miner

文字群集 – 將2013 KDD paper做分群分析

 

SAS Text Miner有一個主要功能就是能幫文章做分群,在這章節將介紹「文字群集」模組。

 

在此範例中資料是335個2013 KDD paper的PDF檔。ACM SIGKDD Conference on Knowledge Discovery and Data Mining是一個資料探勘領域有名的國際會議,每年會有不同的論文發表,每年內容也會隨這個領域發展而有所不同。若想快速看到某一年中的論文都是什麼內容,可以分成哪幾大群文章,便可使用「文字群集」這個節點。可看到有177篇文章是分在「networks values random algorithms full international…」這個群集;47篇是分在「social likely networks keywords…」內。

1

 

 

接下來將對2013年度會議的文章做分群的分析。

2

 

此章節流程圖: 

3

 

 

在此處「文字匯入」節點的設定「文字大小」為30000,因此會匯入整篇論文,使用者可以自行選擇若是設定小一點,那就只會匯入論文中前面的內容,可以當作snippet來用,也能增加效率。

( 文字匯入PDF檔,可能有文件編碼和當前環境不同或保全問題,可以參考FAQ的Q1和Q6 )

 

在SAS Text Miner的文字群集中提供兩種群集演算法,一種是「期望值最大化」,另一種則是「階層式」。在結果方面會有以下幾個圖表,而Cluster Hierarchy以及Hierarchy Data兩個圖表是只有「階層式」演算法才會有的圖表。

 
1.     結果
群集這個表格為分群的主要結果,有下列資訊

-         Descriptive Terms:每一群的代表詞語,詞語數目在參數中可調整

-         Frequency:這一群中有幾篇文章

-         Coordinate:SVD分解的結果

-         RMS Std:每一群的均方根差

-         X Y:轉到二維空間的X Y座標值

4

 

5

 

 

Distance Between Clusters:XY座標圖,每一點代表一群

6

 

 

Cluster Frequencies:由Frequency結果做出來的圓餅圖

7

 

 

Cluster Frequency by RMS:「 Frequency」對上「RMS Std」作圖

8

 

 

若群集演算法為「階層式」,那麼結果除了有上述的四種圖表呈現外,還會有以下的兩個圖表,且同樣的資料「階層式」與「期望值最大化」演算法跑出來的結果會不一樣:

 

Cluster Hierarchy

9

 

 

Hierarchy Data

10

 

 

群集(階層式演算法的結果)

11

 

 


2.     其他參數調整
12

 

 

I. 轉換

做SVD分解時的維度設定。預設解析度為「低」,在前結果中可看到有Coordinate1-45,共45個維度;若改成「高」,可看到以下結果,這裡100個維度剛好是到達設定「最大SVD維度」。

13

 

 

II. 群集

i .描述性詞語:代表一群是要以幾個代表詞來表示。

ii. 群集的數目:在做分群分析時,需要設定要分幾群。

iii. 精確或最大數目:用群集的數目設定為40來說明,「精確」是指在分群時要最好剛剛好

分成40群;「最大值」是指最多可以分40群在這個範圍內由演算法判斷。

 

系統預設「精確或最大數目」欄位是「最大值」,群集的數目為40,在此例子中共分成了8群,若將「精確或最大數目」欄位改成「精確」會分成38群,如下表所示,比前面結果分得更細,是更微觀的結果。群集數目可依照文章數目及性質來做調整。

14

 


3.     匯出的資料

15

 

 

16

 

17

回上層