回上層

Text Miner

文字歸類 - PTT網路論壇討論主題勘查

 

在現今網路資訊爆炸的時代,每天都有很多新的資訊湧入,PTT是台灣一個網路論壇,也是大學生常常發文討論的地方。Gossiping Board八卦板是PTT最熱門的看板,每天有將近2000篇的新文章,怎麼快速從這麼多的文章中看出大家在討論的主題?在此章節中將介紹SAS Text Miner「文字歸類」節點,這個模組可以將文章分成不同主題,且不同於「文字群集」節點每篇文章只能分到一群,同一篇文章是可能討論很多種不同主題的。

 

此範例資料是採用2014中華民國九合一選舉前一個禮拜 ( 2014/11/24~2014/11/28 ) 發文的文章,總計共7275篇文章。若想要快速將7275濃縮成25個主題,看哪些文章在討論哪些主題,透過「文字歸類」節點,可看出有1033篇文章在討論「吃、買、去、八卦、賣」這個主題;782篇在討論「連勝、文、哲、柯、票」這個主題...。

1

 

 

2

 

 

此章節流程圖: 

3

 

 
1.     結果
歸類最主要的表格,可看見每個主題的相關資訊

-         類別Category:主題是由一個詞語組成、多個詞語組成、或是使用者自訂

-         文件截止值Document Cutoff、詞語截止值Term Cutoff:主題的文件、詞語截止值(將在後面文字歸類檢視器說明)

-         歸類Topic:五個代表主題的詞語

-         詞語的數目Number of Terms、文件數目#Doc:該主題內有幾個關鍵詞語及包含幾個文件

4

 

 

詞語詞語的資訊,包含角色、詞性、權重等資訊

-         WEIGHT:該詞語在所有文章中的權數

-         主題下的數值(ex:「吃,買,去,八卦,賣」欄位):該詞語在該主題下的權數

-         ( 其它欄位請參考「文字剖析」單元 )

5

 

 

文件的數目-依歸類每個主題所含的文件數目

6

 

 

詞語的數目-依歸類每個主題所含的詞語數目

7


2. 歸類檢視器
將文字歸類節點左方選項欄中的「歸類檢視器」點開,可以看到歸類、詞語、文件三個表格的結果;在第一個歸類表格選擇不同歸類,第二、三個表格會連帶跟著更動。並且可以手動調整結果。

8

 

 

 (1). 歸類

9

 

 

(2). 詞語        

-         歸類權數:該詞語在該主題歸類下的權數

10

 

 

(3). 文件

-         歸類權數:該文件在該主題歸類下的權數

11

 

 

I. 三個表格的交互關係

下面以「竊聽,業者,檢,彭盛,韶」這個主題為例:
i.    詞語截止值為0.009可看到在「(2)詞語」表中只有|詞語權重|>=0.009時才會被歸到這個主題的詞語,而符合這樣條件的詞語有748個。
ii.  文件截止值為0.079可看到在「(3)文件」表中該主題下含括的文章權數都>=0.079,而符合這樣條件的文件有369個。

 

II. 手動調整

可以人工修改「(1)歸類」表和「(2)詞語」表的一些結果(下圖紅框部份),在更改後按右上角的「重新計算」便會看到更正的結果,藉此讓結果更接近使用者預期。

12

 


3.     使用者歸類

除了系統自己分類外,若使用者有想分的主題,也可藉由「使用者歸類」來達成,表格格式如下:「歸類」為主題名稱,「詞語」及「權數」分別代表該歸類下含有哪些詞語,權重分別是多少。

在選舉那段期間,網路上出現一個流行用語,別讓誰誰誰不開心,因此我們自訂了一個類別,含「別、讓、不、開心」詞語。

13

 

 

14

( 勘查by「文件篩選」節點 )

 

 

15

 

 

執行後可看到「別讓__不開心」這個主題已被加入,而且它的類別是「使用者」

16

 

 

17

 

 

使用者歸類中,文件截止值和詞語截止值預設是0.001,可在歸類檢視器中調整

18

 


4.     其他參數調整

19

 

I. 單一詞語歸類的數目:一個主題由一個詞語組成 (ex: 「柯」為一個主題) 的主題數目

20

 

II. 多重詞語歸類的數目:一個主題由多個詞語組成 (ex:「柯、哲、文、竊聽、蔡」為一個主

題) 的主題數目

21

 

 

III. 相互關聯的歸類:多重詞語的主題間是否要orthogonal正交還是主題間可以有相關連

 
5.     匯出的資料

22

 

23
 

 

回上層