回上層

Text Miner

文字設定檔 – 不同類別的蘋果日報新聞關聯

 

當文章有不同類別層級,透過SAS Text Mining的「文字設定檔」節點可以看見每個類別的代表詞語,以及類別與類別間的一些關聯。

 

在此範例中使用2014/11/01~2015/01/22蘋果日報網站共24308則文章,蘋果日報網站中有多個新聞分類,每篇新聞都會歸在一個類別下,我們接下來要來分析這些有類別的新聞文章,看不同類別新聞間有什麼差異,各類別新聞的關聯詞語又是哪些。如「金融專題」類新聞的關聯詞語有「銀、銀行、中信、人民幣、辜、車、外匯、存底」;而「籃球瘋」類新聞有「分、kobe、湖人、場、豪、書、季、勝」,且「籃球瘋」類新聞與「體育焦點」類新聞有高度的相似性。

p1

 

 

p2

 

 

此章節流程圖:

在「文字設定檔」節點中,需要有目標角色的變數,又依照目標是否是時間變數而有不同的設定

- 第一個流程圖的「目標」為新聞類別 (類別如上列表)

- 第二個流程圖的「目標」為日期,且文字篩選節點篩選出新聞中有出現柯文哲的新聞

p3

 


1.     結果 (目標角色時間間隔,流程圖1)
p4

 

 

設定變數:描述不同目標類別的詞語,以及該類別的文章次數

p5

 

 

Belief-依值:詞語在類別中的Belief值,Belief越高代表該詞語在該類別中越重要

p7

 

 

在此範例中,由於目標有46類別,超過系統能顯示的上限,會出現如上圖的顯示「X和Y直條的組合超過上限」;因此將類別改成較大的分類,只有8個類別,結果如下圖所示。

p8

 

 

目標分配每個類別佔的比例圓餅圖

p9

 

 

目標相似性:類別之間的相似性

連線的粗細代表兩者相似性的高低,線越粗兩個類別有越高的相似性。

p10

 

 

圖形下方有可以拉動的捲軸,越多%時圖會留下越重要的連結,如當上51%的時候只留下以下連結:

籃球瘋-體育焦點」、「頭條-娛樂名人」、「頭條-生活」、「娛樂名人-生活」、「娛樂名人-名人時尚」、「金融保險-金融專題」、「法庭-社會」、「投資理財-綜合產業」、「政治-要聞

p11

 


2.     結果 (目標角色時間間隔,流程圖2)
p12

 

若目標角色為時間間隔,在「日期等距分箱間隔」可以設定以怎樣的時間單位長短來做分析。在這裡由於新聞時間橫跨201411-201501,因此是選擇「每星期」的設定。

p13選項:每小時 / 每天 / 每星期 / 每月 / 每年

 

 

設定變數:描述不同目標類別的詞語 (2014-W51代表2014年的第51個星期)

p14

 

 

詞語時間序列:特定時間區間內 (下面例子為2014-W51) 詞語與時間的關係

p15

 

 

目標相似性:類別之間的相似性

p16

 

 

目標分配每個類別佔的比例圓餅圖

p9

 


3.     匯出的資料

 0


p19

 

回上層