回上層

Text Miner

文字剖析與篩選

 

當資料匯入後,接下來需要對文章的字詞做剖析以及一些轉換的動作,這個章節將會介紹「文字剖析」和「文字篩選」兩個節點如何達成這些事情。

 

此章節流程圖: (資料為754篇PTT基金板文章)
p1


1. 文字剖析
將文字剖析節點連接資料集,並選好要分析文章的語言後,就可以對文字剖析節點按右鍵「執行」
p2

 

(1). 結果
詞語: 可看到詞語剖析後的資料,如表格「基金」這個詞語,它剖析結果是名詞,特性是Alpha,在所有文章中出現了1938次,有出現在511篇文章中,該詞語有被保留。有些詞語特性是混合,如「基金經理人」是「基金」和「經理人」合起來的名詞群組。

p3


接下來以下四個圖形,都是根據以上「詞語」表格的欄位所做出來的統計圖


ZIPF圖: 「變數numdocs的排名」對上「文件數目」
p4

 

文件數目 – 依次數: 「文件數目」對上「次數」

p5

角色 – 依次數: 「角色」對上「次數(加總)」

p6

特性 – 依次數: 「特性」對上「次數(加總)」

p7

 

(2). 其它參數調整
「文字剖析」的結果如上所述,那麼它還能有哪些調整讓結果更好?以下是語言項目選擇英文及中文的預設選項:
p8


I. 偵測
      i. 不同的詞性:例如「付出」有時當動詞用有時當名詞用,是否要將其視為不同的字詞
      ii. 名詞群組:要不要剖析出名詞群組,例如剛剛提到的「基金經理人」是否要被偵測出來
      iii. 多重文字詞語:這個選項只有在英文才能選擇,中文並不行,如「a lot of」的”a”, “lot”, “of”三個詞語合起來其實是一個意思
      iv. 尋找實體:搭配SAS Concept Creation可以做到自定義新詞,如「胖達人」為一個名詞
II. 忽略
      忽略一些指定類型的詞語,例如忽略「感嘆詞」、「助動詞」等
III. 同義詞
      i. 詞語詞幹:這個選項只有在英文才能選擇,英文「字根」若相同視為同義詞
      ii. 同義字:可以將自己定義的同義詞SAS table匯入,格式如下所示。

      在此例子中,若文章有出現「三星電子」或「samsung」都會被當成「三星」來分析計算。
p9

IV、篩選
      i. 啟用清單:只保留有在啟用清單內的詞語
      ii. 停用清單:去掉在停用清單內的詞語

 

      自定義的啟用、停用清單SAS table格式如下所示。

p10

以下為加入停用清單( 1200個中文常用停用詞「的、是、有、也...」+標點符號 ),以及只留下名詞、動詞、專有名詞後的結果,可看到在停用清單內的字詞,「保留詞語」欄位從Y變成N;且只留下角色為名詞、動詞、專有名詞、名詞群組、標點符號的詞語。

p11

p12

 

2. 文字篩選
將文字篩選節點接在文字剖析節點之後,按右鍵「執行」。


(1). 結果
大致的輸出結果與文字剖析相同,多了刪除詞語或保留詞語的「狀態」以及詞語的「權數」
p13



(2). 篩選檢視器、文件篩選
將左側選項結果欄的「篩選檢視器」點開,可看到以下文件和詞語的結果。
(當篩選檢視器開啟時,流程圖畫布將被鎖定無法動作)
p14
p15
在尋找輸入「俄羅斯」後可以看到俄羅斯詞語,如上圖所示。

 

若對俄羅斯按右鍵「檢視概念連結」,可看到以下結果,連結的線越粗代表那個詞語與「俄羅斯」一起出現的機率更高,像是當指標指到「烏克蘭」時會出現「14/26」分母26代表有出現「烏克蘭」的文章共有26篇分子14代表同時有出現「俄羅斯」和「烏克蘭」的文章共有14篇。若在連續點烏克蘭兩下,可以再從烏克蘭連出去,看與烏克蘭常一起出現的詞語又是哪些。

p16_renew


若對俄羅斯按右鍵「將詞語增加到搜尋運算式中」再按套用,可以看見有包含俄羅斯的文章
p17


關閉篩選檢視器時,系統會問是否要儲存結果,若儲存,會發現左側文件篩選的「搜尋運算式」出現俄羅斯,代表它只會分析含有俄羅斯的文章。若要搜尋的不只一個詞語,可參考說明文件的「Text Filter Node Search Expressions」章節,將有更詳細的說明 (例如:「俄羅斯 基金」是文章中有含俄羅斯或基金其中一者就可以,「+俄羅斯 +基金」則是文章必須同時包含兩者)

p18

 

至於文件篩選的「子集文件」可以對文章做SQL WHERE條件的篩選,如篩選Date欄位中大於等於某個值的文件,或Title包含某個關鍵字的條件等。
p19


此外,在篩選檢視器中,也可以做同義詞的調整,例如我們認為動詞的投資和名詞的投資為同義詞,可將兩個詞與選取後按右鍵「視為同義詞」
p20
→ (按投資左邊的”+”可將同義詞內容展開。若要移除同義詞,對展開後的詞語按右鍵「移除同義字」)

p21

 

(3). 其它參數調整
p22


I. 加權
      i. 次數加權:有「對數」、「二元」、「無」 (可參考文件Frequency Weighting Methods章節)
      ii. 詞語加權:詞語權重代表一個詞語的重要性,有「熵」、「反向文件次數」、「相互資訊」,權數隨著文件數目變化如下圖所示 (計算公式可參考文件Term Weighting Methods章節)

[ 熵 ]
p23
[ 反向文件次數 ]
p24
[ 相互資訊 ]
p25


II. 詞語篩選
文件最少數目為4,若小於4該詞語會被刪除

p26

回上層