SAS知識+




Q1. 「文字剖析Text Parsing」節點執行出錯?文章無法讀入?文章讀入內容有亂碼?資料表格編碼和目前環境不一樣encoding出錯怎麼辦?


若有以上情形,像是SAS官方網站提供的Example Data ( VAERS.zip )資料編碼(en)和使用者預設的編碼(zt)不同,便可能造成使用者資料匯入後無法使用,因此需要先更改環境,方法如下述:

 

用記事本開啟C:\Program Files\SASHome\SASFoundation\9.4\sasv9.cfg檔案,並將
內容“-config "C:\Program Files\SASHome\SASFoundation\9.4\nls\zt\sasv9.cfg"”
改成“-config "C:\Program Files\SASHome\SASFoundation\9.4\nls\en\sasv9.cfg"”
( 也可以視使用者需求改成u8, en, zt, zh, 1d編碼 )

此外,在en環境下,節點名稱不能有中文,否則執行會有問題。


例如:節點名稱「文字剖析」會出錯,需要按右鍵重新命名成Text Parsing或不含中文的名稱
若要整個將操作環境改成英文,請參考Q2的步驟

 

 

Q2. EM操作介面語言怎麼改成英文?


(1). 點選Windows下的「開始 / SAS / SAS Deployment Manager 9.4」

p1

 

(2). 「選擇語言」→ 選擇繁體中文 → 確定

p2

 


(3). 「SAS部屬管理程式工作」→ 選擇Locale Setup Manager → 下一步

p3

 


(4). 「SAS部屬管理程式工作」→ 語言選英文(美國)[en_US],
並選取SAS Enterprise Miner Workstation Configuration → 下一步

p4

 

(5). 完成

p5

 

 

Q3. 「文字匯入Text Import」節點完全無法執行?
執行文字匯入需要用到SAS Document Conversion Server,這應該是使用者一開始就有安裝的,但是要啟動SAS Document Conversion Server,需要安裝1.5版以上的Java (包含Java Runtime Environment (JRE)以及Java Development Kit (JDK))。

除此之外,SAS Document Conversion Server安裝時預設的port是7111,若是這個port與其它程式有衝突需要修改,請參考下列網址的步驟:http://goo.gl/yd7G3V

 

 

Q4. 為什麼拿中文文章做分析,跑出來的結果卻是英文和符號?
在「文字匯入」及「文字剖析」節點左方選項都有「語言」可以選擇,預設是英文,若是沒有更改成中文,軟體只會剖析中文文章中含有的英文字及符號。

 

 

Q5. 現在表格有三個欄位: title、description、article,角色都是「文字」,我能同時拿這三個欄位去跑SAS Text Miner嗎?

不行。SAS Text Miner分析的對象就是一欄,若是三個都要分析,可以分開跑三個流程,或是先行將三欄合併成一欄。

 

 


Q6.   為什麼有些PDF檔案使用「文字匯入」節點讀進來內容是空的?
若PDF檔案是「保全」受保護的狀態,SAS Text Miner將無法讀取文章。需要請使用者自行將檔案解除保全後再匯入軟體使用。

 

 

 


Q7.   若在「文字篩選」節點的「篩選檢視器」中將很多詞語篩選掉後再重跑,速度很慢?
由於軟體的一些機制,時間確實會比原先跑文字篩選節點還久。若要刪除非常多詞語,也可考慮將這些詞語加入文字剖析節點的停用清單。

 

 

 

 

Q8.   Error怎麼看到錯誤訊息?

(1). 點到出現ERROR的節點,並記得它的節點ID

p11

 

 

(2). 開啟檔案:[ 專檔資料夾 ] / Workspaces / EMWS1/TextParsing(對應ID)/EMLOG.log

p12

 

 

 

(3). 按「Ctrl+F」並輸入「ERROR:」搜尋

p13

像此例子中出現文字轉碼的問題,就可參考此章節Q1解決

 

 

Q9. 資料集包含無效欄名稱的變數

若在建立資料來源時出現以下錯誤,是因為在匯入EM的SAS TABLE中欄位名稱不可為中文

 p11

1