回上層

Enterprise Guide

用EG幫你寫論文 ,事半功倍,加速畢業![系列4-1]資料處理

寫論文一定會做問卷,但好不容易搜集來的問卷,到底要怎麼統計才能找出結果呢?

本系列第一篇,要教大家 一 問卷資料的處理

 

    高等教育普及是近年來的趨勢,由教育部統計處的統計資料中發現,近十年來,台灣地區研究生的數量增加近一倍。在社會科學的領域中,很多的研究生並沒有修習過統計學,連統計軟體也沒有碰過,但是,論文是畢業的門檻,又要做統計分析的工作,不是請別人操刀,就是採用錯誤的分析方法,因此,如何幫助研究生以正確的統計方法來完成一篇碩士論文,實乃一重要課題。本文將以研究量表做為調查工具,以SAS公司所研發的Enterprise Guide(簡稱EG)做為分析工具,來介紹如何以EG來完成碩士生有關量表的分析工作。

 

一、 資料的編碼與建檔

 

本研究問卷有五大部分,共計45個問題。第一部分為消費者特性,共有性別、年齡層與教育程度等3個變數,分別以變數K1、K2與K3表示。在資料的編碼上,就性別而言,男性以1表示,女性以2表示;就年齡層而言﹐20-24歲以1表示,25-29歲以2表示,30-34歲以3表示,35-39歲以4表示;就教育程度而言,國中以下(含)以1表示,高中職以2表示,專科以3表示,大學以4表示,研究所以5表示。第二部分為「創新接受程度」量表,共有12個問項,分別以A1、A2、……與A12表示。第三部份為「產品創新屬性」量表,共有9個問項,分別以B1、B2、……與B9表示。第四部份為「消費者知識」量表,共有11個問項,分別以C1、C2、……與C11表示。第五部份為「購買意願」量表,共有10個問項,分別以D1、D2、……與D10表示。第二部分至第五部分的四個量表給分方式為非常同意給5分、同意給4分、普通給3分、不同意給2分、非常不同意給1分。在上述資料的編碼格式下,以EXCEL軟體建立資料檔MerryInsurance.xls的部分資料如表1-1所示︰

 單元一 資料處理01

 

  下載資料檔

 

 

二、 Excel資料檔的匯入

 

    在前面,我們已經說明過資料的編碼與建檔方式後,如何將已經建立好的Excel資料檔匯入後,轉換成SAS的資料集,EG提供了匯入資料檔的精靈讓我們可以很順利的完成資料檔的匯入。 

EG操作


三、
變數值格式的定義

 

     前面在說明資料匯入時如何定義各變數的輸出標籤,例如:K1定義的輸出標籤為「性別」,K2定義的輸出標籤為「年齡」,K3定義的輸出標籤為「教育程度」……,D9 定義的輸出標籤為「我購買結婚綜合保險商品的原因是因承保項目多元化」,D10 定義的輸出標籤為「我認為結婚綜合保險商品滿足了我對於保險的需求」。至於,各變數值的輸出格式,如何定義呢?例如:就變數K1的値(1或2)而言,如何定義K1的值為1時,輸出格式為「男」,K1的值為2時,輸出格式為「女」,各變數數值欲輸出的格式如下:

表1-2 變數的標籤與輸出格式

變數

變數的標籤

資料編碼的値

數值的輸出格式

K1

性別

1

2

K2

年齡

1

20-24歲

2

25-29歲

3

30-34歲

4

35-39歲

K3

教育程度

1

國(初)中以下(含)

2

高中(職)

3

專科

4

大學

5

研究所

A1-A12

B1-B9

C1-C11

D1-D10

量表的問題

1

非常不同意

2

不同意

3

普通

4

同意

5

非常同意

EG操作

 

四、 匯入資料的檢核

     當我們將資料匯入,並定義好各變數的輸出標籤與變數數值的輸出格式後,接下來就要檢核所匯入的資料是否有誤?例如:性別(K1)的數值是否只有1或2等兩類,年齡層的數值是否只有1、2、3或4等四類,教育程度的數值是否只有1、2、3、4或5等五類,所有量表變數(A1-A12,B1-B9,C1-C11,D1-D10) 的數值是否只有1、2、3、4或5等五類。如果發現這些變數的値有誤,則必須回原來的Excel資料檔去更正後,再來執行專案。在下表左方試錯誤的資料,變數K1出現「3」的數值,變數K2出現「5」與「23」的數值,很明顯這些資料都有誤,因此,須回原始資料修改後再行處理。

單元一 資料處理07

EG操作

 

五、反向記分題的資料轉換

 

    由於本研究問卷設有反向計分題,分別是第二部份「創新接受程度」量表的「A2:我不喜歡嘗試各種新發明與新觀念」與「A11:我很不容易接受新的觀念」,第三部份為「產品創新屬性」量表的「B5:創新產險商品不會讓我覺得物超所值」,第四部份「消費者知識」量表的「C3:在選擇創新商品時,我無法清楚說出各產品屬性的重要性」與「C7:我比別人更不了解各種創新產險商品的資訊」,第五部份「購買意願」量表的「D4:我不會在業務員解說後立即購買結婚綜合保險」與「D6:保險公司誠實經營信用佳不是我購買結婚綜合保險的原因」。故在進行分析前,必須將這些變數的值進行資料轉換,原先5分的資料要轉換為1分,4分的資料要轉換為2分,3分的資料不動,2分的資料要轉換為4分,1分的資料要轉換為5分。應該要將這7個變數A2、A11、B5、C3、C7、D4與D6分別用6減去原來的數值,即使用下列的運算式來進行重新運算:

 

A2=6-A2

A11=6-A11

B6=6-B5

C3=6-C3

C11=6-C11

D4=6-D4

D6=6-D6

 

 

 

這些反向記分題原先建檔資料轉換前與轉換後的資料(部分資料)如下:

 

 單元一 資料處理10

EG操作

 

六、 樣本結構的檢定

 

本研究樣本共有390份,依回收樣本性別、年齡層與教育程度的回收比例,得樣本結構如表1-3 所示

表1-3 樣本結構

變數

人數

百分比(%)

合   計

390

100.00

性別

200

51.28

190

18.72

年齡

20-24歲

92

23.59

25-29歲

93

23.85

30-34歲

103

26.41

35-39歲

102

26.15

教育程度

國中以下(含)

31

7.95

高中職

111

28.46

專科

71

18.21

大學

148

37.95

研究所

29

7.44

 

依據內政部戶政司出版的統計年報資料顯示,截至2012年12月底為止,我國20-39歲的人口數合計為7,217,390人。由表4-1可看出,就性別而言,男性佔50.47%,女性佔49.53%。就年齡層而言,20-24歲人口佔22.38%,25-29歲人口佔23.39%,30-34歲人口佔28.25%,35-39歲人口佔25.97%。就教育程度而言,國中以下(含)站6.82%,高中職佔28.22%,專科佔15.01%,大學佔40.52%,研究所占9.42%。

 

 

表1-4 母體分配

變數

人數

百分比(%)

合   計

7,217,390

100.00

性別

3,642,262

50.47%

3,575,128

49.53%

年齡

20-24歲

1,615,579

22.38%

25-29歲

1,688,435

23.39%

30-34歲

2,038,988

28.25%

35-39歲

1,874,388

25.97%

教育程度

國中以下(含)

492,483

6.82%

高中職

2,036,950

28.22%

專科

1,083,468

15.01%

大學

2,924,468

40.52%

研究所

680,021

9.42%

資料來源:http://sowf.moi.gov.tw/stat/year/list.htm

 

為檢定樣本資料性別、年齡層與教育程度是否具有代表性,也就是要檢定樣本分配與母體分配是否相同,因此,要分別針對性別、年齡層與教育程度進行適合度檢定,茲以性別來說明檢定的過程如下:

    首先,如果樣本分配與母體分配一致(P=0.5047,P=0.4953)的話,則在觀察的390個樣本中,男性的比例應佔50.47%,女性的比例應佔49.53%,此時男性應該會有3900.5047=196.833人,女性應該會有3900.4953=193.167人,這些次數稱為期望次數(E);在樣本中實際觀察到男性200人,女性100人,這些稱為觀察次數(O),茲整理如表1-5 所示:

 

表1-5 觀察次數與期望次數摘要表

性  別

合  計

觀察次數O

200

190

390

期望次數E

196.833

193.167

390

 

其次,如果觀察次數(O)與期望次數(E)的差異愈大,則表示樣本分配與母體分配的一致性越低,相反的,觀察次數(O)與期望次數(E)的差異愈小,則樣本分配與母體分配的一致性越高。由理論可以知道,在樣本數n夠大的情況下,統計量單元一 資料處理15會近似自由度k-1的卡方分配,因此,此檢定的拒絕域單元一 資料處理16

最後,計算檢定統計量的值

單元一 資料處理16

由於檢定統計量單元一 資料處理18中,所以,我們沒有充分證據來證明樣本分配與母體分配不一致,也就是,就性別而言,顯示樣本分配與母體分配是一致的。

同理,可檢定年齡層與教育程度的樣本分配與母體分配是否一致,整理如表1-6 所示:

 

表1-6  基本資料適合度檢定摘要表

變數

性別

年齡層

教育程度

卡方值

0.2564

(0.6126)

0.7621

(0,8585)

5.6553

(0.2264)

註:括號內為P值

 

由表1-6 可以看出在性別、年齡層與教育程度的適合度檢定中,P值分別為0.6126、0.8585與0.2624,均未達顯著水準,因此,本研究基本資料的樣本分配與母體分配一致,顯示本研究樣本具有代表性。

 

EG操作

 

回上層