實戰演練
用EG幫你寫論文 ,事半功倍,加速畢業![系列4-1]資料處理
寫論文一定會做問卷,但好不容易搜集來的問卷,到底要怎麼統計才能找出結果呢?
本系列第一篇,要教大家 一 問卷資料的處理
高等教育普及是近年來的趨勢,由教育部統計處的統計資料中發現,近十年來,台灣地區研究生的數量增加近一倍。在社會科學的領域中,很多的研究生並沒有修習過統計學,連統計軟體也沒有碰過,但是,論文是畢業的門檻,又要做統計分析的工作,不是請別人操刀,就是採用錯誤的分析方法,因此,如何幫助研究生以正確的統計方法來完成一篇碩士論文,實乃一重要課題。本文將以研究量表做為調查工具,以SAS公司所研發的Enterprise Guide(簡稱EG)做為分析工具,來介紹如何以EG來完成碩士生有關量表的分析工作。
一、 資料的編碼與建檔
本研究問卷有五大部分,共計45個問題。第一部分為消費者特性,共有性別、年齡層與教育程度等3個變數,分別以變數K1、K2與K3表示。在資料的編碼上,就性別而言,男性以1表示,女性以2表示;就年齡層而言﹐20-24歲以1表示,25-29歲以2表示,30-34歲以3表示,35-39歲以4表示;就教育程度而言,國中以下(含)以1表示,高中職以2表示,專科以3表示,大學以4表示,研究所以5表示。第二部分為「創新接受程度」量表,共有12個問項,分別以A1、A2、……與A12表示。第三部份為「產品創新屬性」量表,共有9個問項,分別以B1、B2、……與B9表示。第四部份為「消費者知識」量表,共有11個問項,分別以C1、C2、……與C11表示。第五部份為「購買意願」量表,共有10個問項,分別以D1、D2、……與D10表示。第二部分至第五部分的四個量表給分方式為非常同意給5分、同意給4分、普通給3分、不同意給2分、非常不同意給1分。在上述資料的編碼格式下,以EXCEL軟體建立資料檔MerryInsurance.xls的部分資料如表1-1所示︰
二、 Excel資料檔的匯入
在前面,我們已經說明過資料的編碼與建檔方式後,如何將已經建立好的Excel資料檔匯入後,轉換成SAS的資料集,EG提供了匯入資料檔的精靈讓我們可以很順利的完成資料檔的匯入。
三、 變數值格式的定義
前面在說明資料匯入時如何定義各變數的輸出標籤,例如:K1定義的輸出標籤為「性別」,K2定義的輸出標籤為「年齡」,K3定義的輸出標籤為「教育程度」……,D9 定義的輸出標籤為「我購買結婚綜合保險商品的原因是因承保項目多元化」,D10 定義的輸出標籤為「我認為結婚綜合保險商品滿足了我對於保險的需求」。至於,各變數值的輸出格式,如何定義呢?例如:就變數K1的値(1或2)而言,如何定義K1的值為1時,輸出格式為「男」,K1的值為2時,輸出格式為「女」,各變數數值欲輸出的格式如下:
表1-2 變數的標籤與輸出格式 |
|||
變數 |
變數的標籤 |
資料編碼的値 |
數值的輸出格式 |
K1 |
性別 |
1 |
男 |
2 |
女 |
||
K2 |
年齡 |
1 |
20-24歲 |
2 |
25-29歲 |
||
3 |
30-34歲 |
||
4 |
35-39歲 |
||
K3 |
教育程度 |
1 |
國(初)中以下(含) |
2 |
高中(職) |
||
3 |
專科 |
||
4 |
大學 |
||
5 |
研究所 |
||
A1-A12 B1-B9 C1-C11 D1-D10 |
量表的問題 |
1 |
非常不同意 |
2 |
不同意 |
||
3 |
普通 |
||
4 |
同意 |
||
5 |
非常同意 |
四、 匯入資料的檢核
當我們將資料匯入,並定義好各變數的輸出標籤與變數數值的輸出格式後,接下來就要檢核所匯入的資料是否有誤?例如:性別(K1)的數值是否只有1或2等兩類,年齡層的數值是否只有1、2、3或4等四類,教育程度的數值是否只有1、2、3、4或5等五類,所有量表變數(A1-A12,B1-B9,C1-C11,D1-D10) 的數值是否只有1、2、3、4或5等五類。如果發現這些變數的値有誤,則必須回原來的Excel資料檔去更正後,再來執行專案。在下表左方試錯誤的資料,變數K1出現「3」的數值,變數K2出現「5」與「23」的數值,很明顯這些資料都有誤,因此,須回原始資料修改後再行處理。
五、反向記分題的資料轉換
由於本研究問卷設有反向計分題,分別是第二部份「創新接受程度」量表的「A2:我不喜歡嘗試各種新發明與新觀念」與「A11:我很不容易接受新的觀念」,第三部份為「產品創新屬性」量表的「B5:創新產險商品不會讓我覺得物超所值」,第四部份「消費者知識」量表的「C3:在選擇創新商品時,我無法清楚說出各產品屬性的重要性」與「C7:我比別人更不了解各種創新產險商品的資訊」,第五部份「購買意願」量表的「D4:我不會在業務員解說後立即購買結婚綜合保險」與「D6:保險公司誠實經營信用佳不是我購買結婚綜合保險的原因」。故在進行分析前,必須將這些變數的值進行資料轉換,原先5分的資料要轉換為1分,4分的資料要轉換為2分,3分的資料不動,2分的資料要轉換為4分,1分的資料要轉換為5分。應該要將這7個變數A2、A11、B5、C3、C7、D4與D6分別用6減去原來的數值,即使用下列的運算式來進行重新運算:
A2=6-A2 A11=6-A11 B6=6-B5 C3=6-C3 C11=6-C11 D4=6-D4 D6=6-D6 |
這些反向記分題原先建檔資料轉換前與轉換後的資料(部分資料)如下:
六、 樣本結構的檢定
本研究樣本共有390份,依回收樣本性別、年齡層與教育程度的回收比例,得樣本結構如表1-3 所示
表1-3 樣本結構 |
|||
變數 |
人數 |
百分比(%) |
|
合 計 |
390 |
100.00 |
|
性別 |
男 |
200 |
51.28 |
女 |
190 |
18.72 |
|
年齡 |
20-24歲 |
92 |
23.59 |
25-29歲 |
93 |
23.85 |
|
30-34歲 |
103 |
26.41 |
|
35-39歲 |
102 |
26.15 |
|
教育程度 |
國中以下(含) |
31 |
7.95 |
高中職 |
111 |
28.46 |
|
專科 |
71 |
18.21 |
|
大學 |
148 |
37.95 |
|
研究所 |
29 |
7.44 |
依據內政部戶政司出版的統計年報資料顯示,截至2012年12月底為止,我國20-39歲的人口數合計為7,217,390人。由表4-1可看出,就性別而言,男性佔50.47%,女性佔49.53%。就年齡層而言,20-24歲人口佔22.38%,25-29歲人口佔23.39%,30-34歲人口佔28.25%,35-39歲人口佔25.97%。就教育程度而言,國中以下(含)站6.82%,高中職佔28.22%,專科佔15.01%,大學佔40.52%,研究所占9.42%。
表1-4 母體分配 |
|||
變數 |
人數 |
百分比(%) |
|
合 計 |
7,217,390 |
100.00 |
|
性別 |
男 |
3,642,262 |
50.47% |
女 |
3,575,128 |
49.53% |
|
年齡 |
20-24歲 |
1,615,579 |
22.38% |
25-29歲 |
1,688,435 |
23.39% |
|
30-34歲 |
2,038,988 |
28.25% |
|
35-39歲 |
1,874,388 |
25.97% |
|
教育程度 |
國中以下(含) |
492,483 |
6.82% |
高中職 |
2,036,950 |
28.22% |
|
專科 |
1,083,468 |
15.01% |
|
大學 |
2,924,468 |
40.52% |
|
研究所 |
680,021 |
9.42% |
|
為檢定樣本資料性別、年齡層與教育程度是否具有代表性,也就是要檢定樣本分配與母體分配是否相同,因此,要分別針對性別、年齡層與教育程度進行適合度檢定,茲以性別來說明檢定的過程如下:
首先,如果樣本分配與母體分配一致(P男=0.5047,P女=0.4953)的話,則在觀察的390個樣本中,男性的比例應佔50.47%,女性的比例應佔49.53%,此時男性應該會有3900.5047=196.833人,女性應該會有3900.4953=193.167人,這些次數稱為期望次數(E);在樣本中實際觀察到男性200人,女性100人,這些稱為觀察次數(O),茲整理如表1-5 所示:
表1-5 觀察次數與期望次數摘要表 |
|||
性 別 |
男 |
女 |
合 計 |
觀察次數O |
200 |
190 |
390 |
期望次數E |
196.833 |
193.167 |
390 |
其次,如果觀察次數(O)與期望次數(E)的差異愈大,則表示樣本分配與母體分配的一致性越低,相反的,觀察次數(O)與期望次數(E)的差異愈小,則樣本分配與母體分配的一致性越高。由理論可以知道,在樣本數n夠大的情況下,統計量會近似自由度k-1的卡方分配,因此,此檢定的拒絕域
最後,計算檢定統計量的值
由於檢定統計量中,所以,我們沒有充分證據來證明樣本分配與母體分配不一致,也就是,就性別而言,顯示樣本分配與母體分配是一致的。
同理,可檢定年齡層與教育程度的樣本分配與母體分配是否一致,整理如表1-6 所示:
表1-6 基本資料適合度檢定摘要表 |
|||
變數 |
性別 |
年齡層 |
教育程度 |
卡方值 |
0.2564 (0.6126) |
0.7621 (0,8585) |
5.6553 (0.2264) |
註:括號內為P值 |
由表1-6 可以看出在性別、年齡層與教育程度的適合度檢定中,P值分別為0.6126、0.8585與0.2624,均未達顯著水準,因此,本研究基本資料的樣本分配與母體分配一致,顯示本研究樣本具有代表性。