:::中央區塊

2016/11/01~2016/11/01

點閱:170

統計方法系列研習Ⅴ:關聯與相關(卡方、積差相關)

實際人數:12 滿意度:5.75 最新訊息活動花絮

不同於之前幾堂課程在講差異考驗,本次課程要談關聯與相關。類別資料有名義變項與次序變項,由於其特性無法計算平均數、標準差,僅能呈現次數與百分比。關聯指得是兩個類別變項的關係,關聯分析就是兩個類別資料的分析處理,探討每一筆觀察值在兩個類別變項的變化關聯性。將兩個類別資料處理後,便可以得到一個交叉表,表中的資料稱為細格,表的邊框資料則為邊際次數。有了這些資料,便能夠做殘差分析,探討各細格的變化情形。殘差為實際觀察值與期望值之落差,又稱為Δ(delta)值。期望值指得是依邊際次數比例計算出的各細格次數,等同各細格在兩個變項無關聯時應該出現的次數。故此,當殘差越大,代表各細格分佈越不如期望般的出現,兩個變項有特殊性,關聯性越大;若各細格分佈越接近期望,代表兩變項的關聯性越小,所以殘差會越小。計算出殘差後,要先轉換成標準化殘差(將殘差除以標準誤),接著再轉換成調整後標準化殘差(排除各邊際次數不相等所造成的比較問題)。調整後標準化殘差係以Z分配來決定統計意義,說明各細格與期望值是否顯著差異,當其絕對值大於1.96,表示殘差落於抽樣分配的極端5%區域內,表示殘差值顯著不同於期望值的第一類型錯誤為5%,當其絕對值大於2.58,表示殘差落於抽樣分配的極端1%區域內。

  卡方考驗為對列聯表細格次數或百分比進行交叉比較,亦有人稱百分比考驗,其目的為看樣本觀察到的次數或百分比與理論或母群體的次數或百分比之間是否有顯著差異,也是兩個變項關聯情形的整體考驗。標準化殘差平方後加總,即得卡方值,卡方值愈大則統計量與理論值的差異愈可能有統計意義。而殘差分析則是各細格次數的單獨檢驗,當卡方值達顯著時,以殘差分析看細格差異比較,故殘差分析是卡方考驗的基礎,也是卡方考驗顯著後的事後考驗程序。

  由於卡方值只能看出顯著與否,故利用關聯係數反應兩個變項間的關聯情形。關聯係數的基本要素有:一、強度:即係數大小,係數數值越大,關聯強度越強;二、方向:有正向與負向,兩個變項數值的變動具有相同方向極為正向關聯;三、模式:有直線關係與曲線關係、對稱性量數與方向性量數(又稱非對稱性量數)。關聯係數導出方式可由卡方值導出或由削減誤差導出(PRE),要選擇哪一個關聯係數則是依據名義或次序變項,解釋的依據則視研究者之研究理論,判斷與選擇對稱性量數或方向性量數。李老師表示關聯係數有很多,如何選擇與解釋則視其為對稱性量數或方向性量數。當為對稱性量數時,由卡方值導出,直接解釋係數,係數越大,關聯性越強,舉例來說:列聯係數為.27,表示兩個變項的關聯強度為.27;若為方向性量數時,由削減誤差比導出,當PRE值愈大,可削減的誤差比愈大,兩個變項的關聯性愈強,舉例來說:以性別預測消費行為,得知 Lambda值為.107,表示以性別預測消費行為可以有效削減10.7%的誤差。常用的關聯係數李老師列舉如下:Phi係數、列聯係數C、Lambda與Tau-b, Tau-c。

  舉例而言,想了解不同國家的家庭對子女教養方式是否不同?有兩個國家、三種教養方式共六十筆資料,資料輸入方式有二,一為變項設定編號、國籍與教養方式,輸入六十筆後,點選SPSS軟體頁面上方的工具列中的分析→描述統計→交叉表,將國別移至「列」欄中→將教養方式移至「欄」欄中→按下確定取得交叉表;或者直接輸入交叉統計表中各細格資料與數據,變項有三:國家、教養方式與次數,李老師提醒,不須另外輸入編號,點選SPSS軟體頁面上方的工具列中的資料→加權觀察值,點選觀察值加權依據,並將次數移至「次數變數」欄中,按下確定,再點選SPSS軟體頁面上方的工具列中的分析→描述統計→交叉表,將國別移至「列」欄中→將教養方式移至「欄」欄中→按下格→勾選欲得到的資料選項,再按下統計量→依照研究則一勾選名義或次序下之需要的資料選項→按下確定。解釋的部分,李老師表示,卡方檢定表格可看出顯著與否;交叉表可依照調整後殘差是否達臨界值,讀出各細格次數是否顯著不同於期望值;關聯係數表格視其研究理論為對稱性量數或方向性量數選擇表格,可讀出兩變項間之關係強弱。

  李老師提及相關為二個連續變項的共同變化情形,可以是線性關係,也就是積差相關,或非線性關係。相關係數則是兩個連續變項之間線性關係強度的指標,相關係數越大,表示線性關聯越強。積差相關係數為共變數除以兩個變數的標準差所得出的係數,簡稱Pearson’s r,其特性係:係數介於-1至1之間、係數愈接近-1或1時,表示變項的關聯情形愈明顯、係數僅可以順序尺度的概念說明數值的相對大小、樣本數大小是影響相關係數統計顯著性的重要因素。

  舉例來說,想知道家中人口數與每月開銷的相關性,輸入變項為編號、人口數、每月開銷金額,輸入完資料後點選SPSS軟體頁面上方的工具列中的分析→相關→雙變數,將人口數與每月開銷金額移至「變數」欄,勾選Pearson相關係數與相關顯著性訊號→選項→勾選平均數與標準差→繼續→確定,描述統計中可讀出平均數與標準差,相關表格則可看出顯著相關與否,以及正負相關。

  若要看連續變項與類別變項的關聯係數,例如:一個連續變項,一個二分變項或一個連續變項,一個類別變項,前者可使用點二系列相關係數;後則可使用η (eta)係數。但在SPSS並無針對點二系列相關的操作程序,故可將二分變項以積差相關方式Pearson’s r獲得或者將二分變項視為是類別變項,由η係數獲得。

  舉例來說:想了解家庭規模與每月開銷的相關性,家庭規模為類別變項(依人口區分為大家庭或小家庭),輸入變項有:編號、家庭規模與每月開銷,輸入完資料後點選SPSS軟體頁面上方的工具列中的分析→描述統計→交叉表,將每月開銷移至「列」欄中→將家庭規模移至「欄」欄中→點選統計量→勾選相關→Eta值→繼續→確定。

  最後,李老師指出η(eta)平方後,可以解釋類別變項對連續變項的削減誤差百分比。將η(eta)係數與Pearson’s r做比較,李老師表示:一、η可運用在非線性關係;二、當η大於r越多,表示非線性的狀況越明顯(但無法從η係數得知是何種非線性關係);三、積差相關基於線性關係的假設,造成二個變項關聯情形會有低估的情形。

最後更新日期:2016/11/3 上午 10:45:22

計畫別:優化師質精進教學--持續精進創新教學

發佈單位:教師教學發展組

上一則:量化研究:統計方法系列研習Ⅲ-相依樣本單因子變異數分析(ANOVA)
下一則:統計方法系列研習Ⅵ:迴歸(Regression)