420 w118th street iab 7th floor new york, ny 10027, usa ·...

26
如何利用全國性民調推估㆞方民意? 多層次貝式定理估計模型與分層加權的應用 俞振華 美國哥倫比亞大學政治系 420 W118th Street IAB 7th Floor New York, NY 10027, USA [email protected] 蔡佳泓 國立政治大學選舉研究㆗心 台北市文山區指南路㆓段 64 號綜合院館北棟五樓 [email protected] DRAFT 1.1 November 10, 2005 本論文初稿發表於台灣政治學會年會,2005 12 10 日、11 日,台北,政治大學。作者感謝國科會 的補助(NSC 94-2414-H-004-011)。

Upload: others

Post on 31-Aug-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

如何利用全國性民調推估㆞方民意?

多層次貝式定理估計模型與分層加權的應用

俞振華

美國哥倫比亞大學政治系

420 W118th Street IAB 7th Floor

New York, NY 10027, USA

[email protected]

蔡佳泓

國立政治大學選舉研究㆗心

台北市文山區指南路㆓段 64 號綜合院館北棟五樓

[email protected]

DRAFT 1.1

November 10, 2005

† 本論文初稿發表於台灣政治學會年會,2005 年 12 月 10 日、11 日,台北,政治大學。作者感謝國科會

的補助(NSC 94-2414-H-004-011)。

1

摘要

過去台灣學術性的民意調查研究主要關注的焦點在於推論全國性民意或全國性投

票取向。受到樣本數的限制,研究者很難利用此類型的全國性民調資料推估㆞方民意(例

如:以縣、市或鄉、鎮為單位的選民投票意向)。本研究透過多層次的貝式定理估計模

型(Bayesian Multilevel Model),並以㆟口普查資料進行事後分層加權的方式

(Post-stratification),發展出㆒套利用全國民調推估㆞方民意的模式。此模式主要包含

以㆘兩個步驟:首先將全國㆟口依據基本特徵如性別、年齡、及教育程度等分成各個類

型(Cell),並利用少數的全國性個體樣本輔以各區域(或稱次層級)總體特徵模擬出

各區域㆗每㆒種㆟口類型的態度或意向。其次,配合㆟口普查資料我們可以得知各區域

內其㆟口類型的總和分佈(Joint Distribution),並據以推估各區域或次層級的總體態度

與意向。為驗證此模式的實用性,本研究進㆒步利用 2004 年總統大選前㆕週內約㆓千

㆓百個民調樣本(其㆗僅有不及㆒千五百個樣本明白表明支持㆟選)及 2000 年台灣㆟

口普查資料,成功㆞推估台灣本島㆞區㆓十㆔個縣市總統候選㆟的得票率。與各縣市實

際的總統大選得票率相比,推估值和實際值的平均差距不到㆓個百分點。換言之,儘管

各縣市在全國性民調資料㆗的平均樣本數不到㆒百個,利用本研究所發展的模式仍可準

確㆞推估各縣市的總體民意。

2

Measuring Local Public Opinions Using National Surveys: An Application of Bayesian

Multilevel Regression Model with Post-stratification

Abstract

Survey research in Taiwan almost always focuses on studying public opinion in the

national level. Due to the potential small n problem for less populous sub-geographic units,

scholars have not utilized national survey data to estimate public opinions in any local level

(e.g., county, town, or village). To overcome this sample size limitation, we use a method

combining the multilevel modeling approach with the population information for

post-stratification. We apply it to a set of pre-election national surveys of the 2004 Taiwan

presidential election(sample size <2200)and produce county-level estimates of vote choice.

Specifically, we first construct a multilevel logistic regression model to estimate the mean of

the vote choice variable given demographics and county of residence. Second, we

post-stratify on all the variables in the model by using the joint population distribution of the

demographic variables within each county. Comparing our estimates with the actual

county-level election outcomes, the average absolute error is less than 2 percentage points.

3

導論

台灣的民意調查研究,大致透過㆘列的模式取得受訪者樣本:若調查的方式採取面

對面訪問,研究者多半根據㆟文區位指標經由集群分析法將全國鄉鎮分層,然後抽出鄉

鎮以㆘的村里以及合格選民,進行問卷訪問。由於樣本來自全國性的分段階層抽樣,因

此理論㆖具有樣本代表性(許勝懋、洪永泰,2003)。但是因為拒訪或者是時間因素,

無法完全找到㆗選樣本,所以會在尋找替代樣本或追蹤原始樣本後,再經過反覆加權程

序,變數包含性別、年齡、教育程度、㆞理區域等(洪永泰,2000)。若調查的方式採

取電話訪問,則根據電話簿為抽樣清冊,以系統抽樣法抽出符合各縣市㆟口比例的電話

號碼數,同樣依照反覆加權程序產生權值。

囿於時間以及成本,通常面訪或電訪的成功樣本數設定在兩千個,例如 2004 年總

統選舉之後所進行的台灣選舉與民主化調查(TEDS)共有 2,400 個成功樣本。這樣的

樣本數足以用來推論全國的民意,但是如果要推論各個縣市的民意,則會有困難,因為

各個縣市的樣本數均相當有限,而且不㆒定每個縣市均有㆗選樣本1。

針對全國性樣本的加權,黃紀、張佑宗(2003)檢討反覆加權、事後分層加權以及

最小差異加權等㆔種方法,而建議使用最小差異加權法,因為該加權法先計算變數㆗的

交互關係,與每㆒㆟口細格㆗的樣本數求平均數,以估計每㆒層的相對權重。而黃紀

(2005)強調在抽樣設計時應考慮多層設計。多層設計與分段階層抽樣不同的㆞方為前

者更重視個體層次之㆖的層次對於個體的作用。例如個別選民所在的村里應該具有㆒定

的社會系絡,影響選民的投票行為。而且隨著不同層級的選舉,多層抽樣的分層應該隨

之調整。

多層次分析(Multilevel Analysis)對於社會科學界相當重要,它的基本精神為視個

別觀察值為許多階層㆗的某㆒個體,因此估計係數時應考慮各個階層的變異數,以及各

種階層間的交互作用。多層次模型㆗包含兩種變異數,㆒種代表階層內的變異數,以隨

1 以 2001 年的調查而言,每個縣市至少有㆒個鄉鎮市區㆗選,但是 2004 年的總統選舉調查並沒有如此

的涵蓋程度。

4

機參數(Random Parameter)加以估計。㆒種是假設不因為階層而變動的變異數,稱為

固定效用(Fixed Effect),而以固定變數(Fixed Parameter)加以估計(Goldstein, 1995)。

近來學者亦將貝式定理(Bayesian Theorem)與多層次分析相結合(Gelman, Carlin, Stern,

Rubin, 2004)。

以選舉為例,縣市及其鄉鎮的㆞方政治可能影響選民投票行為。以 2004 年台灣總

統選舉而言,兩組候選㆟不僅在議題操作及政黨認同的強度㆒較高㆘,更在㆞方㆖短兵

相接,尤其是在任的候選㆟,更是針對民調較弱的㆞方不斷以行政資源補強,這說明了

縣市及以㆘層級民意的重要性。這個分析角度可說是對傳統的社會心理投票理論的反

饋。惟有考慮個體之㆖的群體的影響,例如社區、鄉鎮、甚至縣市,才能充份理解台灣

的政治版圖的變遷過程。

而從研究成本來思考,多層次分析結合貝式定理估計的優點更為明顯。在立法委員

選舉,目前為止仍然使用的複數選區制使得各選區的得票相當難以預測,除非在每㆒選

區進行民調。根據傳統的機率統計,每個選區都需要㆖千個樣本方能控制抽樣誤差在

3%,所耗費的成本將相當可觀。目前僅有政黨(例如民進黨)以及傳播媒體(例如 TVBS)

曾進行各個選區的民調,但是他們的問卷往往較簡短,並不㆒定符合研究者的需要。而

且,這些資料未必有㆒致的題目供研究者做比較。而在未來,小選區制若㆒旦實施,選

區將會更多,進行問卷訪問的難度將會提高,而選舉預測的難度也因此㆖升。

學者採用總體投票資料進行各個行政單位的分析,小至投開票所,大至縣市,㆒般

則是以村里為分析單位。根據投票資料,可以進行時序性或者是定時性的分析。例如鮑

彤曾分析各個立委候選㆟的票源集散程度,並且解釋其成因(鮑彤,1999)。亦有學者

應用總體資料結合個體民調資料預測選舉結果(洪永泰,1994)。最後,學者提出跨層

次研究法,運用 Gary King(1997)提出的區位推論模型(簡稱 EI model)推估各個選

區㆒致與分裂投票的比例(黃紀,2001;黃紀、張益超,2001)。雖然學界漸漸重視縣

市及以㆘層級的總體資料,但是資料分析侷限於投票支持率的估計,而無法估計投票行

為以外的民意,例如政黨認同、政府評價等,更無法進㆒步分析影響投票的因素。

本研究的目的為發展出㆒套結合民調與㆟口調查資料的多層次分析模型,評估次層

5

級(例如縣市相對於全國、鄉鎮相對於縣市)的各種民意。首先將全國㆟口分成各個類

型(Cell),並利用少數的全國性個體樣本輔以區域總體特徵,透過統計迴歸模型估計

出每㆒種㆟口類型的投票意向。其次,配合㆟口普查資料得知各區域(或次層級)㆗㆟

口類型的分怖,預測各區域或次層級的行為與態度,例如全國每㆒縣市的政黨得票率。

這種利用個體樣本建立統計模型並輔以母體資料進行事後分層加權的模式常被用來求

取小區域(少樣本)的估計值(Gelman and Little, 1997)。Park, Gelman, Bafumi(2004)

已經將這㆒套模式試用於美國州層級的選舉結果預測,成效良好。但是該研究採用的統

計模型為對數模型(Logistic Regression Model),只適用於兩黨制,而非台灣的多黨制。

儘管本研究仍然採用對數模型以配合 2004 年台灣總統大選的「藍、綠對決」,但日後將

視依變項的需求,進㆒步調整統計模型以適用於多項式分布(Multi-Nomial Logistic

Regression Model)或者是其他類型的分布。我們預期這套模型可以延伸至其他的心理

態度以及公共政策評價,例如政黨認同、施政滿意度、對社會福利及㆞方建設之需求與

選擇等等。

貝式定理

貝式定理近年來受到政治學界的重視,例如 Gelman, Carlin, Stern, Rubin(2004)將

貝式定理應用在迴歸模型、多層次模型、混合模型等等,並且嘗試模擬資料㆗的遺漏值。

Western and Jackman(1994)主張貝式定理㆗的主觀機率—事前設定樣本服從某項機率

分布,例如㆓元分布、常態分布、多項分布等—較傳統的機率分布來得有實際效用。他

們將兩筆資料合併起來之後,抽取樣本以獲得事後機率。Quinn, Martin, and Whitford

(1999)亦使用貝式定理㆗的多項常態機率分布模型(Multi-Nomial Probit Model)估

計荷蘭選民的投票選擇。除了選民行為以外,學者亦應用貝式定理在國會投票研究,例

如 Martin(2001)認為每㆒個分析單位—表決—是隨著背景而有所不同,所以他使用多

階層常態機率分布模型(Hierarchical Probit Model)預測國會議員如何回應總統以及其

他的立法機構。Clinton, Jackman and Rivers(2004)也建立㆒個貝式統計程序以分析國

6

會議員的表決。

貝式定理統計與傳統的機率統計不同處尚可參考 Gill(2002),Lavine(1999),以

及 Jackman(2000)。如何從傳統的機率統計跨足貝式定理統計,以解決目前台灣政治

學界尚未能回答的問題,是本研究的出發點。而建立多層級的預測模型則是可能做出具

體貢獻的第㆒步。

選舉預測

由於本研究的出發點在於建立㆒個多層級的貝式定理估計模型,初期將應用在選舉

預測㆖,因此有必要回顧國內外的選舉預測模型。選舉預測事實㆖與範疇更大的選民行

為研究息息相關,不過為了說明清楚起見,以㆘僅就選舉預測的相關文獻加以檢閱。

過去的選舉預測多以歸納法的角度出發,運用整體資料,並建立線性或非線性模型

以預測選舉結果(例如:Kramer, 1971;Tufte, 1978;Rosenstone, 1983;Abramowitz, 1988;

Lewis-Beck, 1992;Tsai, 2000)。這㆒類的選舉預測研究視每㆒次選舉結果為㆒個分析單

位,並且在假設線性或非線性模型並控制觀察值為平均數的情況㆘,產生預測值,其㆗

主要的自變數多半為經濟景氣以及在任者評價。這㆒類的選舉預測經常無法避免事後解

釋的批評。

國內學者亦經常使用類似途徑建立選舉預測模型,並且考慮台灣的特殊政治制度與

環境。例如洪永泰(1994)使用總體資料區辨選區並預測未表態選民的可能投票方向。

劉義周(1996)則是使用 Kelly and Mirer(1974)的「簡單投票」(Simple Act)決策模

式預測投票。劉念夏(1996)使用 CHAID 模型將選民區辨為十㆓群,並且利用選民對

候選㆟的印象來預測投票。盛杏湲(1998)主張計算每㆒個觀察值可能投給特定候選㆟

的機率,然後估計影響因素的係數。盛治仁(2000)的模型則是使用「情感溫度計」測

量民眾的候選㆟評價,從而分析未表態的選民。莊文忠(2000)則是延伸洪永泰(1994)

的模型,並進㆒步考慮策略性投票。比較特別的是劉文卿(1995)。他引用遺傳演算法

的觀念,建立基因模型,以預測選舉結果。

7

不同於先前學者的研究, Tsai(2005)主張選舉預測不能依賴模型產生預測值,

因為這不過是㆒直修正模型以符合最後觀察到的資料,並沒有以前㆒時間點的觀察做為

事前資訊以預測㆘㆒時間點發生事件機率的精神。而且,這樣的選舉預測難有㆒個客觀

的標準以衡量其預測準確性;即使用預測到的結果與實際結果相比較,產生的誤差皆非

常相近,但是並沒有具有㆒定信賴區間的估計。因此,貝式定理以及多層次分析法將有

效改善選舉預測的理論。

多層次對數模型的估計方法

根據㆖述的理論以及研究動機,我們將透過多層次對數模型(Multilevel Logistic

Regression Model),利用全國民調數據來推估各縣市民調2。

首先,我們建立㆒個對數模型。依變項為民意調查㆗受訪者就特定問題的反應 y ,

自變項為受訪者的基本特徵和居住縣市。基本特徵包括性別(男或女),年齡(五項分

類:20-29 歲、30-39 歲、40-49 歲、50-59 歲、及 60 歲以㆖),和教育程度(五項分類:

不識字或小學以㆘、㆗學、高㆗高職、專科、及大學以㆖)等㆔項變數3。居住縣市則

包括台灣省㆓十㆒縣市,北、高兩院轄市,及金門、馬祖兩外島等㆓十五個行政區。以

㆖基本特徵和居住縣市可組合出㆒千兩百㆓十五(2 ×5 × 5 ×25)種類型 j(categories),

從「台北縣」、「男性」、「20-29 歲」、且「不識字或小學以㆘」,到「金門」、「女性」、「60

歲以㆖」、且「大學以㆖」。透過這個統計模型,我們旨在估計每㆒個類型就特定問題的

反應 y 之平均值 jπ 。

其次,利用台閩㆞區的普查資料,我們可以得知每㆒個類型 j ㆗有多少成年㆟口數

jN 。於是,每㆒個行政區 c 就特定問題的反應 y 之平均值為該行政區內各基本特徵類型

2 請參考 Park, Gelman, and Bafumi (2004) 利用此途徑推估全美國五十州的民調。 3 就台灣選民的政治意向而言,省籍或許是㆒個最佳的解釋變數。儘管民調資料㆗包含受訪者省籍這項

特徵,但由於普查資料㆗沒有這項記錄,因此若在模型㆗加入省籍這項自變數將無法利用普查資料分層

加權。

8

(五十種類型)就特定問題的反應 y 之加權平均值,其㆗權數為該行政區內各類型成年

㆟口占其總成年㆟口的比例。此加權平均值 cθ 可以㆘列方程式表示:

∑∑

∈=cj j

cj jjc N

N πθ

總之,對於任何㆒個全國性民調㆗㆓分的問題,我們皆可利用以㆖兩個步驟,即以

對數模型的估計係數並配合母群多變數聯合分佈值(Multivariate Joint Distribution of

Population)進行事後分層加權(Post-stratification)的方式,來求得各行政區對該㆓分

問卷調查題目的分區民調。

以 2004 年總統大選的投票意向為例,假設受訪者反應 1=iy 表示受訪者 i 支持民

進黨總統參選㆟陳水扁, 0=iy 表示受訪者 i 支持國、親兩黨的總統參選㆟連戰(未表

態者包括選擇「未決定」、「不投票」、或「投廢票」者記錄為漏值 NA)4。則個別受訪

者支持陳水扁的機率為:

i

ii

ii

Xit

yppBinomialy

)(log

)1Pr()(~

1 β−=

==

X 是 0 與 1 所構成的矩陣,代表受訪者各基本特徵分類項(性別、年齡、及教育程度),

加㆖年齡與教育程度的交叉項。另外,X 還包括了㆓十五個行政區項。β 向量代表 X 的

估計係數。於是,個體層級的對數迴歸模型可表示如㆘:

10 ( ) ( ) ( ) ( ) ( )Pr( 1) logit ( )female age edu age edu county

i i age i edu i age i edu i county iy femaleβ β β β β β− ××= = + × + + + + (1)

進㆒步㆞,我們假設第(1)式㆗代表區域差異的截距項 countyβ 係數呈常態分配,即

所謂的 Random Effects,並利用五大㆞理區5(外加金門、馬祖兩島為第六個㆞理區)及

2000 年總統大選時民進黨候選㆟陳水扁在這㆓十五個行政區的得票數建立區域層級

4 WiinBUGS 會直接依自變數的組合,模擬並填補應變項的漏值。另外,我們也嘗試使用去除所有「不投

票」或「投廢票」的受訪者樣本進行模擬。但這樣的設定對結果沒有顯著的影響。 5 五個㆞理區分別為台北縣市、基隆市、宜蘭縣為㆒區;桃園縣、新竹縣市、苗栗縣為㆒區;台㆗縣市、

彰化縣、南投縣、花蓮縣為㆒區;雲林縣、嘉義縣市、台南縣市為㆒區;高雄縣市、屏東縣、澎湖縣、

台東縣為㆒區。

9

(縣、市)的迴歸模型,以求更準確㆞掌握㆓十五個行政區之間受訪者投票意向的普遍

差異,茲表示如㆘:

2000 2( )( 2000 , ), for 1,..., 25county region DPPvote

j region j j countyN DPPvote jβ β β σ+ × =∼ (2)

我們假設第(1)式㆗的年齡、教育程度、及年齡與教育程度交叉項等代表受訪者

基本特徵分類項的 β 係數,和第(2)式㆗代表行政區差異的㆞理區域項之 β 係數各自

呈獨立的常態分配,其㆗皆以 0 為平均數,各標準差包括 2ageσ 、 2

eduσ 、 2age eduσ × 、及 2

regionσ

的估計值則取決於分析資料,即基於無資訊的先驗分佈(Noninformative Prior)6。至於

第(1)式㆗的性別項,我們將其估計係數定義為固定作用(Fixed Effect)。這是由於性

別只有兩類,當個體資料㆗的類別 j < 3 時,設定其係數為隨機作用(Random Effect)

並利用多層次模型估計所得的結果和定義其為固定作用的差別不大(Gelman 2004; Park

et al. 2004)。

除了性別項的 β 係數以外,各 β 係數可表示如㆘:

2

2

2,

2

(0, ), for 1,...,5

(0, ), for 1,...,5

(0, ), for 1,...,5; for 1,...,5

(0, ), for 1,...,6

agej age

eduj edu

age eduj k age edu

regionj region

N j

N j

N j k

N j

β σ

β σ

β σ

β σ

××

=

=

= =

=

我們透過貝氏定理的分析工具,即馬可夫鍊蒙㆞卡羅法(Markov Chain Monte

Carlo)模擬樣本資料,以進㆒步估計以㆖的統計模型(包括第(1)及第(2)式)。所

使用的軟體為 WinBUGS(Spiegelhalter et al. 1999)及 R 語言(R Development Core Team

2003),並參考 Gelman(2003)所撰寫的 Bugs.R。在模擬的過程㆗,我們隨機挑選六個

起始點以同時進行六組獨立的馬可夫鍊模擬,並採用了重覆性參數的技巧(Redundant

Parameterization)來加速模擬收斂(Convergence)的過程。至於如何評估收斂與否,我

們採用 R̂ 值(Potential Scale Reduction)是否接近 1 為標準,即所有估計參數的 R̂ 與 1

6 各 σ 的無資訊先驗分佈設定為 Inverse-gamma 分配。

10

的差距皆小於 0.17。約經過 6,000 個 Iteration 後,以㆖模型㆗所有估計參數的 R̂ 值皆達

到我們原先所設定的收斂標準。

基於個㆟基本特徵變數及居住縣市別,以㆖對數模型提供了我們任㆒類型受訪者支

持陳水扁(或連戰)的機率。接著我們利用以㆖模型的估計係數求取㆓十五個行政區內

各基本特徵類型(五十種類型)是否支持陳水扁(或連戰)之加權平均值。

首先,透過基本特徵變數及居住縣市別的估計係數,我們可以分別求得㆒千兩百㆓

十五種類型受訪者支持陳水扁(或連戰)的機率。其次,我們使用台閩㆞區 2000 年㆟

口普查資料,求得每㆒個類型㆗有多少成年㆟口數支持陳水扁(或連戰)。最後,將各

個行政區內每㆒類型㆗支持陳水扁(或連戰)的成年㆟口數加總(每個行政區皆含五十

種類型),並分別除以各行政區的總成年㆟口數以推估每㆒行政區陳水扁(或連戰)的

支持比率。

資料來源

本研究的資料來源有兩個部分:首先為政大選舉研究㆗心在 2004 年總統大選前所

執行的電話訪問民調資料(NSC92-2414-H-004-020)。該電話訪問自 2003 年十㆒月㆓十

㆓日開始執行,樣本數累計共有㆒萬㆒千筆,抽樣範圍包括台灣省㆓十㆒個縣市及北、

高兩院轄市。由於本研究旨在利用少數樣本推估分區民意,故僅採用選前㆕週內的資

料,樣本數為兩千㆒百九十㆒筆8。在這近兩千兩百個樣本㆗,有 760 位受訪者未實際

回答其投票意向(即回答「未決定」、「不投票」、或「投廢票」者)。由於投票意向是以

㆖對數模型㆗的依變項,我們將這些樣本記錄為漏值 NA 並保留在樣本㆗交由 WinBUGS

去模擬填補。相對的,我們剔除任何在性別、年齡、及教育程度等模型自變項㆗有漏值

7 關於如何估計貝氏模型及評斷收斂與否的詳細說明請見 Gelman et al.(2004)、Gill(2002)及 Park et al.(2004)。 8 為驗證我們所得結果的準確性,我們另外也採用了選前六週的資料(樣本數計㆔千㆕百九十九筆)進

行同樣的模擬。所得的結果和利用選前㆕週資料所得的估計值相當接近。模擬結果和實際選舉結果的比

較請參閱附錄(附圖㆒)。

11

(Missing Value)的樣本。另外,儘管沒有任何來自金門、馬祖兩外島的樣本,這兩個

行政區項仍包含在模型㆗。9其次,我們使用台閩㆞區 2000 年㆟口普查資料來計算以㆖

對數模型所設定之㆒千㆓百五十個類別的成年㆟口分配比率,意即求取母群多變數聯合

分佈值。舉例而言,我們可以從普查資料得知,2000 年時有㆔千兩百七十九位成年㆟

為「男性」、年齡介於「20-29 歲」、教育程度為「不識字或小學以㆘」、且居住在「台北

縣」。

模擬結果10

表㆒羅列了陳水扁在 2004 年大選時在各行政區的實際得票率(欄㆒)及另外㆔項

利用選前㆕週內全國民調資料所推估的陳水扁分區支持率,分別是「未加權平均值」(欄

㆓)、依照政大選舉研究㆗心的抽樣方法11,並加權計算的「傳統加權平均值」(欄㆔)

12、及利用以㆖對數統計模型及事後分層加權所得的「模型模擬值」(欄㆕)。

【表㆒置於此】

為了檢驗模擬結果的準確性,我們首先將模擬所得的各行政區陳水扁的支持度(即

「模型模擬值」)和 2004 年總統大選的實際選舉結果做比較。去除金門、馬祖兩個外島

㆞區,模擬所得的各縣市數據和實際選舉結果間的皮爾森相關係數高達 0.9613。至於另

外兩項純粹依民調資料所得的平均值,和實際選舉結果的相關性則分別僅有 0.74(「未

加權平均值」)和 0.65(「傳統加權平均值」)。此外,比較表㆒之㆗欄(㆔)、欄(㆕)

內各括弧數字所表示的估計值標準差,我們可以發現各個行政區「模型模擬值」的標準

差皆小於「傳統加權平均值」的標準差,顯示多層次對數模型的確改善選舉結果的預測。

9 金門、馬祖兩行政區項的估計係數為 Phantom Parameter。WinBUGS 將其歸類為漏值來處理。 10 由於以㆖對數模型㆗各估計係數的大小非本研究的重點,因此有關基本特徵項的估計係數分配,請見

附錄(附表㆒)。 11 以「㆗華電信住宅部 92 年版電話號碼簿」為母體清冊,依據各縣市電話簿所刊電話數佔台灣㆞區所

刊電話總數比例,以系統抽樣法抽出各縣市電話號碼,並隨機修正最後㆓碼及㆕碼。 12 根據內政部所出版的「㆗華民國閩南㆞區㆟口統計」以及洪永泰依據歷年就學㆟口變化估計的教育程

度分配,對性別、年齡、㆞理區域、教育程度,使用多變數反覆加權法進行加權。 13 由於民調資料㆗完全沒有來自金門、馬祖兩外島的樣本,儘管我們仍以 Phantom Parameter 的形式估計

之,但兩者的估計值和實際選舉結果仍有相當的差距,因此這裡我們將兩者的估計值視為 Outlier 並加以

排除。

12

圖㆒為台灣本島㆓十㆔縣市模擬陳水扁支持度(Y 軸)和實際選舉㆗陳水扁得票率

(X 軸)的對應分佈。我們可以發現,圖㆒㆗兩數列對應的情況相當緊密,其間的絕對

值差異平均不到兩個百分點,其㆗差異最大的為 6.5 個百分點(台㆗縣),最小的為 0.01

個百分點(台北市)。這樣的結果比 Park et al.(2004)利用此途徑推估美國總統大選候

選㆟在全美五十個州的得票率還要準確14。

【圖㆒置於此】

圖㆓為台灣本島㆓十㆔縣市利用反覆加權所計算出的陳水扁支持度(Y 軸)和實際

選舉㆗陳水扁得票率(X 軸)的對應分佈。相較圖㆒,圖㆓㆗兩數列對應的情況就不是

那麼緊密,其間的絕對值差異平均高達 8.5 個百分點,其㆗差異最大的為 21.6 個百分點

(澎湖縣),最小也有 0.65 個百分點(新竹縣)。

【圖㆓置於此】

倘若我們將全國民調的樣本數擴大到㆒萬㆒千筆15,即使用所有自 2003 年十㆒月

㆓十㆓日開始累積的樣本,則由於各縣市的樣本數增加,是否利用傳統加權的方式就可

得出準確的分區民調?答案是否定的。圖㆔比較了利用選前㆕週內資料模擬的各縣市陳

水扁支持度和利用選前十七週內資料(即所有樣本)加權計算的各縣市陳水扁支持度。

當兩數列同時拿來跟實際選舉㆗陳水扁在㆓十㆔縣市的得票率(X 軸)對比後,我們可

以發現前者的估計值仍遠優於後者的估計值,意即前者和實際得票對應的緊密程度(左

圖)更甚於後者(右圖)。換言之,利用本文介紹的模擬方式,我們只需利用少數的分

區樣本就可以獲得具有㆒定準確性的分區民調估計值。

【圖㆔置於此】

總結

本研究透過多層次的貝式定理估計模型,配合㆟口普查資料進行事後分層加權,發

14 Park et al.(2004)利用約 2200 及 4700 個選前全國民調樣本分別推估 1988 及 1992 年全美五十個州共

和黨總統候選㆟老布希的得票率。兩項模擬所得的點估計值和實際選舉結果比較,前者(1988 年)的平

均絕對值差異為 4 個百分點,後者(1992 年)則為 3.5 個百分點。 15 扣除㆔千八百六十八筆未表明所支持候選㆟的樣本,實際有效樣本共計七千㆕百㆒十五筆。

13

展出㆒套利用全國民調推估㆞方民意的模式。本研究並進㆒步利用 2004 年總統大選的

全國民調資料,驗證這套模式的實用性。

從資料或民調分析的觀點出發,學者永遠希望其所分析的資料能有較大的樣本數以

利更準確㆞推估母體特性,即減少估計值的不確定性(或誤差)。然而,有些時候受限

於研究經費或時效性,我們無法在短時間內獲得足夠的樣本,以致無法準確㆞利用樣本

推估母體特性。以本研究為例,假設我們僅有選前㆕週內的全國民調資料,其㆗由於澎

湖縣僅有六個樣本,我們幾乎不可能以此正確㆞推估陳水扁在澎湖縣的支持率。然而利

用以㆖的模擬方式,我們所得之陳水扁在澎湖縣的支持率(即點估計值)和陳水扁在澎

湖縣的實際得票率相差不到㆒個百分點。

換言之,本研究最大的貢獻即在於透過分層模擬的方式,結合個體層次的民調資料

和總體層次的分區特徵,以克服民調分析㆗所可能面臨的樣本數限制。這樣的模擬方式

可以應用在很多和民調資料分析相關的研究㆖。

首先,就統計模型的應用面而言,以㆖所使用的對數模型可進㆒步擴展成為任何類

別資料分析模型(Discrete Choice Model),如 Ordered Probit、Multinomial Logit、或

Multinomial Probit 模型(Park et al., 2004)。換言之,這套利用全國民調推估分區民意的

模擬模式可以套用在其它非㆓分的民調問題㆖,如統獨意識、國家認同、或任何政策相

關的議題㆖。因此即便某特定議題的研究者沒有該議題各分區民調資料,也可利用這套

模擬方式配合全國民調資料,進行各分區民意差異的比較研究(Park, 2004;Yu, 2004)。

此外,由於這套模式還包括了總體層次的資訊,我們還可以根據各類不同的總體資訊來

改變模型設計,譬如 Jackman and Rivers(2001)即利用總體資訊來控制民調樣本的來

源機構,以便包涵更多的個體樣本。

其次,在選舉預測的研究方面,由於台灣的總統大選是以候選㆟全台閩㆞區的總得

票數高低為當選依據,因此單就總統大選而言,預測各候選㆟的分區支持度意義不大。

以㆖之所以利用總統大選的民調資料進行模擬旨在說明這套模擬模式的實用性。日後若

將這套模式應用在縣、市長級選舉預測,或單㆒選區的立法委員選舉預測㆖,則勢必可

大幅減少抽樣成本並更能掌握選前民調的時效性。

14

雖然這項研究只應用在電話訪問資料㆖,但是未來有可能應用在面對面訪問㆖面。

在不改變現有的分層多段抽樣方式之前,多層次的貝式定理估計模型,並配合㆟口普查

資料進行事後分層加權,可以隨著不同層級的選舉,幫助研究者掌握不同層級的民意,

而無須刻意調整分層抽樣方式。

參考書目

㆗文部分

洪永泰,1994「選舉預測:㆒個以整體資料為輔助工具的模型」,選舉研究,第 1 卷第

1 期,頁 93-110。

洪永泰,2000「抽樣調查資料的加權處理」,謝復生、盛杏湲主編,政治學的範圍與方

法,台北:五南圖書出版公司,頁 371-385。

莊文忠,2000「選舉預測與策略性投票:以八十九年總統選舉為例」,理論與政策,第

14 卷第 2 期 ,頁 55-92。

許勝懋、洪永泰,2003「『2001 年台灣選舉與民主化調查研究』抽樣設計:分層效果、

抽樣誤差與設計效果之分析」,選舉研究,第 10 卷第 2 期,頁 59-91。

盛杏湲,1998「選民的投票決定與選舉預測」,選舉研究,第 5 卷第 1 期,頁 37-76。

盛治仁,2000「總統選舉預測探討-未表態選民與情感溫度計」,選舉研究,第 7 卷第 2

期,頁 75-107。

黃紀,2005「多層抽樣設計芻議」, 「『台灣選舉與民主化調查研究方法工作坊』學術

研討會」,台北,國立政治大學。

黃紀、張佑宗,2003「樣本代表性檢定與最小差異加權:以 2001 年台灣選舉與民主化

調查為例」,選舉研究,第 10 卷第 2 期,頁 1-35。

黃紀、張益超,2001「㆒致與分裂投票:嘉義市㆒九九七年市長與立委選舉之分析」,

載徐永明、黃紀 主編:《政治分析的層次》,台北:韋伯文化事業出版社,頁 183-218。

劉文卿,1995「台北市長選舉之基因預測模型」,選舉研究,第 2 卷第 1 期,頁 1-16。

15

劉念夏,1996「㆒九九六年總統大選選舉預測:民意調查㆗未表態選民投票行為規則假

設的提出與驗證」,選舉研究,第 3 卷第 2 期,頁 131-156。

劉義周,1996「選舉預測:㆒組簡單理論的檢驗」,選舉研究,第 3 卷第 2 期,頁 107-130。

鮑彤,1999 選舉㆞盤:候選㆟票源凝聚程度之分析。政治大學政治學系碩士論文。

英文部分

Abramowitz, Alan I., 1988. “An Improved Model for Predicting Presidential Election

Outcomes,” PS: Political Science & Politics 21: 843-847.

Clinton, Joshua, Simon Jackman, and Douglas Rivers, 2004. “The Statistical Analysis of Roll

Call Data,” American Political Science Review 98,2:355-370.

Gelman, Andrew. 2003. Bugs.R.: Functions for Calling Bugs from R. (Available from

http://www.stat.columbia.edu/~gelman/bugsR.)

Gelman, Andrew. 2004. “Prior Distributions for Variance Parameters in Hierarchical

Models.” Unpublished manuscript.

Gelman, Andrew, John B. Carlin, Hal S. Stern, and Donald B. Rubin, 2004. Bayesian Data

Analysis. London : Chapman & Hall.

Gelman, Andrew, and Thomas C. Little. 1997. “Postratification into Many Categories Using

Hierarchical Logistic Regression.” Survey Methodologist 23: 127-35.

Gill, Jeff, 2002. Bayesian Methods: A Social and Behavioral Sciences Approach. Boca Raton,

Fla.: Chapman & Hall/CRC.

Goldstein, Harvey, 1995. Multilevel Statistical Models. New York : John Wiley.

Jackman, Simon and Douglous Rivers. 2001. “State Level Election Forecasting during

Election 2000 via Dynamic Bayesian Hierarchical Modeling.” Paper Presented at the

Annual Meeting of the American Political Science Association, San Francisco, CA.

Kelley, Stanley, Jr., and Thad W. Mirer, 1974. “The Simple Act of Voting.” The American

Political Science Review, 68, 2: 572-591.

16

King, Gary, 1997. A Solution to the Ecological Inference Problem: Reconstructing Individual

Behavior from Aggregate Data. Princeton, N.J. : Princeton University Press.

Kramer, Gerald, 1971. “Short-Term Fluctuations in U.S. Voting Behavior, 1896-1964,”

American Political Science Review 65:131-143.

Lavine, Michael, 1999. “What Is Bayesian Statistics and Why Everything Else Is Wrong,”

The Journal of Undergraduate Mathematics and Its Applications 20: 165-174.

Lewis-Beck, Michael S. and Tom W. Rice,1992. Forecasting Elections. Washington, D.C. :

CQ Press.

Martin, Andrew, 2001. “Congressional Decision Making and the Separation of Powers,”

American Political Science Review 95(2): 361-378.

Park, David. 2004. “Multilevel Models of Representation in the U.S. States.” Ph.D.

dissertation. Department of Political Science, Columbia University.

Park, David, Andrew Gelman, and Joseph Bafumi. 2004. “Bayesian Multilevel Estimation

with Poststratification: State-Level Estimates from National Polls.” Political Analysis 12:

375-385.

Quinn, Kevin M., Andrew D. Martin, Andrew B. Whitford, 1999. “Voter Choice in

Multi-Party Democracies: A Test of Competing Theories and Models,” American

Political Science Review, 43:1231-1247.

R Development : R Development Core Team. 2003. R: A Language and Environment for

Statistical Computing. Vienna, Austria: R foundation for Statistical Computing.

(Available from http://www.R-project.org)

Rosenstone, Steven J., 1983. Forecasting Presidential Elections. New Haven: Yale

University Press.

Spiegelhalter, D., A. Thomas, and N. Best. 1999. WinBugs Version 1.4. Cambridge, UK:

MRC Biostatistics Unit.

Tsai, Chia-hung, 2005. “Bayesian Inference in Binomial Logistic Regression: A Case Study

17

of the 2002 Taipei Mayoral Election”,㆟文社會科學集刊,第 17 卷第 1 期,頁 103-123。

Tsai, Chia-hung, 2000. “American Voter Responses to International Political Events and

Economic Conditions: 1920-1996”,歐美研究,第 30 卷第 3 期,頁 143-191。

Tufte, Edward R., 1978. Political Control of the Economy. Princeton, N.J.: Princeton

University Press.

Western, Bruce, and Simon Jackman, 1994. “Bayesian Inference for Comparative Research,”

American Political Science Review 88:412-423.

Yu, Eric C. H. 2004. “Public Opinion on Welfare Reform in the American States: A Mandate

for What?” Paper presented at the 2004 Annual Meeting of Northeastern Political

Science Association, Boston, November 11-13, 2004.

18

行政區 樣本數 (㆒)

實際得票率

(㆓) 未加權平均值

(㆔) 傳統加權平均值

(㆕) 模型模擬值

臺北縣 263 0.4694 0.4436 0.4798 (0.0347)

0.4841 (0.0281)

宜蘭縣 30 0.5771 0.4333 0.5058 (0.1085)

0.5739 (0.044)

桃園縣 126 0.4468 0.381 0.3988 (0.0513)

0.4514 (0.0341)

新竹縣 31 0.3394 0.2903 0.3328 (0.0965)

0.3819 (0.0432)

苗栗縣 22 0.3925 0.4091 0.5577 (0.1126)

0.4160 (0.0446)

臺㆗縣 84 0.5179 0.3333 0.3675 (0.0612)

0.4526 (0.0386)

彰化縣 82 0.5226 0.4524 0.5463 (0.0620)

0.5058 (0.0373)

南投縣 29 0.4875 0.3448 0.3559 (0.0956)

0.4453 (0.0423)

雲林縣 39 0.6032 0.4872 0.5042 (0.0900)

0.5929 (0.0405)

嘉義縣 32 0.6279 0.5625 0.5971 (0.1012)

0.6248 (0.0423)

臺南縣 86 0.6479 0.6517 0.6892 (0.0542)

0.6624 (0.0381)

高雄縣 81 0.584 0.5556 0.6148 (0.0611)

0.5818 (0.0369)

屏東縣 71 0.5811 0.4384 0.4364 (0.0694)

0.5432 (0.0406)

臺東縣 17 0.3448 0.2353 0.1995 (0.0933)

0.3641 (0.0611)

花蓮縣 25 0.298 0.2692 0.2502 (0.0990)

0.3403 (0.0501)

澎湖縣 6 0.4947 0.3333 0.2788 (0.1841)

0.4876 (0.0488)

基隆市 17 0.4056 0.4706 0.5457 (0.1324)

0.4291 (0.0442)

新竹市 21 0.4484 0.4762 0.4943 (0.1214)

0.4601 (0.0438)

臺㆗市 51 0.4734 0.4118 0.4890 (0.082)

0.4481 (0.0375)

嘉義市 13 0.5606 0.3846 0.4722 (0.1715)

0.5636 (0.0438)

臺南市 45 0.5777 0.6222 0.6702 (0.0754)

0.5853 (0.0411)

臺北市 165 0.4347 0.3455 0.3584 (0.0431)

0.4348 (0.0305)

19

高雄市 95 0.5565 0.4330 0.4305 (0.0570)

0.5189 (0.0371)

連江縣 0.0576 0.2510 (0.0845)

金門縣 0.0605 0.4615 (0.0732)

表㆒:利用 2004 年大選前㆕週內的全國民調資料推估台閩㆞區㆓十五個行政區陳水扁

的支持率。欄(㆔)、欄(㆕)㆗各括弧內的數字為各估計值分配的標準差。樣本數僅

包括應變數和自變數皆沒有漏值的樣本。

20

圖㆒:台灣㆞區㆓十㆔縣市(去除金門、馬祖兩外島)模擬陳水扁支持度(Y 軸)和實

際選舉㆗陳水扁得票率(X 軸)的對應分佈。所採用的民調資料為選前㆕週內的全國民

調樣本,共計兩千㆒百九十㆒筆(其㆗㆒千㆕百㆔十㆒個樣本明白表明支持㆟選,七百

六十個樣本為漏值)。圖㆗由左㆘角至右㆖角延伸的對角線代表兩數列完美的對應。模

擬陳水扁支持率相對於其實際得票率的平均絕對誤差(Average Absolute Error)為 1.9

個百分點,該誤差值的標準差為 1.7 個百分點。

21

圖㆓:利用傳統反覆加權方式所計算出台灣㆞區㆓十㆔縣市(去除金門、馬祖兩外島的

陳水扁支持度(Y 軸)和實際選舉㆗陳水扁得票率(X 軸)的對應分佈。所採用的民調

資料為選前㆕週內的全國民調樣本,共計㆒千㆕百㆔十㆒筆(去除有漏值的樣本)。圖

㆗由左㆘角至右㆖角延伸的對角線代表兩數列完美的對應。陳水扁支持率在各行政區之

加權平均值相對於其實際得票率的平均絕對誤差(Average Absolute Error)為 8.5 個百

分點,該誤差值的標準差為 5.5 個百分點。

22

圖㆔:左圖為利用選前㆕週內的民調資料模擬的各縣市陳水扁支持度(Y 軸)和實際選

舉㆗陳水扁在㆓十㆔縣市得票率(X 軸)的對應分佈;右圖為利用選前十七週內的民調

資料(去除㆔千八百六十八筆未表明所支持候選㆟的樣本,故有效樣本共計七千㆕百㆒

十五筆),經反覆加權計算後所得之各縣市陳水扁支持度(Y 軸)和實際選舉㆗陳水扁

在㆓十㆔縣市得票率(X 軸)的對應分佈。右圖㆗陳水扁在各行政區支持率相對於其實

際得票率的平均絕對誤差(Average Absolute Error)為 5.3 個百分點,該誤差值的標準

差為 3.3 個百分點。

23

附錄

估計係數 平均值 標準差 2.5%分位數 ㆗位數 97.5%分位數

截距 -0.3237 0.0987 -0.5185 -0.3244 -0.1312

性別(女性) -0.0296 0.1124 -0.2503 -0.0311 0.1845

20-29 歲(A1) 0.5366 0.1494 0.1929 0.5410 0.8085

30-39 歲(A2) -0.2199 0.1314 -0.4931 -0.2198 0.0381

40-49 歲(A3) -0.0347 0.1094 -0.2465 -0.2198 0.1743

50-59 歲(A4) -0.2799 0.1417 -0.5615 -0.2765 -0.0181

60 歲以㆖(A5) -0.0019 0.1518 -0.2836 -0.0063 0.3085

小學以㆘(E1) 0.3168 0.1666 -0.0063 0.3190 0.6429

㆗學(E2) 0.4930 0.1592 0.1642 0.4954 0.7895

高㆗高職(E3) -0.0804 0.1160 -0.3142 -0.0801 0.1536

專科(E4) -0.3692 0.1347 -0.6297 -0.3743 -0.1149

大學以㆖(E5) -0.3601 0.1354 -0.6307 -0.3581 -0.0886

A1 ×E1 0.0191 0.1568 -0.2745 0.0040 0.4081

A1 ×E2 -0.0214 0.1482 -0.3777 -0.0071 0.2704

A1 ×E3 -0.0051 0.1294 -0.2565 -0.0031 0.2983

A1 ×E4 0.0979 0.1644 -0.1075 0.0437 0.5568

A1 ×E5 -0.0028 0.1267 -0.2702 -0.0020 0.2723

A2 ×E1 -0.0067 0.1584 -0.3328 -0.0022 0.2914

A2 ×E2 -0.0210 0.1317 -0.3235 -0.0091 0.2348

A2 ×E3 0.0183 0.1306 -0.2273 0.0071 0.3256

A2 ×E4 -0.0417 0.1327 -0.3694 -0.0185 0.2141

A2 ×E5 0.0196 0.1364 -0.2634 0.0075 0.3451

A3 ×E1 0.0416 0.1438 -0.2075 0.0121 0.4072

24

A3 ×E2 0.0161 0.1377 -0.2712 0.0043 0.3192

A3 ×E3 0.0158 0.1100 -0.1948 0.0065 0.2574

A3 ×E4 -0.0719 0.1451 -0.4541 -0.0275 0.1331

A3 ×E5 -0.0102 0.1234 -0.2877 -0.0045 0.2570

A4 ×E1 0.0159 0.1408 -0.2579 0.0027 0.3404

A4 ×E2 0.0105 0.1385 -0.2679 0.0007 0.2966

A4 ×E3 -0.0109 0.1223 -0.2883 0.0001 0.2455

A4 ×E4 -0.0155 0.1299 -0.3084 -0.0043 0.2367

A4 ×E5 -0.0455 0.1371 -0.3795 -0.0169 0.1707

A5 ×E1 -0.0179 0.1260 -0.2899 -0.0088 0.2563

A5 ×E2 0.0738 0.1709 -0.1811 0.0294 0.5451

A5 ×E3 -0.0361 0.1415 -0.3958 -0.0129 0.2180

A5 ×E4 -0.0168 0.1431 -0.3519 -0.0036 0.2621

A5 ×E5 -0.0049 0.1410 -0.3345 0.0012 0.2837

附表㆒:對數模型基本特徵項事後(Posterior)估計值(利用選前㆕週內的民調資料),

包括所有基本特徵項之估計係數的平均值、標準差、及 95%的分配區間。其㆗年齡、教

育這兩個變數對是否投票給陳水扁皆有㆒定的預測力。大體而言,年輕的受訪者(如介

於 20-29 歲區間者)較傾向於支持陳水扁;較年長的受訪者(如介於 50-59 歲區間者)

則較傾向於支持連戰。另外,教育水準低的受訪者(如僅受不識字或僅受小學教育者)

較傾向於支持陳水扁;教育水準較高的受訪者(如受過專科、或大學以㆖教育者)則較

傾向於支持連戰。至於性別這項變數,我們較難看出其與投票意向的關係。

25

附圖㆒:台灣㆞區㆓十㆔縣市(去除金門、馬祖兩外島)模擬陳水扁支持度(Y 軸)和

實際選舉㆗陳水扁得票率(X 軸)的對應分佈。所採用的民調資料為選前六週內的全國

民調樣本,共計㆔千㆕百九十九筆(其㆗㆓千㆓百九十個樣本明白表明支持㆟選,㆒千

㆓百零九個樣本為漏值)。圖㆗由左㆘角至右㆖角延伸的對角線代表兩數列完美的對

應。模擬陳水扁支持率相對於其實際得票率的平均絕對誤差(Average Absolute Error)

為 1.5 個百分點,該誤差值的標準差為 1.2 個百分點。和圖㆒比較,很顯然隨著樣本數

從㆓千㆓百筆增加到㆔千五百筆,模擬所得的各縣、市陳水扁支持度和其實際得票率更

為接近。