谁怕谁?
自由的德国周刊《时代周刊》委托YouGov进行一项民意调查,该调查表明 与伊斯兰恐怖分子相比,德国人更害怕右翼恐怖分子。问题读“您认为德国最大的恐怖威胁是什么?”提供的是右翼分子(41%),伊斯兰主义者(36.6%),左翼分子(5.6%),其他群体(3.8%)或(我最喜欢的)“no threat”(13%)。无论如何,这是一个很愚蠢的问题。鉴于新纳粹黑帮的新闻报道已经在当局的眼中至少杀死了十多人,而且鉴于当局迄今已设法制止了可能成为恐怖分子的恐怖分子,其结果很难奇怪。
尽管如此,相差不到五个百分点仍是头条新闻,因为Zeit读者有一个潜台词:德国人担心右翼恐怖主义(几个星期前,许多人会否认有右翼恐怖分子在德国),这肯定是一件好事,而他们对伊斯兰恐怖分子的关注则减少了,这可能是一种进步。或类似的规定。
但是五点差是真的吗?
YouGov采访了其在线访问面板的1043名成员。如果我们假设(这是一个英勇的假设)可以将这些受访者视为简单的随机样本,那么置信区间是多少?
二项式置信区间
首先,我们可以将这两个类别视为按二项式分布,然后向Stata询问确切的置信区间。
cii 1043 round(1043*.41) cii 1043 round(1043*.366)
置信区间重叠,所以我们’再次导致人们认为人口比例并不一定是不同的。但是这两个类别不是独立的,因为“not 右翼ers”答案包括“Islamists”答案反之亦然,因此多项式是一个更好的选择。
多项式模型
在Stata中很容易重新创建答案的单变量分布:
set obs 5 gen threat = _n lab def threat 1 "右翼ers" 2 "islamists" 3 "left-wingers" 4 "other" 5 "没有威胁" lab val threat threat gen number = round(1043* 0.41) in 1 replace number = round(1043* 0.366) in 2 replace number = round(1043* 0.056) in 3 replace number = round(1043* 0.038) in 4 replace number = round(1043* 0.13) in 5 expand number
接下来,运行一个空的多项式logit模型
mlogit threat,base(5)
模型的参数准确地再现了观察到的分布,因此不是很有趣,但是可以使用标准误差的估计值来检验假设:
test [right_wingers]_cons = [islamists]_cons
在常规水平0.05下,我们不能拒绝人口中两个比例相等的零假设,即我们无法确定德国人是否真的更担心这两个群体中的一个。
模拟
只是为了好玩,我们可以再进行一次测试,并提出一个相当具体的问题:如果总体中两个比例均为0.388,而其他三个比例与样本中的值相同,则观察到差异的概率是多少?至少有4.4分能够支持右翼?
这个想法是从已知概率的多项式中重复采样。通过定义程序并使用Stata,可以更优雅地完成此操作 ’s 模拟命令,但是如果您的计算机具有足够的内存,则使用两个循环来生成/分析所需数量的变量(每个模拟一个)并将它们全部填充为三行,这同样容易并且可能更快。 Mata代码。根据试验次数,您可能需要调整maxvars
local trials = 10000 foreach v of newlist s1-s`trials' { qui gen `v' = . } mata: probs =(.388,.388,.056,.038,.13) st_view(X.,.,"s1-s`trials'",) X[.,.] = rdiscrete(1043,`trials',probs) end local excess = 0 forvalues sample = 1/`trials' { qui tab s`sample' if s`sample' == 1 local rw = r(N) qui tab s`sample' if s`sample' == 2 local isl = r(N) if (`rw' / 1043 * 100) - (`isl' / 1043 * 100) >=4.4 local excess = `excess' +1 } display "Difference >=4.4 in `excess' of `trials' samples"
似乎相差4.4点的可能性在5%和6%之间。该概率比多项式模型的概率要小一些,因为零假设更具体,但在统计上仍不重要。而且Zeit甚至没有适当的随机样本,因此没有科学证据可以证明德国人比伊斯兰主义者更惧怕右翼极端主义者,这本来是值得的。笨蛋