十月 292012
 

就像社交网络一样,一旦您开始考虑多层数据结构,到处都是。人们居住在社区中,社区嵌套在组成省份的市政当局中 –好吧,你知道了。即使我们对其效果没有实质性的兴趣,通常也有必要控制数据中的结构以获得更实际的标准误差。

现在,欧洲社会调查的优秀人士做出了反应,并将笛卡尔奖金花在了 编译多级信息并将其与自己的数据合并。到目前为止,在某些方面的选择有些令人失望。例如,凶杀率仅在国家一级报告。但是,有一些令人惊喜的惊喜(我想应该归功于欧盟统计局(Eurostat),他们收集了这些东西):我们的失业率,GDP增长甚至学生人数都达到了NUTS-3水平。如您所问,NUTS是(国家以下)地区的名称,级别3是通常发布比较数据的最低级别。

遗憾的是,第3级单位的规模和数量在各个国家之间不一定具有可比性:对于德国,第3级单位对应于约400个地方政府区域,而法国则分为96个欧洲部门。但是,如果您需要将一流的调查数据与较小的(区域性)区域数据结合起来,’是一个开始,而且还不错。

一月 142012
 

I’m目前正在 最近一次州选举分析 莱茵兰-普法尔茨 仅使用汇总数据,即州一级可获得的选举结果和结构信息’大约有2300个自治市。状态’自2006年上次大选以来,绿党(历史上非常薄弱)的选票份额大约增加了三倍,我想知道所有这些额外的选票来自何方。是的,我’我非常仔细地研究了潜伏在我分析中心的巨大潜在生态谬误,将格林的收益退还给税收收入和与下一个大学城的距离等因素,但从未声称富人或学生或两者都转向了青菜。

这种分析的一个普遍问题是,并非所有市政当局都是平等的。那里有大量的斑点村庄,只有几十个选民参加,而该州’首都拥有超过14万名注册选民。大多数地方介于两者之间。至少有两个原因使回归中有许多小型市政当局感到不对。首先,小选民中政治偏好的小范围变化将导致相对较大的百分比变化。其次,恰好居住在少数相对较大的城市中的相对大量选民的行为将被严重低估,即农村将推动结果。

我的博士导师在他的时代曾做过很多这样的事情,过去常常用选民人数来衡量市政当局来处理这些问题。但这在我的情况下会导致相当大的负担。而且,虽然选民带来选举结果,但我确实不’想要通过后门提出关于个人行为的主张。

我的下一个想法是,按市政当局选民人数的平方根对市政当局进行权衡。为什么?从某种意义上说,观察到的行为就像是来自偏好的基本分布的样本,并且这种估计的可靠性与给定社区中人数的平方根成正比。但是即使求平方根,也给我留下了非常极端的权重,并且对于分析级别的担忧仍然存在。

然后我意识到,不用按尺寸称量,我可以 将选民人数作为额外的独立变量,以纠正潜在的偏见。但这仍然使我面临极端局限性的危险(认为小的,贫穷的农村社区,绿色选民的人数从一增加到四,增加了300%),这严重破坏了我的分析。因此,我开始阅读Stata中的稳健回归及其各种实现。Stata 1中汇总数据的稳健回归

稳健回归的基本思想是,真实数据更有可能是(至少)两种机制的混合:“true model”我们一方面要估计其系数,另一方面要估计污染数据的其他一些过程。如果这些污染数据点与x变量的多变量均值(离群值)相距甚远,并且与真实回归线有很大出入,则它们将使估计值产生偏差。

稳健的回归 估计器能够处理高度污染,即使即使数据点中有许多离群值,他们也可以恢复真实参数。不利的一面是,较老一代的鲁棒估计量的效率也很低(估计量没有偏见,但与常规OLS估计量相比,方差更高)。

但是,许多较新的(1980年后)估计量受此问题的影响较小。 MM估计器是一种特别有前途的方法,该方法已在Stata ados中由 维拉迪/ Croux(MM回归)和Ben 简恩 (罗勃雷格)。简恩’sado似乎更快,并且可以与他的esttab / estout软件包一起很好地玩,所以我同意了。

MM估算器的工作原理基本上是识别异常值并对其进行加权,因此,这是加权最小二乘特别复杂的情况。使用默认值,MM声称拥有OLS效率的85%,同时能够处理多达50%的污染。从表中可以看出,MM估计值与OLS对应值略有不同。差异最明显的是税收收入(赫斯特)的影响。

罗勃雷格可以选择存储最佳重量。我使用这些权重(第3列)再次运行OLS,从而恢复了MM估计值,并证明MM实际上只是加权最小二乘(标准误差(此处不很相关)有所不同,因为robreg使用了稳健的方差估计器)。这是令人着迷的东西,我’我期待着Jann和Veradi即将出版的一本关于Stata稳健回归的书(由Stata Press于2012年出版)。

                     OLS              MM            WLS

greenpct2006        0.193***        0.329***        0.329***
                 (0.0349)        (0.0592)        (0.0278)

hekst               0.311***        0.634***        0.634***
                 (0.0894)         (0.124)        (0.0688)

senioren          -0.0744***       -0.100***       -0.100***
                 (0.0131)        (0.0149)       (0.00994)

kregvoters11      -0.0125        -0.00844        -0.00844
                 (0.0146)       (0.00669)       (0.00982)

kbevdichte         -0.433        -0.00750        -0.00750
                  (0.464)         (0.330)         (0.326)

uni                 1.258           0.816           0.816
                  (1.695)         (0.765)         (1.137)

lnunidist          -0.418**        -0.372**        -0.372***
                  (0.127)         (0.113)        (0.0918)

_cons               8.232***        7.078***        7.078***
                  (0.627)         (0.663)         (0.461)
Zemanta增强