一月 142012
 

I’m目前正在 最近一次州选举分析 莱茵兰-普法尔茨 仅使用汇总数据,即州一级可获得的选举结果和结构信息’大约有2300个自治市。状态’自2006年上次大选以来,绿党(历史上非常薄弱)的选票份额大约增加了三倍,我想知道所有这些额外的选票来自何方。是的,我’我非常仔细地研究了潜伏在我分析中心的巨大潜在生态谬误,将格林的收益退还给税收收入和与下一个大学城的距离等因素,但从未声称富人或学生或两者都转向了青菜。

这种分析的一个普遍问题是,并非所有市政当局都是平等的。那里有大量的斑点村庄,只有几十个选民参加,而该州’首都拥有超过14万名注册选民。大多数地方介于两者之间。至少有两个原因使回归中有许多小型市政当局感到不对。首先,小选民中政治偏好的小范围变化将导致相对较大的百分比变化。其次,恰好居住在少数相对较大的城市中的相对大量选民的行为将被严重低估,即农村将推动结果。

我的博士导师在他的时代曾做过很多这样的事情,过去常常用选民人数来衡量市政当局来处理这些问题。但这在我的情况下会导致相当大的负担。而且,虽然选民带来选举结果,但我确实不’想要通过后门提出关于个人行为的主张。

我的下一个想法是,按市政当局选民人数的平方根对市政当局进行权衡。为什么?从某种意义上说,观察到的行为就像是来自偏好的基本分布的样本,并且这种估计的可靠性与给定社区中人数的平方根成正比。但是即使求平方根,也给我留下了非常极端的权重,并且对于分析级别的担忧仍然存在。

然后我意识到,不用按尺寸称量,我可以 将选民人数作为额外的独立变量,以纠正潜在的偏见。但这仍然使我面临极端局限性的危险(认为小的,贫穷的农村社区,绿色选民的人数从一增加到四,增加了300%),这严重破坏了我的分析。因此,我开始阅读Stata中的稳健回归及其各种实现。Stata中汇总数据的稳健回归 3

稳健回归的基本思想是,真实数据更有可能是(至少)两种机制的混合:“true model”我们一方面要估计其系数,另一方面要估计污染数据的其他一些过程。如果这些污染数据点与x变量的多变量均值(离群值)相距甚远,并且与真实回归线有很大出入,则它们将使估计值产生偏差。

稳健的回归 估计器能够处理高度污染,即使即使数据点中有许多离群值,他们也可以恢复真实参数。不利的一面是,较老一代的鲁棒估计量的效率也很低(估计量没有偏见,但与常规OLS估计量相比,方差更高)。

但是,许多较新的(1980年后)估计量受此问题的影响较小。 MM估计器是一种特别有前途的方法,该方法已在Stata ados中由 维拉迪/ Croux(MM回归)和Ben 简恩 (罗勃雷格)。简恩’sado似乎更快,并且可以与他的esttab / estout软件包一起很好地玩,所以我同意了。

MM估算器的工作原理基本上是识别异常值并对其进行加权,因此,这是加权最小二乘特别复杂的情况。使用默认值,MM声称拥有OLS效率的85%,同时能够处理多达50%的污染。从表中可以看出,MM估计值与OLS对应值略有不同。差异最明显的是税收收入(赫斯特)的影响。

罗勃雷格可以选择存储最佳重量。我使用这些权重(第3列)再次运行OLS,从而恢复了MM估计值,并证明MM实际上只是加权最小二乘(标准误差(此处不很相关)有所不同,因为robreg使用了稳健的方差估计器)。这是令人着迷的东西,我’我期待着Jann和Veradi即将出版的一本关于Stata稳健回归的书(由Stata Press于2012年出版)。

                     OLS              MM            WLS

greenpct2006        0.193***        0.329***        0.329***
                 (0.0349)        (0.0592)        (0.0278)

hekst               0.311***        0.634***        0.634***
                 (0.0894)         (0.124)        (0.0688)

senioren          -0.0744***       -0.100***       -0.100***
                 (0.0131)        (0.0149)       (0.00994)

kregvoters11      -0.0125        -0.00844        -0.00844
                 (0.0146)       (0.00669)       (0.00982)

kbevdichte         -0.433        -0.00750        -0.00750
                  (0.464)         (0.330)         (0.326)

uni                 1.258           0.816           0.816
                  (1.695)         (0.765)         (1.137)

lnunidist          -0.418**        -0.372**        -0.372***
                  (0.127)         (0.113)        (0.0918)

_cons               8.232***        7.078***        7.078***
                  (0.627)         (0.663)         (0.461)
Zemanta增强

  8回应“Stata中汇总数据的稳健回归”

  1. 尊敬的阿尔茨海默教授:
    我一直在玩mmregress和robreg mm,对于标准误差和系数我得到了不同的结果。你知道原因吗?
    最好
    罗伯托

  2. 按照Braumoeller在2000年讨论的思路,直接将方差/回归误差建模为市政规模的函数是否也有意义?“Explaining variance”?

    • @NilsSteiner:谢谢。您所指的文章是Braumoeller 2006 http://pan.oxfordjournals.org/content/14/3/268.abstract

      他的观点是正确且有趣的,但我认为我的问题略有不同:从我的角度来看,Y(和X之一)的额外​​方差是令人讨厌的,而不是因果关系,我’我试图了解。还是我在这里想念什么?

      • @ 凯兹·阿兹海默 @ 尼尔斯·斯坦纳我同意从您的角度来看这将是纯粹的麻烦(与Braumoellers相对’对实际解释方差很大的兴趣)。不过,我认为通过将方差建模为市政规模的函数来处理这种细微差别可能是有意义的,因为您的讨论似乎表明方差实际上取决于市政规模。我没有特定的应用程序(除了模糊的对Braumoeller的引用之外),也没有如何在Stata中实现它。盖尔曼/希尔’2007年出版的多层次书籍在第13.7节中简要提到了这一点。最后,这可能会给WLS带来相似的结果,因为您将有效地降低具有较高估计方差的观测值的权重…

转贴

 发表评论

您可以使用这些 的HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.

%d 像这样的博客: