心理学和技术,或:脚本小子的兴起

 

这是作者’的版本。请引用为:

    阿兹海默,凯。“心理学和技术,或:剧本小子的兴起。 ”SAGE选举行为手册。埃德斯。 Arzheimer,Kai,Jocelyn Evans和Michael Lewis-Beck。洛杉矶:贤者,2017.972-995。
    [BibTeX] [下载PDF] [HTML]

    @InCollection{arzheimer-2016,
    editor = {Arzheimer, Kai and Evans, Jocelyn and Lewis-Beck, Michael},
    booktitle= {The SAGE Handbook of Electoral Behaviour},
    publisher = {Sage},
    author = {Arzheimer, Kai},
    title= {Psephology and Technology, or: The Rise and Rise of the
    Script-Kiddie},
    year = {2017},
    pages = {972-995},
    html = {//www.zxdzkj.com/paper/psephology-technology-rise-script-kiddie/},
    url = {//www.zxdzkj.com/psephology-and-technology.pdf},
    address = {Los Angeles}
    }

1简介

心理学与技术

将此文本下载为PDF

从一开始,心理学就一直处于方法论的最前沿,有时甚至超越了它的界限(参见例如King,1997,关于生态回归)。诸如因子分析或逻辑回归等方法在1990年代被认为是先进的,现在已成为许多MA甚至BA课程的一部分。在不断增长的新数据和越来越快的计算机以及更先进,更易用的软件的可用性的驱动下,过去十年左右的时间里,技术进步的步伐再次加快。因此,在某种程度上是自相矛盾的是,本章不希望对最新技术水平做出确切的解释:在本书发行之时,该章已经过时了。相反,它试图确定过去15年中出现的重要趋势以及未来研究的可能轨迹。
更具体地说,下一部分(2)讨论了“开放”运动对选举研究的总体影响。第3节专门介绍新的(统计)统计方法,这些方法很容易在开源软件中实现,而数据的可用性是必需的,数据的可用性通常是在相对开放的数据分发模型下以新的方式构造的。第4节是在开源社区开发的软件工具的入门知识,目前在选举研究中使用的软件工具不足,而倒数第二节则讨论了互联网作为选举研究的基础设施和对象的双重作用。第6节总结了要点。

2开源,开放数据,开放科学

像社会科学中的许多其他子领域一样,心理学在很大程度上影响着计算机和信息技术的快速发展。在这方面,两个最重要的发展是开源和开放数据的双重革命。开源软件起源于1980年代的自由软件运动(Lakhani and Hippel,2003),这是对越来越严格的软件许可的一种反叛,这些许可尤其针对算法专利并禁止已安装软件的“逆向工程”在私人计算机上。另一方面,自由软件运动的支持者则免费提供其软件(“像免费啤酒一样免费”),并向所有人和任何人授予了他们认为合适的修改程序的许可(“像言论自由一样免费”)。 ),这需要打开源代码。然后,互联网在1990年代的传播促进了自由软件项目的大规模协作,并产生了当前开源软件的思想,该思想体现在Raymond(1999)的宣言“大教堂和集市”中,该思想强调了这一思想。分散且只有松散协调的团队作为快速高效开发的策略。
自由软件运动有一定的反制倾向,但是许多最大和最成功的开源项目,例如Linux操作系统,Apache Web服务器或Firefox浏览器系列,共同为当前的互联网提供了强大的动力,很高兴依靠公司支持者的支持,这些支持者捐赠了金钱,资源和一些员工的时间。在其他情况下,大型公司甚至已经为其现有程序创建了开放的“社区版本”,或者首先将它们设计为开源应用程序(Google的Android操作系统)。公司可能这样做是为了提高知名度,或为了吸引最优秀的软件工程师从事其商业项目,但还有两个更有趣的动机:他们可能想使用开源软件而不是封闭源替代软件来生成和提供自己的产品(例如,依靠Linux来运行其服务器场的技术公司),或者他们可能提供基于开源软件(专业支持或托管版本)的服务。无论哪种方式,公司对开源的支持都具有商业意义–清楚地说明了Olson(1965)关于大公司合理投资公共物品的论点–因为正如Raymond所建议的那样,开源是组织大型项目的高效模型:它包含反馈几乎立即从用户群中获取,并将最有能力和最忠诚的用户转变为开发人员。
Open source is highly relevant for psepholog not only because it helped to build much of the internet infrastructure and some key tools – R (Ihaka and Gentleman, 1996; Crawley, 2013), Python (Lutz, 2013), and a plethora of others – but also because it has become the template for other “open” revolutions that impact on electoral research. In the broadest sense, open  data  refers  to  the  idea  that  research  data,  or data that could be used for research,  should be as accessible as possible.  As such, it is old news. In the quantitative social sciences, data archives such as the Roper Center (http://ropercenter.cornell.edu/) or Michigan’s Survey 研究 Center (//www.src.isr.umich.edu/), which collect, archive, and  disseminate  existing data for secondary analyses, were established in the late 1940s. Patterns of co-operation and exchange between (European) archives were formalised with the formation of the Council of European Social Science Data Archives (CESSDA, http://cessda.net/) in the 1970s (Karvonen and Ryssevik, 2001, p. 45). In the public sector, one could argue that the practice of frequently publishing detailed information on key national statistics that was already well established in the late 19th century marks the beginning of open data. However, it was the key ingredients of the open source revolution – transparency, active involvement of the user base, and almost zero marginal transaction costs – that in the 2000s began to transform the production and use of data in unprecedented ways. Unless access is restricted for reasons of data protection, researchers no longer have to travel to a data archive to use a given data set, and for the distribution of data, physical media haven been all but abolished. Governments, large-scale research projects, and individual scholars are now opening up their raw data for download. Some agencies and some of the biggest internet companies (e.g. Google, 脸书 , 推特 , and Yahoo) have even created application programming interfaces (APIs, see section 5.1) that give researchers the opportunity to access these data programmatically from a script.
开放数据革命带来了一些新的问题。尽管可用于研究的数据量呈指数级增长,但研究人员仍然必须知道在哪里以及如何查找,而且缺少中央存储库和通用接口严重阻碍了进展。为了有用,需要存储数据,更重要的是,必须以标准化的方式对数据进行描述和许可,以使其能够在中长期内访问和检索。反过来,这需要可以信任的机构,并且需要资金。而且,研究人员公开自己的数据的压力越来越大。现在,研究理事会会定期将研究数据的存放,甚至将研究结果的公开发布作为获得资助的前提。同样,越来越多的期刊不仅要求数据集本身,而且还必须将生成表格和图表的程序代码与最终文章一起发布到某个存储库中(请参阅第5.1节)。1尽管此类规则加强了传统的科学标准,诚实,透明,可重复性,许多研究人员仍然担心如果在新项目开始时被迫透露数据和方法会被挖出来。大概是由于现行的激励机制,目前很少有社会科学家坚持“早发行,经常发行”的开源口号。但是,其他人则通过在其个人主页上发布正在进行的工作,为科学家打开社交网站上的章节草稿,甚至将其数据和手稿移至开源开发站点(例如,将进展中的工作)拥护开放科学的理想。就像Github一样,在理论上可以为科学合作提供理想的环境。

3数据,统计模型和软件

3.1复杂的数据结构和统计模型

除了纯粹的形式理论和模拟练习之外,所有选举研究都取决于数据:一组系统的,通常是量化的观察结果,可用于检验关于公民,政治人物,有组织的利益和媒体互动方式从而影响政治的假设决定。尽管早期的研究强调了宏观因素(Siegfried,1913)和聚类采样和混合方法(Lazarsfeld,Berelson和Gaudet,1944)的重要性,但美国选民的持久影响(Campbell等,1960)导致了许多研究人员将重点放在1960年代,1970年代和1980年代大部分时间的,具有全国代表性的大众样本的微观数据上。
但理论表明,对人类行为的可信(或至少合理的)解释不仅应涵盖个人(微观)层面,还应涵盖社会(宏观)层面,理想情况下还应涵盖两者之间的各种``介观''层次和结构(见Coleman,1994)一般推理和米勒和尚克斯(Miller and Shanks,1996)申请选举研究)。这一论断的主旨最终导致人们对上下文变量及其影响重新产生了兴趣(Jennings,2007年,第35-38页)。从1990年代末到2000年代初,全国选举研究和比较调查都开始在其数据集中包含领土标识符变量,例如选举区号。利用这些信息,可以将单个受访者的数据与政府的经济数据,移民数据以及许多其他变量相匹配。
1预注册这一程序在生命科学中变得越来越普遍,现在正在讨论其在政治学中的采用(Monogan,2015年),它进一步向前走了一步,要求研究人员提交采样计划,预期分析的大纲和在开始收集新数据之前,将报告模拟后发送给经过同行评审的日记。

合理地影响投票行为,而多级回归(请参阅第47章)是一种方便的工具,可以用来估计所称效果的大小及其相关的标准误。用上下文变量补充微观信息会导致“嵌套”数据,其中每个1级单位(受访者)都属于一个(并且只有一个)2级单位(选举区)。每个2级单位又可以是一个(也只有一个)3级单位(例如一个省)的一部分,从而形成树状结构。
利用来自官方资源的上下文协变量进行的多级回归建模已几乎成为分析大型比较数据集(请参阅第48章)和可获得国家以下数据的国家案例研究的事实上的标准。尽管该技术提供了渐近正确的标准误差,并提供了许多灵活的建模选项(请参阅第3.2.1节),但这并不是万灵药。当国家是相关环境时,对于多层次建模而言,其数量通常太少了(Stegmueller,2013年),人们可能会问,将国家当作是来自大量人口的随机样本,这是否完全有意义(西方和杰克曼(1994)。比较各国次国家级单位之间的政治行为更能提供更多信息,而且通常更合适,但也有特定的局限性:即使是在欧盟复杂而全面的领土统计单位命名法中(NUTS,请参见Eurostat,2015年),在规模,人口以及政治,社会和文化相关性方面,应该处于同一水平的地方政府部门可能存在巨大差异。2
此外,将作为回归变量的政府统计数据集成到多层次模型中并不能几乎耗尽目前可用于分析的数据的复杂性。 Hox(2010)在Lazarsfeld和Menzel(1961)的早期工作的基础上,开发了一种有用的类型学,阐明了可能性。在每个级别上,都有全局变量,它们反映了相应级别上对象的固有属性。它们是固有的,因为它们既不能通过汇总低层对象的特征来构造,也不能通过对高层上下文的特征进行分解来构造。传统的(统计)投票行为模型将注意力集中在个人一级(第1级)的全局变量上:针对民主党的个人投票与所涉及的女性选民有关,
2NUTS-1对应于德国的16个强大的联邦州,对应于纯粹出于统计目的在奥地利,西班牙和荷兰组合在一起的省,州或社区集群,而在许多国家中根本不存在较小的国家(例如克罗地亚,丹麦,卢森堡或斯洛文尼亚)。较低层次NUTS-2级相当于奥地利联邦州,在西班牙的自治区,该地区在法国和荷兰的省份,这都有自己选举产生的议会。在保加利亚,芬兰,德国,罗马尼亚或斯洛文尼亚等其他州,仅出于国家规划和吸引欧盟资金的目的而存在NUTS-2地区,而公民将不会意识到它们的存在。同样,NUTS-3可以是一个地区(德国),一组地区(奥地利),一个省(丹麦,西班牙,意大利),一个地区(芬兰),一个统计地区(斯洛文尼亚),一个岛屿(马耳他),甚至可能不存在(塞浦路斯,卢森堡)。

级别1、2、3。 。 。
变量类型全局→解析
关系→结构
上下文←全局→分析
关系→结构
上下文←全局→
关系→
上下文←
→:聚合
←:分类
资料来源:改编自Hox(2010,p.2)
图1:复杂数据结构的类型

失业,并确定自己是民主党人。一个典型的多级模型将增加失业率和选举区的族裔构成,作为二级回归指标。这些是分析变量,是通过汇总下层单元的全局特征以形成上层平均值,比率或百分比来创建的。因此,这些变量可以同时在多个级别上进入模型(请参阅第3.2.1节)。
区域的其他属性也可能是模型的有意义的补充,但不能理解为个人级别质量的集合或高级特征的分解,因此是区域级别的全局变量。主要候选人的性别和政治经验就是恰当的例子。由于在最低级别没有与之对应的变量,因此它们对于各个选民而言都是严格意义上的上下文,并且只能在较高级别上一次进入模型。
最后,关系数据传达有关同一级别上的对象之间的联系(例如,面对面接触的存在和强度)的信息。此类网络数据对于任何微观社会学上的投票行为都是至关重要的:显然,作为民主党朋友集团的枢纽的人更有可能投票,并按照同龄人投票,而不是在社会上孤立。像全局/分析变量一样,网络数据可以同时在多个级别上进入多级模型:有关区域内各个选民之间关系的信息可以汇总起来,形成较高级别的结构变量,例如比较具有密集/稀疏或同质/分段通信网络的地区。
网络数据在理论上非常有吸引力。但是它们引入了更高的复杂度,并且需要专门的统计方法,因为按照定义,

涉及两个参与者(请参阅第3.2.3节)。另外,由于需要调查给定网络的大量成员以评估网络本身的属性,因此关系数据的收集需要特定的(集群)采样计划。反过来,这引起了代表性,数据保密性和成本效益的问题,并且违背了全国代表性样本的教条。
选举调查有时包含涉及所谓的以自我为中心的网络的项目,
例如他们可能会问被访者,她与多少人进行政治对话,这些人是朋友,家庭成员,还是只是熟人,以及她多久不同意一次。但是,这些信息会因受访者的看法而有偏差,并且只能提供整个网络的一部分,因为通常甚至连受访者直接联系人之间的联系也无法可靠地恢复。
作为一种容易获得的选择,选举行为的学生现在正在转向社交媒体,在社交媒体上,可以轻松地采样和观察大型且大部分是完整的政治交流网络。来自这些网络的见解能很好地推广到离线行为和整个投票群体中是一个不同的问题。无论哪种方式,用于分析社交网络的统计程序目前都在成为选举研究工具包的一部分。
除多层和网络数据外,空间或地理参考数据的使用是选举研究中的另一个新兴趋势。地理参考只是一组在空间中定位对象的坐标。坐标可以定义一个点或一个区域(多边形)。从最简单的意义上讲,上述领土标识符记录了选民居住在给定的(通常是较大的)区域中,因此也是地理参考。不过,针对选民的更精确坐标(例如,人口普查区,邮政编码段,选举区,街道地址,甚至GPS读数),允许研究人员在更小的上下文中定位选民,因为普查和市场研究数据相对而言,换句话说,可以集成到选举选择的多层次模型中的全局变量和分析变量。虽然许多研究人员熟悉粗略的地理参考的概念,但要获得非常细粒度的数据以及对空间依赖性的日益增长的认识,就需要专门的软件和模型来正确分析地理参考数据(请参阅第3.2节。 4)

3.2统计技术和软件实现

3.2.1多层模型和结构方程模型

如上所述,选举行为的学生定期收集数据,这些数据反映了基础理论解释的多层次性质,显示出复杂的结构。统计多级模型(也称为“混合模型”或“随机系数模型”)是处理此类数据的最适当方法。
7

它们考虑了给定上下文中不可测干扰的相关性,因此为宏观变量的影响提供了正确的标准误差。此外,它们通过将随机干扰视为最有效的方式来模拟特定于上下文的干扰。最好用一个例子来说明:在一项针对居住在K个选区的N个选民的研究旨在解释个人投票率的情况下,可以尝试通过引入特定于地区的截距来捕获未测得的区级变量(例如本地社会资本)的影响。 (虚拟变量)。但是,这种策略会对模型的识别产生负面影响,并且随着采样区域数量的增加,效率会很快降低,变得不切实际(Steenbergen和Jones,2002)。统计多级模型将用局部截距变化的单个估计值(随机截距)代替局部截距的K-1估计值,从而显着减少参数的数量。
此外,多层模型还提供了许多其他高级建模选项。如果有充分的理由相信解释变量(例如,通过左右自我安置衡量的意识形态)对投票率的影响在K个地区之间会有很大差异,则分析人员可以为此变量指定一个随机效应,以补充意识形态平均效果的估计值(传统的点估计值)及其变化的估计值。顾名思义,如果可以将自变量效应的变化合理地视为随机变量,则随机效应就足够了。
另一方面,如果变量的影响以系统的方式变化,则可以通过指定跨层次的交互作用(例如, G。意识形态(微观变量)与该地区的候选人人数之间的关系。跨级别的交互不必限于在概念上与本示例中的二者相同的变量。相反,理论通常认为,诸如失业之类的变量本质上可以与自身相互作用,尽管其水平不同,因此进入模型的次数是三次:作为一个个体特征(在微观水平上为全局变量),作为分析变量(地区一级的失业率),以及两者之间的跨层次互动。高失业率可能会降低所有公民参加选举的意愿,而且个人的失业状况通常会以更强大的方式压低投票率。但是这种微观影响很可能仅限于低失业水平的环境,而个人失业可能没有这种负面影响,甚至没有增加在高失业率吸引社区组织者和其他政治企业家的地区投票的可能性。多层模型非常适用于解开这种复杂的因果关系。
他们还可以处理结构复杂的政治环境,这些环境可能有很多层级(地区内市政当局的病房内家庭中的选民)
8

省内。 。 。 ),这可能会相互交叉和重叠,而不是形成整齐的树状等级:选民不仅受到其所居住选举区特征的影响,而且在完全不同的环境中进行了政治社交。尽管多级模型可以容纳这样的复杂结构,但是收敛通常会很慢,并且估计可能会不稳定。与建模的所有其他方面一样,因此分析师应努力做到简约。如果较高层次上没有变量,并且目标仅仅是反映基础抽样过程的多阶段性质,那么传统的调查估计量甚至考虑聚类的Huber-White标准误差都可以提供快速而可靠的选择到完全指定的多层模型。
话虽如此,多级模型是一种非常灵活的工具,因为不需要用空间术语来定义上下文。对于小组数据的分析,通常将连续的小组访谈中的受访者视为“背景”是有意义的。特别是当面板数据不平衡或不定期地收集时,多级模型可以缓解困扰传统面板数据方法的一些问题。
对于选举行为的学生来说,另一种必不可少的统计技术是结构方程模型(SEM)。 SEM是对传统因素分析的扩展,它使研究人员可以为无法观察到的(潜在的)理论构想(例如政治态度)指定多指标测量模型。它之所以具有吸引力,是因为它可以同时估算整个方程组的系数,并且因为它可以合并用于态度变量的测量模型,这些变量代表了相对不可靠的指标。如果测量模型成立,则SEM也可以提供对潜在变量之间同样不可观察的``结构''关系的无偏估计。给定足够的数据,就有可能将整个结构和关于它们的关系的假设映射到等效的方程组上。
过去,它在选举研究中的应用受到一定程度的限制,因为它们需要以连续的尺度进行测量,这些测量必须以多元正态分布。而选举研究中的关键因变量以及许多相关的自变量都是分类的,通常与相当大的偏差。但是,在1990年代,开发了新的估计器,可以容纳非正态分布的连续数据。此外,原始模型的泛化允许使用序数和名义指标变量,甚至可以分类的潜在变量(Jöreskog,1990年;Jöreskog,1994年;Muthén,1979年;Muthén,2002年)。此外,多级模型和结构方程模型是密切相关的(Muthén,2002; Skrondal和Rabe-Hesketh,2004),可以组合起来形成多级结构方程模型。
9

直到最近,对多级或结构方程模型的估算都需要专门的(如果相对用户友好的)软件:用于多级建模的HLM或MLWin,用于SEM的LISREL,EQS或AMOS以及用于两者的MPlus。这不再是事实:Stata的最新版本(当前是政治学中最流行的通用统计软件包)可以估算除最复杂的多级和结构方程模型之外的所有模型,从而大大扩展了这些技术的潜在用户群。 SPSS是另一种流行的软件包,具有一些多级功能,并且与SPSS Inc.在2003年被IBM收购的SEM软件AMOS密切合作,后来又于2009年被IBM收购。
也许更重要的是,有一些可用于R编程语言的软件包提供了类似的功能:Lme4和Rstan用于多层建模,Lavaan和Sem用于SEM。尽管它们的功能可能比商业软件稍差,速度较慢并且通常较笨拙,但它们像任何其他R-package和语言本身的核心一样,都是开源的,几乎可以免费用于任何硬件和操作系统的组合。此外,尽管他们可能缺乏专业的文档和客户服务,但它们得到了全球发烧友社区的支持,可以使用具有灵活数据结构的成熟编程语言编写脚本,并与不断发展的6000多个用户生态系统紧密结合, R的书面软件包,旨在实现统计的最新发展。

3.2.2贝叶斯方法

大多数选举研究人员都在统计推理的“频率论者”框架内接受培训,该框架依赖于随机抽样过程的思想,该过程可以在基本相同的条件下无休止地重复。到目前为止,他们对替代统计框架(贝叶斯统计)的收益(有时被夸大)仅表现出有限的兴趣(Jackman,2004)。产生这种惯性的原因至少有两个:经常性范式与在过去七十年中的大多数时间里一直是选举研究的主要力量-对全国人口进行大规模全国随机抽样的模式非常相似。贝叶斯估计和常人估计通常通常彼此相似。
但是,不管应用研究人员喜欢与否,越来越流行的“多层模型”的核心是贝叶斯模型(Gelman and Hill,2007)。尽管许多政治学家对基本范式仍然有所保留(或可能对此一无所知),但贝叶斯统计数据却不断涉足选举研究。有许多的原因。首先,贝叶斯模型有时可以针对尚未在任何统计数据包中实施现成的频繁解决方案的问题进行定制。旨在通过一系列公开发表的民意调查预测议会席位分配的模型就是恰当的例子。二,贝叶斯
10

统计数据可能能够提供一种比一般方法更有效的估计器,例如多层次模型和一些SEM。第三,由于存在计算需求,贝叶斯统计数据的存在大部分时间是过去的神秘时刻,它在1990年代末到20世纪90年代末以基于仿真的方法和可负担得起的快速处理器的双重出现,才对应用研究人员产生了实际意义。 -2000年代初期。甚至在十年前,如果要在一个相当现代的台式计算机上用一个相对复杂的多层模型在MLWin中获得贝叶斯估计,也很容易花费一个小时甚至更长的时间,就像SEM在1990年代那样。
目前,大多数贝叶斯估计仍需要通过R来访问专用软件(Winbugs,Openbugs,Jags,Stan ...),但是,最近版本的Stata(从版本14开始)中的贝叶斯分析的实现可能是可行的。在这方面改变游戏规则。

3.2.3网络

迄今为止,选举研究大多错过了政治学中的社会网络分析(SNA)的复兴(关于某些显着的例外,例如参见Huckfeldt和Sprague,1987; McClurg,2006)。尽管在政治学领域,对关系或网络数据的兴趣呈指数增长,但是心理研究对于党来说有点晚了,因为通常没有相关数据。大型社会可能显示出“小世界”网络的性质,在这种网络中,每个人都通过相对较少的联系(例如六个)与其他人建立联系,但这种网络结构非常稀疏,几乎不会影响政治行为。社会包容性无疑会在舆论形成和政治行为中发挥作用,但是主流选举研究不能希望揭露相关网络。另一方面,传统的社区研究以及对在线社区的探索都可以做到这一点。
尽管目前尚不清楚以及如何将这些结果推广到全体选民,这一点尚不清楚,但用于分析社交网络的统计程序目前正在成为选举研究工具包的一部分。了解这些方法可能会带来巨大挑战。
根据定义,网络数据打破了传统数据分析的模式,在这种情况下,案例对应于数据矩阵的行,而变量对应于其数据列。在网络应用程序中,案例构成(邻接)数据矩阵的行和列,其数据单元代表它们之间联系的存在,方向和强度。记录传统变量需要第二个数据矩阵,专用软件,更重要的是,需要调整分析师的思维方式。
收集到有关参与者之间关系的数据后,就可以用来计算三大类
11

统计度量的类别(Knoke和Yang,2008年):反映个人在本地或全球网络中的位置(例如一个人的中心地位)的指数,指的是两个参与者之间实际或潜在联系的特征的度量(例如重要性表示整个网络的一致性)和描述整个网络某些功能的统计信息(例如,它在多大程度上类似于上述“小世界”场景)。通常,SNA的目的主要是描述性的,分析将以其计算和解释结束,但是原则上,随后可以将所有网络度量用作回归框架中的因变量或自变量。
关系数据不适合一般统计软件包(如Stata或SPSS)的单矩阵范式。此外,在社交网站兴起之前,对SNA的商业兴趣不大。因此,大多数对学生的选举行为可能有用的软件是由学者开发的(通常是一个开源项目),可以免费或以非常低廉的价格获得。从历史上看,创建于1980年代初期的UCINET一直是一个非常受欢迎的选择。 UCINET立足于(数学)社会学的传统,并纳入了许多处理和分析关系数据的程序。但是,根据其作者的说法,其中许多过程在具有5000个以上节点的网络中变得非常乏味。另一方面,Pajek和Pajek XXL是较新的程序,专门针对具有数百万个节点的大型和超大型网络。他们的用户界面是特质的,文档中使用的术语以及许多过程对于社会科学家来说可能是陌生的,因为作者扎根于数学图论和计算机科学。但是,Pajek在速度和强大的处理能力方面无与伦比。
UCINET,Pajek和其他SNA软件使执行标准统计软件无法进行的分析成为可能。但是,将数据从标准软件套件移至外部程序进行网络分析,然后再移回通用软件包进行进一步分析是一个破坏性,乏味且容易出错的过程。因此,用于R系统的各种SNA软件包是独立SNA程序的一种有吸引力的替代方案。最普遍使用的是Statnet(一个“元”程序包,其中包含来自更专业的程序包中的许多过程)和Igraph,后者似乎更易于访问(并且也可以作为Python语言的程序包使用)。任何一种方案都可能满足除了心理医生最特殊的需求。

3.2.4地理空间分析

地理空间分析是一个广义术语,包含至少两个不同的(如果相关)
方法:在选举人“正常”回归模型中使用地理变量12

一方面是对行为的影响,另一方面是对特定统计模型的估算,这些统计模型说明了空间依赖性。
第一种方法可以简单地使用地理参考将微数据与上下文信息合并(请参阅第3.1节)。在更高级的情况下,心理学家将从地理参考集中计算地理变量(通常是距离)。一个例子可以最好地说明这一点:出于各种理论上的原因,选民应该优先选择当地候选人,即e。与其他候选人相比,住在给定选民居住地附近的候选人。如果候选人必须在选票上写上自己的家庭住址,并且知道选民的地址3,就可以计算出候选人与其准选民之间的空间距离(Arzheimer和Evans,2012; Arzheimer和Evans,2014)。该变量在地区内的选民候选人对之间有所不同(除非选民居住在同一地址),因此是全局变量。
个人选民的水平。
需要以下地理空间方法:(1)将地址转换为物理坐标(称为地理编码的步骤),以及(2)计算各种距离度量(例如乘汽车或公共交通工具的出行时间)。除了计算纯粹是几何问题的直线距离外,第二步还需要访问数字路线图,时间表,拥堵数据和路由算法。但是,一旦计算出距离,就可以使用通常的线性和非线性回归模型进行分析,该模型可以通过在方差-协方差矩阵上施加结构来解释观测值的嵌套或聚类。
各种类型的空间回归模型使这一想法更进一步。他们通过考虑案例的空间坐标并相应地调整方差-协方差矩阵的结构来校正观测值之间的依赖性。在地区级汇总分析的情况下,空间回归模型与心理学的相关性最为明显:尽管标准回归模型假设干扰是相同且独立分布的,但有理由推断相邻的4个地区将受到类似干扰的影响,因此将显示一个模式自相关,该模式最好呈现出可疑的标准错误。在空间回归中,选举区的质心之间的距离矩阵可用于估计这种自相关,而自相关又可用于在空间回归模型中得出校正后的标准误差(Ward和Skrede Gleditsch,2008)。空间回归也可以应用于个人数据,但是通常更容易
3出于数据保护的原因,通常仅记录受访者的大致地理参考。
4邻居是一个有点不固定的概念,因为当地区在物理上更近,不那么明显但仍存在时(两个地区相距较远),这些共享的影响会更强。这种情况与嵌套非常不同,在嵌套中,有明确划分的固定下层单元组。

并且在关于使用多层次模型(可能涉及两个以上层次)的因果机制的基础理论假设方面通常更合适,该模型解释了在政治行政环境中的嵌套。
传统上,映射和处理地理参考数据需要访问和培训地理信息系统(GIS)。 GIS本质上是一个关系数据库,具有处理2D和3D坐标的特殊功能。 GIS软件往往昂贵,专有且复杂。但是,近年来,旨在开放其数据的政府机构和其他组织已经建立了至少隐藏基础系统复杂性的网站。在最简单的情况下,用户可以创建叶绿体图,或查找单个或数量有限的地区的数据。更有用的系统允许人们以某种​​机器可读格式下载预构建或定制的表,这些表可以与现有的个人数据合并。在极少数理想的情况下,有一个API可供研究人员以编程方式访问(请参阅第5.1节)。
而且,用于收集,存储和处理地理参考数据的算法现在可以免费获得,并且已经在R系统的许多独立程序和/或程序包中实现。 GRASS(地理资源分析支持系统)是功能齐全的GIS,在工程,自然科学和社会科学中具有广泛的应用。 GRASS可在所有主要操作系统上运行。它既可以通过其图形用户界面(GUI)进行交互使用,也可以通过脚本以编程方式使用。但是,它的真正功能在于与两种流行的编程语言的接口:Python和R。通过这些接口(用于Python的Pygrass和Rgrass6 / 7),用户可以一方面对GRASS系统进行编程并扩展其功能。另一方面,定期使用Python或R运行分析的研究人员可以有选择地利用GRASS中存储的数据和系统中将近2700种行业级功能。 QGIS是GRASS的轻量级替代方案。虽然它也可以与R和Python交互,但它主要是用于交互式使用。
In many cases, however, analysts working in R or Python will want to altogether avoid the overhead of plugging into a GIS. Much of the functionality of traditional GIS software is now available in the form of addons for these two languages. R in particular currently has more than a hundred packages for 装货 , manipulating, analysing, and mapping geo-referenced data (//cran.r-project.org/web/views/Spatial. html).

4种用于成功进行可重复研究的工具

前两节集中讨论了心理学的技术进步日新月异。有点自相矛盾的是,本节建议面对越来越复杂的数据和软件,心理学家应该转向计算机科学家数十年前开发的非常基本的工具,概念和技术:纯文本文件和编辑器,目录(文件夹)以及一些中型编程项目中常用的实用程序。俗话说:在选举研究中,回归是进步。

4.1建立可重复的工作流程

数据分析涉及多个不同的阶段(有关类似的概述,请参见Long 2009,第1章):

1.数据必须由研究人员本人或第三方收集并以电子方式存储
2.这些机器可读数据通常需要通过互联网传输给研究人员
3.可能必须先将数据转换为其他格式,然后才能对数据进行重新编码或标准化。
4.对这些数据运行许多探索性分析和初步模型,也许使用多个计算机程序
5,研究人员对存储结果的一小部分最终分析和模型进行评估
6.对于演示和发布,可能会使用其他软件根据这些结果生成图形和表格

为了能够由原始研究人员及其同行复制,必须记录每个步骤以及所涉及决策背后的原理。实际上,这意味着应该通过脚本(计算机程序的简短指令集)使整个过程尽可能自动化。图形用户界面对于了解程序很有用,并且可能对图形进行画龙点睛以进行发布,但是脚本功能无限强大,高效且可靠。尽管研究人员应努力保留单独的研究期刊,但在进行适当评论后,脚本也可以自我记录。对于较小的项目,演示文稿和教学,研究人员甚至可能想要追求“文学编程”(Knuth,

1984年),该方法将多个程序的代码,发布文本和文档合并在一个文档中,可以使用R的Knitr软件包或什至更通用的Orgmode来生成中间表和图形以及幻灯片和PDF文档Emacs软件包(请参见下文)。但是,尽管从原则上讲,识字程序设计很有吸引力,但它可能无法很好地扩展到较大的项目。
Most statistics packages have simple script-editing capacities built in, but in the long term, it is more efficient to use stand-alone text editors, which offer much more powerful editing features as well as syntax highlighting, proper indentation, and basic project managing capabilities. One of the most quirky and powerful of these editors is Emacs (//www.gnu.org/software/emacs/), which was first released in the mid-1970s and has been under active development ever since. Despite its age, interest in Emacs has surged in recent years, and many quantitative social scientists swear 通过 it. Emacs can be endlessly customised and extended, which can be baffling for new users. Cameron et al. (2005) provide a useful introduction, but documentation for the many more features and extensions is best searched on the internet. Psephologists may also want to install one of the configurations aimed specifically at social scientists that can be found online.
通过正确的扩展集,Emacs支持人类已知的几乎所有脚本语言,包括统计软件包的命令语言,例如Julia,OpenBUGS / JAGS,R,S-Plus,Stan,Stata和SAS。至少,“支持”表示语法高亮,缩进和检查括号是否平衡。此外,Emacs通常可以访问这些语言的相应帮助系统,并可以找到相关功能的文档。它可以插入样板代码(例如循环),并可以执行代码段或整个脚本。 Emacs被设计为计算机程序员的编辑器,因此能够跟踪变量并在任意数量的文件中查找功能的定义,并利用文本工具(例如Diff,Grep或Find)来控制版本例如Git(有关更多信息,请参见下文)。工具链变得越复杂,就越耀眼,因为R,Stata,Python和许多其他应用程序可以通过单个以键盘和脚本为中心的界面方便地进行管理。

4.2 Buildtools,版本控制和其他开源产品

理想情况下,第4.1节中概述的六个步骤中的每个步骤应该有一个单独的脚本。较短的脚本易于维护,并且仅在表中添加水平线才能重新运行整个过程,效率很低。同样重要的是,只能以非破坏性的方式编辑数据:每个脚本必须将其结果保存为新文件,并保持原始状态下第一步和第二步收集和传输的数据。将属于给定项目的所有文件都保存在以下目录中也是一种很好的研究做法:

自己的工具,并为脚本,图形,表格和数据集创建单独的子目录(Long,2009年)。
一旦项目扩展到少数几个单独的脚本之外,就需要进一步自动化流程或元脚本,因为单个作业需要按一定顺序执行。原则上,可以在选择的统计数据包本身中实现一定程度的自动化:Stata和R都能够处理其“包含”或“提供”其他脚本的脚本。而且,这两个程序都具有用于启动外部程序的基本基础结构,因此至少在理论上可以管理工具链。但是,实际上,依靠外部脚本语言(例如Java语言)更容易且更不容易出错。使用Python或操作系统本机命令行解释器(shell)的脚本语言来管理复杂的工作流程。
如果涉及的某些任务很耗时或其他昂贵(即通过数字手段进行模型估计或从互联网获取计量数据),则心理学家应依靠“构建工具”:计算机程序员通常使用的软件进行编译(“通过可能大量的中间文件,从数百个文本文件中构建复杂的软件。如果只编辑一个文本文件,通常只需重新编译受此更改直接影响的整个项目的一小部分。构建工具可以识别,管理,可视化并最重要地利用这种依赖关系,从而可以显着提高效率。
平均而言,软件项目的工作流程比用于选举数据分析的工作流程要复杂几个数量级,但是心理学家仍然可以从学习使用构建工具中受益。一个例子可以最好地说明这一点。考虑以下简单的工作流程:

1.如果网络上的文件已更改,请从Internet下载(使用R或使用诸如wget之类的专用程序)数据集(例如,欧洲社会调查)
2.重新编码一些变量后保存数据的相关子集
3.加载子集,估计一些复杂的模型,并将参数保存到文件中
4.通过以下方式说明调查结果
•从参数生成大量图形并将它们另存为单独的文件
•从参数中产生许多表并将它们另存为单独的文件

5.通过处理包含图形和表格的文本文件,使用LATEX文档准备系统生成PDF报告

为了实现高效且可管理的工作流程,每个任务都应由作用于单一指令集的单个程序(脚本或程序启动时提交的多个选项和参数)来执行。此外,每个任务需要一个或多个输入,而留下一个或多个输出。5列出这些单独任务的方式可以很容易地识别它们之间的依存关系:如果发布了新版本的《欧洲社会调查》 ,所有步骤都必须以该确切顺序重复。另一方面,如果研究人员决定更改变量的编码(步骤2),模型采用的估计量(步骤3)或图形外观(步骤4),则仅必须进行后续步骤重复。顺便说一句,后一种修改不需要重新构建表:如果将依赖项可视化为树,则两个任务将在同一级别上出现,因为它们彼此完全独立。在具有足够资源的计算环境中,它们可以并行执行,从而进一步加快了处理速度。
诸如古老的Make程序(Mecklenburg,2005,通常在类似Unix的系统上可用)之类的构建工具及其许多后续产品都要求在另一个文本文件中指定依赖项。尽管这听起来像是一件琐事,但通常只需写下哪个脚本从哪个输入生成哪个文件(“目标”)即可。此外,这有助于澄清和简化工作流程。一旦这组规则到位,构建工具将分析依赖关系并以所需顺序执行任务。在此初始运行之后,仅当目标来源的脚本或输入发生更改时,才会重新生成目标。
版本管理系统是心理学家应从软件开发领域中借鉴的最后工具。大多数研究人员将(痛苦地)意识到自动备份系统的价值,该系统保留了许多旧副本,以避免出现良好的备份被损坏的副本替代的情况。现代系统通常会提供多个每小时或每天的快照以及越来越旧的(每周,每月,每年)副本。版本控制系统通过保留项目目录中每个(文本)文件更改的完整历史记录,将快照的这一概念进一步向前发展了6.现代版本控制系统,例如有点不幸的Git(Loeliger and McCullough,2012)可以跟踪整个目录状态,并快速将目录中的所有文件重置为昨天晚上的状态,或者显示自周一晚上以来对特定文件进行了哪些更改。它们提供了一些工具,用于查找变量重新编码方式发生某些更改的确切点
5理想情况下,输入和输出的数量应尽可能少(即,通过为最终文档中的每个图形编写一个单独的脚本),但这会变得非常乏味并且并不总是可行的。
6除非版本控制系统与远程存储库保持同步,否则它们仅在本地文件上运行,因此无法防止由于硬件故障而导致数据丢失。研究人员仍然需要确保他们定期备份其工作文件以及版本控制存储库。

停止了模型的收敛,或者导致估计值急剧下降。
但最重要的是,使用修订控制系统会引入另一层可靠性和可重复性。现代的修订控制系统无法轻松地将不需要的更改还原到一个项目文件中,它们可以毫不费力地为项目目录维护任意数量的时间表(“分支”)。这是测试代码和思想的好工具:可以轻松地在各个分支中尝试各种操作,模型规格或图形样式,再次记录对文件所做的所有更改,然后切换回更稳定的代表分析当前状态的开发,并选择性地复制所有有效的方法。修订控制系统是基于这样的假设,即这些更改中的每一个都应记录在注释中,因此强烈建议分析人员在分析数据和提出结论时要做出无数次微小决策,以保留其依据。
像本章中讨论的许多其他工具一样,版本控制系统已经被计算机程序员使用了数十年。他们的现代化设计旨在处理分布在数百个文件中的数百万行代码,大型开发人员团队可以在这些行上同时工作。心理学家可能会认为,像Git这样的系统(相对难于学习,但可以通过许多GUI对其进行驯服)对于他们的需求而言却过于强大。但是,在安全的环境中对代码和数据进行实验,每次更改都会被记录下来,并且每个实验都可以记录下来,并且可以在以后的任何时间进行还原,修改甚至重新应用,这最终会比通常的做法更加合理,有益和高效。无休止地注释掉代码行,或者创建许多越来越隐秘地命名的脚本,这些脚本的确切目的我们在两周后就记不清了。

5互联网作为选举基础设施和选举研究的对象

5.1基础设施

通过诸如ISSP,EES或欧洲晴雨表系列之类的大规模比较意见调查的可用性,心理学已经发生了变化(参见第48章)。 CESSDA成员和其他大型档案馆的网站现在是分发这些数据集的默认选项,可以快速且经济高效地扩散数据,而物理媒体(例如DVD或CD ROM)已被淘汰,除非明确限制使用规则适用。

尽管在为大量数据集提供文档和长期安全存储方面,归档是无与伦比的,但许多研究人员认为,准备要通过归档系统发布的数据是一项繁琐的工作。因此,一直存在与朋友和亲密同事共享心理学方面的非正式数据的传统。随着网络的出现,各个研究人员和小型团队开始将其数据集放到个人或部门的网站上。但是,由于没有中央目录,因此通常很难找到此类站点上的数据,并且由于没有专业基础架构的支持,这些数据随时可能消失。
更多 over, data may be stored in any number of formats and without even minimal documentation. The open source Dataverse  project  (http://dataverse.org/)  and some related initiatives aim at solving these problems 通过 providing means for the (semi-)automatic conversion, documentation, versioning, and retrieval of data. They also provide globally unique identifiers and checksums to solve the problem of data integrity. Journals, research groups, and individual scholars can easily create their own repositories to facilitate re-analysis and replication. Dataverse and similar software go a long way towards making data from smaller, often self-funded projects that would otherwise be lost to the scientific community available for secondary analyses. But they still rely on a professional and sustainable IT infrastructure. At the moment, this infrastructure is provided for free 通过 Harvard University and some other global players. Wheter they will continue to provide this service to the community if usage of the system picks up remains to be seen.
除了传统的数据档案库和更多的个人存储库之外,全球无数的政府机构和其他公共机构还建立了网站,在这些网站上共享部分记录,从而成为数据提供者。特别是在国家以下一级,这些站点的主要问题是碎片化。即使他们遵循网站设计和数据表示的通用标准,查找和导航成百上千个单独的站点来收集(例如)有关地方选举候选人的数据,显然效率低下,而且通常是不可行的。值得庆幸的是,世界各地的政府已经意识到免费访问其数据的潜在价值,并正在实施开放数据立法。结果,由政府赞助的区域,国家或什至超国家级的“门户”或“数据存储”站点越来越流行,这些站点从较低级别收集和分发细粒度的数据。尽管这些举措通常主要针对政策制定者和商业团体,但社会科学界也受益于关于政府数据原则上应公开的新共识。对于心理学家来说,地理参考选举结果和其他统计数据(例如人口普查或土地利用数据)的可用性日益重要。
在理想的世界中,网站将提供研究人员所需的确切数据集。

一种可以直接读取到自己喜欢的统计数据包中的格式。实际上,数据集通常以需要导入的Excel工作表或文本文件的形式提供。尽管这不太成问题,但通常会根据需要手动输入的某些规范从基础数据库“即时”创建此类文件。如果同一数据集(或同一数据集的不同变体和迭代)需要下载两次以上,则可能值得通过脚本进行编程。此外,仍然存在(政府)网站,这些网站不以下载文件的形式显示所需数据,而是以屏幕上可能是分页格式的一系列格式化表格的形式显示。在这些情况下,研究人员应考虑编写“抓取工具”,即一个模拟网站用户活动并将结果存储为数据集的小程序。尽管Python具有一整套的库,使其成为抓取任务的理想工具,但一些用于R系统的现代软件包从统计软件包中提供了非常相似的功能。 Munzert等。 (2015)为“抓取”和“挖掘”互联网提供了出色的介绍。当他们专注于R时,他们讨论的技术和标准很容易转换为基于其他工具的工作流。
最后,许多服务提供商-其中包括少数政府机构
–为其数据提供“应用程序编程接口”(API)。 API完全绕开了传统网站。它们代表了与服务的基础数据库进行交互的复杂且非常特定的机制,这是针对高级编程语言(如R或Python)的一系列简单命令。使用这些命令,脚本可以直接访问这些服务,而无需模拟网站人类用户的活动。从编写脚本的人的角度来看,在Internet上访问服务与调用硬连接到相应编程语言的函数没有什么不同。
例如,心理学家可能有一个变量,其中包含选票上所述的候选人的地址(名称和数字的混乱组合,可能还有错别字)。为了将这些转换为适当的地理坐标,他们希望使用“地理编码”服务。有各种此类服务的API(例如Google Maps,Bing Maps和OpenStreetMap项目),这些API将必要的低级指令包装到一个简单的函数调用中。除了使用限制和可能的付款选项外,从一种服务切换到另一种服务通常仅是对变量应用略有不同的功能。使用另一个API,然后可以将所得坐标映射到人口普查区域,为此可以获得大量社会经济和人口统计数据,这些数据可以提供候选人所居住的各个环境的大致概貌。

5.2互联网作为对象

自从作为研究基础设施成立以来,互联网已经彻底改变。尽管通常会出现有关选择性访问和使用的警告,但互联网作为一种政治媒介的作用对于心理学家来说越来越重要。当前的研究非常关注政治交流,因为它发生在社交网络平台上,其中最著名的是Facebook,Twitter和Instagram。用简单的脚本对这些站点进行爬网不仅会违反其使用条款,而且由于它们大量使用交互式Web技术,这些站点上的通信网络性质以及大量的帖子,实际上是不可能的。但是,再次有可用的API,可以通过这些API以编程方式开采这些服务。尽管存在限制,但分析人员通常会发现完全适合其需求的免费套餐。此外,Twitter和Facebook都有强大的研究部门,愿意与社会科学家建立合作伙伴关系。
当前,对计算机上的社交网络通信的研究主要由计算机科学家和语言学家主导,他们通常在没有任何社会行为基础理论的情况下进行工作。对这一领域感兴趣的心理学家将必须学习大量的技术和概念,并将它们与自己的实质性利益联系起来。 Grimmer和Stewart(2013)为自动内容分析提供了有用的介绍,而Ward,Stovel和Sacks(2011)则对社交网络理论中对政治科学家至关重要的概念进行了巡视。
使用互联网分析传统媒体来源在许多方面都没有问题。尽管许多发行商旨在实施付费专区以确保其收入来源,但许多主流媒体仍将其全部或至少大部分内容在线上。此外,谷歌,微软和其他公司创建了可通过编程方式访问的聚合器站点。使用这些资源,心理学家可以回顾运动期间给定问题的发展,或评估一组候选人的媒体报道的语调。简而言之,仅仅几年前,使用互联网和脚本语言,研究人员就可以实现大多数需要研究助手和大量报纸档案(或昂贵的数据库订阅)的功能。
Google支持的事件,位置和语气全球数据(GDELT,http:
//www.gdeltproject.org/) database takes this idea one step further. GDELT, which is based on older event databases (Gerner et al., 1994), aims at automatically extracting information on actors and events from newswire reports and making them available on a global scale. The GDELT project is somewhat controversial, because its original founders fell out, and because of worries over the quality of the inferences that are drawn from the raw inputs. However, the project, which has generated enormous interest in the IR community, has great potential for 心理学 , too.

六,结论

从一开始,选举研究就一直是受益者,并且通常是更大范围的政治学领域技术和方法学进步的驱动力。近年来,这种进步加速了:用户友好的软件,速度越来越快的计算机以及数据的不断增长,这意味着昨天的先进方法迅速变成了今天的新常态。总的来说,本章认为,心理学家应该继续普遍接受技术,尤其是开放源代码和开放数据革命。正如自然科学(例如生物学)中的例子所示,如果心理学家像软件开发人员那样思考并使用许多年来已经尝试和测试的免费工具链,他们可以做得更多,更可靠。更恶劣的环境。
但是,有另一面。技术是一种有价值的工具,但也可能会分散注意力,心理学家们永远都不应忽视其核心能力:利用将近一个世纪的理论构建,将奇异的发现纳入更大范围的能力。世界上到处都是“数据科学家”,他们将快乐而迅速地分析选举数据,就像他们将分析任何其他种类的数据一样。试图在纯技术水平上与他们竞争将是无望的努力。作为一个专业,只有我们能够基于深刻的理论见解来进行自己的分析,我们才能立足。

参考文献

Arzheimer,Kai和Jocelyn Evans(2012)。 “地理位置和投票权:候选人与投票者的距离对英国2010年大选的政党选择的影响”。在:
政治地理31.5,第301-310页。 doi:10.1016 / j.polgeo.2012.04.006。
-(2014)。 “ 2013年英国郡议会选举中的候选人地理位置和选民选择”。在:研究&政治。 doi:10.1177 / 2053168014538769。
Cameron,Debra等。 (2005)。学习GNU Emacs。全球可扩展性最强的可定制编辑器指南。第三版。塞巴斯托波尔:O.
坎贝尔,安格斯等。 (1960)。美国选民。纽约:约翰·威利(John Wiley)。
科尔曼,詹姆斯·S(1994)。社会理论基础。伦敦剑桥:哈佛大学出版社的Belknap出版社。
克劳利(Crawley),迈克尔(Michael J.)(2013)。 R书。奇切斯特:威利。
欧盟统计局(2015)。 NUTS 2013 / EU-28统计区域单位的命名法。欧盟地区。卢森堡:欧洲联盟出版物办公室,网址:
http://ec.europa.eu/eurostat/documents/3859598/6948381/KS- GQ- 14- 006-EN-N.pdf/b9ba3339-b121-4775-9991-d88e807628e3.

盖尔曼,安德鲁和珍妮弗·希尔(2007)。使用回归和多层次/层次模型进行数据分析。剑桥:剑桥大学出版社。
Gerner,Deborah J等。 (1994)。 “使用区域和国际来源对事件数据进行机器编码”。在:国际研究季刊38.1,第91–119页。
Grimmer,Justin和Brandon M.Stewart(2013)。 “文本作为数据。政治文本自动内容分析方法的承诺和陷阱”。在:政治分析
21.3,第267-297页。 doi:10.1093 / pan / mps028。
Hox,Joop J.(2010年)。多级分析。技术与应用。第二版。纽约:Routledge。
赫克菲尔德,罗伯特和约翰·斯普拉格(1987)。 “上下文中的网络:政治信息的社会流动”。在:美国政治学评论81.4,第1197–1216页。
url: http://www.jstor.org/stable/1962585.
Ihaka,Ross和Robert Gentleman(1996)。 “ R:一种用于数据分析和图形的语言”。在:计算与图形统计杂志5.3,第299-314页。土井:
10.2307 / 1390807。
杰克曼·西蒙(2004)。 “政治研究的贝叶斯分析”。在:政治学年度评论7,第483–505页。
詹宁斯·肯特(2007)。 “政治社会化”。在:牛津政治手册
行为。埃德由Russell J. Dalton和Hans-Dieter Klingemann撰写。牛津:牛津大学出版社,第29至45页。 doi:10.1093 / oxfordhb / 9780199270125.003.0002。
Jöreskog,Karl G.(1990)。 “ LISREL的新发展:使用多元选择和加权最小二乘分析序数变量”。在:质量和数量
24.4,第387–404页。 doi:10.1007 / BF00152012。
-(1994年)。 “关于多变量相关性及其渐近协方差矩阵的估计”。在:Psychometrika 59.3,第381–389页。
Karvonen,Lauri和Jostein Ryssevik(2001)。 “未来的前景如何?技术革命时代的政党,政党和选民研究”。在:重审党派制度和选民结盟。埃德由Lauri Karvonen和Stein Kuhnle撰写。伦敦:Routledge,第45-61页。
金·加里(1997年)。生态推理问题的解决方案。从汇总数据重构个人行为。普林斯顿:普林斯顿大学出版社。
Knoke,David和Song Yang(2008)。社交网络分析。第二版。千橡树:鼠尾草。
纳特·唐纳德·欧文(Kernth,Donald Ervin)(1984)。 “精简编程”。于:《计算机杂志》 27.2,第97–111页。
Lakhani,Karim R.和Eric von Hippel(2003)。 “开源软件的工作原理:“‘”Free”’用户到用户协助”。在:研究政策32.6,页923–943中。土井:10。
1016 / S0048-7333(02)00095-1。

拉扎斯菲尔德,保罗·F,伯纳德·贝雷尔森和榛树·高德(1944)。人民的选择。选民如何在总统竞选中下定决心。芝加哥:哥伦比亚大学出版社。
Lazarsfeld,Paul F.和Herbert Menzel(1961)。 “关于个人财产与集体财产之间的关系”。在:复杂的组织。社会学读者。埃德Amitai Etzioni撰写。纽约:霍尔特,雷内哈特&温斯顿,第422–440页。
Loeliger,Jon和Matthew McCullough(2012年)。使用Git进行版本控制。第二版
塞巴斯托波尔:奥莱利。
Long,J.Scott(2009)。数据分析的工作流程。原则与实践。大学站:Stata出版社。
鲁兹·马克(2013)。学习Python。第五版。塞巴斯托波尔:奥莱利。
McClurg,Scott D.(2006年)。 “政治演讲的选举相关性:审查
Disagreement and Expertise Effects in Social Networks on Political Participation”. In: American Journal of Political Science 50.3, pp. 737–754. url: http://www.jstor.
org / stable / 3694246。
罗伯特·梅克伦堡(2005)。使用GNU Make管理项目。塞巴斯托波尔:奥莱利。 Miller,Warren E.和J. Merrill Shanks(1996)。新美国选民。剑桥,
伦敦:哈佛大学出版社。
莫诺根(James E.)III(2015)。 “政治学研究预注册。案件,抗辩和对批评的回应”。在:PS:政治学& Politics
48(3),第425–429页。 doi:10.1017 / S1049096515000189。
Munzert,Simon等。 (2015)。使用R进行自动数据收集。Web搜集和文本挖掘实用指南。奇切斯特:威利。
Muthén,Bengt O.(1979年)。 “具有潜在变量的结构概率模型”。在:美国统计协会杂志74,第807–811页。
—(2002年)。 “超越SEM。通用潜在变量建模”。于:Behaviormetrika 29,第81–117页。网址:/home/kai/Work/Texte/Muthen2002.pdf。
奥尔森(Olson,Mancur)(1965年)。集体行动的逻辑。公共物品与群体理论。剑桥:哈佛大学出版社。
雷蒙德,埃里克·S(1999)。大教堂和集市。偶然的革命者在Linux和开源上沉思。北京等:O’Reilly。
齐格弗里德·安德烈(1913)。法国共和国三国共和国政治局(Tableau politique de la France de l'Ouest so Trolaieis Republique)。巴黎:A。Colin。
Skrondal,Anders和Sophia Rabe-Hesketh(2004)。广义潜在变量建模。
Boca Raton美国:查普曼& Hall.
Steenbergen,Marco R.和Bradford S. Jones(2002)。 “建模多级数据结构”。在:美国政治科学杂志46,第218–237页。

Stegmueller,丹尼尔(2013)。 “有多少个国家用于多层建模?一种
频率和贝叶斯方法的比较”。在:美国政治科学杂志。 doi:10.1111 / ajps.12001。
Ward,Michael D.和Kristian Skrede Gleditsch(2008)。空间回归模型
155.千橡树:鼠尾草。
沃德,迈克尔·D,凯瑟琳·斯托维尔和奥黛丽·萨克斯(2011)。 “网络分析与政治学”。见:政治学年度评论14.1,第245-264页。土井:10。
1146 / annurev.polisci.12.040907.115949。
西方人,布鲁斯和西蒙·杰克曼(1994)。 “用于比较研究的贝叶斯推断”。在:美国政治科学评论88,第412–423页。 照片 通过 克里斯蒂安·科伦(Christiaan Colen) 心理学和技术,或:剧本小子的兴起1

%d 像这样的博客: