十一月 292020
 

为什么会这样,当然,没有什么比每个人都想快进的一系列在线讲座更能说明问题了。我有推文来证明这一点。

所以我'm教授必修的统计/方法课程(一直很受欢迎)。线上。遵循我自己孩子的建议,我已将大纲简化。为了满足您自己的课程提纲,这里是每周课程。介绍:

模因在线教学统计1

因果关系& Designs

在线学习统计数据与模因2

国民账户体系

在线学习统计数据与模因3

更多SNA

在线学习统计数据与模因4

还有更多SN

网络教学统计与模因5

缺失数据

模因在线教学统计6

匹配

与模因在线教学统计7

TSCS

模因在线教学统计8

因子分析& some SEM

与模因在线教学统计9

更多协方差

模因10在线教学统计

跨层推断

网络教学统计与模因11

活动数据

模因在线教学统计12

多层结构

模因在线教学统计13

包起来&回归本源。那'过渡到数字排序,是吗?

模因在线教学统计14

最初由Kai Arzheimer发推文-(@kai_arzheimer) 上 2020年11月20日.

四月 242019
 

tidyverse如何改变了我对#rstats 16的看法

时光倒流,当我 本来应该 在攻读博士学位时,我在书架上发现了一本蓝皮书,以前办公室的那个人已经把书放在那儿了。后来我了解到 蓝皮书 引入了S语言(R的前身)。我被束缚了(就像您所做的那样),并自学了如何在现在称为R的基础上生成漂亮的图,以及如何运行理解欠佳的时间序列分析(在SPSS中无法实现)这点)。

不久之后,我迷上了Stata,直到今天,正如Ben Stanley所说的那样,我拒绝为Stata感到羞耻。 95%的时间可以完成工作,而且很快。而且,该文档非常出色。

但是我时不时地回到R,因为我需要一些特定的东西。而且大部分时间都很有趣。能够访问所有这些API(实际上,同时在内存中拥有多个数据集)令人兴奋。我可以使用一种真正,相当直接的脚本/编程语言来代替Stata’三种(半数的图形语言)半熟语法令人振奋。仅凭略读工作论文(略过每个非平凡的方程式)就可以采用最新方法…我想有点像用电锯修剪头发。

但是查找,安装,更新然后加载三个软件包,只是为了使编码更直观?说真的,R?不太酷。事实上, 发现 一个变量(必须提供完整的名称和数据集)通常足以使我流连忘返。 连接() 不知何故,我从来没有做过我认为应该做的事情。因此,我将再次回到Stata,就像<插入尴尬的隐喻>.

然后,在我最后的一次尝试中,我开始玩tidyverse。就像年轻人一样容易说:我的心被震撼了。小贴士!管道!许多美味的助手功能!从长格式到宽格式再返回(以各种不同方式)!分组,汇总,甚至遍历一些pythonesque列表。这不再是我以前知道的引人入胜但有点slightly强的R。

与我在Stata中使用少量字母和缩写来完成事情(相对于重新编码)相比,这仍然很冗长,我必须查找所有内容。但是我真的很喜欢。喜欢, 喜欢它。因此,在R中做更多的事情就牢牢地排在我要研究的事物清单中。最后,以最积极的声音结尾,这里是只猫的免费图片。

tidyverse如何改变了我对#rstats 17的看法

三月 042019
 
Wakeletas a tool for archiving online debates on (academic) events 19

Wakelet–这是什么,为什么学者应该关心“curate”关于事件的推文? 陪我一秒钟。

策展和社交故事讲述的悲伤状态

直到大约一年前, storify.com。 他们的经营理念是人们会“策展人”推文,facebook帖子和其他在社交媒体上发现的内容,以在互联网上叙述故事。

普遍公认的事实是,将物质“处理”为一种普遍现象是工业级的废话。没有人希望成群的人将半读的东西链接在一起,以求被更多的人完全忽略。因此,storify被Livefyre收购了,Livefyre又被Adobe收购了,整个“策展”业务都从大众转移到了企业客户领域。

研究人员为什么会想到社交故事讲述?

除了我的怀疑之外,至少有 强化学术界的一种用例。 如今,Jane Ordinary教授在组织任何形式的活动时,都会引起社会媒体的关注,这对她和其他人都是有利的。这不仅是外展和东西:简希望将对她的项目的认识至少模糊地投射到更广阔的世界中,而从未读过四页新闻稿的记者和其他研究人员很可能希望关注其中的部分内容。在非正式场合辩论。

这里的问题是:社交媒体本质上是短暂的。在事件发生后, 任何嗡嗡声都会埋在数十亿个新职位下。甚至在活动期间,由于当前社交媒体格局的筒仓式结构,以及经常无法在较小的活动上就单个主题标签达成共识的情况,使得人们很难大致了解人们在网上说什么。在这里,分类存储很有用,因为可以将每个(可呈现)的帖子链接到一个故事中。然后,一个(或一个)’可以在活动结束后或活动期间共享整个shebang,或将其嵌入到更持久的网页中。

显然是唤醒,而不是唤醒

摄影:MadeByMark

从充实到唤醒

寻找一个 替换为坚固 存档(精心整理?认真对待吗?)的在线/离线故事 我们上周组织的政策对话, 我碰到 尾流 (显然,给您的产品起一个笨拙的名字在硅谷仍然是一件事情)。 Wakelet会完成所有存储的操作,然后再执行其他操作。基本上,所有具有网址的内容都可以链接到“collection”(也称为小波)。推文和视频受到特殊对待:它们以“本机”格式显示,即分别作为推文框或在视频播放器中显示。也可以添加图像和文本。

虽然尾流有时边缘有些粗糙。在重新排列元素顺序后,我不得不按几次重新加载,以使所有内容重新出现。同样,wakelets可以更快地加载。但是,尽管如此,电涌流仍然非常优雅地填补了这一特殊的空白。

但是,我看不到一种可持续的大众市场商业模式。目前, 该服务对任何人都是免费的 who wants to showcase something. Interleaving 采集s with adverts would defy the showcasing aspect. But I don’t see that casual users would be willing to pay for a subscription. And so, in the medium term, it’s turning into another enterprise service or going bust, I presume. But for the time being, 尾流 is a useful, if highly specialised addition to the academic toolbox.

Policy Dialogue: 移民, local decline, the 激进 对 & 尾流

在我们内 ORA项目SCoRE,我们研究了 当地的衰落,当地的移民水平,移民情绪和(激进权利)投票。显然,我们的发现对公共政策有(或应该有)影响。因此,我们在 布鲁塞尔欧洲政策中心。我们有一个很棒的小组,一大批感兴趣的人,并分发了大约100份我们的政策摘要。然后就结束了。

但是,如果您对演讲者所说的话,人们的反应以及感觉如何感兴趣,只需浏览 尾流 我在这篇文章下面嵌入的内容。至少直到其他更有利可图的公司购买它们为止。

三月 022019
 

在过去的15年左右的时间里,我遇到的每个与远程相关的参考文献都保存在一个bibtex文件中。那不是问题。问题是我’他们搬进了一个闪闪发光的新办公室,但规模略小,连同数百份期刊文章和数百份PDF。不会’知道哪些物理副本实际上是多余的(不留空白的注释)并因此可以留在后面是件好事吗?

问题是bibtex文件具有相当灵活的,人类可读的格式。每个条目都以@符号开头,然后是类型(书,文章等),引用名称,任意顺序的许多键/值对(字段)以及大括号。

grep @ full.bib|wc -l tells me that I have 2914 references in total. grep 黏合剂|wc -l (binder is a custom field that I use to keep track of the location of my copies) shows that I have printed out/copied 712 texts over the years, and grep file|wc -l indicates that there are 504 PDFs residing on my filesystem. But what is the magnitude of the intersection?

我的第一个倾向是寻找合适的Python分析器/库。 Pybtex原则上看起来不错,但是文档不足,并且在阅读full.bib时遇到了麻烦,因为它是用拉丁语1编码的。因此,这是无休止的业余编码和拖延时间。然后我想起了“做一件事,做得很好”古老的口头禅。输入 Bibtool,这是一种快速且相当稳定的bibtex文件过滤器和漂亮的打印机。 Bibtool读取“resource files”, which are 真 just short scripts containing filtering/formatting directives. select = {binder ".+"} keeps those references whose “binder” field contains at least one character (.+ is a 正则表达式 that matches any non-empty string). select = {file ".+"} selects all references for which I have a PDF. But Bibtool applies a logical OR to these conditions while I’我有兴趣查找同时符合这两个标准的参考文献。

的 quick solution is to store each statement in a file of its own and apply Bibtool twice, using a pipeline for extra efficiency: Bibtool -r find-binder.rsc full.bib|bibtool -r find-pdf >intersection.bib 确实 the trick and solves my problem in under a minute, without any coding.

事实证明,两组中只有65个参考文献。显然,我前一段时间停止了打印(或至少取消了打印)。最终,我将两个副本装箱了,但这很重要。

2019更新

我仍然在命令行上使用bibtool来快速过滤/重新格式化任务,但是对于涉及从R中以编程方式访问bibtex文件的更复杂的作业,RefManageR是一个很棒的软件包。我在这里用过 bibliometric study of the 激进/Extreme 对 literature。和我的漂亮 $$$$机器人 也非常依赖RefManageR。如果您有兴趣的话 RefManageR,这是一个简短而甜蜜的介绍.

一月 142019
 

Terminology matters for science. If people use different words for the same thing, or even worse, the same word for different things, scientific communication turns into a dialogue of the deaf. European 激进 对 Studies are a field where this is potentially a big problem: we use labels like “New”, “Populist”, “Radical”, “Extreme” or even “Extremist” with abandon. 

但是真的有多糟?在一个 最近一章(作者 ’s version, not paywalled), I argue that communication in 激进 对 studies still works。使用所有50种阴影的文字“Right”仍然被一起引用,表明后来的学者意识到他们都(或多或少)在谈论同一件事。

我写了许多关于 术语随时间变化共引网络的提取结果的解释。但是有时候,所有这些读物都有所增加,所以我尝试了一些不同的尝试:使用一些新颖的软件来满足新手的需求,我将发现变成了一个简短的视频。看看自己,然后告诉我您的想法。

的 极端 / 激进 对 network of co-citations

看这个视频 在YouTube上.
一月 102019
 
Identifying topics in research papers with the 新闻地图 package for R (or: how the 激进 对 研究 Robot became slightly less dumb) 21

主题建模不适用于我的研究论文摘要

激进 对 研究 Robot is a 好玩 side project whose life began exactly one year ago. 的 Robot exists to promote the very large body of knowledge on 激进 对 parties and their voters that social scientists have accumulated over decades. At its core is a loop that randomly selects one of the more than 800 titles on my online 参考书目 on the 极端/Radical 对 每隔几个小时,然后在Twitter上吐出。

然而,这个小机器人的目标始终是出于某种偶然性,因此它试图从摘要(如果有)中提取含义,有时会带来相当可笑的后果。机器人的第一个想法是利用 (结构)主题建模。 R中有一些实现方式,第一个结果看起来很有希望,但是最后,主题建模没有找到有意义的论文集,这些论文可以轻松地标有一个通用主题。一个可能的原因是摘要太短,并且摘要相对较少(少于400个)。因此,机器人恢复为使用一组很小且相当随意的关键字来标识主题。

这种方法产生了一些令人尴尬的how叫声:

或这个(显然,机器人有用于媒体研究的东西– who 确实n’t?):

这里有两个问题:首先,即使是给定摘要中关键字的单个实例也足以触发分类;其次,机器人的步行者实现会使用 持续 它检测到的关键字,即使它是几次匹配中最接近的关键字。显然,这不足以统治世界。

新smap works reasonably well for classifying topics in research paper abstracts

在寻找替代解决方案时,机器人遇到了 新闻地图 (现在也可在 定量),由 渡边晃平. 新smap is semi-supervised: it starts with a dictionary of proper nouns and adjectives that all refer to geographical entities, say

'France': [Paris, France, French*] 
'Germany': [German*, Berlin]
...

但是新闻地图能够提取其他单词,这些单词也有助于以较高的概率识别相应的国家/地区,例如“Macron”, “Merkel”, “Marseille”, “Hamburg”, or even “Lederhosen”。从(有限的)意义上讲,即使没有明确提及所涉及的国家,它也会学会识别地理环境。

但是该算法不限于地理实体。它还可以从列表中识别主题。这么一来,这些天来,机器人开始是一个种子词的词典,该词典正在进行中,但目前看起来像这样:

'religion & culture': [muslim*, islam*, relig*, cultur*]
'media': [TV, newspaper*, journalis*]
'group conflict': [group*,contact, prejudice, stereotyp*, competition]
...

结果并不完美,但至少比简单关键字方法的结果令人尴尬。剩下的一个问题是新闻地图在每个摘要中最多标记一个主题。实际上,任何给定的文章都将引用文献中的两个或多个主题。主题模型在这方面更具吸引力,因为它们将每个文本视为主题的混合,因此机器人将来可能不得不重新审视它们。

十二月 132018
 
Does use of 极端 对 / 激进 对 terminology predict co-citations? (Part 2) 22

Reprise: 的 co-citation network in European 激进 对 studies

在上一篇文章中,我试图 reconstruct the co-citation network in European 激进 对 studies 并最终得到这个整洁的图表。

Co-citations within top 20 titles in 极端 / 激进 对 studies

Co-citations within top 20 titles in 极端 / 激进 对 studies

标题按组排列,其中“极端 对” camp on the right, the “Radical 对” group in the lower-left corner, and a 少数既不致力于 在左上角。线的宽度表示连接标题的引用的数量。

模式是什么样的? Knigge(1998)和Bale等人的文章。 (2010)都在“没什么特别的”组,但永远不会一起引用,至少在我提取的数据中不会。一个潜在的原因是它们相距十二年,并且解决了完全不同的研究问题。

想观看此博客的视频吗?

的 极端 / 激进 对 network of co-citations

看这个视频 在YouTube上.

除此差距外,网络是完整的,即每个人都被引用,其他人都位于前20名中。这对于将不兼容的链拆分为不兼容的两个不兼容链的想法已经颇具吸引力。有趣的是,甚至有一些牢固的联系可以弥合所谓的知识分裂,例如在Kitschelt的专着和Golder的文章之间,或者一方面在Lubbers,Gijsberts和Scheepers之间,另一方面在Norris和Kitschelt之间。

尽管使用相同的术语似乎起着较小的作用,但图片也表明,同引语主要是由所涉及标题的普遍突出引起的。但是,众所周知,网络图可能会产生误导。

Modelling the number of co-citations in European 激进 对 studies

对共引次数进行建模可为这种直觉提供更正式的检验。有 \frac{20\times 19}{2}=190 前20个标题中的共引用计数(范围从0到5476),平均计数为695,方差为651,143。因为方差比平均值大得多,所以假设负二项式分布(可以容纳这种过度分散)的回归模型比围绕Poison分布建立的模型更为合适。 “一般性突出”是指 外部 涉及的两个标题的共同引用。这是结果。

变量系数S.E.p
外部引用0.0004.00002<0.05
相同的术语0.4240.120<0.05
不变2.8520.219<0.05

 

研究结果表明,使用相同的术语(编码为“极端” /“激进” /“不确定”或“其他”)控制总体突出(可操作为前20名之外的引文之和) 确实 对预期的引文数量有积极影响。但是这些数字是什么意思?

该模型是日志中的累加。要恢复计数(并将模型转换为乘法形式),需要对系数取幂。因此,使用相同术语的效果转化为系数exp(0.424)= 1.53。

这些数字是什么意思?

但是,这在实际意义上有多重要?因为模型是非线性的,所以它’最好将合理/不相等术语的预期计数及其置信范围与可能的外部共同引用范围作图。

外部共引用和术语使用对前20名中预引用数量的影响

外部共引用和术语使用对前20名中预引用数量的影响

事实证明,对于外部引用次数在6,000至8,000之间的作品,术语对引用次数的预期影响很小。从这一点开始,具有相同术语的二元组的预期共引数增长得更快。但是,在6,000到12,000个外部引用的整个范围内,置信区间重叠,因此该差异在统计上并不显着。

除非两个标题具有很高的外部引用量,否则它们在第三部著作中被引用的可能性不取决于它们使用的术语。即使对于(很少)被大量引用的作品,也没有足够的证据来拒绝术语没有意义的零假设。

尽管分析仅限于20个标题之间的关系,但这些标题最重要,因为它们构成了ERRS的核心。如果我们在这里找不到分离,那并不一定意味着它不在其他地方发生,但是如果在其他地方发生,那就没有多大意义了。所以:没有两所学校。每个人都引用相同的著名文章,无论各自的作者是否喜欢“Radical” or “Extreme”。交流发生了,这对我来说似乎很好。

你惊喜吗?

去了 迷你系列的第一部分, 要么 read the full article on concepts in European 激进 对 research here:

  • 阿兹海默,凯。“Conceptual Confusion is not Always a Bad Thing: 的 Curious Case of European 激进 对 Studies.”民主与Entscheidung。埃德斯。 三月ker,Karl,Michael Roseneck,Annette Schmitt和JürgenSirsch。威斯巴登:斯普林格,2018. 23-40。 doi:10.1007 / 978-3-658-24529-0_3
    [BibTeX] [下载PDF] [HTML]
    @InCollection{arzheimer-2018,
    author = {Arzheimer, Kai},
    title= {Conceptual Confusion is not Always a Bad Thing: 的 Curious Case of
    European 激进 对 Studies},
    booktitle= {Demokratie und Entscheidung},
    publisher = {Springer},
    address = {Wiesbaden},
    pages = {forthcoming},
    year = 2018,
    url =
    {//www.zxdzkj.com/conceptual-confusion-european-radical-right-studies.pdf},
    doi = {10.1007/978-3-658-24529-0_3},
    pages = {23-40},
    html =
    {//www.zxdzkj.com/conceptual-confusion-european-radical-right-studies},
    editor = {Marker, Karl and Roseneck, Michael and Schmitt, Annette and Sirsch,
    Jürgen},
    dateadded = {01-06-2018}
    }