不同的抽样方法针对不同的子群体,以确保他们出现在样本中。为了了解这些抽样方法的作用,我们将从沃尔特·惠特曼的诗歌《我自己的歌》中抽取几行…

抽样诗包含多个方面

萨拉·斯托特
巴克内尔大学

统计推断的基本原理是因为我们很少能观察到整个人口。例如,我们经常不能和每个人说话如果你问“谁是你最喜欢的诗人?”这会花费太长时间,也太昂贵。相反,我们依赖于人口样本。如果样本具有代表性,或者“看起来”像总体,我们可以利用样本的发现来推断总体的属性。

但是我们如何才能使我们的样本“看起来”像人群呢?不同的抽样方法针对不同的子群体,以确保他们出现在样本中。为了了解这些抽样方法的作用,我们将从沃尔特·惠特曼的诗中抽取几行“我自己的歌“创作新诗。遵循生成这些诗歌样本所需的代码在这里.

沃尔特·惠特曼(Walt Whitman)是19世纪一位颇具影响力的诗人,他常常是当时美国诗歌风格的象征。《我自己的歌》在他的书的不同版本中被多次修订,草叶在这里,我将使用包含52节的最终版本。是的,这是一首长诗,但正如它最著名的诗句之一所说,“我很大,我包含了很多。”有很多不同的方法可以重新组合这些诗句来创作新的诗歌。嘿,如果我们没有时间读整首诗,也许我们仍然可以通过阅读全文样本来很好地理解惠特曼的风格和信息。

1860年《草叶集》封面上的书法文字
1860年版的封面草叶

这里创作的诗歌样本是发现诗歌“将现有文本重新整理,重新排序,并以诗歌的形式呈现。”其他根据惠特曼创作的诗歌,这一次是通过擦除诗,诗人选择从预先存在的作品中擦除什么,而不是像我们在这里做的那样保留什么。)让我们看看能找到什么!

简单随机抽样

基线抽样方法是随机抽样。然后我们依靠概率来引导我们走向代表性。例如,如果25%的人最喜欢的诗人是惠特曼,我们随机抽取100人,我们预计其中大约有25人会回答“惠特曼”。

网格中随机选择的点。
简单随机抽样的图示。

以下是我们在创作一首诗时得出的结论,这首诗的行数与原诗中的节数相同:

这些倾向于我的内心,我倾向于他们的外部,我的声音追逐着我眼睛无法触及的东西麋鹿徒劳地进入树林的内部通道我不会问受伤的人感觉如何,我自己成了受伤的人无论其他人感兴趣的是什么,政治、战争、市场、报纸、学校、他们不想用喷雾把谁浇死。  粪便和泥土比想象中更令人钦佩这个时候,我私下里讲事情无论你是谁,我都会把你带来。 啊,绝望者,这是我的脖子最小的芽表明真的没有死亡体现所有非法或痛苦的存在我听到他的动作在木桩的树枝上噼啪作响母亲和父亲,孩子和男人缺一缺二,看不见的被看见的证明我的兄弟,我的姐姐,人类是谋杀还是嫉妒你?   它们是如何像闪电一样迅速扭曲,痉挛着,喷出鲜血!     走出朦胧,对立面意味着进步,总是实质和增长,总是性用风情打湿我,我可以报答你。 在家里,乘着一队冰船,和其他人一起航行蒸汽船在后面拖着长长的烟雾放大并应用come I他轻便靴子上的混种皮带用于比赛因为我对每个人都好奇,但对上帝却不好奇我只是暂时停泊我的船过滤和纤维化你的血液。  两个拿着葡萄和罐子的老兵沉默了他的步枪,清理了他的甲板。  我自己选择物质和非物质流入与流出的一部分,仇恨与和解的颂扬者当我独自躺在床上时,我的猜测救生车被拉在滑梯上,热量在凹陷的沙子中孵化出淡绿色的蛋,没有一个年轻人因盗窃而被捕,但我也被起诉,并被审判和判刑。我听到鸟儿的叫声,麦子的喧闹声,火焰的闲聊声,我做饭时树枝的咔哒声一切都在向前和向外,没有什么崩溃我们在黎明的宁静和凉爽中找到了自己的灵魂。    我的脚踩在地上激起了一百种感情视觉、听觉、感觉都是奇迹,我的每一个部分和标签都是奇迹。     这是一只害羞的手的按压,这是头发的漂浮和气味有些人疯狂而无助地冲了过来,有些人站得笔直我们的船被打得满目疮痍,慢慢下沉,准备驶向我们征服的那艘船我带着强劲的音乐,带着短号和鼓在它们下面的小井里有棕色的蚂蚁火焰和乙醚冲向我的血管,如果我们的颜色被击中,战斗结束了?我整晚都把她紧贴在大腿和嘴唇上。一个不到17岁的年轻人杀死了刺客,直到有两个人来释放他,等待神谕的回应,向诸神致敬,向太阳致敬,而对于你,我,所有人来说,还没有经历过的和后来经历过的都是一样的。绊倒者和询问者围绕着我,我的爱人,坟墓的困惑者。我比他们更惊讶吗?我伸手去够绿叶的嘴唇,伸手去够光滑的瓜胸脯。

除了一些奇怪的标点符号外,这对于一首随机生成的诗来说也不算太糟糕。虽然有一些尴尬的转变,但人们可以将其解读为意识流方法的产物,而不是经过更仔细修改的原著。

分层随机抽样

但是,如果人口中的某些亚群成员不多,该怎么办?由于它们非常罕见,很难将它们作为样本的一部分,仅凭偶然的机会。分层随机抽样使我们能够将人群分成小组,然后对每组成员进行抽样,形成完整的样本。通过这种方式,在最终样本中表示每组。

从每行中随机选择一个点。

例如,惠特曼的诗中有一些节只有6行,其中节长中位数约为20。如果我们按诗节进行分层,使每一节都用一行表示,那么我们最终会得到一首诗.

这种抽样方法使每一节都有相等的表示。我们也可以按比例取样。这样,每一节仍然有代表性,但较长的节不会被低估。在这里打印这个有点长,但请查看代码以查看示例并创建自己的示例。

集群随机抽样

有时采样会带来后勤挑战。例如,如果你必须旅行才能进行采样呢?你可能想限制你去的城市数量。你可以按城市对人群进行分类,然后在城市一级进行抽样,从而限制你的旅行。在这里,我们可以按诗节进行分类,并为我们的新诗挑选一个随机的诗节样本。这还有一个额外的好处,就是将一节中的行放在一起,并限制行之间的尴尬转换。跳到这首诗在这里。

放置在两列中的点。

系统采样

系统抽样也受到实用主义的推动。你从一个随机选择的人开始,然后系统地跳过名单上的$k$人来选择下一个人,然后继续每$k$个人抽一次,直到你排到名单的末尾……如果你不知道在研究开始时有多少人可供抽样,这会很有帮助。例如,考虑一项退出投票,每五名离开投票的人都会受到质疑。

每个第12个框中都有一个点,从第2个点开始
系统的点选择。

从第50行开始,然后每隔50行进行一次,结果会产生以下诗句:

像马一样健壮,深情,傲慢,电气,我怎么回答这个孩子?我和他一样不知道这是什么。年轻人和红脸女孩转向一边,爬上浓密的小山,二十八个年轻人,他们都很友好;母猪咕哝着拉着乳头时的窝,赛船会在海湾上展开,比赛开始了(白帆闪闪发光!)呼吸空气,但在我身后留下很多,我找不到比粘在自己骨头上更甜的脂肪了。我相信你会在没有感觉到我的情况下拒绝回去,把门锁打开!微光使巨大而透明的阴影黯淡,一个大而新鲜的男高音充满了我的创作,无关紧要的事对我来说和任何事一样重要,一匹巨大的美丽种马,对我的爱抚既新鲜又有反应,在比赛场地上,或享受野餐或跳吉格舞或一场精彩的棒球比赛,我的路线低于直线下降的声音。他们已经把横梁移开了,他们温柔地把我抬了出去。他是粗鲁的英国人,没有比他更坚强或更真实的了,过去是,将来也不会是;我早上出去,晚上出去。我不问你是谁,这对我来说并不重要,有一天,我会做好准备,尽我所能做到最好,发挥出惊人的作用;用第一块石头或树桩做成一团,用棍子打成圆形,下面的一切都如期而至,而我仍在不断上山。我知道我拥有最好的时间和空间,从来没有被衡量过,也永远不会被衡量。我发誓我永远不会翻译我自己,只会翻译给那些在户外与我私下相处的人。如果你什么都不说,我怎么能说呢?

我喜欢最后三行在这里组合在一起!  

多阶段采样

多级采样将多个采样方案结合在一起。例如,我们可以进行集群随机抽样,然后在每个集群中进行简单的随机抽样。无论如何,我们不可能像我们在上述集群示例中建议的那样,与城市中的每个人交谈。

以下是惠特曼的小规模示例:

(毫无疑问,我已经死了一万次了。)月亮从昏暗的暮色中缓缓落下,我从月亮升起,我从黑夜升起,秋天森林里的混浊池塘,天堂的星星啊,我听到你在那里窃窃私语,至于你,死亡,以及你对死亡的痛苦拥抱,想提醒我是徒劳的。我认为你应该假设,一、 现在三十七岁,身体健康,希望至死不渝。因为每一个属于我的原子都属于你。暂时搁置的信仰和学校,我庆祝自己,唱歌,石头的坟墓会使它或任何坟墓的秘密倍增,不知怎的,我被惊呆了。退后!我可以忘记嘲笑和侮辱!我可以在自己的受难和血腥的加冕仪式上用另一种眼光看。我能忘记滴滴的眼泪和棍棒和锤子的敲打!我们走内陆和沿海,越过所有边界线,众多国家中的一个,最小的国家和最大的国家,在佛蒙特州小山上的家里,在缅因州的树林里,或者在德克萨斯州的农场里,农民、机械师、艺术家、绅士、水手、码头工人,一个初学者,经历了无数季节,一个南方人很快就变成了北方人,一个种植园主对我居住的奥科尼人漠不关心,热情好客,在家里的冰船舰队里,与其他人一起航行,他在我这里待了一周,然后才康复并北上,我把抹刀塞进靴子里,走了出去,玩得很开心;下午晚些时候,选择一个安全的地方过夜,给了他一间我自己住的房间,并给了他一些粗糙干净的衣服,给他带来了水,装满了浴缸,装上了他汗流浃背的身体和双脚,流浪者惊叹于我自己的轻松和快乐。

到目前为止,我们一直在逐行取样以便于理解所发现的诗歌,但如果我们改为逐字取样呢?一个应用程序因此,您可以进行相同的过程,现在通过以下方式进行采样单词用你最喜欢的诗歌或歌曲抒情。你注意到了这里的诗歌以及使用应用程序为同一首惠特曼诗歌发现的诗歌吗?想制作一个简单的数据集来使用吗?看看这个诗歌解析器工具。与我们分享你发现的诗歌,记住每首诗、每首歌和每一个样本都包含大量内容!

分层抽样诗

无论好坏,我都允许不顾一切地说话,你也不应该看着我的眼睛,也不应该拿走我的东西,也没有比现在更多的年轻人或老年人,除了拉拽站我是什么,我知道上帝的灵魂是我自己的兄弟,我会温柔地用你卷曲的草地,我赶紧告诉他或她,我知道死也一样幸运。流行歌曲的欢呼,暴徒的愤怒,把我的头发卷得乱七八糟。捕猎者躺在河岸上,大部分时间他都穿着皮衣,浓密的胡须和卷发保护着他的脖子,他牵着新娘的手,第二十九个游泳者沿着海滩边跳舞边大笑,铁匠们在铁砧周围有着肮脏多毛的胸膛,考虑到绿色、紫色和簇绒皇冠是有意的,专家可能认为这毫无意义,但我仔细听了,机械师卷起袖子,警察巡视,守门人标记经过的人,我抵制任何比我自己的多样性更好的东西,如果它们不是你的,也不是我的,它们什么都不是,或者几乎什么都不是,我吹过我最响亮、最快乐的口型。这个时候,我私下里讲事情,我找不到比粘在自己骨头上更甜的脂肪了。地球上沉睡的树木和液体!流入与流出的一部分,仇恨与和解的颂扬者,只有它没有瑕疵,只有它才能圆满地完成一切,我说的是通行的原始语,我给了民主的象征,我只是看着你,就挤满了你最圆滑、最棒的部分。我被愤怒的冰雹刺痛,我喘不过气来,无论我经过还是停下来,我身上都有瞬时导体,用平静的阳光和牧场来掩饰我的困惑,倾盆大雨,事后报答更富。微不足道的对我来说和任何人一样重要,这头牛低着头嘎吱嘎吱叫,胜过任何雕像,我自己在过去、现在和永远向前迈进,靠近曼哈顿岛,他们是游骑兵种族的荣耀,其中一台水泵被击落,人们普遍认为我们正在下沉。伸展着,依然躺在午夜,在他们拥挤的征服之门前!我被征服了!我的队伍充满了力量,是一支普通的无休止的队伍,它们随他身体或呼吸的气味飘散,从他眼睛的一瞥中飞走。张开手掌,掀开口袋的盖子,就目前而言,情况还算中等,但就这些吗?无论其他人感兴趣的是什么,政治、战争、市场、报纸、学校、,我在你们中间的地位和其他人一样,现在,在这个地方,我和我强壮的灵魂站在一起。他和他的搭档一起加入了一组高级巡回赛,我知道我拥有最好的时间和空间,从来没有被衡量过,也永远不会被衡量。(你和我说话一样多,我就像你的舌头,没有一个物体如此柔软,但它是车轮宇宙的枢纽,太阳啊,坟墓的草地啊,永久的转会和晋升啊,也许我可以告诉你更多。大纲!我为我的兄弟姐妹们辩护。很好,然后我自相矛盾,一天中的最后一次飞奔对我来说已经过去了。

返回主文本

集群采样诗

无论好坏,我都允许不顾一切地说话,你也不应该看着我的眼睛,也不应该拿走我的东西,也没有比现在更多的年轻人或老年人,除了拉拽站我是什么,我知道上帝的灵魂是我自己的兄弟,我会温柔地用你卷曲的草地,我赶紧告诉他或她,我知道死也一样幸运。流行歌曲的欢呼,暴徒的愤怒,把我的头发卷得乱七八糟。捕猎者躺在河岸上,大部分时间他都穿着皮衣,浓密的胡须和卷发保护着他的脖子,他牵着新娘的手,第二十九个游泳者沿着海滩边跳舞边大笑,铁匠们在铁砧周围有着肮脏多毛的胸膛,考虑到绿色、紫色和簇绒皇冠是有意的,专家可能认为这毫无意义,但我仔细听了,机械师卷起袖子,警察巡视,守门人标记经过的人,我抵制任何比我自己的多样性更好的东西,如果它们不是你的,也不是我的,它们什么都不是,或者几乎什么都不是,我吹过我最响亮、最快乐的口型。这个时候,我私下里讲事情,我找不到比粘在自己骨头上更甜的脂肪了。地球上沉睡的树木和液体!流入与流出的一部分,仇恨与和解的颂扬者,只有它没有瑕疵,只有它才能圆满地完成一切,我说的是通行的原始语,我给了民主的象征,我只是看着你,就挤满了你最圆滑、最棒的部分。我被愤怒的冰雹刺痛,我喘不过气来,无论我经过还是停下来,我身上都有瞬时导体,用平静的阳光和牧场来掩饰我的困惑,倾盆大雨,事后报答更富。微不足道的对我来说和任何人一样重要,这头牛低着头嘎吱嘎吱叫,胜过任何雕像,我自己在过去、现在和永远向前迈进,靠近曼哈顿岛,他们是游骑兵种族的荣耀,其中一台水泵被击落,人们普遍认为我们正在下沉。伸展着,依然躺在午夜,在他们拥挤的征服之门前!我被征服了!我的队伍充满了力量,是一支普通的无休止的队伍,它们随他身体或呼吸的气味飘散,从他眼睛的一瞥中飞走。张开手掌,掀开口袋的盖子,就目前而言,情况还算中等,但就这些吗?无论其他人感兴趣的是什么,政治、战争、市场、报纸、学校、,我在你们中间的地位和其他人一样,现在,在这个地方,我和我强壮的灵魂站在一起。他和他的搭档一起加入了一组高级巡回赛,我知道我拥有最好的时间和空间,从来没有被衡量过,也永远不会被衡量。(你和我说话一样多,我就像你的舌头,没有一个物体如此柔软,但它是车轮宇宙的枢纽,太阳啊,坟墓的草地啊,永久的转会和晋升啊,也许我可以告诉你更多。大纲!我为我的兄弟姐妹们辩护。很好,然后我自相矛盾,一天中的最后一次飞奔对我来说已经过去了。

返回主文本

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*

不允许使用HTML标记。

49322封垃圾邮件简单注释