国人性癖研究
那是因为男女之间的性关系总是能够明确展现发生性行为的社会中社会关系的本质,如果清楚地加以描述,性关系还可以对那些关系构成批判,即使那不是而且从来也不是色情文学作家的意图。 - 安吉拉·卡特《萨德式女人》 数据来源于某知名中文成人视频网站的采集站,我提取了每个视频的标题,共获得10W+ 条文本数据,足够产生有意义的结论了。 分析的基本想法是通过统计关键词在标题中出现的频率来获得投稿人的偏好,进而得到(这类)男性心目中的有性吸引力的女性形象。 需要重点说明的是,这份统计数据说明的不是某种职业、年龄、身份的女性更容易拍摄成人视频。因为视频上传者往往是男性,而上传视频的动机很大一部分原因是为了获取关注,这时标题就能起到吸睛的作用。可以想象得到的是,上传者往往会通过虚构来吸引观众。通过简单的调查,一种常见的现象是,同一个女角色在不同视频中被冠以的身份会不停改变。因此严格来说,这个统计真正反映的,是男性成人视频观众的性幻想对象情况。 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。 具体的统计细节,不关心的可以不看。 通过 Scrapy 爬取数据,并将标题等信息导入到 csv 及 sqlite 中 通过搜索关键词来进行统计 比如想要统计视频中女性职业分布情况,我会先罗列一些诸如:大学生、老师、护士、空姐等热门关键词,然后再通过 sql like 语句进行计数 涉及到比例时,将同一类别关键词作为总数 这种分析方法有系统性的缺陷,可能会遗漏关键词 对于不方便使用 sql 语句的,使用 linux 基本命令如 ripgrep, awk, uniq, sort 进行统计比如要统计年龄状况,使用的命令是 rg '(\d\d岁)' out.csv -or '$1'|sort|uniq -c|awk '{print $2" " $1}' 说明: 遥遥领先的是 18 岁,合法年龄的下限,也是网站能容许的年龄下限。因此这个数据就真实性来说是最低的 总体分布在 20+ 岁,但 30,40,50 岁各有不少的峰值,大致对应了少女,少妇、熟女等年龄标签,让我惊讶的是大龄女性其实也有不少的吸引力 说明: 可能是除了职业之外最不真实的数据,因此是最能反映男性对身边女性性幻想状况的数据 妻子的占比最高,但往往涉及的并非夫妻之间发生的关系 说明: 幻想远远大过真实性的数据 分布得比较均匀,大致符合印象;其中老师和学生加起来几乎占了一半,可能也说明了学生是视频观众中比例很大的群体 说明: 身高因为可以通过视频进行大致验证,所以可以称得上是真实性较大的数据,反应出了男性对高挑女性的偏好 说明: 说明: 每 25 个视频就会有 1 个露脸,巧合的是"前女友"在身份关键词统计中的占比也是 4.8% ,因此女性在拍摄自制视频时还是要谨慎 几天前,我在逛国内的动画论坛时,发现很多帖子都直白地将作品中的女性人物作为性幻想对象,用词都非常粗鄙,而底下的回帖也早已见怪不怪,附和者颇多。于是我就突然产生了一个想法,为什么不去统计一下成人视频的数据呢?这样我就能搞明白国人在到处投射性幻想时是如何选择对象了。 于是花了十几分钟写了个 Scrapy 脚本,设置请求间隔为 5 秒钟,用时大约 7 个小时获取了共 114092 条标题。这份数据其实还有可以供挖掘的地方,比如对女性的侮辱性称谓、城市分布、发生关系的地点等等。不过这十几万条数据看得我实在是倒胃口,于是就先到这里吧。最后附送几张图片。
国人性癖研究
从数据分析来研究女性主义,此人是懂研究的。看似标题党,实则有内涵。
 
我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。
立意就很好。
 
 
 
badge