一直以来,有太多的研究表明,用户的社交媒体行为(他们发出的帖子、评论、点赞,以及个人特征、个性图片和照片)可以被用来分析其生活方式、个人素质、个人特征、甚至其心理健康状况的重要指标。比如,通过分析用户在Facebook上的点赞情况可以推断出他们的宗教信仰、性取向、个人品质和对生活的满意度等,博客文章充分展现了作者的个性,就连图片也是数字心理测验的重要工具。但是,一直以来却很少有人研究一些更为复杂的特征,比如学生的学术成就和学习成绩。近日,俄罗斯国家研究大学高等经济学院(HSEUniversity)教育学院计算社会科学实验室首席研究员IvanSmirnov建立了一种计算机模型,并根据用户的社交媒体帖子,来区分高学历者与低学历者。该预测模型使用数学文本分析方法来记录用户的词汇(它的范围和所取概念的语义域)、字符和符号、帖子长度和单词长度。在他的研究中,社交媒体帖子中的每个单词都具有不同的“排名”或者“分数”。比如,科学和文化主题、英文单词以及篇幅较长的单词和帖子可作为良好学术表现的评判指标;而丰富的表情符号、使用大写字母书写的单词或短语,以及与星座、驾驶等相关的词汇则带着学生有较差的在校成绩。图
一般文本特征与学习成绩的皮尔逊积矩相关系数(Pearsoncorrelationcoefficient)。(统计学中,这一系数用于度量两个变量之间的相关程度,其值介于-1与1之间,在自然科学领域中则广泛用于度量两个变量之间的线性相关程度。)相关研究论文以“Estimatingeducationalout