大数据分析如何通过人的名字判断家境？

发表于 2015-6-4 12:36:16

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

让大家久等了！这次数据分析的过程比我预计的更漫长，当然，收获也比预想的更加丰富。感谢所有参与调查的朋友们的支持，特别感谢 @安潘对本次调查统计的珍贵建议，下面步入正题，介绍下本次调查的形式、结果与收获。

一月末，我根据题目设计了一个调查问卷，就是姓名与个人背景关系调查[复制]的原版，收到了千余份问卷。问卷重点调查的是大家的名字以及对应的家境与城乡出身，此外还涉及到了姓名满意度、家长文化水平、家长职业等辅助调查项目，一期问卷收集工作完成后，我从中随机选择了九个样本，以发微信的形式又做了一次小调查，调查大家判断的这些名字所代表的家境，考虑到受调查者的可投入时间、精力有限和具体数字判断的难操作性，这一次仅让大家判断贫与富、城与乡，分别对应一期调查的贫困、温饱与小康、富有，以及乡村与小城镇、各大城市。

结果如下：

图片略紧凑，我简单解释下，本次调查引入了“出生时的家境”和“现在的家境”两个指标，分别与不同人判断的家境进行比较，出于调查的可行性以及主要调查线性相关性的主旨，贫取数字1，富取数字2 。参考标准取了p和r两个值。p代表受调查者判断的正确率（p生是判断结果符合出生时家境的几率，p现是判断结果符合现在家境的几率），r代表判断结果与真实结果的线性相关性（采用correlation计算公式，r=\frac{n(\Sigma xy)-(\Sigma x)(\Sigma y)}{{\sqrt{ (n\Sigma x^2-(\Sigma x)^2)(n\Sigma y^2-(\Sigma y)^2)} }}，r生代表判断结果与对应样本出生时真实家境的拟合度，r现代表判断结果与对应样本现在家境的拟合度，r值在-1到1之间，正数代表正相关，0代表不相关，负数代表负相关，r的绝对值越接近1，相关性越强）。右侧的E列代表所有受调查者判断的数学期望，这里E在1-2之间。

值得注意的是，我特别测算了一下出生家境和现在家境的符合概率及相关性，结果是这9个样本出生家境和现在家境大致符合的概率是0.67，r值是0.478，而总样本出生家境与现家境的r值是0.398 。

经统计与计算，最后的结果是：

p生，即人们判断符合样本出生时家境的正确率：65.25%；

p现，即人们判断符合样本现在的家境的正确率：58.79%；

r生，即所有人判断的数学期望与样本出生时家境的拟合度：0.5765；

r现，即所有人判断的数学期望与样本现在的家境的拟合度：0.5708；

鉴于人们判断的差距略大，部分样本的判断方差接近了最大值0.25，以E的r值判断相关性过于片面，我又特别统计了r的E值，即所有单个判断样本对应真实样本拟合度的平均值。结果是：

\bar{r} 生，即所有单个人判断与对应样本出生时家境拟合度的平均值：0.3140；

\bar{r} 现，即所有单个人判断与对应样本现在的家境拟合度的平均值：0.2940。

从这些数字看，人们以姓名对家境的判断还是有一定准确性的，但准确率并没有达到靠谱的程度。相比较而言，人们的判断更接近于姓名主人出生时的家境，而不是现在的家境。而且，人们的判断结果不一定统一，经常出现众说纷纭的情况，但往往，集体判断取向会更加准确，相对大多数人的个人判断更接近于姓名主人的真实家境。

值得说明的是，0.57左右的r值已经显示了比较高的相关度，这种相关度尚未达到“靠谱”的标准，可以说是“对路”，而0.3左右的r值属于中等相关，能达到“具有借鉴意义“的级别。

但是，姓名学归根到底是一个人文学科，统计数字是重要的参考指标，但难以打破姓名审美艺术性的界限，因此，我们有必要再针对具体姓名继续做一些偏人文的分析。

刚才对表格观察比较细致的朋友可能已经发现，三号题手和九号题手对姓名主人出生时家境判断全对，而1号姓名和9号姓名的大众选择则较为集中，被正确判断的几率很高。

我们不难发现，三号题手和九号题手虽然对不同姓名有着不同的家境判断，但他们的选择非常谨慎，并没有对所有的姓名都加以判断，而只是判断了自己把握较大的姓名。

而1号姓名D成斌风格明显、表征强烈。成斌这个名字意象相当朴实、直接，在这种搭配下，成字会令人联想到成功、事业有成的意象，斌字会令人联想到文武双全的意象，而一旦这两个字搭配到一起，则会显现出较强的事业感，给人一种努力拼搏的男青年的印象，在这种印象下，人们更倾向于认为姓名主人的家底并不雄厚，是白手起家。相对而言，其他几个姓名的风格并不如此明显，H孟奇的孟、奇二字是意象差距较大的两个字，搭配到一起表意抽象，会形成众说纷纭的联想；G雪晴的雪晴二字意境相当优美，但这个名字的使用者略多，导致格调一般，于是，人们对这个名字的判断有了不同的标准，有的偏意象，有的偏格调，形成了不甚统一的选择结果。

从这些分析来看，姓名本身特征的明显度和其综合性能的配合度会影响人们对姓名主人判断的一致性，越是特征明显的名字越容易得到统一的判断，而抽象或隐晦的名字则容易得到分散的判断。所以，上文的数据分析并不绝对，姓名之间虽然并列，但内核并不等同，判断结果会受到姓名特征的制约。因而，总数据的参考性又下降了一些，要了解姓名判断与真实情况的相关性，还是需要具体分析。另外一点是，谨慎的判断往往会得出更为准确的结果，在不“蒙”的前提下，部分人对姓名主人家境的判断可以相当准确。

用同样的方法，我们还统计了受调查者对这几个姓名城乡出身的判断。

结果是，他们判断的平均准确率只有55.63%，虽然还是正相关，但已经很不靠谱。集体判断的r=0.2910，还算可以。但个人判断r的平均值是0.1136，显得相关性较弱。从这个结果看，总的来说，以姓名判断城乡出身不太靠谱。

关于姓名判断调查的分析部分就到这里，接下来是对大问卷调查的数据分析。

首先是姓名满意度问题。按以往的经验，我们认为家境富有者应该比家境贫寒者对自己的姓名更满意、出身于大城市的人会比出身于乡村的人对自己的姓名更满意，但事实是不是如此呢？

经统计，在本次调查中，出身于乡村、小城镇、普通城市、二线城市、一线城市的受调查者的平均姓名满意度分别是6.85、7.11、7.17、7.32、7.05 。也就是说，从乡村到二线城市的过渡是符合我们预想的趋势的，然而，这一趋势在二线城市和一线城市间出现转折，一线城市受调查者对自己姓名的满意度较二线城市受调查者产生了较大幅度的下降。然而下降的原因，数字并不能说明，不过我们可以推论其中的可能原因。一是一线城市的受访者普遍对姓名的要求较高，二是一线城市的家长起名较为随意，三是一线城市家长起名有着某个相通的特点，这一特点不为一些姓名主人喜爱。这些原因证据不足，只是推测，还有待进一步论证。

而在本次调查中，出生时家境贫困、温饱、小康、富裕的受调查者对自己姓名的平均满意度分别是6.47、6.99、7.49、7.68 。从数字看，这一结果完全符合我们预想的趋势，而且差距相当明显，近40%出生时家境贫寒者对自己的姓名不满意（评分5分及以下），而家境小康的受调查者中，这一比例仅有16%左右。这意味着，姓名满意度与出生时家境的关系较与城乡出身的关系更为密切。

而现在家境贫困、温饱、小康、富裕的受调查者对自己姓名的平均满意度分别是6.5、6.54、7.24、7.54，和上一组数据相比，很明显现在家境依然没有改善的人相比家境有所改善的人对自己的姓名更不满意，这可能意味着，对于同一起跑线上的家庭来说，乐于奋斗、追求进步的家庭更可能起出令孩子满意的名字。

再看家长受教育水平，本次调查中，家长受教育水平（主要监护人中受教育水平最高的一个）为小学、中学（包括中专、技校）、大学（包括本科和大专）、研究生的受调查者对自己姓名的满意度分别是6.13、6.87、7.4、7.67，呈现出非常显著的差异。从这个数据看，家长的受教育程度相比家境对姓名满意度的影响更大，家长受教育水平越高，子女越可能对自己的名字满意。从r值来看也确实如此，城乡出身与姓名满意度的r值为0.0282，出生家境与姓名满意度的r值为0.1397，而家长受教育水平与姓名满意度的r值为0.1717，相较其他两项相关性更为显著。

在同样接受高等教育的家长中，出于理工科和文科的家长的子女的平均姓名满意度分别为7.48和7.42，这一点和我们预想的不太一致。也就是说，以出身于理科或文科来判断家长的起名能力意义不大，他们的子女对自己姓名的满意度并没有明显的差别。而且，很多家庭父母双方的专业出身并不一致，文理搭配的情况也很常见（本题设置了多选选项）。

本次调查还设计了一个调查家长从事行业的题目，但一期设计并不完备，遗漏了部分行业，所以仅供分层分析参考。

从涉及人数较多的几个行业看，子女对姓名最为满意的三个行业分别是高教科研、医疗和高新技术，平均满意度分别达到了7.89、7.69和7.52 。子女姓名满意度较低的三个大行业是销售、制造业和军事及公共安全，平均满意度分别是6.52、6.85和6.87 。值得注意的是，政府及机关公务员子女的姓名满意度为7.23，低于科教行业的水平，但比农林牧渔和制造业略高。而本次参与调查的农林牧渔业子女对自己姓名的平均满意度是7，出人意料地略高于从事制造业和销售子女的满意度，这可能是由于样本不够广泛，没有对更多人进行更深入的调查，当然也有可能就是对真实情况的反映。无论如何，我们对这一现象还不能太早的下结论，还有待进一步的调查来论证。

看过上面这些数据，大家可能已经发现，无论出自哪些群体，群体姓名满意度的平均值都在6-7.9之间。然而，这并非绝对的定律，在另外一些规范不大严格的群体中，这一定律可以被打破。

例如在针对家长个人喜好的调查中，差异非常明显，占总量一半以上的守旧选项的平均分只有6.73，而古典选项的平均分却高达8.05，已经突破界限。这意味着，喜好古典文化的家长为子女起的姓名更受子女喜爱。而且，这一水准已经超越了家境、学历、行业等硬性指标的水准。

为保险起见我又再次查阅了家长喜好与家境之间的关系，发现家长喜好古典的家境分布也是分散的，和总体分布状况并没有太大差池。所以家长喜好古典依然可以作为一个相对独立的指标。

此外，本次还调查了家长的性格，选项为木讷、安静、随和、热情、活泼、暴躁的平均姓名满意度分别为6.41、7.68、7.2、7.27、7.13、6.17，由此可见，性格较为两极化的家长所起的姓名容易遭到子女反感。

大数据暂时分析到这里，希望这些数据可以帮助大家了解各项因素对姓名满意度的影响。以上内容算是略微跑题了，研究的主要是从名字判断家境等背景靠不靠谱的问题。虽然结果是介于靠谱和不靠谱之间，没有明确的结论，不过下面我们还是要回归正题，探讨下怎样从一个人的名字判断他的家境。这个探讨用上面的思路应该不大管用，我们不妨换一个思路，挑选出一些相对典型的字具体分析一下这些字对应的平均家境水准如何。

图中人数一列的数字是该字在本次调查中的涉及人数，满意度一列的数字是涉及该用字的所有受调查者对自己名字的平均满意度。家境、出身等项目各列的数字都是涉及的人数。家境期望两列的数字是通过家境分布情况得出。本次调查所有样本的出生家境期望是2.23，现在家境期望是2.85，而这132个字（使用者5人以上的字）涉及的1410个样本中（由于双字名不只使用一个字，一些人的名字涉及这135个字中的两个字，所以这1410份中包含重复样本），出生家境期望是2.25，现在家境期望是2.84。我们可以暂以家境期望为标准查看使用这些字的姓名主人的平均家境水平。当然，这一标准在样本较少时不太可靠，所以这些数据仅供参考，样本数目较多的字参考性稍强一些。

观察上表我们不难发现，很多高频用字的家境期望值都与平均水平接近，但其中也不乏特例，有的字会呈现较为极端的家境期望值、满意度均值或城乡分布指数。在家境期望值方面表现比较明显的包括伟、峰、林（偏低）、天、心（偏高）这些字，为了更直观的表现这些特例，我们不妨针对出现频率超过10的用字做一个简单的排行。

高频字现在家境期望最高榜：

1.君：3.21（14）

2.可：3.21（14）

3.心：3.18（13）

4.海：3.13（15）

5.明：3.08（12）

6.天：3.08（25）

7.铭：3.08（13）

8.玥：3.08（13）

9.怡：3.07（15）

10.杰：3.06（18）

需要说明的是，家境期望在3以上表示这些人的平均家境水平已达到小康水平。

高频字现在家境期望最低榜：

1.昊：2.50（14）

2.峰：2.53（15）

3.林：2.57（14）

4.鹏：2.57（21）

5.浩：2.58（12）

6.伟：2.64（22）

7.月：2.64（14）

8.婷：2.65（17）

9.敏：2.69（16）

10.云：2.69（13）

好吧，大家是不是万万没想到高居榜首的是钓神的名讳？不过躺中的朋友们千万别灰心，这只是反映了现有样本的平均水平，不能反推到个体。这些字触及一些土豪的名讳是很正常的，马云和王健林可是都躺中了，这只能说明这些字的家境期望被更多正在奋斗中的人们拉低了而已。

逆袭榜top10（现在家境/出生家境）：

1.可：1.5（14）

2.玉：1.48（16）

3.华：1.48（12）

4.俊：1.46（13）

5.宇：1.44（23）

6.铭：1.43（13）

7.海：1.42（15）

8.云：1.40（13）

9.伟：1.38（22）

10.嘉：1.37（20）

至于“这个榜单是否可以推断父母的奋斗程度？”这一问题还有待商榷，需要进一步论证，现在先排出来给大家体会一下，不必想太多。

接下来是出生时的家境。

高频字出生家境期望最高榜：

1.玥：2.77（13）

2.心：2.73（11）

3.梦：2.65（23）

4.君：2.64（14）

5.雨：2.62（21）

6.煜：2.62（13）

7.一：2.62（13）

8.诗：2.60（15）

9.怡：2.53（15）

10.佳：2.44（27）

高频字出生家境期望最低榜：

1.伟：1.91（22）

2.华：1.92（12）

3.云：1.92（13）

4.昊：1.93（14）

5.林：1.93（14）

6.峰：1.93（15）

7.玉：1.94（16）

8.俊：2.00（13）

9.鹏：2.00（21）

10.浩：2.08（12）

其实这组榜单更能反映不同家境水平的家庭的起名趋向，但对判断家境的帮助确实不大，因为很多人出生时的家境和现在的家境是有变化的。另外需要注意的是，2是家境期望从贫困到温饱的分野，出生家境期望小于2代表用这些字的受调查者出生时的平均家境水平达不到温饱。

看了这些榜单，我想大家已经有了一些答案，了解到一些文字的确拥有着特定经济水平的用户群体。但是不要忘了，这次统计是有很大局限的，一是样本数量不够（本次分层抽样若达到全面的参考水准需要10万以上的样本，而一期只有1500余份样本）；其二是样本来源并不全面，约70%的样本来自知乎用户，绝大多数样本来自年龄不足40岁的群体，所以这些数据对80后、90后进行判断较为适用，而不适用于判断高龄人群；其三是常用字不足以概括全貌，这个榜单无法对起名低频字家境分布做参考；其四，也是最重要的一点，这次为了统计的可操作性是以单个字来分析的，没有将搭配问题引入统计中要知道，对很多字来说，采用不同的文字搭配会取得完全不同的效果，不同群体对搭配的选择也不尽相同（例如同样使用了“嘉”字，嘉伟和嘉臻的姓名风格就非常不同）。而且，姓名搭配还涉及主客字和相兴字的问题，双字名中有时会出现一个字主要表意另一个字起辅助作用的情况（例如徐思涵这个名字，思字就是客字，起辅助作用），有时会出现两个字组合成全新的意象，缺一不可的情况（例如张怡然的怡、然二字拆开后的意象和组合时的意象就有很大不同，拆分后做分析已无法表现）。因此，这种统计方法虽然表现非常直观，但参考性并不是非常高，融入更多样本的进一步的统计有助于我们获得更准确的数据，但依然无法打破姓名学艺术性与数字的壁垒，在这种情况下，非统计学的分析举足轻重。

不过看过以上表格和榜单，大家应该也已收获很多。家境期望较高的字确实大多是格调雅致的字，而家境期望较低的字有很多是看起来有些落伍的字。当然，也有些字在榜单中隐身了，比如袁泽的泽、陈博的博，这些字用户也很多，本次统计也涉及到了，但这些字用户各方面的平均指标都很中庸，和总样本的各项平均指数非常接近，所以就“名落孙山”了。还有一些字，例如畅、楠、驰等，从社会上看用户也很多，但本次调查中涉及的较少，不足5个样本，所以没有列出，这些字在今后的统计中会加以补充。本次统计已经涉及了涵、煜、玥等非常具有时代特征的字，而像臻、允、泰这类起名新兴字，在本次统计中并不多见，可能在未来会涉及到。

来自群组: Hadoop中国

帐号		自动登录	找回密码
密码			立即注册

大数据分析如何通过人的名字判断家境？

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1