最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

北京邮电大学博士生导师杨义先教授:唐诗的大数据揭秘

[复制链接]
跳转到指定楼层
楼主
发表于 2017-5-12 11:28:58 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-5-12 12:05 编辑

唐诗的大数据揭秘
杨义先教授
北京邮电大学信息安全中心主任
灵创团队带头人

摘要:运用大数据分析方法,借助我们自己发明的“机器文学算法”,本文对诗仙李白、诗圣杜甫等的诗词进行了“用字习惯”分析。有些结果,与直观想像很接近;但是,确实另有一些结果比较出人意料,比如,1)如果不允许李白使用姓氏字来写诗,那么,他连一个完整的诗句都写不成,更甭谈一首诗了;2)如果只允许李白使用姓氏字来写诗,那么,他连一首诗也写不出,但是,杜甫却能够写出三首诗来!
(一)前言
从计算机科学角度来看,“写诗”其实是一个典型的“大数据分析与综合”的过程。
关于综合,先人们早就知道“熟读唐诗三百首,不会吟诗也会吟”。这其实就是大数据综合!“综合”越好,诗的水平就越高,因此,诗仙李白和诗圣杜甫可谓是“综合高手”了。关于这种综合过程的最直观和简单的案例,可能要数俺已经发表的,能够让文盲写诗的,《出诗表》【5】。
关于分析,最著名的历史典故,该算贾岛的“僧月下门”或“僧月下门”了。但是,由于缺乏有力的分析工具,也由于样本太小,因此,自古以来,诗词的分析过程都仅仅限于局部,比如,是“推”还是“敲”。
“分析”是“综合”的基础。反过来,大量“综合”知识的积累,又有利于提高“分析”的精准度,从而大大改善“综合”的结果。
总之,无论是“分析”还是“综合”,几乎所有的现代和古代诗人都只是在潜意识地进行着,而且还将继续进行下去。如果能够把这些思维过程,明确地呈现出来,甚至建立相应的模型,那么,肯定有助于高效地提高诗人的修养,而且,还有助于搞清楚人类的文学创作过程。当然,必须承认,这种“建模”非常艰难,不可能在近期完成。但是,在大数据时代,样本素材的获取有了重大改善,算法工具也开始出现,因此,本文将以李白为例,开始对其诗集进行大数据分析,并揭示某些千年以来不为人知的秘密
为严肃计,本文只陈述结果,不做任何评论,毕竟在诗词方面,本人纯粹一白痴。
为让文理读者都能够看懂,本文只给出结果,不叙述算法细节和运算过程。
本文的分析对象:A=《李白全诗集》【1】、A1=李白的所有五言诗、A2=李白的所有七言诗。其实,李白一生以五言诗为主(约6.8万字),以七言诗为辅(约1.9万字),六言、四言等其它种类的作品字数寥寥无几(仅仅千字左右)。B=杜甫的全部五言诗集。C=《唐诗三百首》。

本文的分析目的:揭示李白等诗词的某些用字习惯。“字”是“词”的基础,“词”又是“意境”的基础,因此,用字习惯在某种程度上,会影响诗人的作品。严格说来,这类分析最好应该有一些比较,但是,由于现代诗人达不到与李白可比的水平,所以,无法进行“古今比较”;又由于害怕引起不必要的误会,我没有公布李白与其同时代诗人的比较。比如,我曾经在微博上发表了李白与杜甫的一个很初步的比较,结果却意外地引起了李粉丝或杜粉丝们的强烈吐槽,其实,我只不过是说:“李白与杜甫的用字习惯差别很大。在他们所有的五言诗中,李撰字6.8万,杜9.3万。但是,李诗中只有3127个字是互异的,杜诗中则有3907个互异字。他们同时都使用的字眼只有2764个字。换句话说,杜诗中29%的字眼,是李不用的。而李诗中,只有363个字未被杜使用。加在一起,他们共使用4270个互异的汉字!”
本文的分析工具:机器文学算法、集合论的逻辑推理。前者是俺发明的一套计算机软件(当然,还涉及到许多数学和密码学的技巧),后者是大学“计算机专业”的一门必修课。
本文分析的基础字集:《新华字典》【2】、《小学生标准字典》【3】、《中华单姓氏字集》【4】。《新华字典》是当朝最权威的官方字典,《小学生标准字典》是现在最基础的字典,它是《新华字典》的子集。既然已经有了上述两本字典,为什么还要增选第三个字集《中华姓氏字集》呢?对此,我想特别解释如下:
按传统,每个朝代都有自己的官方字典。除了姓名等字之外,当朝百姓和官文用字基本上都限于本朝的官方字典,而且,随着朝代的成熟和稳定,这种“向官方字典靠拢”的现象会更加明显。比如,针对习时代,看看最重要的《十八大报告》:虽然它洋洋洒洒8万字,但是,其中互不相同的汉字却只有897个,而且,这897个字全都出自《新华字典》(更进一步地,除了“夙祉”这两个字之外,其它895个字,甚至都只是出自《小学生标准字典》。另外,这897个字中,只有118个字不属于《中华单姓氏字集》,可见,姓氏字是多么普遍,竟然占有87%的用字比例!)
从纯粹的研究角度看,官方字典有一个严重缺点,那就是它的不稳定性!大清的《康熙字典》与《新华字典》可谓是天壤之别。民国虽短,来不及编撰自己的官方字典,但是,今天港澳台的字典与《新华字典》也完全两回事。但是,有一个字集却是超级稳定的,那就是《中华姓氏字集》!不管朝代如何更替,不管发生什么天灾人祸,姓氏字永远是代代相传的。如果父亲姓“屎”或“尿”(确实有这两个姓哟),那么,其子女,即使是大美女或者达官贵人,也都得乖乖地继续“屎尿”下去!至于皇帝赐姓或为逃避杀身之祸而改姓的事情,对《中华姓氏字集》的整体稳定性影响几乎可以忽略不计。
综上可见,增选《中华姓氏字集》的原因主要是其超级稳定性,以它为基准便可以对任何朝代的用字习惯进行相互比较了。比如,《十八大报告》的全部897个互异字中,有118个字偏离了《中华姓氏字集》,其“偏离率”为118∕897=13.2%;有2个字偏离了《小学生标准字典》,其“偏离率”为2∕897=0.2%;与《新华字典》的偏离率为零!
由于所用的三个字典本身的字数相差很大(《新华字典》含7737个字,《小学生标准字典》含4523个字,而《中华姓氏字集》含3292个字),所以,为了更加公平,我们再引入“符合率”概念:字集A,相对于含B个字的字典的“符合率”定义为(B-C)∕(B+C),其中,C为字集A中偏离该字典的字数。因此,按此定义,《十八大报告》与《新华字典》的符合率为(7737-0)∕(7737+0)=1;与《小学生标准字典》的符合率为(4523-2)∕(4523+2)=99.9%;与《中华姓氏字集》的符合率为(3292-118)∕(3292+118)=93.1%。
好了,下面开始介绍李白诗集的大数据分析结果了。
(二)李白诗集的大数据分析揭秘
李白一生,写诗约979首,共约8万字,其中只有3471个字是不重复的。而在这3471个字中:有93个字偏离《新华字字典》,其偏离率为3%,符合率为97.6%;有612个字偏离《小学生标准字典》,其偏离率为17.6%,符合率为76.2%;有1237个字偏离《中华姓氏字集》,其偏离率为36%,符合率为45.4%。小提示:同为约8万字,《十八大报告》比李白全诗集更“靠近”稳定的《中华姓氏字集》哟。
李白一生,所写的七言诗约1.9万字,其中只有410个字是不重复的。而在这410个字中:没有偏离《新华字典》,其偏离率为0,符合率为1;有45个字偏离《小学生标准字典》,其偏离率为10%,符合率为98%;有120个字偏离《中华姓氏字集》,其偏离率为29.3%,符合率为93%。
李白一生,所写的五言诗约6.8万字,其中只有3127个字是不重复的。而在这3127个字中:有61个字偏离《新华字字典》,其偏离率为2%,符合率为98.4%;有489个字偏离《小学生标准字典》,其偏离率为15.6%,符合率为80.5%;有1045个字偏离《中华姓氏字集》,其偏离率为33.4%,符合率为51.9%。
小提示:李白一生虽然以五言和七言诗为主,但是,其它文体(比如,四言或六言)的生字相对比例却不小哟!
对以上分析数据,大家可能感觉不明显。下面再来两个有感觉的分析结果:
情况1)如果人人都是皇帝,即,其姓氏字都得避讳,那么,情况会怎么样?
答案1):在情况1)之下,李白的所有五言或七言诗中,没有一个诗句是完整的,更不可能有一首完整的诗了!可见,《中华姓氏字集》的“杀伤力”有多大!那么,《中华姓氏字集》的建设力大吗?请继续看:
情况2)如果只允许使用姓氏字,那么,情况又会怎么样?
答案2):上面情况1)的答案也许好解释,因为,毕竟《中华姓氏字集》中的字数多达3292,而常用汉字也差不多就是3千多而已。但是,在情况2)之下的答案,也许就出乎您的意料了!因为,如果只允许使用姓氏字,那么,李白一生竟然连一首诗也不能发表
因此,对李白的诗集来说,《中华姓氏字集》的建设力非常有限。
现在来简要归纳一下杜甫的情况:他一生写的五言诗约9.3万字,其中互异的字有3907个。而在这3907个字中:有125个字偏离《新华字典》,其偏离率为3.2%,符合率为93.8%;有1575个字偏离《中华姓氏字集》,其偏离率为40.3%,符合率为42.5%。因此,杜比李更远离稳定的《中华姓氏字集》。
(三)《唐诗三百首》的大数据分析揭秘
既然李白能够被《中华姓氏字集》搞傻,那么,唐朝的其它诗人命运又怎样?其它,结果也大同小异,但是,杜甫同志的命运相对奇好哟!比如:
情况1)如果人人都是皇帝,即,其姓氏字都得避讳,那么,《唐诗三百首》中的每个诗句都会被杀死,更不可能有一首完整的诗了!即,《中华姓氏字集》的“杀伤力”很大!
情况2)如果只允许使用姓氏字,那么,《唐诗三百首》中也只有如下区区八首诗能够幸存下来,死亡率高达97%!(可见《中华姓氏字集》的建设力非常有限。但是,杜甫运气特好,竟然有三首都是他的!注意:从宏观上看,杜甫的用字,比李白更远离《中华姓氏字集》。):
1)八阵图(杜甫):功盖三分国,名成八阵图。江流石不转,遗恨失吞吴。
2)秋夜寄邱员外(韦应物):怀君属秋夜,散步咏凉天。空山松子落,幽人应未眠。
3)宫词(张祜):故国三千里,深宫二十年。一声何满子,双泪落君前。
4)隋宫(李商隐):乘兴南游不戒严,九重谁省谏书函。春风举国裁宫锦,半作障泥半作帆。
5)江南逢李龟年(杜甫):岐王宅里寻常见,崔九堂前几度闻。正是江南好风景,落花时节又逢君。
6)乌衣巷(刘禹锡):朱雀桥边野草花,乌衣巷口夕阳斜。旧时王谢堂前燕,飞入寻常百姓家。
7)登楼(杜甫):花近高楼伤客心,万方多难此登临。锦江春色来天地,玉垒浮云变古今。北极朝廷终不改,西山寇盗莫相侵。可怜后主还祠庙,日暮聊为梁甫吟。
8)长干行(崔颢):家临九江水,来去九江侧。同是长干人,生小不相识。
最后,我们再叙述几个事实:《唐诗三百首》共有共约2.6万字,但是,其中互不相同的汉字只有2556个(其中,只有744个字不属于《中华姓氏字集》,即含有姓氏字1812个字);属于《新华字典》的字有2526个,即,只有如下区区30个字不属于《新华字典》:汨昚菑袷晼旆袴翃雊飏脁貙愬摵阊驎媕娿鞿珓隩篲滪嚱巉砯剺衱摐蝥)。换句话说,《唐诗三百首》与《中华姓氏字集》的偏离率和符合率分别是29.1%和63.1%,即,与李白相比,《唐诗三百首》离《中华姓氏字集》更远;《唐诗三百首》与《新华字典》的偏离率和符合率分别是1.1%和99.2%,即,与李白相比,《唐诗三百首》离《新华字典》更近。
综合而言,根据离开《新华字典》和《中华姓氏字集》的距离,按从远到近的顺序排列,结果是:杜甫、李白、《唐诗三百首》、《十八大报告》。但是,杜甫有三首诗的字全都来自于《中华姓氏字集》,而李白(运气不好)连一首也没有!
参考文献

  • 李白诗词全集,

168大数据经作者授权转载,一切未经授权的转载均为侵权。
转载请联系原作者获取授权,同时请注明本文来源。
本文来自杨义先科学网博客


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-31 13:37

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表