分卷阅读228（1 / 2）

假设啊之类的，一切都不是问题。

　　但田立心写这篇论文，而不是抄论文，多少还是会遇到一些难题的。

　　一，分析《全唐诗》的工程实在太大了，这部书里边出现的诗有四万多首呢。

　　二，唐代诗人的别称太多了，比如说光是杜甫的称呼，就有子美、杜二、杜工部等等。

　　不过，既然这是一篇计算机论文，数量的多少倒是无关紧要。

　　毕竟，可以直接交给计算机来运算嘛，只要能将《全唐诗》成功导入计算机就好了。

　　有关诗人的别称，需要费一番力气。

　　田立心使用的，是哈佛大学编纂的《中国历代人物传记资料库》（China Biographical Database Project，以下简称CBDB），CBDB记录了中国历代名人的传记资料，并保存在关系型数据库中。

　　CBDB由很多张表格组成，每张表中都记录了人物的不同信息。

　　田立心写这篇论文用到的主要列表有两张，——也就是人物的主要信息表（BIOG_MAIN）和人物的别名表（ALTNAME_DATA）

　　首先从BIOG_MAIN中查询出人物编号c-personid，接着用c-personid从ALTNAME_DATA中查询出别名，比如输入杜甫之后，表中就会出现子美、杜二、杜工部等一系列信息。

　　要是输入的是王维呢？

　　你会郁闷地发现，列表中会出现十几个同名同姓的王维。

　　这些王维中，只有一个才是他真正要找的人。

　　为了筛选目标人物的唐代诗人王维，就必须要添加王维所在的生卒年时间了。

　　经过这个操作，出现在列表中的人物果然是目标人物，他的别名也随之出现，正是让人印象深刻的王右丞、王摩诘。

　　而这，就是查找诗人的繁琐之处。

第0162章第一篇论文要发表了

　　由于CBDB收罗的历史人物太多，重名现象非常严重。

　　经过一番探索，田立心最终设置了如下的排除重名策略：

↑返回顶部↑

相关阅读：重生三年后，才发现是穿书拯救那个反派[快穿] 影帝想吃回头草重生农村捡破烂许你晴空万里我为国家添砖加瓦太行道 [西游]悟空代购冲喜后，王爷觉醒了穿成霸总小娇妻肚子里的球

学神的文娱开花所有内容均来自互联网，PO18脸红心跳只为原作者阿依土鳖公主的小说进行宣传。欢迎各位书友支持阿依土鳖公主并收藏学神的文娱开花最新章节。