现代手写文书档案识别方法研究

现代手写文书档案识别方法研究

现代手写文书档案识别方法研究

【摘要】现代手写文书档案主要包括印刷设备不普及的年代形成的行政文件、个人的随笔日记等手稿和现场形成的会议记录等。由于手写的随意性与书写者字体的独特性,往往造成该类档案传递信息困难。为了方便利用,档案工作者有时需要对手写文书档案进行识别。本文从查考资料的准备、识别技巧和分工方式三方面探究手写档案识别的有效方法。

【关键词】文书档案;繁体字;识别校对

一、精心准备查考资料

手写文书档案识别虽说是一项较为基础的工作,但是要想漂亮完成以获得优秀成果,必须正规化对待,根据文献类别的不同做好充分的准备工作。

(一)通用类查考资料的准备。1986年,在我国重新发表经少量修订后的《简化字总表》以前,繁体字和异体字大量存在于人们的行文当中。所以当我们进行现代早期档案的识别工作时,需要一些通用类查考资料来辅助识别,从而以简体字的形式流畅地将档案中的信息展示出来。由上海辞书出版社出版,张书岩主编的《简化字、繁体字、异体字对照字典》以及由崇文书局出版,杨合鸣主编的《汉字简繁正异对照字典》,都可以作为文书档案文字简体化的主要工具书。在识别的具体工作中,我们利用此类工具书主要采用偏旁部首的检索方式,档案中清晰规整的字可直接找出对应简化字,较为模糊的字可以通过偏旁部首查对与其写法接近的字并依据上下文确定该字。另外,如果手写文书档案形成于白话文尚未成熟的时期,可能会在行文中存在大量的古语体式,那么《王力古汉语字典》也可帮助档案工作者提高识别效率与准确性。

(二)专业类查考资料的准备。档案工作者还需要根据手写档案的内容类别准备相应的专业类查考资料。例如识别专业档案需要掌握相关的学术名词才能达到最优的识别效果;识别战地日记需要知晓大量的地名;识别个人工作日记需要了解其所在单位的大致状况。故而在识别现代手写文书档案的过程中,档案工作者常常需要地图、大事记、单位组织历史沿革、专业名词释义词典、相关人物志等多个类目的查考资料。在手写文书档案中,明确其中的人名、地名、时间、组织名称和专业名词,对于未来档案的多方面利用尤为重要,这些查考资料的使用将大大提升手写文书档案识别的准确率。

二、灵活掌握识别技巧

识别字体模糊的现代手写文书档案,仅仅做好初步查考资料的准备,按部就班地识别很难达到理想的效果。在具体的识别过程中,需要档案工作者具备较强的文字敏感度,能自然辨识出合理通顺的句子,同时也需要较好的记忆力,能快速识别出之前已确认的文字词汇。另外,档案工作者还需快速适应手写文书档案的语言模式,以符合时代特征与档案生成者个人书写个性的思维逻辑来提高对档案原件文字的识别准确率。

(一)巧妙运用汉语语法。现代手写文书档案识别工作者在陷入识别困难时,不能只盯着一个字钻研,要结合整句话甚至上下文去体会这个字应该是什么,从而减小识别难度。整体与局部相互依赖,结合整句话来识别一个字时,必须把以“主谓宾定状补”为基本框架的汉语语法引入手写文书档案识别当中去,进一步锁定未知字或词的词性范围。但这种方法并不绝对,一般只在手写文书档案识别过程中起参考作用,由于部分手写文书档案生成者的书写个性与随意性,部分档案并不完全遵循语法规则,故而字形依旧是识别手写文书档案的第一标准,档案工作者需根据实际情况巧妙运用现代汉语语法结构。

(二)通假字与错别字的区分。在系统化的简体字尚未完全普及以前,汉字书写方面有许多当时与当下都使用但是用法不同的文字。当工作人员看到一个有书写错误嫌疑的文字出现时,先要确定该文献成文时间距今是否久远,若久远应该明确那个时代的文字书写体系发展到何种程度,若与今差别较大,不能直接将该字定性为错别字。在具体识别中,我们应该看前后文是否有同样的字在同样的用法中出现,如果多次出现,则该字在当时很可能是这一语义下的官方通用字,应具体查阅确定后在识别稿中显现原字,并做一注释加以说明,这样既可高度还原稿件,又不影响利用者对文献的理解。这些“通假字”的普遍特点就是与当今相同语义的文字有着一样或类似的读音。例如“那末”—“那么”,“皇恐”—“惶恐”,“火伴”—“伙伴”,“逃亾”—“逃亡”,“底”—“的”等。

(三)采集文献常用字的笔法。在识别书写不够工整的手写文书档案时,常常会遇到一些难以识别的常用字,这些字在一定的前后文语境下能够通过语言逻辑辨别出来,当出现在文献其他地方时,由于语境的变换,这些字很可能难以再次识别或识别错误。为了提高文献识别的质量,档案工作者在识别同一文献过程中,应该对行文中出现频率比较高的字进行采集汇总,制成简易对照表以供互相传阅,记忆常用字的笔法对整体文献的识别有很好的串联帮助作用。

三、合理运用分配方式

在识别不同年代、由不同人书写的手写文书档案时,领导者需要对档案工作者进行合理分工。这样不仅会为档案工作者减少压力,同时也能降低文献的识别难度,提高识别准确率。

(一)按文献类型集中分配任务。档案工作者的记忆是有限的,语言文字习惯的形成也需要时间,因此,工作组织者应该尽量将文献归类,将同一类型的文献识别工作布置给同一个或同一批档案工作者。这样方便他们将有限的思维相对集中,更快地形成一种适合此类文书档案识别的工作模式和思维方式,促使他们在较短的时间内进入工作状态,逐渐提升在所识别领域的专业性,迅速提高工作效率和成果质量。组织者依据需要识别手写文书档案群体的不同情况,可以按照文献生成年代、文献书写人、文献内容领域以及文献体裁等要素进行分类。

(二)多批次交换识别校对。现代手写文书档案识别成果要想印发甚至出版,成为供人利用的成品,绝不能只经过一次识别便草草了事。识别难度较低的手写文书档案至少需要对其进行两次识别,难度较高的则需要进行三次以上的识别。在多次的识别过程中,由于个人难以克服的思维定式,组织者需要掌握文献交换识别的原则。对手写文书档案进行第一次识别的档案工作者要做到无差别的全文过滤识别,完毕后应交由他人进行二次识别。负责二次识别的档案工作者可将识别重点侧重于前者未识别出的文字和书写相对模糊的文字。若需要對该手写文书档案进行三次识别,前一位工作者应将文献中存在问题的地方标出,交由第三位识别人员。最后由专人对全部手写文书档案的识别内容进行汇总,档案工作者在汇总时可脱离原文献,侧重于考究识别成果的合理性、流畅性以及标点符号的使用,并将问题反馈于前几位识别人,这样便形成了一个闭合流程,可以最大限度地保证识别成果的质量。

四、结语

档案工作本身是一项平凡而枯燥的工作,细心认真是档案工作者最重要的品质之一,而为手写文书档案识别设计一套精细合理的方法,是档案工作者尊重档案、正视历史的体现。本文从查考资料的准备、每一位工作者的识别方法、识别群体的工作流程三方面提出了一些可行的建议,希望能够为档案工作者提供一些思路。

【参考文献】

[1]胡鸿杰.档案文献编纂学[M].北京:中国人民大学出版社, 2012.

[2]黎洪波,利来友.图书编辑校对实用手册[M].广西:广西师范大学出版社,2016.

分享到 :
相关推荐