- 相关推荐
一种基于人机结合思想的书本式地方文献索引编制方法
地方文献以其地名、人名、机构名等专有名词术语众多而一直是索引编制的难点。对于文字数量数百万乃至上千万的地方文献而言,若要达到满足读者检索要求的标引深度,则索引制作的工作量就会急剧增加。如果纯用手工制作,不仅在信息的处理过程中容易产生差错,且费时费力。为了解决这一矛盾,降低索引编制成本,需要引入计算机信息处理技术。以下我们以在《杭州市志·索引》编制过程中开发的计算机辅助索引软件(CAIC1.0Beta)为例,就详细说明这一基于人机结合思想的地方文献索引编制方法。
1 现 状
目前,运用计算机信息处理技术来进行汉语文献索引编制的方法一般分为两大类:一种为基本以自动标引、索引为主的方法,其中汉语自动标引法常见的有词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等;在汉语索引法上则多采用题名关键词抽词索引法、主题词表选词索引法、职能符号标引索引法等。这些方法都在一定程度上解决了汉语文献标引和索引的问题,但由于汉语语言现象的复杂性,此工作基本都在文献题名这一层次上展开,至于针对文献全文的智能标引和索引尚处于探索阶段。而且,这些方法需要具备相当专业的计算机、语言学、文献学知识,并且相关的专用软件获取成本极高。另一个常用方法是人机结合、以人为主的方法,主要为采用诸如Foxpro MicrosoftAccess据库软件来编制。这种方法具有技术要求低、使用方便的特性。但这仅是一个以人工为主、辅以计算机技术的方案,并且参照系统即关键词之间的相互关系(见、参见)不能直接在上述数据库软件中得到表达和转移,因此索引库的生成无法直接应用参照系统,编制者将不得不依靠手工来进行,这是一个非常繁琐而且极易导致差错的工作。
2 解决方案的系统设计
方志作为地方文献的一个重要门类,其数量庞大,包含了一个区域的自然、政治、经济、文化、社会、军事等信息,有地方百科全书之称,具有极高的使用价值。为此,我们在实践中以《杭州市志·索引》作为地方文献的样本,对此进行索引的编制。其编制目标是一部分析内容的书本式关键词索引,其标引范围为全志中的正文、附录、图、表格、照片,标引对象为人物、机构、地名以及其他一切具有检索价值的各类事物、事件和活动。
对于一个优秀的索引而言,确定适合的标引、索引方案和参照系统是至关重要的,也是本索引编制解决方案首先要解决的问题。因此,在系统设计过程中,我们考虑了地方文献的特点和客观实际,分析上述方法的利弊,制订了以下的编制思路。
2.1 标引方案 以实现的手段划分,可分为人工标引和自动标引。自动标引又可分为自动 抽词标引和赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献的主题内容。如果在自动标引过程中,使用的标引词来自于预先编制好的词表,则称之为自动赋词标引。对于计算机而言,针对汉语的自动抽词主要困难在于自动分词以及选取标引词的标准,而自动抽词标引的标准很大程度上是建立在词频统计的基础上的。就方志这一类地方文献而言,如果一些人名、地名在文献中只出现数次乃至一次的话,就很有可能不被标引,这会导致大量有价值的信息不能被检索到。而如果放低词频标准,则相关的标引词数量会急剧增多,书本式索引的篇幅会相当庞大。而自动赋词标引又依赖于词表,由于方志的地域性,这样一个包含有大量地方独特的人名、机构名和地方特色事物的词表一般都没有建立,因此无从根据词表来进行自动标引。
由于地方文献的编纂者或研究者对于文献内容比较熟悉,可以准确地分析主题内容,并抽取相应的关键词予以标引。因此,采用由他们来进行人工标引的方法,应该是方便和切合实际操作情况的策略。
2.2 索引方案 索引款目的自动生成目前已经有很多实际应用的方案,如链式索引法(ChainIndexing)、选择组合排列索引法SLIC)、挂接主题索引法(ASI)、保留上下文索引法(PRECIS)等,这些基于计算机的索引法无一例外地运用了轮排或循环技术,对于计算机来说只要设定好索引法的原则后,工作是相当简单的。但是这种方法会导致索引款目急剧增多的后果,因此这种对于专业性文献检索工具而言是十分适合的方法,运用到地方文献上时,特别是如方志一类篇量较大的文献上时,就要承担索引篇幅大幅增加印刷成本提高所带来的危险。基于这个因素,我们认为在方志索引上应该采取对于绝大部分的索引词不进行轮排,只对极个别的主标目和副标目进行轮排的索引方案,以最小的代价来实现相对高的查全率。
2.3 参照系统生成 是否设置参照系统是衡量索引系统质量的重要指标之一。而为了提高查全率,也需要我们设置参照系统。参照系统由主标目词和见参照(seereference)、参见参照(seeaisoreference)组成,从而保证了索引的整体性和系统性。因此,我们认为在没有现成词表的前提下,运用计算机技术结合人工干预来生成参照系统应该是软件追求的目标。
2.4 编程语言的选择 由于直接运用Foxpro数据库技术在款目地址码归并和参照系统生成上的困难,因此采用通用编程语言是理想的选择。Delphi为一种面向对象的可视应用程序开发工具,与其他语言相比,它提供了一种快速的编译器,优化编译模式在很大程度上提高了代码质量和运行稳定性,所以这种语言一直受到专业人士的青睐。同时,Delphi特别对于数据库的体系结构提供了强大的支撑,Delphi还允许开发者将应用程序作为单一的.exe文件提供给终端用户,这样就减少了可执行文件在运行时对于其他文件或DLL(动态链接文件)的依赖。因此我们以Delphi为系统前台,以MicrosoftAccess为后台数据库存储原始信息,来编制索引计算机辅助编制系统。
3 本方案的技术实现
3.1 数据结构 本软件数据库包含三个主要的数据表:a 主表(标引词库)。该表用来储存从方志文献中抽取的关键词和诸如卷号、页码、体裁、参照关系等属性,以及一些用于操作管理的信息。其中的记录需要索引编制者人工输入。为了方便数据的录入工作,一般可按照文献的页码顺序依次输入。b 关键词表。该表依据主表表达的各标引词之间的参照关系,由程序自动生成。此表是软件下一步进行索引合成的依据。c 索引正文数据表。该表用来储存关键词及其地址码(卷号、页码),可用来最后输出索引正文格式的文本文件。
3.2 程序功能(主控界面见图1)
本软件具备信息采集;信息处理;信息输出三大功能。
3.2.1 信息采集功能。主要是由索引编制者将标引词(关键词)及其属性输入主表。标引词属性包括关键词所在卷号、页码、关键词代表内容的体裁(文、图、照片、表格)以及参照系统。
3.2.2 信息处理功能。包括人工干预(预处理)功能、关键词表生成功能、索引正文生成功能。
人工干预功能。由于标引者对索引编制规范和对志书原文的理解可能不一致,不同作者在处理相同事物所用的术语亦有不同,以及数据录入过程中都会导致相同内涵的关键词往往以不同的形式出现。具体表现形式有:a.一见多———如A见B,A见C,A见D,……;b.连续见———如A见B,B见C,C见D,……;c.循环见———如A见B,B见C,C见A(A、B、C均指不同的关键词,下同);d.同页重复。
如果产生如上a、b、c三种情况,对于形式a而言,将在索引输出中丢失信息A见C和A见D(假设B的音序先于C、D,下同);对于情况b而言,将在索引输出中丢失信息A见B和B见C;对于情况c而言,将出现关键词A、B、C及其地址码等信息的丢失;对于情况d而言,则会在索引中出现某一关键词后跟有完全相同的地址码。
上述情况出现的数量并不少,这就可能导致生成信息的大量缺失而导致索引资料的不完整。由于人工检查极为烦琐且不完全甚至可能会引入新的错误,为此本软件特设预处理功能(见图2),将上述的“循环见处理”、“连续见处理”、“一见多处理”、“同页重复处理”,通过人工干预子功能,能够自动查找在索引主数据库中由于在标引、数据录入过程中产生的差错,生成错误提示(写入.TXT文件,格式见信息输出功能部分),以便编制者根据提示信息检查主数据库,对错误进行修改。同时本软件还可在一定程度上对上述错误在人工确认正确的关系后自动予以修复,保证了在后续处理过程中信息的正确。
图
此外,由于方志具有地域性,因此记述到的机构往往都为本地机构。这样就会存在大量具有同一地名或行政区划名开始的机构名。例如,《杭州市志》中就存在大量的以“浙江省”、“杭州市”等为首的机构名,如果一律以机构名首字音序排列的话,即,如将“浙江省人民政府”和“杭州市人民政府”分别排列在“浙”字和“杭”字中,如此就会出现大量以“浙江省”、“杭州市”开头的机构聚集在一起的情况,从而极大地增加检索难度,同时还会造成相关信息的离散。为此,在预处理时设置了前置词处理功能,程序自动将这些词作为前置词,进行倒置处理,关键词则按截去前置词后剩余部分为音序排列。在输出时,则自动将后置的前置词还原至头部(详见输出功能部分)。
关键词表生成功能。程序自动从主表(标引词库)中根据标引者设置的参照系统生成关键词表。此关键词表是索引正文生成阶段的依据,它与主数据库、索引正文保持相对独立性,以后索引编制者只要对关键词表中的关键词及其相互关系(参照系统)进行维护,即可获得正确结果,而无需对主表数据进行大量的修改工作,大大减少了工作量。
索引正文生成功能。软件自动根据关键词表中的关键词及其相互关系,对主表中的数据进行处理,按照索引要求,将相同关键词的卷号、页码、体裁代码按照卷数、页码先后排列,并根据关键词表中的参照系统,作出相应处理,将“所见”关键词的页码自动归并到“被见”关键词后,并作出“参见”说明。
3.2.3 信息输出功能。该功能可分两种情况:一种是以数据库的形式输出阶段性的查询操作结果,一种是文本文件形式输出结果。第一种情况的查询功能包括主表查询、关键词表查询,它支持精确和模糊查询。第二种情况的信息输出可分为三种输出格式,分别对应于索引编制的不同阶段。其中格式1是在对主表输入标引词及其属性等原始信息后输出的格式,它主要是用来和标引原始记录进行校对。格式1以页码为顺序排列关键词,其格式如下:
格式1:页码1———关键词1(Keyword 1)[说明语(Description)][见关键词2][参见关键词3]……
格式2为利用本文中设计的人工干预算法所生成的计算机提示信息。格式如下:
情况“一见多(连续见、循环见)”———请查看:
关键词n(Keyword n)—[地址码m(addressm)]m,n=1,2,……这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。
这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。
格式3 为索引正文输出格式,又分为A、B、C三种子格式:格式3A:关键词(Keyword)[说明语(Description)]地址码n(address n);
格式3B:关键词(Keyword)[说明语(Description)]见(See)关键词;
格式3C:关键词(Keyword)[说明语(Description)]地址码n(addressn)
[参见(Seealso)关键词];n=1,2,……这三种格式分别对应索引正文中的三种情况,见图3。
格式3为索引正文形式(见图4),款目标题按关键词的拼音顺序排列,将数据处理部分中索引正文生成的结果输出到文本文件,以便索引编制者在Microsoftword或方正等专业排版系统中再进行版式处理。
此外,CAIC1.0Beta在程序中间处理过程中将被倒置处理的前置词还原至关键词前面,并在这些前置词前后分别添加“(”、“)”。同时还可在页码和标目词之间添加一定的分隔符,以方便排版工作的进行。
4 实际应用效果
为了保证CAIC1.0Beta有良好的运行效果,建议电脑硬件配置为CPU586以上,内存32兆;软件环境为Windows95/98/2000,并有MicrosoftAccess数据库。以《杭州市志》索引为例,《杭州市志》正文共11卷780万字,经过标引处理共提取了105077条(次)关键词,经处理生成关键词表,共有关键词55692条。实际操作中,我们使用方正商祺6100电脑(CPU为PⅢ733,内存64M)进行处理,除去标引、校对阶段工作时间与投入的人力相关外,其中数据处理阶段,关键词表生成约15分钟,索引正文生成约60分钟,索引正文输出约15秒。如果改进算法,还可以进一步提高速度。
本软件系统具有索引生成准确、速度快、少用人工、使用简单、人机界面良好、运行稳定可靠等特点。其中数据处理阶段的效率比手工操作提高了数百倍,因此与整个索引制作所用时间相比,程序处理的时间几乎可以忽略不计。
5 结论及展望
通过此次《杭州市志》索引的计算机辅助编制实践证明,采用本文介绍的方法可以比较圆满地解决本文开始提出的问题,即由于地方文献的独特性及标引深度提高而导致的关键词急剧增多和人工编制速度慢、准确率低的矛盾,因此该方案具有一定的实用和推广价值。同时,由于方志索引内容的相似性,本次索引编制中生成的关键词表还为今后构造方志关键词表打下了良好的基础。
展望地方文献索引,特别是方志索引今后的发展趋势,可以预见,如果我们运用关键词索引法、链式索引法、选择组合排列索引法等现代索引法,引入包括语用学、语义学、语法学等语言学研究成果和计算机人工智能、专家系统等技术,研究适合地方文献特点的自动索引策略,就可逐步达到对于地方文献正文的内容自动分析,实现计算机自动抽词和标引,使地方文献索引的编制基本实现自动化,从而使地方文献索引的编制从现在的人机分量均等的结合模式逐步过渡到电脑占更多分量的阶段。
〔出处〕 情报杂志2003(2)
【一种基于人机结合思想的书本式地方文献索引编制方法】相关文章:
编制地方文献索引数据库的体会08-09
收集地方文献资料 编制地方文献综目08-09
编制地方文献分类表点滴08-09
北京地方文献报刊索引分类表研究与分析08-09
首都图书馆北京地方文献报刊索引08-09
地方文献书目的编制及它的社会价值08-09
地方文献分类思想研究08-09
关于建立地方文献报刊索引系统的实践与思考08-09
文献 地方文献 地方文献学论考08-09