您当前位置:上饶语言文字网 >> 知识园地 >> 浏览信息

《汉语拼音正词法基本规则》同中文信息处理有什么关系?

加入时间:2012-12-6 20:26:01 信息来源:互联网 【字体:

《汉语拼音正词法基本规则》以“分词连写”为核心的基本内容和精神,有利于提高计算机汉语输入和信息处理的速度与准确度。  计算机汉语输入的方式有三类:一、键盘输入;二、字形识别输入(包括印刷字扫描输入和手写输入);三、语音输入。字形识别输入是用一种字符识别器把纸面上的汉字信息转换成电信号,送入电子计算机判别。语音输入是使用者对着话筒说话,通过话筒把自然语音输入计算机进行识别。  目前使用最普遍的是键盘输入法。键盘输入法需要把一个个汉字字形变成键盘上具备的拉丁字母码号或数字码号,这就需要对汉字进行编码。汉字编码分为音码、形码和音形结合码三种类型,具体的编码方案种类繁多。音码的优点是易学易记;缺点是重码率高,输入速度慢、准确度不够高。形码的优点是重码率低,输入速度快、比较准确;缺点是难学难记,难以向广大非专业计算机操作人员推广。而且有些形码方案对汉字的拆分随意性大,拆分汉字不符合汉字笔画、笔顺规范和部首归类规范,不利于汉字规范化,更增加了学习难度。音形结合码则介乎于二者之间,因为完善的、成熟的方案不多,全面推广的很少。汉语拼音输入法可以归属于音码。不过它的汉字码号在《汉语拼音方案》中早已规定,使用者在小学就已学会,不需另外学习编码。汉语拼音输入法易学易记,已被绝大多数使用者接受,更因它接近自然语言,便于边思维边操作,而呈现出强大的生命力。但要进一步完善和发展,必须进一步解决同音字的重码问题。很多拼音输入法目前已从“按字输入”发展到“按词语或短语输入”。随着输入的语言片段的扩大,计算机将代替人工根据上下文语意在重码的同音字词中进行选择,这实际上已将计算机的发展推向智能化阶段。  世界各种语言中,汉语与英语、日语、俄语等有很大不同。英、日、俄语等语言的词有许多形态标志;汉语则不同,是一种强调词的次序位置而缺乏词的形态标志的语言。在一大段汉语拼音的话语中,怎样判定句子的始末,怎样切分词语,怎样判定哪些音节的组合是有规律性的常用词,哪些只是临时组合的人名、地名或其他专用名词,等等,这一系列问题,计算机难以判定。解决这些问题,一方面固然要求计算机技术进一步发展,另一方面更要求每一个计算机使用者在使用汉语拼音话语中多给词语以形式标志。按照《汉语拼音正词法基本规则》输入汉语拼音,就可以给拼音词语许多形式标志。例如,大写字母可以帮助计算机顺利切分语句的始末,判断某条短语是否人名、地名或其他专用名词,从而可以到各分类明确的专门词库中寻找相应的词语。再如,通过分词连写,使计算机顺利切分词语。如果我们按“xinjumianji”输入一个短语,是“新局面即(将打开……)”还是“新居面积”?要么出现重码之后再进行人工选择,要么就要加一条指令,令计算机根据上下文语意判断,这些都要影响输入速度。如果我们这样输入“xin jumin ji……”或这样输入“xinju mianji”,自然就消除了上述歧解,计算机的输入速度就加快了。不仅如此,目前计算机正在向机器翻译、情报检索、词频统计、语料库建设等各种智能型用途发展,除了输入,计算机机内运行也需要“理解”汉语拼音话语的内容。这些形式化标志就可以帮助计算机“理解”信息内容,以减少码表的内存,简化工序,大大提高计算机处理汉语信息的速度和准确度,从而提高信息处理的质量。  可见,《汉语拼音正词法基本规则》是一项有力地推动中文信息处理的中呀语文规范,计算机使用者应该认真地学习它,正确地使用它。