速记博客 | 联系我们
设为首页 | 加入收藏
网站首页
文章搜索: 热门关键字:湖南速录、长沙速录、长沙速记、长沙第一速记、速记培训、亚伟速记、电脑速记、速录师
您现在的位置:湖南速记网 > 新闻中心 > 汉语的计算机理解
汉语的计算机理解
发布日期:2010-9-29 10:59:07  来源:作者:野枫  浏览次数:1535  页面功能:【字体大小:

 

1.1 汉语的特点
汉语是世界上最古老的语言之一,但是现代汉语的语法理论,大多取材于西方语言的语言学理论,并不十分适合汉语分析的需要。汉语本身存在许多非常复杂的语言学问题,需要我们加倍努力。其明显的特点有:
(1) 汉语是大字符集的语言。
英语有26个字母;中文44908个汉字 (根据《中华大字典》)。
英语起源于5世纪,有一千五百年历史,《牛津英语词典》,收词四十万多条。
汉语六千多年历史,《中山大词典》,收词六十多万条,比英语多 50%。
例如:"一"字开头的成语有 5472条。词汇的丰富程度是世界上任何另外一种语言不能与之相比的。
(2)汉语可以分五级语法单位:语素、词、短语、句子和句群。在一个句子里,语素、词和短语都是语法单位,那么其基本的处理单元是语素、词、还是短语呢?
(3)短语是基本的语言单位。语素是语言中最小的音义结合体,不是能独立运用的语言单位。那么在词和短语中,哪个是最基本的,还是很有争论的问题。甚至有人提出,在汉语中没有词只有短语。 这是因为:
1) 汉语的词是可以拆开的,可扩展的。例如: 革命 ---- 革了一次命。
2) 有的词还可以调换位置, 例如:理发 ---- 理了好几次发,发理了。
3) 有的词虽然结合得很紧,但仍可有限度地扩展,如可插入"得"或"不",例如:"看见" ,可以说:"看得见,看不见",还有"记住","染红","说完"等等。
我们不介入有没有词的争论,但在句法处理上,显然词在结构上是不稳定的,而短语是稳定的,应该把短语作为最基本的处理单元。
1.2 汉语理解中的特殊问题
1.2.1 汉语句子的歧义切分问题
中文文本,实际上是"字"的字符串,文章内的词与词之间没有任何区分字符。但是字与字组合成词,是有一定组合规律的。这些规律,有的是相对确定的,有的在不同的意境,会有不同的切分规则,十分复杂,常常会产生歧义。
歧义切分属于意境语义分词问题。有两种不同的类型:固有歧义和组合歧义。
固有歧义是指根据不同意境出现的分词歧义,这里有所谓"2+1"和"1+1"问题。
"2+1"问题。一个三字字段,可以是三音节词,也可以是双音节词"+"单音节词的组合。例如三字词"物理学",
" 物理学是一门基础科学。" 2+1 = 3
" 物理学起来很难。" 2+1 ≠ 3
"1+1"问题。是指在不同语境下,有的二字字段,可以是两个单音节词,也可以是单音节词 + 单音节词的组合。 例如二字词"将来",
" 将来的上海会有严重的污染。" 1+1 = 2
" 他将来上海。" 1+1 ≠ 2
组合歧义切分是指某个字符串,它本身并不组成一个词,但是它在不同语境的条件下,产生不同的组合切分。它也是在不同语境的情况下,语义分词问题。例如:"的确切" ,
" 他 的 确切 地址 在 这儿。"
" 这 块 肉 的确 切 得 不 错。"
这是汉语处理中非常突出的问题,几乎找不到一个通用的办法来解决这种歧义现象。 常常只得一个词一个词地个别处理,使个性规则大幅度增加,造成了汉语分析的第一个难题。
1.2.2 未登录词问题
汉语分词问题中的歧义切分固然困难,但是在汉语分词问题中有一个称为未登录词(unknow word)问题,未登录词可以定义为汉语词典中未列入的词汇,这个问题可能比上述分词的问题更严重。吴立德[4]在他的书上讲:"一个经过人工分词的、含有15,000个词的法律语料库,其中竟然有30%的词没有登录在含70,000个词条的词典里,这个比例远远高于各种歧义字段在全文所占的比例1/110。"因此在文本在计算机处理时,把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。
未登录词主要包括:固有名词、数词、时间词、专业及文化新词等
固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:"时间很快就过去了。"。这里的"时间"可以是人名!他姓"时",名为"间"。当然也可以是表示"光阴"的哪个时间,如何区别相当困难。
地名,一般都不会是词典中的词。如沈阳、沟帮子、新民、苏家屯等。也可以出现在词典里,如著名城市北京、上海。至于单位、公司名,那就复杂了,很难识别。它们是一个无法枚举的集合,我们只能通过局部自动识别方法来处理。例如选取未等录词的特征、前后缀标志、出现的频度、前后搭配的统计,……。
数词、时间词、专业及文化新词,在语言文字处理过程中,它们是世界上各种语言都要解决的难题。
未登录词的分词问题,本质上是个文本挖掘问题。这就使得分词问题看起来好像并不起眼,但它将是我们语言工程处理过程中难以彻底解决的课题。
1.2.3 谓语的组成问题
谓语:西方文字一般只能由动词组成;
汉语的谓语可以是动词, 例如:主人回来了。
可以是形容词, 例如:恩情比海深。
可以是数词, 例如:老大三十八。
还可以是名词, 例如:这马一只眼。
1.2.4 多动词联用问题
动词的个数:英语里每个句子只能使用一个定式动词(finite verb)。唯一例外的是并列句动词谓语。汉语可不同,可以连续使用多个动词,即所谓"动词联用"。例如:
我忘了带钥匙 (I forgot my key. );
我倒了一杯茶给他喝 (I offered him a cup of tea. )
英语动词有及物动词(transitive verb)和不及物动词(intransitive verb)之分。汉语动词多数是及物的,只有极少数是不及物的。所以翻译时会出现交错现象。汉语在多个动词联用时,中间没有任何关联词语,具有较为复杂的谓语结构,可以分为两种类型:联动式和兼语式。
(1) 汉语联动式是两个或两个以上的动词, 与同一个主语发生主谓关系。例如
他打开抽屉拿出词典来。(Heopenedthedrawerandtookouta dictionary.)
他到老师那儿请假。(He want to the teacher to ask for leave.)
他哼着曲子走进卧室。(Humming a tune he went into the bedroom.)
(2) 汉语兼语式是谓语有两个动词, 前一个动词的宾语,又是后一个动词的主语, 前后 两个动词不共一个主语。例如:
医生劝他好好休息。(The doctor advised him to take a good rest.),这样一些语言现象在西方语言里, 如在英文里是没有的.
1.2.5 中心谓语动词的确定
汉语句子中的中心动词是非常难以确定的, 例如:
"讨论 的 目的 是 为 了 制定 教学 改革 计划。"
又如:
"这 是 开发 建设 发展 有 特色 的 民族 工业。"
后一句出现五个连续的动词,那么哪个是真正的动词 (Main verb),或中心谓语动词 CP(Center predicate)呢?。 至今为止,还没有一个对汉语通用的确定中心动词的有效方法,有人认为:英语的分析是以动词为起始的,而汉语的分析恰恰相反。汉语的分析几乎是以动词为结尾的。因而我们同样认为这也是汉语分析的一个特殊难点。
在一个汉语句子里,如果中心动词都不能确定,汉语的分析将是没有希望的。为了解决这样的问题,一个主要的设想,就是利用词汇驱动原理,即尽可能地丰富各类词典的内容,提供静态和动态的复杂特征集,削枝去叶,突出动词,进而按上下文判定中心动词谓语。
1.2.6 词性歧义问题
语言中的词,它的多词性和多词义,是语言的一种普遍现象,但是汉语中的这种现象除少数词例外,一般比西方语言严重得多。例如:汉语的"和"词,根据《现代汉语词典》可以有
五种读音: he2;he4;hu2;huo2;huo4,
六种词性: 名词;形容词;连词;动词;介词;量词,
以及十六种不同的词义。
我们现在还没有一个一般的办法,提出一套通用的规则集来解决词性歧义和词义歧义问题。

 
热门文章
  全球首台大坡度螺旋隧道掘进机“
  长株潭一体化发展常务副市长联席
  2022互联网岳麓峰会“湘约新
  首届大国工匠论坛在长沙举行
  中国楼宇经济(总部经济)蓝皮书
  2022湖南(国际)通用航空产
  2022年第二期“长沙大讲堂”
  吴桂英“四不两直”督导校园周边
  长沙出台自建房安全整治“百日攻
  郑建新督导检查自建房安全专项整
关于我们 | 速录团队 | 速录协议 | 服务报价 | 访客留言 | 联系我们 | 速记博客
地址:长沙市雨花区万家丽中路西子一间C栋1404 电话:0731-84303639 手机:15874133320 QQ:603757745 E-mail:cs@hunansuji.com
版权所有:湖南速记网  技术支持:长株潭互联 备案证号:湘ICP备2023000364号  湘公网安备:43011102001429