软件:现代汉语通用分词系统及其应用-北京语言大学科研处网站
重要成果展示当前位置: 首页 >> 成果管理 >> 重要成果展示 >> 正文
软件:现代汉语通用分词系统及其应用

发布日期:2005-09-01 访问次数: 字号:[ ]


【作  者】宋柔、罗智勇、荀恩东、曲德林、樊太志汉语的词之间没有分隔符,造成计算机处理的困难,因此分词系统是深层次中文信息处理系统的共同需要,是我国社会信息化的基础性技术。过去,国内外在分词系统的准确性和效率方面取得了很大成绩,但通用性几乎还未被涉及。本项目首次提出分词系统通用性和柔性分词的概念,并提出了一系列创新性的技术,如双层多级词库、柔性词内结构、词码索引、专名识别排歧一体化、认知理论指导的可信度人名识别、新词发现等,能支持不同的应用目标、不同的专业领域、不同的华语地区对于分词的不同需求,成为国内外第一个具有实用能力的通用分词系统;并且具有一流的准确率,运行速度比同类系统快出1个数量级以上。
    另一方面,针对于搜索引擎对分词系统的特殊需要,在命名实体识别、新词发现、切分一致性、分词颗粒度、分词系统鲁棒性、分词速度等方面进一步提高了分词系统水平。
    “现代汉语通用分词系统”于2001年4月由教育部鉴定为国际领先水平,并获得软件著作权(登记号2001SR5170)。其应用成果“面向语言教学研究的汉语语料检索系统CCRL”于2004年1月由教育部鉴定为国际领先水平。
    特点:
    1.通用
    设计实现了分词、词库创建、词库访问和词库维护的通用接口。
    同一个分词软件可在不同规模、不同词目、不同词属性体系的词库上运行。
    满足对分词颗粒度的不同需求。
    接受不同编码的文本和港台繁体字、方言词汇的文本。
    适用于不同的操作系统平台。
    2.准确
    准确解决歧义切分问题,准确识别人名(包括汉族人、西方人和日本人)、地名、企业机构名、时间、日期等,并能发现新词。
    3.高效
 分词速度(P4 2.6GHz 512M RAM)>60万字/秒,比同类系统快1个数量级以上。
    应用推广情况:
    技术转让给微软、东芝、富士通、联想、新浪、清华大学等单位。
    以该软件为基础,全球最大的中文网络门户新浪开发了业内最领先的互动问答搜索产品:爱问(iAsk);它在保留了传统算法技术在常规网页搜索的强大功能外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上的智慧性和互动性的先天不足。
    以该软件为基础,研制成功国内外第一个能自动检索词语属性的汉语文本检索系统CCRL,使语言教学和研究工作者摆脱繁重的收集资料的手工劳动。已经申请国家发明专利并进行技术转让。
    以该软件为基础,研制成功计算机辅助汉语文本校对系统,能明显提高汉语文本成品的文字质量,已经进行技术转让。
    已支持汉语文本知识提取、线性文法等多项基础研究,并支持了信息检索、术语定义提取、语音合成等多项应用。

【获  奖】2005年获教育部提名国家科学技术进步奖二等奖

【简  介】

 





打印本页 关闭窗口