自然语言处理

在词泰科技,我们深知高质量的自然语言处理技术是信息咨询处理系统的关键。

许多文字信息处理的应用---比如搜索引擎、在线推荐等等,通常使用一套流水线式的文本处理模块来从文本中提取价值。这些系统的最终的效果在很大程度上依赖于这条流水线上的各个组成模块的性能。因为在流水线中每个模块都依赖于前面模块的输出结果,所以上游模块产生的错误会导致下游模块一连串的错误。

深知这些基础自然语言处理模块的重要性,词泰科技专注于提供高质量的基础自然语言处理技术。词泰科技的研发团队在自然语言处理领域积累了深厚的经验。我们非常重视每一项功能模块的性能并花大量时间对各个模块进行测试和调试

支持的技术

词泰科技在自然语言处理领域提供广泛的技术和咨询,包括:

  • 自动断句: 自动断句 系统是负责把整个文档(比如新闻、电子邮件、聊天记录、微薄)等等切分成一句一句的句子(或类似于句子)的语言单位,以供后续模块进行处理。通常一个完整的意思表达是以句子为单位的,所以很多高层的处理应用(比如全文机器翻译、文本摘要等)多以句子为单位。断句的准确度对它们是有比较大的影响的。
  • 中文分词: 中文分词 是中文文本信息处理系统中非常重要的模块。不像很多外语(比如英语)那样一句话当中词汇之间有空格间隔,中文词汇边界的判断困难了很多。因为词汇在很多文字处理和自然语言处理技术中是最重要的语言单位,所以分词性能的好坏有着至关重要的作用。同时它也能处理拼写错误把拼写错误的词汇还原成正确的形式。
  • 词汇还原: 词汇还原 会把词汇还原成原来的形态。在外语中词汇经常会有各种的变形比如不同的时态、语态、单复数等。如果不将它们还原后续模块将会把它们和原词当成不同的词汇。
  • 命名实体识别: 命名实体识别 系统把文本中识别的命名实体参照一种语义分类的体系进行分类,比如“人名”、“地名”、“组织名”等。

相关产品

SmartSeg®

分词是中文文本信息处理中的基础技术。我们提供高性能的SmartSeg®中文分词技术,其准确率与召回率达到世界先进水平。

 
SmartNER®

正确的处理人名、地名、机构名等命名实体对于自动文本处理至关重要。我们提供的SmartNER®命名实体识别技术能够准确地识别和挖掘文本中的实体名,目前支持中文和韩文。

 

更多信息

欲了解词泰科技的自然语言处理技术如何集成到您的系统来帮助您的应用,请与我们联系