机器学习

词泰科技各种产品中使用了许多最先进的机器学习(Machine Learning)算法。机器学习之所以在文本处理中能够非常成功的运用的原因在于大量训练数据里包含了足够的有规律的模式使得我们可以用它来处理新的未知数据。尽管各种文档千变万化,它们内在的模式通常是类似的,所以我们基于机器学习的算法能够从大量复杂的数据中归纳出有效的规律来对新文档做准确的处理。

我们的策略是在做每一个细小处理的时候都要考虑语境(context)。这些小的分类决策都要考虑到多种不同的特征,比如:词汇、短语、语境、结构,已经领域内的知识和文档之间的统一性。如果在训练数据中发现了特征的相似模式,那么算法就应该可以对文档中的概念作出有意义或类似的解释。因为这种流程有点类似于人的思考过程,所以我们把它叫做文本理解。

对每个特征的小的不同判断提供了对理解整个文档的多种可能性。我们算法的强大在于它能把这么多不同的小的模式和规律组合起来以统计的方式对整个文档做出整体和连贯的理解。统计模型是非常强大的,因为它能让我们的工程师把各种不同种类的知识结合起来做出最佳的综合判断。

机器学习虽不是魔术,但是门艺术,因为它需要很深的专业知识才能把它用的最好,包括如何产生最对口的特征集和知识表达方式。机器学习在自然语言处理里的运用发展的非常迅猛,我们的科研人员和工程师在这个领域的业界和学术界一直保持着广泛的接触。