自然语言处理( Natural Language Processing , NLP)是研究计算机处理人类语言的一门技术,是机器理解并解释人类写作与说话方式的能力。大名鼎鼎的“图灵测试”就是个自然语言处理问题。自然语言处理包括分词、词法分析、语法分析、语义分析等。目前比较成熟的技术都是停留在词法层面,比如分词、单词相似度计算。在不严格的场合,句子语义相似性、相关性计算也能满足特定场景的需求。句法、篇章由于本身很复杂,目前还没有特别成熟的工具和产品。近几年,问答系统是自然语言处理中最热的任务。各种娱乐聊天机器人,垂直领域客服机器人层出不穷。从技术的角度来看,目前的最新技术基本上能够满足娱乐聊天的需求,但是对于细化的客服以及个人助理型的应用,技术上还有一段差距。人工数据标注是一个简单却有效的改善问答系统性能的手段。