百度ai系列研究自然语言之语言处理基础技术

每周一篇原创,关注5G、物联网、人工智能,跟着我的【头号观点】坚持利用碎片时间学习

自然语言处理是人工智能中最核心的一部分,也是现在最难的,最底层的技术。百度提供全面、领先的NLP基础模块能力,涵盖词、短语、句子等不同粒度的底层能力,您可将其应用于多种技术和业务方向。今天我们就对自然语言处理的分支——语言处理基础技术进行详细研究解读。

词法分析

基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解。

功能介绍:百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。

中文分词:中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程

词性标注:词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程

专有名词:命名实体识别(Named Entity Recognition 简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等

词向量表示

依托全网海量优质数据和深度神经网络技术,通过词语的向量化来实现文本的可计算,帮助您快速完成语义挖掘、相似度计算等应用

使用场景:

语义召回:对候选资源进行词向量表示,并构建向量表示基础上的快速索引召回技术,与传统的基于字词倒排索引方法不同,直接从语义相关性角度上给用户召回结果

个性化推荐:

基于用户的历史行为建模用户兴趣表示,学习用户与推荐候选之间的兴趣匹配度,实现对用户的个性化推荐

语义相似度

依托全网海量优质数据和深度神经网络技术,通过词语向量化来计算两个词之间的相似度,满足高精度要求的业务场景需求

深度语义解析:该技术常用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高

领先技术应用:词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一

依存句法分析

自动分析文本中的依存句法结构信息,实现对自然语言的精准理解

深度语义结构:利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系) ,并用树状结构来表示整句的的结构(如主谓宾、定状补)等

算法精准识别:在大规模人工标注的数据基础上,句法结构描述体系简洁通用,海量数据训练让文本匹配更准确

DNN语言模型

依托全网海量优质数据和深度神经网络技术,判断一句话是否符合语言表达习惯,帮助您实现文本分析、纠错、对话等多种语义应用

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯

通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等

应用场景:

拼写纠错:基于句子上下文,计算纠错候选的语言模型概率。用于拼写纠错,提升用户体验

对话系统:判断用户输入的句子是否符合自然语言表达习惯,辅助对话系统进行决策

机器翻译:语言模型对翻译候选的打分作为最终译文的重要排序指标,提升翻译效果

短文本相似度

依托全网海量优质数据和深度神经网络技术,为您提供高精度的短文本相似度服务,帮助快速实现推荐、检索、排序等应用

短文本相似度计算:提供两个短文本之间的语义相似度计算能力,输出的相似度是一个介于0到1之间的实数值,输出数值越大,则代表语义相似程度相对越高

短文本相似度聚合:通过语义相似度计算,判断两个短文本的语义表述是否相近,从而实现相似短文本的聚合或去重

应用场景

智能对话系统:在智能对话系统中,通过中文分词、专名识别等关键技术,能够准确的从用户输入内容中识别出意图及需求的关键信息,从而提供相应的内容服务

相似内容推荐:通过短文本相似度技术,可以准确的为目标文本匹配含义接近的内容,从而完成相似内容推荐

搜索结果扩展:通过词义相似度技术,可以寻找搜索query中的相似词,并进行合理替换,从而提高搜索结果的多样性

总结

综上所述,自然语言处理中的——语言处理基础技术主要是可共用的底层技术,小编附上一张图来展示整个应用架构,在后面几篇章中将详细介绍并成一体系。

预告

下一篇章继续研究学习百度的自然语言处理技术之语言处理应用技术,敬请期待!

免责声明:

本公众号为个人研究专题学习分享,非商业公众号无任何商业目的,如果文章内容有侵权或者非法信息,请立即与本号联系删除谢谢

相关推荐