Azure AI Language Services:提供现成及自定义 NER 功能,用于识别和分类非结构化文本中的实体。
这些工具通常自带预训练模型,但针对特定应用场景建议在领域数据上进行定制训练,以获得更高准确率。
命名实体识别(NER)相关研究
命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,涉及将文本中的命名实体识别并分类到诸如人名、组织、地点、时间表达、数量、货币金额、百分比等预定义类别。以下是几篇重要的 NER 研究论文,展示了该任务的不同方法和进展:
Named Entity Sequence Classification
作者:Mahdi Namazifar
发表时间:2017-12-06 本文聚焦于如何确定检测到的命名实体的置信度,即命名实体序列分类(NESC)问题。研究将 NESC 视为二分类任务,利用 NER 和循环神经网络来估算候选实体为真实实体的概率。该方法应用于 Twitter 数据,展示了如何从推文中识别高置信度的命名实体。研究强调了在内容推荐等应用中获得可靠置信度度量的重要性。阅读全文
Open Named Entity Modeling from Embedding Distribution
作者:Ying Luo, Hai Zhao, Zhuosheng Zhang, Bingjie Tang
发表时间:2021-02-10 本文在通用词嵌入空间中探讨命名实体的分布,提出了多语言命名实体的开放定义。研究发现,命名实体在嵌入空间中呈现聚集现象,从而可以利用一种名为“命名实体超球体”的几何结构进行建模。该模型为多样的实体类型和语言提供了开放描述,并为资源匮乏语言的命名实体数据集构建提供了新方法。结果表明,该方法有助于提升最先进的 NER 系统。阅读全文
CMNEROne at SemEval-2022 Task 11: Code-Mixed Named Entity Recognition by leveraging multilingual data
作者:Suman Dowlagar, Radhika Mamidi
发表时间:2022-06-15 本文针对混合语言文本中的 NER 挑战,研究了如何利用多语言数据进行命名实体识别。该工作是 SEMEVAL 2022 MultiCoNER 共享任务的一部分,重点在于通过多语言数据识别混合语言数据集中的命名实体。团队取得了 0.7044 的加权平均 F1 分数,比基线高出 6%。研究强调了多语言和混合语言环境下实现高效 NER 的难点与策略。阅读全文
常见问题
NER 是 NLP 和 AI 的一个子领域,专注于在非结构化文本数据中自动识别和分类实体,如人物、组织、地点、日期等。
NER 系统通常在文本中检测潜在实体,将其分类到预定义类别,并可采用基于规则、机器学习或深度学习的方法提升准确率。
NER 广泛应用于信息检索、内容推荐、情感分析、自动数据录入、医疗健康、金融、合规、聊天机器人、客户支持和学术研究等领域。
NER 系统在处理歧义、语言变化和领域专有术语时可能遇到困难,通常需要定制的训练数据和模型以获得最佳表现。
常用的 NER 工具有 SpaCy、Stanford NER、OpenNLP 和 Azure AI Language Services,许多工具都提供预训练模型并支持自定义训练。