基本上所有的中文自然语言处理任务,第一步都需要先分词。中文分词是中文NLP的基础任务和研究方向。小编前些日子,在Arxiv上看到了蔡登同学开放的《中文分词十年又回顾: 2007-2022》。文章中回顾了2007-2022年中文分词的各种方法,现分享给大家。
【内容简介】
本文回顾中文分词在2007-2022十年间的技术进展,尤其是自深度学习渗透到自然语言处理以来的 主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的 迁移中尚未展示出明显的技术优势。中文分词的机器学习模型的构建,依然需要平衡考虑已知词和未 登录词的识别问题。尽管迄今为止深度学习应用于中文分词尚未能全面超越传统的机器学习方法,我 们审慎推测,由于人工智能联结主义基础下的神经网络模型有潜力契合自然语言的内在结构分解方式, 从而有效建模,或能在不远将来展示新的技术进步成果。
私信回复“中文分词”获取《中文分词十年又回顾: 2007-2022》的下载链接~原文链接:https://arxiv.org/abs/1901.06079v1【作者简介】
赵海, 男,上海交通大学计算机科学与工程系博士、副教授,从事计算语言学等教研,多次获自然语言处理(包括中文分词等)国际评测第一名。蔡登,男,上海交通大学计算机科学与工程系硕士研究生。黄昌宁,男,教授、高级研究员,国内计算语言学奠基者之一,是清华大学计算机科学与技术系和亚洲微软研究院两处学术重镇的自然语言处理组创始人,有众多学生为学界翘楚。揭春雨,男,副教授,清华大学计算机科学与技术系毕业,谢菲尔德大学计算机科学博士,目前香港城市大学翻译及语言学任教,博、硕士导师,获终身教职,主要从事计算语言学和术语 学等教研工作【部分内容】