辰溪0502
自然语言处理(NLP)最适合入门的项目就是中文分词。
分词是一个古老问题,也是一个直到现在也没有解决特别好的问题。Python开源的结巴分词库,其实效果很一般。我们公司有团队花费很多资源造了轮子,做的效果比结巴好很多,可是依然不是颠覆性的优化(像bert用于nlp可称作颠覆性的优化)。
中文分词领域入门容易,非常适合用来上手。但做好难,举个栗子:和尚未结婚的,到底是分成“和尚 未结婚的”,还是“和 尚未结婚的”。人根据上下文看一眼就知道,但是nlp要用一个模型来表达出上下文和当前句子,来确定最合适的分法,很难做好。
中文分词在很多技术中都有用到,比如语音识别 ocr文字识别 翻译 文本转语音等,商用化的系统都会用到分词技术做语言模型。
所以从中文分词入坑自然语言处理是最容易入手,前景也不错的项目。
从零开始刷力扣
一个非常好的问题。我是工作多年的Web应用架构师,来回答一下这个问题。欢迎关注我,了解更多IT专业知识。
补充一下AI自然语言处理应用的开发,几大云服务商都开放了人工智能开发平台,使得基于云服务开发AI应用更加方便。
基于语音识别技术,可以开发语音转换文字工具
基于语音合成技术,可以开发AI聊天机器人
等等。。。
急速马力快de源码客
标注、语义分析、分词