干货｜NLP、知识图谱教程、书籍、网站、工具……（附资源链接）

THU數據派

2018-08-08 17:55:00

本文

多资源，建议阅读收藏。

本文整理了关于 NLP 与知识图谱的众多参考资源，涵盖内容与形式非常丰富。

[ 导读 ]本文作者一年前整理了这份关于 NLP 与知识图谱的参考资源，涵盖内容与形式也是非常丰富，接下来我们还会继续努力，分享更多更好的新资源给大家，也期待能与大家多多交流，一起成长。

NLP参考资源

自然语言处理（Natural Language Processing）是深度学习的主要应用领域之一。

1. 教程

CS224d: Deep Learning for Natural Language Processinghttp://cs224d.stanford.edu/CS224d课程的课件http://web.stanford.edu/class/cs224n/syllabus.htmlCMU的NLP教程。该网页下方还有美国其他高校的NLP课程的链接。http://demo.clab.cs.cmu.edu/NLP/北京大学的NLP教程，特色：中文处理。缺点：传统方法居多，深度学习未涉及。http://ccl.pku.edu.cn/alcourse/nlp/COMS W4705: Natural Language Processinghttp://www.cs.columbia.edu/~cs4705/初学者如何查阅自然语言处理（NLP）领域学术资料https://mp.weixin.qq.com/s/TSc4E8lKwgc-EvzP8OlJeg揭开知识库问答KB-QA的面纱（知识图谱方面的系列专栏）https://zhuanlan.zhihu.com/kb-qa《语音与语言处理》第三版，NLP和语音合成方面的专著http://web.stanford.edu/~jurafsky/slp3/ed3book.pdfCIPS ATT 2017 文本分析和自然语言课程PPThttps://mp.weixin.qq.com/s/5KhTWdOk-b84DXmoVr68-ACMU NN for NLPhttp://phontron.com/class/nn4nlp2017/assets/slides/CMU Machine Translation and Sequence to Sequence Modelshttp://phontron.com/class/mtandseq2seq2017/Oxford Deep NLP 2017 coursehttps://github.com/oxford-cs-deepnlp-2017/lectures

2. 书籍

《Natural Language Processing with Python》，Steven Bird、Ewan Klein、Edward Loper著。这本书的作者们创建了著名的NLTK工具库。http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Natural%20Language%20Processing%20with%20Python.pdf

注：

Steven Bird，爱丁堡大学博士，墨尔本大学副教授。

http://www.stevenbird.net/about.html

Ewan Klein，苏格兰人，哥伦比亚大学博士（1978年），爱丁堡大学教授。

Edward Loper，宾夕法尼亚大学博士。

推荐5本经典自然语言处理书籍https://mp.weixin.qq.com/s/0HmsMytif3INqAX1Si5ukA

3. 网站

一个自然语言处理爱好者的群体博客。包括52nlp、rickjin、liwei等国内外华人大牛.http://www.52nlp.cn/实战课程：自己动手做聊天机器人http://www.shareditor.com/bloglistbytag/?tagname=%E8%87%AA%E5%B7%B1%E5%8A%A8%E6%89%8B%E5%81%9A%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA北京大学计算机科学技术研究所语言计算与互联网挖掘研究http://www.icst.pku.edu.cn/lcwm/NLP深度学习方面的代码库https://github.com/rockingdingo/deepnlpNLP专家李维的bloghttps://liweinlp.com/一个NLP方面的bloghttp://www.shuang0420.com/一个DL+ML+NLP的bloghttp://www.cnblogs.com/Determined22/一个NLP方面的bloghttp://www.cnblogs.com/robert-dlut/一个NLP方面的bloghttps://blog.csdn.net/wangxinginnlp

4. 工具

Natural Language Toolkit(NLTK)官网：http://www.nltk.org/可使用nltk.download()下载相关nltk官方提供的各种资源。

参考：

http://www.cnblogs.com/baiboy/p/nltk3.html

OpenNLPhttp://opennlp.apache.org/FudanNLPhttps://github.com/FudanNLP/fnlpStanford CoreNLPhttp://stanfordnlp.github.io/CoreNLP/THUCTCTHUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包。http://thuctc.thunlp.org/gensimgensim是Python语言的计算文本相似度的程序包。http://radimrehurek.com/gensim/index.html

安装指令：

pip install --upgrade gensim

GitHub 地址：

https://github.com/RaRe-Technologies/gensim

参考学习：

情感分析的新方法——基于Word2Vec /Doc2Vec/Python

http://www.open-open.com/lib/view/open1444351655682.html

Gensim Word2vec使用教程

http://blog.csdn.net/Star_Bob/article/details/47808499

GloVeGloVe:Global Vectors for Word Representationhttps://nlp.stanford.edu/projects/glove/textsumtextsum是一个基于深度学习的文本自动摘要工具。

代码：

https://github.com/tensorflow/models/tree/master/textsum

参考：

http://www.jiqizhixin.com/article/1449

谷歌开源新的TensorFlow文本自动摘要代码：

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

http://blog.csdn.net/tensorflowshizhan/article/details/69230070

jiebahttps://github.com/fxsjy/jiebaNLPIR：NLPIR汉语分词系统(又名ICTCLAS2013)，是中科院张华平博士的作品。http://ictclas.nlpir.org/

参考：

这个网页对于NLP的大多数功能进行了可视化的展示。NLP入门必看。

http://ictclas.nlpir.org/nlpir/

snownlphttps://github.com/isnowfy/snownlpHanLP：HanLP是一个目前留学日本的中国学生的作品http://hanlp.linrunsoft.com/

作者blog：

http://www.hankcs.com/

Github：

https://github.com/hankcs/HanLP/

从作者的名气来说，HanLP无疑是最低的，性能也不见得有多好。然而对于初学者来说，这却是最适合的工具。这主要体现在以下几个方面：

1.中文处理能力。NLTK和OpenNLP对中文支持非常差，这里不光是中文分词的问题，有些NLP算法需要一定的语言模型数据，但浏览NLTK官方的模型库，基本找不到中文模型数据。

2.jieba、IK之类的功能太单一，多数局限在中文分词方面领域。gensim、THUCTC专注于NLP的某一方面，也不是通用工具。

3.NLPIR和Stanford CoreNLP算是功能最强的工具包了。前者的问题在于收费不开源，后者的问题在于缺少中文文档。FudanNLP的相关文档较少，文档友好度不如HanLP。

4.HanLP在主页上提供了相关算法的blog，便于初学者快速掌握相关概念。其词典是明文发布，便于用户修改。HanLP执行时，会将明文词典以特定结构缓存，以提高执行效率。

注：不要以为中文有分词问题，就比别的语言复杂，英文还有词根问题呢。。。每种语言都不简单。

AllenNLPAllenNLP是 Allen AI实验室的作品，采用深度学习技术，基于PyTorch开发。http://allennlp.org/

Allen AI实验室由微软联合创始人Paul G. Allen投资创立。

http://allenai.org/

python版的汉字转拼音软件https://github.com/mozillazg/python-pinyinJava分布式中文分词组件-word分词https://github.com/ysc/wordjena是一个语义网络、知识图谱相关的软件http://jena.apache.org/NLPchinaNLPchina(中国自然语言处理开源组织)旗下有许多好用的工具。http://www.nlpcn.org/

Github：

https://github.com/NLPchina

AnsjAnsj是一个NLPchina旗下的开源的Java中文分词工具，基于中科院的ictclas中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。https://github.com/NLPchina/ansj_segWord2VEC_javaword2vec java版本的一个实现。https://github.com/NLPchina/Word2VEC_javadoc2vec java版本的一个实现，基于Word2VEC_java。https://github.com/yao8839836/doc2vec_javaansj_fast_ldaLDA算法的Java包。https://github.com/NLPchina/ansj_fast_ldanlp-lang这个项目是一个基本包.封装了大多数nlp项目中常用工具https://github.com/NLPchina/nlp-lang词性标注ICTPOS3.0汉语词性标记集http://jacoxu.com/ictpos3-0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86/Word HashingWord Hashing是非常重要的一个trick，以英文单词来说，比如good，他可以写成#good#，然后按tri-grams来进行分解为#go goo ood od#，再将这个tri-grams灌入到bag-of-word中，这种方式可以非常有效的解决vocabulary太大的问题(因为在真实的web search中vocabulary就是异常的大)，另外也不会出现oov问题，因此英文单词才26个，3个字母的组合都是有限的，很容易枚举光。

那么问题就来了，这样两个不同的单词会不会产出相同的tri-grams，paper里面做了统计，说了这个冲突的概率非常的低，500K个word可以降到30k维，冲突的概率为0.0044%。

但是在中文场景下，这个Word Hashing估计没有这么有效了：

词汇共现http://sewm.pku.edu.cn/TianwangLiterature/SEWM/2005(5)/%5b%b3%c2%c1%88,%20et%20al.,2005%5d/050929.pdf

词汇共现是指词汇在文档集中共同出现。以一个词为中心，可以找到一组经常与之搭配出现的词，作为它的共现词汇集。

词汇共现的其中一种用例：

有若干关键词，比如：水果、天气、风，有若干描述词，比如，很甜、晴朗、很大，然后现在要找出他们之间的搭配，在这个例子里，我们最终要找到：水果很甜、天气晴朗、风很大。

关键词提取主要三种方法：1.基于统计特征，如TF-IDF；2.基于词图模型，如TextRank；3.基于主题模型，如LDA。自然语言理解Natural language understanding(NLU)属于NLP的一个分支，属于人工智能的一个部分，用来解决机器理解人类语言的问题，属于人工智能的核心难题。http://www.shuang0420.com/2017/04/27/NLP%E7%AC%94%E8%AE%B0%20-%20NLU%E4%B9%8B%E6%84%8F%E5%9B%BE%E5%88%86%E7%B1%BB/论文《Distant Supervision for relation extraction without labeled data》《Using Recurrent Neural Networks for Slot Filling in Spoken Language Understanding》《Convolutional Neural Networks for Sentence Classification》

知识图谱参考资源

知识图谱构建技术综述https://wenku.baidu.com/view/38ad3ef7e109581b6bd97f19227916888586b959.html知识图谱技术综述https://wenku.baidu.com/view/e69a3619fe00bed5b9f3f90f76c66137ee064f15.html知识图谱技术原理介绍https://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html基于知识图谱的问答系统关键技术研究https://mp.weixin.qq.com/s/JLYegFP7kEg6n34crgP09g什么是知识图谱？https://mp.weixin.qq.com/s/XgKvh63wgEe-CR9bchp03Q当知识图谱遇上聊天机器人https://mp.weixin.qq.com/s/iqFXvhvYfOejaeNAhXxJEg知识图谱前沿技术课程实录https://mp.weixin.qq.com/s/U-dlYhnaR8OQw2UKYKUWKQ阿里知识图谱首次曝光：每天千万级拦截量，亿级别全量智能审核https://mp.weixin.qq.com/s/MZE_SXsNg6Yt4dz2fmB1sA东南大学漆桂林：知识图谱的应用https://mp.weixin.qq.com/s/WIro7pk7kboMvdwpZOSdQA东南大学高桓：知识图谱表示学习https://mp.weixin.qq.com/s/z1hhG4GaBQXPHHt9UGZPnA复旦肖仰华：基于知识图谱的问答系统https://mp.weixin.qq.com/s/JZYH_m1eS93KRjkWA82GoA多源信息表示学习在知识图谱中的应用https://mp.weixin.qq.com/s/cEmtOAtfP2gSBlaPfGXb3w如何构建知识图谱https://mp.weixin.qq.com/s/cL1aKdu8ig8-ocOPirXk2w中文通用百科知识图谱（CN-DBpedia）https://mp.weixin.qq.com/s/Nh7XJOLNBDdpibopVG4MrQ

原文链接：

https://blog.csdn.net/antkillerfarm/article/details/78082564

小白闲鱼创业5个月，卖出812个单品，赚了7万多，总结“6条”干货

自然语言处理(NLP)在金融投资领域的应用

如何搭建一个智能客服（三）：NLP 里实体信息的抓取与应用

如何用一句话证明你学过 NLP ？

完胜 BERT，谷歌最佳 NLP 预训练模型开源，单卡训练仅需 4 天

NLP参考资源

知识图谱参考资源

相關文章:

小白闲鱼创业5个月，卖出812个单品，赚了7万多，总结“6条”干货

自然语言处理(NLP)在金融投资领域的应用

如何搭建一个智能客服（三）：NLP 里实体信息的抓取与应用

如何用一句话证明你学过 NLP ？

完胜 BERT，谷歌最佳 NLP 预训练模型开源，单卡训练仅需 4 天

盗版资源变少？这个比人还“眼尖”的 NLP 模型立下汗马功劳

03.06 印尼 NLP 数据标注平台 Datasaur 获得 100 万美元融资，GDP Ventures 领

03.06 12 万奖金 & 名企直通车，中国人工智能 NLP 大赛报名倒计时

「NLP」详聊NLP中的阅读理解（MRC）

「NLP」ALBERT 告诉了我们什么？

阿里云创新中心发布创企生态战“疫”图谱

「NLP」全面拥抱Transformer：自然语言处理三大特征抽取器比较

Google 开源最新 NLP 模型，能处理整本《罪与罚》

阿里妈妈：品牌广告中的 NLP 算法实践

从词袋到 Transfomer，NLP 十年突破史

NLP、CV、语音相关面试问题、代码、简历、知识点等资源整理分享

NLP 领域创业公司竹间智能完成 4500 万美元 B+ 轮融资

“NLP”与“语言学家”的那些事儿

深度好文：2018 年 NLP 应用和商业化调查报告

NLP：让AI人工智能从青铜到王者！真香！

图谱：拼多多、淘宝、京东……社交电商的中场战事如何演化？

神经网络并不是尚方宝剑，我们需要正视深度 NLP 模型的泛化问题

入门｜自然语言处理是如何工作的？一步步教你构建 NLP 流水线

ImageNet 带来的预训练模型之风，马上要吹进 NLP 领域了

英特尔推出自然语言处理开源库，代号“NLP Architect”

04.09 干货：自己做的手机端纯净无广告的导航

干货！那些冷门而强大的小网站！

04.05 【干货】ACL的原理及应用详解版

04.02 干货：中国社区新零售市场研究报告（30页PPT）

干货：神器让浏览器如虎添翼

03.25 干货：教你如何利用互联网赚取生活费（2）

干货：教你如何利用互联网赚取生活费（2）

干货：几个好用的百度网盘搜索网站和BT搜索网站

03.22 干货：几个好用的百度网盘搜索网站和BT搜索网站

「干货」产品运营中如何把控好用户信息推送渠道？

跨境电商亚马逊产品界面优化技巧 干货！

03.18 干货！一文了解安卓APP逆向分析与保护机制

「干货」机器学习与人工智能入门指南

干货：五个方便生活的微信小程序

干货：一文读懂什么是无卡支付！

干货，最良心的电脑软件可以良心到什么程度？

「干货」你是否在苦苦寻找活动运营的具体方法和流程啊？

干货！国外电商大佬到底如何玩转汽配行业？

干货：光伏安装公司品牌营销12把快刀

干货-正规网赚详细步骤

干货！淘宝客引流

小米太无耻了。

蹭热点！说说我理解的手机包装盒事件。

苹果公司正式发布iPhone SE二代手机

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

干翻华为P40系列 荣耀30也玩中

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

苹果发布新款iPhoneSE，3299元起售

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

值得收藏！三类卖家三种选品方案，总有适合你的一个……

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

马云终于要辞职了，留下的话句句触动人心

等等，明年5G手机将迎来大降价

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

为什么华为今天可以傲视群雄，在世界上立于不败之地？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

2020年最强拍照旗舰来了 华为P40系列多项业界首创 香！

今天聊一聊直播

跨境电商亚马逊产品界面优化技巧干货！

干翻华为P40系列荣耀30也玩中

2020年最强拍照旗舰来了华为P40系列多项业界首创香！