12.24 jieba，宇宙最强Python分词工具使用指南_技术 _ 頭條網

结巴分词是Python语言中最流行的一个分词工具，在自然语言处理等场景被广泛使用。

因为GitHub写的文档太啰嗦，所以整理了一个简版的入门使用指南，看完可直接上手

安装

<code>pip install jieba
/<code>

简单分词

<code>import jieba

result = jieba.cut("我爱中国北京大学")
for word in result:
print(word)
/<code>

输出

句子切分成了5个词组。

全模式分词

<code>result = jieba.cut("我爱中国北京大学", cut_all=True)
for word in result:
print(word)
/<code>

输出

<code>我
爱
中国
北京
北京大学

大学
/<code>

全模式分出来的词覆盖面更广。

提取关键词

从一个句子或者一个段落中提取前k个关键词

<code>import jieba.analyse

result = jieba.analyse.extract_tags("机器学习，需要一定的数学基础，需要掌握的数学基础知识特别多，"
"如果从头到尾开始学，估计大部分人来不及，我建议先学习最基础的数学知识",
topK=5,
withWeight=False)
import pprint

pprint.pprint(result)
/<code>

输出

<code>['数学', '学习', '数学知识', '基础知识', '从头到尾']
/<code>topK 为返回前topk个权重最大的关键词withWeight 返回每个关键字的权重值

去掉停止词私信小编01领取完整项目代码

停止词是指在句子中无关紧要的词语，例如标点符号、指示代词等等，做分词前要先将这些词去掉。分词方法cut不支持直接过滤停止词，需要手动处理。提取关键字的方法 extract_tags 支持停止词过滤

<code># 先过滤停止词
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
/<code>

file_name 的文件格式是文本文件，每行一个词语

安装

简单分词

全模式分词

提取关键词

去掉停止词私信小编01领取完整项目代码

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪