xpath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
在爬虫中使用 xpath就是为了抽取我们需要的元素。
xpath最重要的语法
表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。
以下面这个xml为例子
<code>
<bookstore>
<book>
<title>Harry Potter/<title>
<price>29.99/<price>
/<book>
<book>
<title>Learning XML/<title>
<price>39.95/<price>
/<book>
/<bookstore>/<code>
下面是我们的xpath定位语句:
- xml.xpath(“bookstore”) 表示选取 bookstore 元素的所有子节点
- xml.xpath(“/bookstore”)表示选取根元素 bookstore。
- xml.xpath(“bookstore/book”)选取属于 bookstore 的子元素的所有 book 元素。
- xml.xpath(“//book”)选取所有 book 子元素,而不管它们在文档中的位置。
- xml.xpath(“bookstore//book”) 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
- xml.xpath(“//@lang”)选取名为 lang 的所有属性。
下面两张图是我列出的 xpath比较常用的知识点。
![xpath 用法总结整理](http://p2.ttnews.xyz/loading.gif)
![xpath 用法总结整理](http://p2.ttnews.xyz/loading.gif)
由于XPath属于Python中的lxml库模块,所以首先要安装库lxml,我们在命令窗口输入:pip3 install lxml
为了让大家更好的理解和掌握,我整理了下xpath的例子,希望大家能熟悉和掌握。
如果觉得好可以分享转发,有问题的地方也欢迎指出,在此先行谢过。
閱讀更多 潤森知識 的文章