xpath 用法總結整理


xpath

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。

在爬蟲中使用 xpath就是為了抽取我們需要的元素。

xpath最重要的語法

表達式 描述 nodename 選取此節點的所有子節點。 / 從根節點選取。 // 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 . 選取當前節點。 .. 選取當前節點的父節點。 @ 選取屬性。

以下面這個xml為例子

<code>

<bookstore>

<book>
<title>Harry Potter/<title>
<price>29.99/<price>
/<book>

<book>
<title>Learning XML/<title>
<price>39.95/<price>
/<book>

/<bookstore>/<code>

下面是我們的xpath定位語句:

  • xml.xpath(“bookstore”) 表示選取 bookstore 元素的所有子節點
  • xml.xpath(“/bookstore”)表示選取根元素 bookstore。
  • xml.xpath(“bookstore/book”)選取屬於 bookstore 的子元素的所有 book 元素。
  • xml.xpath(“//book”)選取所有 book 子元素,而不管它們在文檔中的位置。
  • xml.xpath(“bookstore//book”) 選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。
  • xml.xpath(“//@lang”)選取名為 lang 的所有屬性。

下面兩張圖是我列出的 xpath比較常用的知識點。

xpath 用法總結整理

xpath 用法總結整理

由於XPath屬於Python中的lxml庫模塊,所以首先要安裝庫lxml,我們在命令窗口輸入:pip3 install lxml

為了讓大家更好的理解和掌握,我整理了下xpath的例子,希望大家能熟悉和掌握。

xpath 用法總結整理

xpath 用法總結整理

xpath 用法總結整理

如果覺得好可以分享轉發,有問題的地方也歡迎指出,在此先行謝過。


分享到:


相關文章: