xpath
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。
在爬蟲中使用 xpath就是為了抽取我們需要的元素。
xpath最重要的語法
表達式 描述 nodename 選取此節點的所有子節點。 / 從根節點選取。 // 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 . 選取當前節點。 .. 選取當前節點的父節點。 @ 選取屬性。
以下面這個xml為例子
<code>
<bookstore>
<book>
<title>Harry Potter/<title>
<price>29.99/<price>
/<book>
<book>
<title>Learning XML/<title>
<price>39.95/<price>
/<book>
/<bookstore>/<code>
下面是我們的xpath定位語句:
下面兩張圖是我列出的 xpath比較常用的知識點。
由於XPath屬於Python中的lxml庫模塊,所以首先要安裝庫lxml,我們在命令窗口輸入:pip3 install lxml
為了讓大家更好的理解和掌握,我整理了下xpath的例子,希望大家能熟悉和掌握。
如果覺得好可以分享轉發,有問題的地方也歡迎指出,在此先行謝過。