Python爬蟲小白自學三年心得,總結大牛學習方法,贈pdf書籍!

小編是一個自學三年Python的小白,文字功底差,只為了給自己付出了一段時候的學習做一個總結,讓自己能夠能Python爬蟲的一些功力得以保存。

剛開始學習沒有任何基礎,都是在網上找資料學習,翻閱各種書籍,現在小編已經在一家國企上班了,今天小編就要給大家分享一些乾貨,另外給大家說一說我是怎麼學習的!

學習書籍、視頻分享、多看多學!

無套路分享,轉發文章,然後私信小編“學習”二字即可獲得!

Python爬蟲小白自學三年心得,總結大牛學習方法,贈pdf書籍!

Python爬蟲小白自學三年心得,總結大牛學習方法,贈pdf書籍!

Python爬蟲小白自學三年心得,總結大牛學習方法,贈pdf書籍!

就我個人而言,覺得有以下幾點:

一、必須要有python的基礎知識,重點在字符串(string)、列表的迭代(iteration)和切片(slice),字典類型,For循環。

二、瞭解熟悉HTML基礎知識。這樣就知道了父標籤、子標籤、兄弟標籤等,對於快速定位甚是有用。

三、Requests庫中get和post對HTTP的請求方式獲得response。另外瞭解返回的實例對象response.text(文本)和response.content(圖片、視頻等)的區別。

四、BeautifulSoup中使用Find和Find_all方法提示想要的內容。如實例對象soup.find_all("div",class_="xxx")#注意class屬性在這裡有個下劃線,要獲取某屬性的值如get('href')的用法。另外還需要了解soup.select的css選擇器方法,最主要記住class屬性用“."號代替,id用‘#’代替,如soup.select('.xxx')選擇class屬性為xxx的標籤,soup.select('#xxx')同理,另外,就是組合使用,如soup.select('div[class='xxxx']'),最後使用for循環把值迭代出來。

五、把獲取到的內容寫入文件,有寫入txt、excel和數據庫(mysql or nomysql)中。特別是在寫入到MySQL中,要特別注意編碼的問題,否則會報錯,導致程序執行失敗。

在通過如pymysql模塊進行連接的時候需要設置charset='utf8',如conn = pymsql.connect('localhost','root','root','db',charset='utf8')。在創建表的時候同樣設置成utf8,如create table table_name( xxxxxxxx) character set utf8;。

六、就是要在逐漸學習深入過程中,瞭解、理解、掌握正則表達式(Regular Expression),這是非常強大的東西,在很多語言中都會遇到這個東西,對提取想要的內容非常有幫助。

七、最後就會接觸到分佈式爬蟲,scrapy+xpath等強大到我們無法想象的更為簡單的工具,但沒有前面的基礎這些空中樓閣都無從學起。

獲取學習資料方式:轉發文章,然後私信小編“學習”二字即可獲得!


分享到:


相關文章: