豆瓣系列綜合爬蟲，豆瓣電影、書籍、小組、相冊（項目地址源碼）技术頭條網

豆瓣系列綜合爬蟲，豆瓣電影、書籍、小組、相冊（項目地址源碼）

2018-03-20 14:28:52 Python樂園

豆瓣電影、書籍、小組、相冊、東西等爬蟲。

代碼地址：私信發送：“豆瓣爬蟲”，系統自動回覆下載地址。文章裡面不能放下載地址，只能這樣。

###依賴服務

MongoDB

###依賴包

pip install scrapy
pip install pybloom
pip install pymongo

###運行豆瓣電影爬蟲

進入douban/movie目錄
執行scrapy crawl movie

###運行豆瓣相冊爬蟲

進入douban/album目錄
執行scrapy crawl album

主要代碼展示：

1#encoding: utf-8

2 from scrapy import Field, Item

4 class MovieItem(Item):

5 subject_id = Field()

6 name = Field()

7 year = Field()

8 directors = Field()

9 actors = Field()

10 languages = Field()

11 genres = Field() #類型

12 runtime = Field()

13 stars = Field() #5星 4星 3星 2星 1星各個數量, 次序為：5 4 3 2 1

14 channel = Field()

15 average = Field() #平均分

16 vote = Field() #評分人數

17 tags = Field()

18 watched = Field() #看過

19 wish = Field() #想看

20 comment = Field() #短評數

21 question = Field() #提問數

22 review = Field() #影評數

23 discussion = Field() #討論

24 image = Field() #圖片數

25 countries = Field() #製片國家

26 summary = Field()

29 #豆瓣相冊文檔格式

30 AlbumItem = dict(

31 from_url = "http://www.douban.com/photos/album/135640217/",

32 album_name = "少年聽雨歌樓上，壯年畫雨客舟中",

33 author = dict(

34 home_page = "http://www.douban.com/people/isotherm/",

35 nickname = "等溫線",

36 avatar = "http://img3.douban.com/icon/u2152074-7.jpg",

37 ),

38 photos = [

39 dict(

40 large_img_url = "http://img3.douban.com/view/photo/photo/public/p2192138220.jpg",

41 like_count = 2,

42 recommend_count = 22,

43 desc = "李子噠粉蒸排骨！好吃！",

44 comments = [

45 dict(

46 avatar = "http://img3.douban.com/icon/u42419518-2.jpg",

47 nickname = "muse",

48 post_datetime = "2014-07-29 08:37:14",

49 content = "看得流口水了",

50 home_page = "http://www.douban.com/people/yijuns89/",

51 ),

52 ]

53 ),

54 ],

55 tags = ["美女", "標籤", "時尚"],

56 recommend_total = 67,

57 like_total = 506,

58 create_date = "2014-07-21",

59 photo_count = 201,

60 follow_count = 37,

61 desc = "蛇蛇蛇馬馬馬",

62 )

64 class AlbumItem(Item):

65 album_name = Field()

66 author = Field()

67 photos = Field()

68 recommend_total = Field()

69 like_total = Field()

70 create_date = Field()

71 from_url = Field()

72 photo_count = Field()

73 follow_count = Field()

74 desc = Field()

75 tags = Field()

78 class PhotoItem(Item):

79 large_img_url = Field()

80 like_count = Field()

81 recommend_count = Field()

82 desc = Field()

#encoding: utf-8

2 import scrapy

3 from scrapy.contrib.linkextractors import LinkExtractor

4 from scrapy.contrib.spiders import CrawlSpider, Rule

6 from misc.store import doubanDB

7 from parsers import *

9 class AlbumSpider(CrawlSpider):

10 name = "album"

11 allowed_domains = ["www.douban.com"]

12 start_urls = [

13 "http://www.douban.com/",

14 ]

16 rules = (

17 #相冊詳情

18 Rule(LinkExtractor(allow=r"^http://www\.douban\.com/photos/album/\d+/($|\?start=\d+)"),

19 callback="parse_album",

20 follow=True

21 ),

23 #照片詳情

24 Rule(LinkExtractor(allow=r"^http://www\.douban\.com/photos/photo/\d+/$"),

25 callback = "parse_photo",

26 follow = True

27 ),

29 #豆列集合

30 # Rule(LinkExtractor(allow=r"^http://www\.douban\.com/photos/album/\d+/doulists$"),

31 # follow=True

32 # ),

34 #單個豆列

35 Rule(LinkExtractor(allow=r"^http://www\.douban\.com/doulist/\d+/$"),

36 follow=True

37 ),

38 )

40 def parse_album(self, response):

41 album_parser = AlbumParser(response)

42 item = dict(album_parser.item)

44 if album_parser.next_page: return None

45 spec = dict(from_url = item["from_url"])

46 doubanDB.album.update(spec, {"$set": item}, upsert=True)

48 def parse_photo(self, response):

49 single = SinglePhotoParser(response)

50 from_url = single.from_url

51 if from_url is None: return

52 doc = doubanDB.album.find_one({"from_url": from_url}, {"from_url":True})

54 item = dict(single.item)

55 if not doc:

56 new_item = {}

57 new_item["from_url"] = from_url

58 new_item["photos"] = item

59 doubanDB.album.save(new_item)

60 else:

61 spec = {"from_url": from_url}

62 doc = doubanDB.album.find_one({"photos.large_img_url": item["large_img_url"]})

63 if not doc:

64 doubanDB.album.update(spec, {"$push": {"photos": item}})

66 cp = CommentParser(response)

67 comments = cp.get_comments()

68 if not comments: return

69 large_img_url = item["large_img_url"]

70 spec = {"photos.large_img_url": large_img_url }

71 doubanDB.album.update(spec, {"$set": {"photos.$.comments": comments} }, upsert=True)

代碼地址：私信發送：“豆瓣爬蟲”，系統自動回覆下載地址。文章裡面不能放下載地址，只能這樣。

分享到:

閱讀更多 Python樂園 的文章

關鍵字: 爬蟲地址 Scrapy

豆瓣系列綜合爬蟲，豆瓣電影、書籍、小組、相冊（項目地址源碼）

相關文章:

Java中常用數據結構執行過程及原理——動圖+源碼

給你100個Java練手項目+源碼，收藏起來沒事玩玩也好！

100個Java練手項目+源碼！手快有

今天給你 100個Java練手項目+源碼！拿走不謝

資深架構師整理 100套Java經典實戰項目+源碼，學完馬上帶團隊

79個超級實用的Java項目+源碼，悄悄收起來，小白逆襲大佬

110多個Java練手項目+源碼，拿走瞎玩去吧

山東大學java講師不小心洩露 100個Java練手項目+源碼！還不快領

C++：清空回收站+【源碼】

修改文件各個屬性+源碼

清華計算機社推出java+Python共計715集自學視頻教程+源碼+項目庫

基於C++的端口掃描器+源碼

基於C++的整數計算器+源碼

基於C++的NetChat網絡聊天+源碼

Android（安卓）全套開發資料視頻+源碼

基於C++的點擊不同按鈕讓電腦發出不同音色的聲音+源碼

基於C的圖片幾何變換程序+源碼

基於C語言的二進制查找樹「源碼」

入門必學：利用C++開發的計算器-----源碼

02.29 萬能樹Java工具類封裝(源碼)

騰訊架構師整理：98套Java經典實戰項目+源碼！學完馬上帶團隊

極簡入門TensorFlow C++源碼

01.29 C# 接收TCP解析jt808協議 源碼

Web前端：最新nodeJS從入門到大神教程（視頻+源碼+課件）

java學習成長之路（基礎，源碼，項目，實戰）

【源碼】使用FPGA來獲取PPPoE登錄的賬號密碼

帶著問題學 Spring MVC 源碼

Quartz——任務調度的實現（實例+源碼+驚喜）

C++源碼：封裝一個簡單的模板鏈表，自定義類型數據小小測試一下

計算位數最高達300位的兩個非負整數的乘積，C語言編程實現-源碼

09.04 Kafka 源碼：KafkaConsumer 消費處理

Java從菜鳥到架構師完整版學習資料分享（視頻+源碼+文檔）

分享一套零基礎到進階的高價值大數據資料（視頻+源碼+筆記+課件）

免費分享100G大數據資料（java輕鬆轉大數據），基礎+進階+源碼

javaWeb入門到精通（視頻，源碼，資料，面試心得）限時領取！

短期 中期 長期壓力主圖 源碼

底部啟動 副圖 源碼 無未來

底部探測 副圖 源碼 無未來

均線輔助 源碼 主圖 無未來

斤斤計較 副圖 源碼

底部公式 副圖 源碼 有未來

彩色KDJ 源碼 副圖 有提示

多空線 源碼 主圖 可參考MACD

波段操作 源碼 主副圖都可

C 實現UPD視頻聊天 源碼

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

01.29 C# 接收TCP解析jt808協議源碼

短期中期長期壓力主圖源碼

底部啟動副圖源碼無未來

底部探測副圖源碼無未來

均線輔助源碼主圖無未來

斤斤計較副圖源碼

底部公式副圖源碼有未來

彩色KDJ 源碼副圖有提示

多空線源碼主圖可參考MACD

波段操作源碼主副圖都可

C 實現UPD視頻聊天源碼

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？