後臺回覆【入門資料】
送你十本Python電子書
中國大學 MOOC 是網易旗下一款慕課視頻教育網站。實話說,這是網易幾款教育類產品中,我最喜歡的一個。自己也使用了一年多,觀看視頻都是需要聯網的,但部分 MOOC 課程存在有效期,設定的學期結束即無法觀看。
Course Crawler 這個爬蟲工具的出現,則提供了極大的便利。
準備
第一步:安裝 Python 3 環境
進入 Python 3 官網(https://www.python.org/downloads/),選擇合適的版本下載安裝即可。
第二步:通過 pip 安裝程序要用到的3個運行庫:<code>requests/<code>,<code>BeautifulSoup4/<code>,<code>lxml/<code>
打開 Python 的安裝目錄,進入到 Scripts 目錄(我這裡是 <code>C:\\Users\\Kiwiape\\AppData\\Local\\Programs\\Python\\Python37-32\\Scripts/<code>),按住 Shift 同時鼠標右鍵單擊資源管理器的空白區域,選擇“在此處打開命令窗口”(最新版本 Win10 已使用 PowerShell 替換命令行)。
在打開的命令行窗口中輸入 <code>pip install requestsBeautifulSoup4lxml/<code>並回車。如下圖,運行結束且無錯誤提示即安裝成功。
第三步:從 Github 下載最新的 Course Crawler 程序包,並解壓。
到此為止,運行環境和軟件均已準備完成。
使用
解析課程資源
如下圖所示,打開你需要下載的課程詳情頁(並非課程學習頁),複製課程網址。
在解壓出來的程序包文件夾內,用同樣的方式打開命令行,並輸入 <code>python mooc.py
回車後,程序隨即開始解析課程資源。
等待解析完成後,我們可以在程序目錄下發現以剛才課程命名的文件夾。文件夾內通常會有 Files, PDFs, Texts 三個子文件夾,和 Outline.txt, Rename.bat, Videos.txt 三個文件(具體視課程內容而定)。
其中 Files, PDFs, Texts 分別為老師上傳的附件、課件、富文本,爬蟲已經替你下載好了。而 Outline.txt 和 Rename.bat 分別是課程資源的結構和重命名程序,這兩個我們不要動,之後會用到。
下載和整理課程視頻
看到亂碼的視頻文件名,我想你應該能夠猜到剛才兩個文件的作用了吧!沒錯,等到視頻都下載完成後,我們把所有亂碼的 mp4 文件移動到剛才的課程目錄,然後雙擊打開 Rename.bat ,稍等命令行閃過幾秒,就可以看到,原來亂碼的視頻都變成了標準的小課程名。
關於程序
項目官網:https://mooc.xoy.io
Github 頁面:https://github.com/Foair/course-crawler
原文:https://www.kiwiape.cn/tech/2018/08/01/download-icourse163-with-course-crawler.html 作者:kiwiape
回覆下方「關鍵詞」,獲取優質資源
回覆關鍵詞「 pybook03」,立即獲取主頁君與小夥伴一起翻譯的《Think Python 2e》電子版
回覆關鍵詞「入門資料」,立即獲取主頁君整理的 10 本 Python 入門書的電子版
回覆關鍵詞「m」,立即獲取Python精選優質文章合集
回覆關鍵詞「book 數字」,將數字替換成 0 及以上數字,有驚喜好禮哦~
閱讀更多 編程派 的文章
關鍵字: PowerShell 網絡爬蟲 Python