Python 爬取中國大學 MOOC 課程

後臺回覆【入門資料】

送你十本Python電子書

Python 爬取中国大学 MOOC 课程

中國大學 MOOC 是網易旗下一款慕課視頻教育網站。實話說,這是網易幾款教育類產品中,我最喜歡的一個。自己也使用了一年多,觀看視頻都是需要聯網的,但部分 MOOC 課程存在有效期,設定的學期結束即無法觀看。

Course Crawler 這個爬蟲工具的出現,則提供了極大的便利。

Python 爬取中国大学 MOOC 课程

準備

第一步:安裝 Python 3 環境

進入 Python 3 官網(https://www.python.org/downloads/),選擇合適的版本下載安裝即可。

第二步:通過 pip 安裝程序要用到的3個運行庫:<code>requests/<code>,<code>BeautifulSoup4/<code>,<code>lxml/<code>

打開 Python 的安裝目錄,進入到 Scripts 目錄(我這裡是 <code>C:\\Users\\Kiwiape\\AppData\\Local\\Programs\\Python\\Python37-32\\Scripts/<code>),按住 Shift 同時鼠標右鍵單擊資源管理器的空白區域,選擇“在此處打開命令窗口”(最新版本 Win10 已使用 PowerShell 替換命令行)。

Python 爬取中国大学 MOOC 课程

在打開的命令行窗口中輸入 <code>pip install requestsBeautifulSoup4lxml/<code>並回車。如下圖,運行結束且無錯誤提示即安裝成功。

Python 爬取中国大学 MOOC 课程

第三步:從 Github 下載最新的 Course Crawler 程序包,並解壓。

到此為止,運行環境和軟件均已準備完成。

使用

解析課程資源

如下圖所示,打開你需要下載的課程詳情頁(並非課程學習頁),複製課程網址。

Python 爬取中国大学 MOOC 课程

在解壓出來的程序包文件夾內,用同樣的方式打開命令行,並輸入 <code>python mooc.py/<code>即可下載課程到當前文件夾,其中這裡的<code>/<code>就是上面我們複製的課程網址。

Python 爬取中国大学 MOOC 课程

回車後,程序隨即開始解析課程資源。

等待解析完成後,我們可以在程序目錄下發現以剛才課程命名的文件夾。文件夾內通常會有 Files, PDFs, Texts 三個子文件夾,和 Outline.txt, Rename.bat, Videos.txt 三個文件(具體視課程內容而定)。

Python 爬取中国大学 MOOC 课程

其中 Files, PDFs, Texts 分別為老師上傳的附件、課件、富文本,爬蟲已經替你下載好了。而 Outline.txt 和 Rename.bat 分別是課程資源的結構和重命名程序,這兩個我們不要動,之後會用到。

下載和整理課程視頻

Python 爬取中国大学 MOOC 课程

看到亂碼的視頻文件名,我想你應該能夠猜到剛才兩個文件的作用了吧!沒錯,等到視頻都下載完成後,我們把所有亂碼的 mp4 文件移動到剛才的課程目錄,然後雙擊打開 Rename.bat ,稍等命令行閃過幾秒,就可以看到,原來亂碼的視頻都變成了標準的小課程名。

關於程序

項目官網:https://mooc.xoy.io

Github 頁面:https://github.com/Foair/course-crawler

原文:https://www.kiwiape.cn/tech/2018/08/01/download-icourse163-with-course-crawler.html 作者:kiwiape

回覆下方「關鍵詞」,獲取優質資源

回覆關鍵詞「 pybook03」,立即獲取主頁君與小夥伴一起翻譯的《Think Python 2e》電子版

回覆關鍵詞「入門資料」,立即獲取主頁君整理的 10 本 Python 入門書的電子版

回覆關鍵詞「m」,立即獲取Python精選優質文章合集

回覆關鍵詞「book 數字」,將數字替換成 0 及以上數字,有驚喜好禮哦~


分享到:


相關文章: