GitHub 從來不是程序員單純為了交流代碼而存在,它關乎著程序員們的衣食住行。繼全國房價趨勢,12306 春運搶票,任正非講話稿等神奇項目絡繹不絕,今天的 GitHub 趨勢榜上,通過爬蟲實現的 1000萬+ 工商企業註冊信息直擊榜首,目前已超過 2k star。
項目包含的內容為中國大陸 31 個省份 1978 年至 2019 年一千多萬工商企業註冊信息,包含企業名稱、註冊地址、統一社會信用代碼、地區、註冊日期、經營範圍、法人代表、註冊資金、企業類型等詳細資料。
數據以 CSV 、Excel 及 JSON 三種文件類型存儲。
其中 CSV 與 Excel 的格式為:企業名稱、統一社會信用代碼、註冊日期、企業類型、法人代表、註冊資金、經營範圍、所在省份、地區、註冊地址,編碼為 UTF-8
JSON 的編碼為 UTF-8,文件格式如下:
{ "name":"企業名稱", "code":"統一社會信用代碼", "registrationDay":"註冊日期", "character":"企業類型", "legalRepresentative":"法人代表", "capital":"註冊資金", "businessScope":"經營範圍", "province":"所在省份", "city":"地區", "address":"註冊地址" }
作者表示只會公開數據,而不會公開爬蟲代碼,所有數據來源於公示內容並且沒有對來源網站造成影響。
目前已經更新 1978-1999 年數據,作者表示會在本週內上傳 1999-2019年數據。
GitHub 地址:https://github.com/imhuster/Enterprise-Registration-Data-of-Chinese-Mainland
本文出自【GitHub 優選】,轉載請說明出處。
網站崩潰找不到原因?平臺搭建無從下手?熱門技術不想落伍?想要變強找不到資料?
[IT拯救聯盟],讓大牛和同伴拯救你,帶你裝x帶你飛。定期乾貨分享、大牛專業解答、實用IT工具優選.....
私信小編“聯盟”,即可加入我們~