清洗爬蟲數據的時候可能會需要去掉很多word軟件生成的html屬性。
以下代碼在python3.6環境下測試通過。
import lxml.html.clean as clean<table>
# 需要保留的html屬性
safe_attrs = set(['src', 'href', 'colspan', 'rowspan'])
cleaner = clean.Cleaner(safe_attrs=safe_attrs)
html_string = "var desc='
拍賣財產信息表
拍賣財產
名稱
雲南省安寧市太平鎮始甸村委會新邑村民小組
國有出讓城鎮單一住宅土地
權證
情況
土地證號:安國用(2008)第0529號
權利限
制情況
已查封,抵押於峨山縣農村信用合作聯社
評估價
11791261元
起拍價(保留價)
11791261元
保證金
59萬元(起拍價的5﹪)
增價幅度
5.8萬元(起拍價的0.5﹪)
看樣
聯繫人:楊律師,聯繫電話:13987790662
已知瑕疵及權利
負擔
優先購買權人
無
備註
html_string = html_string.replace("';\\n", "").replace("var desc='", "")
html_string = cleaner.clean_html(html_string)
print(html_string)
↓ 點擊下面的“瞭解更多”鏈接查看詳細。有問題請給我留言。
閱讀更多 上士聞道技術學習 的文章