Python移除Html的sytyle屬性(remove attributes from HTML tags

清洗爬蟲數據的時候可能會需要去掉很多word軟件生成的html屬性。

以下代碼在python3.6環境下測試通過。

import lxml.html.clean as clean
# 需要保留的html屬性
safe_attrs = set(['src', 'href', 'colspan', 'rowspan'])
cleaner = clean.Cleaner(safe_attrs=safe_attrs)
html_string = "var desc='


拍賣財產信息表


<table>

拍賣財產

名稱

雲南省安寧市太平鎮始甸村委會新邑村民小組

國有出讓城鎮單一住宅土地

權證

情況

土地證號:安國用(2008)第0529號

權利限

制情況

已查封,抵押於峨山縣農村信用合作聯社

評估價

11791261元

起拍價(保留價)

11791261元

保證金

59萬元(起拍價的5﹪)

增價幅度

5.8萬元(起拍價的0.5﹪)

看樣

聯繫人:楊律師,聯繫電話:13987790662

已知瑕疵及權利

負擔

優先購買權人

備註

/<table>




';\\n"
html_string = html_string.replace("';\\n", "").replace("var desc='", "")
html_string = cleaner.clean_html(html_string)
print(html_string)

↓ 點擊下面的“瞭解更多”鏈接查看詳細。有問題請給我留言。


分享到:


相關文章: