龍哥死,白衣哥傷,大數據時代你應該有所思考

龍哥死了,白衣哥受傷了,大家議論的很熱鬧,龍哥死的大快人心,白衣哥受傷了,不要判刑、是打抱不平,是當代英雄等觀點,躍然朋友圈。各種文字看後,大體可以分為系統性分析的,有做技術細節分析的,有做社會價值分析的,專業法律分析等等,總之都很精彩、很正能量。就是沒有想要利用大數據來解決這個問題,故筆者試圖利用計算機與數據科學提出這個問題的解決方案。

龙哥死,白衣哥伤,大数据时代你应该有所思考

閒話少說,直接上乾貨:

第一步,殺人大數據採集

這一步自然是要採集人類歷史上儘可能多的殺人數據案例,可以肯定,大部分是文字描述,不管如何,咱假定採集到了10萬個典型案例,形成10T的文本資料吧。

數據源:法律文庫,互聯網爬蟲,只要設計好採集的關鍵詞、國內外各種法律文庫網址等規則相信專業公司可以輕鬆完成;

第二步,殺人大數據治理

文本資料是需要經過NLP技術進行數據治理的,文言文要修改為白話文,英語要翻譯成中文這兩部可以不拘泥於細節。有系統可以做。因為自然語言是人類智慧的結晶,自然語言處理也是我們理解案例中最為困難的問題之一,我們拿到了10個T的文本資料,10萬個案例,就需要利用NLP對這些案例進行文本分析,

先是分類,假定我們主要分4類: 1)壞人殺好人,直接殺人成功了 2)壞人殺好人沒有成功但被好人反殺死一類 3)好人殺壞人,直接殺死的 4)好人殺壞人,反被壞人殺死了。這裡需要對好人和壞人也要做些檢索,比如利用輿論定義主人公是好人,還是壞人,機器先辨認一遍,然後按照人的分類再分一次。

然後,我們對於分類好的案例,做兩個事情,自動分詞:

好人姓名,特點,網絡標註信息;

壞人特點,名稱,網絡標註信息;

然後我們根據分類會形成寬表,包括殺人者、被殺者、年齡、動機、時間、國家、地區、原因,職業、社會議論,社會影響、社會環境、具體描述等;

第三步,殺人大數據算法與建模

根據上一步我們寬表,我們需要提取好人的標籤,比如,見義勇為,忠誠、正義、為民除害等;

當事人標籤:主要區分當事人的屬性特徵,如職業信息可設定諸如古代英雄、歷史忠臣,企業高管、普通白領、職場新人、全職媽媽、小企業、社會知名人士,人物分類很難,需要根據法律上的經驗進行數據的標籤化。

案件標籤:主要根據案件發生的場景設定標籤,白天,晚上,事件起因等。這個需要律師來參與。

行為標籤:用刀殺、用槍殺、用身體殺、推下樓,用毒品,還是活埋,這個應該可以從10萬個案例根據詞頻提取,也可以根據律師的經驗總結;

社會背景標籤:社會背景,人文情況,朝代、文化屬性等;

確定應用場景的模型設計。假定我們建立兩個模型

1)告訴殺人的人,殺人的後果?

2)告訴被殺人你如何正當防衛?

這裡可能用到的算法

推薦算法:基於關聯規則的推薦(AssociationRule-based Recommendation)是以關聯規則為基礎,把之前的案件作為參考,根據目前的案例標籤找到相似的案例,為本案件推薦對象作出建議,關聯規則挖掘可以發現不同案件在實施過程中的相關性,在法律案件中為當事人提供行為參考。可以瞭解為,相同屬性的當事人的行為規則和判案結果之間必然有聯繫。通過這種聯繫預測判案結果。

聚類:主要解決對犯罪案件的動態分類,將當事人標籤、案件標籤、社會標籤、行為標籤的集合分成由類似的標籤組成的多個類,這個符合 “物以類聚,人以群分”,這裡聚類分析可稱群分析,它是研究分類問題的一種統計分析方法。聚類分析起源於分類學,但是聚類不等於分類。聚類與分類的不同在於,聚類所要求劃分的類是未知的。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等。10萬個案例估計聚類後就十多個。這樣我們再處理起來就比較方便了。最後我們可以可以通過圖形化感知案件。為當時人提供決策依據;

還可以應用迴歸、決策樹:、支持向量機、深度學習、神經網絡等算法,具體也是不斷的完善和反饋的過程;

第四部,殺人大數據分析

這裡有一個非常重要的數據源要在這個時候輸入,就是當時的殺人情況,假定我們採取意念輸入,我要殺人,願意,動機,殺人設想,以及我要防衛,我為什麼防衛等;

場景一:輸入數據後,我們根據模型1)殺人後果分析模型,立刻給你得出結果,後果是什麼?坐牢,失去親人,孩子,老婆,父母后半生的生活窘迫等;

場景二、輸入數據後,我們正當防衛分析模型1)如何正當防衛,正當防衛的時間把握,防衛前是否要溝通,防衛後可能遇到的法律風險,經濟損失,刑期多久。

模型是假設的,清楚邏輯,不斷試錯(這種事情不知道如何試錯,筆者還沒有思考好);

第五步,殺人大數據應用產品

“殺忍痛” APP下載,手動輸入殺人的動機,時間,方式,工具,周圍環境等因素,然後系統自動告知,你TMD還是不要殺了,傷財害命,得不償失,衝動是魔鬼;

這樣我們的大數據產品從數據採集,到數據治理,到數據結構化,數據標籤化,標籤結合算法模型,應用分析,然後把結果推薦到APP端基本就完成了一個殺人大數據解決方案;

當然,大數據殺人的大數據解決方案總結下需要的人才和工具:

人才隊伍:產品經理,數據分析師,技術工程師,架構師,律師。

工具:大數據採集平臺,自然語言分析平臺、大數據標籤管理系統、大數據建模、數據分析挖掘,數據可視化,APP快速開發定製系統等,因為考慮到實時性,系統要部署在雲端;

最後,肯定沒有那麼簡單,數據是需要不斷訓練和反饋優化的,我們的大數據殺人系統解決的問題是懲惡楊善,利用大數據技術,利用機器學習人工智能,輔助殺人和被殺者做出理性的判斷;數據與技術僅僅是在人與世間之間構建起橋樑,把深藏在案例的數據中的價值挖掘出來並加以應用。這不僅順應了當下的大數據思維模式,也符合法律判案未來的發展方向。

有一天,數據輔助判案,判案結果倒逼人的行為,利用數據治理國家將可期!

龙哥死,白衣哥伤,大数据时代你应该有所思考

張涵誠(歡迎微信諮詢:waynezhanghc) 研究領域主要包括: 大數據基礎概論,大數據在企業和政府的應用實踐,數據驅動業務變革的商業模式,醫療大數據運營體系、財稅大數據、海關大數據、扶貧大數據、運營商大數據建設方案,旅遊大數據平臺建設方案,數據資產管理,大數據產業生態分析、數據交易市場,區塊鏈,人工智能等新技術對於傳統企業的價值和賦能方案。


分享到:


相關文章: