擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速


擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速


●人工智能新基建●

2020“新冠”疫情發生以來,“新基建”成為熱議。2020年初,時任國家發展改革委高技術產業司、創新和高技術發展司司長伍浩曾介紹,新型基礎設施是以新發展理念為引領,以技術創新為驅動,以信息網絡為基礎,面向高質量發展需要,提供數字轉型、智能升級、融合創新等服務的基礎設施體系。

21世紀計算機及互聯網技術高度發展的今天,企業數字化、信息化、智能化已相對成熟,在此基礎上如何再創新?再發展?再升級?成為難題。據統計,就計算機應用而言,用於數學計算的僅佔 10%,用於過程控制的不到5%,其餘85%左右都是用於語言文字的信息處理。文本數據的高效利用與科學管理,已經成為各行各業升級發展的核心驅動力,特別對文本數據密集的企業而言,其主要業務基於大規模文本數據展開,面臨著更大的文本數據治理挑戰。例如,企業和機構存在大量的用戶、產品、市場、採購等文本數據,數據難以利用;大量文本數據中多為非結構化數據,需要處理大量WORD、PDF、圖片等非結構化數據;人工進行分析、分類、提取文本的工作量大。

運用NLP技術處理文本數據在企業日常運營及業務拓展中的迫切應用需要可見一斑。


●NLP技術發展●

自然語言是人類學習、生活的重要工具,區別於程序設計的人工語言,在整 個人類歷史上以語言文字形式記載和流傳的知識佔到知識總量的 80%以上。

20 世紀 50 年代到 70 年代自然語言處理主要採用基於規則的方法,基於規則的方法不可能覆蓋所有語句,雖然這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。

70 年代以後隨著互聯網的高速發展,豐富的語料庫成為現實以及硬件不斷更新完善,基於統計的方法逐漸代替了基於規則的方法,自然語言處理基於數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。

擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速

圖片來源:2019人工智能發展報告

2008 年以後,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到2013年的word2vec,將深度學習與自然語言處理的結合推向了高潮。

當下,應用自然自然語言處理進行智能自動化升級,已經成為很多企業的迫切需求,但常見的AI技術在應用過程存在諸多問題,如:

技術門檻高:缺乏AI專業人才,開發及應用部署門檻高;工具多且雜:數據採集、預處理、標註、訓練、評估、預測等各個環節應用的工具不一,缺乏一站式AI平臺支撐;操作複雜:模型開發及應用過程複雜,難以快速上手操作;數據洩露風險高:開發過程數據幾經轉換、傳輸,存在較大的數據洩露風險;模型持續優化難:模型訓練、應用及優化閉環流程難以持續;開發成本高:開發速度慢、成本高、週期長。

針對以上問題,達觀自主研發的NLP自然語言處理平臺,不侷限於解決企業運營、業務中的某一場景或某個需求,實現了模型數據標註、訓練、評估、預測及應用一站式服務,為企業處理文本數據提供基礎能力工具平臺,助力加快構建企業智能化“新基建”體系。

●達觀數據 NLP平臺助推AI落地提速●

企業落地一個AI應用最快需要多久?在達觀NLP平臺的答案是三天,一個系統平臺即可實現數據的導入、標註、訓練、評估、預測全流程,模型生產時間大大縮短。

平臺內即可進行多人數據標註,具備人性化的標註界面;內置當前最先進的BERT、LSTM、CNN等NLP算法進行模型訓練;支持針對訓練的模型進行評估,確認模型效果;支持模型一鍵上線、批量進行模型預測;並提供模型導出及模型應用API的服務。

擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速

NLP平臺之常見項目類型

系統內置四種常見的分類、抽取、分詞、實體關係項目類型,可以針對這些項目實現標註、訓練、評估、預測的全流程,快速、方便的實現各類模型的訓練與應用。同時支持標籤提取、主題模型、依存句法分析、文本摘要、新詞發現、觀點提取等十餘個NLP能力接口。實現如針對企業的用戶、產品、市場、採購數據的分類;針對市場對產品的評論的分類及文本情感的識別;針對財報、合同等文檔的抽取;針對特定領域進行的NER命名實體識別等。

擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速

NLP平臺之自定義模型

平臺支持自定義算法模型,不僅可以使用達觀內置的算法,還可以自定義算法模型,通過算法註冊實現自定義算法模型在平臺的自動化生產。

擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速

NLP平臺之通用工具


NLP平臺內置表格解析、文檔比對、OCR等文檔處理的通用工具,支持開箱即用。

擁抱人工智能“新基建”,達觀數據NLP平臺助推AI落地提速

●小結●

2019年達觀數據成功研發了基於Albert的深度神經網絡算法模型,從根本上提升AI系統對語言文字的語義理解能力。目前達觀數據自然語言處理平臺已經成功服務深交所、時代地產等多家機構與企業。


分享到:


相關文章: