大數據環境下科技情報研究的新模式

大数据环境下科技情报研究的新模式

大數據時代的來臨不僅為加速科學進步提供了前所未有的機遇,還使創建數據驅動型知識發現新模式成為可能。

科技情報研究是現代圖書情報機構的核心知識服務之一,需要通過對海量信息的檢索、採集、處理與解釋,分析特定技術領域的發展現狀和未來發展方向,為科技政策決策者提供諮詢參考。一般科技情報研究包括技術發展趨勢分析、新興技術主題監測、科技競爭力與合作分析、循證型科技戰略與政策分析等。

傳統的科技情報研究框架包括6個連貫且迭代的階段:情報分析方案規劃、多源異構信息採集、信息分類手工處理、信息定量定性分析、情報產品編制與傳播,以及支撐決策的成效評估與反饋。每個階段的任務主要由科技情報研究人員人工實施,最大的問題是每個階段需要耗費大量的時間和人力工作,特別是在信息檢索採集、信息集成和信息分析階段。從而導致科技情報研究的效率和時效性受到較大的負面影響。

大數據時代的來臨不僅為加速科學進步提供了前所未有的機遇,還使得創建數據驅動型知識發現新模式成為可能。

科學研究正在經歷數據密集型範式轉變。作為支撐科技決策的耳目、尖兵和參謀,大數據時代的科技情報研究需要通過知識分析和知識發現服務提供及時、精準和全面的情報分析。為應對這一挑戰,迫切需要發展新的科技情報研究模式加快大數據治理與工作流程,提供高質量的決策諮詢服務。

一個集成了一系列合適的分析工具、架構完善的數據治理體系有助於更高效地開展科技情報研究工作。本研究目的即是通過改造傳統的科技情報研究框架,增加數據集成管理和分析能力,重新設計數據驅動型科技情報研究新模式。新的模式有望推動實時信息採集與分析,使情報研究人員能夠快速獲取所需的情報,並通過一系列內嵌的分析方法開展深度情報分析。本文首先剖析傳統的人力驅動型科技情報工作流程,分析其存在的問題和侷限性,綜述海量異構數據集成、數據管理與分析方法和工具的研究進展。基於此,提出新的數據驅動型科技情報研究模式的整體架構。

傳統科技情報研究模式分析

人力驅動型模式分析

科技決策本質上是一個信息匯聚的過程。為推動這一過程,國內文獻情報機構已開展了一系列探索性工作,根據決策者的需求建立了情報服務模型。傳統人力驅動型科技情報研究模式可分為 6個連貫且迭代的階段(圖1)。

大数据环境下科技情报研究的新模式

圖 1 傳統人力驅動型科技情報研究模式

1)情報分析方案規劃階段。研究人員基於決策者的需求以確定分析主題、涉及技術領域和預期目標,以問題為導向設計情報分析方案。一般需求是調研一個特定的技術領域,包括國內外戰略規劃圖景,技術發展現狀與趨勢分析,國家、機構、科學家各層面科研競爭力評估,並基於上述分析結果提出對策建議。

2)多源異構信息採集階段。根據分析方案,情報研究人員從不同信息源手工檢索多種類型信息,包括論文、專利、報告、統計信息等。通過預篩選和信息驗證,將相關信息歸類為原始資源集,保存在分散的個人文件系統中。

3)信息分類處理階段。包括數據分類、元數據抽取、數據清洗、數據規範化和數據保存。利用德溫特數據分析器(Derwent Data Analyzer™,DDA)等商業軟件和CiteSpace等開源軟件處理從論文和專利數據庫下載的原始結構化數據。但由於缺少合適的方法和工具,需手工處理如戰略政策和報告文件等非結構化數據。

4)信息定量定性分析階段。這一階段應用定量分析和定性分析方法來整合數據,發現新的知識。目前定量方法主要限於文獻計量方法,通過分析科技文獻和專利發現及評估技術發展與演變態勢、科研競爭力以及合作網絡等。定性方法如專家德爾菲法、文獻綜述、主題研討、SWOT分析等多用於分析文本數據。

5)情報產品編制與傳播階段。研究人員將分析結果編輯成文,根據決策者的需求和傳播的要求,生成各種類型的情報產品,包括快報、彙編、決策參考簡報、分析報告、展示幻燈片、期刊論文、評論等。

6)支撐決策的成效評估與反饋階段。情報分析產品完成後,情報研究人員首先進行自評估,並徵求領域專家或用戶方的反饋。高質量的研究成果被決策者採用並付諸實踐或作為進一步決策的支撐,而質量不高的成果基於反饋結果重複上述階段修正。有時決策者會根據實踐中的變化或新出現的形勢在已有情報成果基礎上提出新的情報需求,使得研究人員完成各階段的迭代更新。

存在問題與侷限性

在大數據時代,決策層對多源異構數據實時分析和深度挖掘的需求日益強烈。數據的體量和類型已經遠遠超出手工分析的能力。由於情報任務通常有固定的完成期限,需要有良好組織的知識管理能力和合適的分析方法能夠在有限的時間產出高質量的情報研究成果,從而支撐高效科學的決策。顯然,目前的人力驅動型科技情報研究模式存在諸多問題和侷限性,無法適應不斷變化的科研和決策環境要求,主要存在以下4個方面的問題。

1)過程耗時。多個階段需要大量的時間和人力工作,特別是在信息檢索採集、信息集成處理和信息分析階段。這些任務還嚴重依賴於手工收集、處理、集成和解讀大量的信息。

2)知識發現能力有限。由於在情報任務中採集和儲存的多數數據是多屬性和非結構化格式的文本信息,情報研究人員能夠有效分析的數據只佔較小比例。

3)數據管理與共享問題。

戰略政策和報告數據集通常儲存在分散的個人文件系統中,沒有合適的基礎設施來共享和集成相關數據,因而不能有效地管理和利用。

4)方法學問題。大部分的情報成果是描述性、小規模的分析,缺乏理論框架和量化內容分析的方法學和研究模型。

目前的情報研究模式還屬於描述型信息分析,注重通過挖掘歷史數據來理解以往的經驗和實踐成效,研究其背後的影響因素。儘管這一分析模式對於決策而言仍有一定的價值,但由於其受限於手工數據採集和分析能力而缺乏前瞻性,另一方面越來越多的決策需求需要通過集成和分析海量的多源異構數據以獲得預見性判斷來滿足,因此發展基於大數據的預測型分析模式乃至解決方案型分析模式,從而能夠利用有限的資源做出更好的決策和行動建議。將是未來科技情報研究的大勢所趨。

大數據分析機遇

目前的科技情報研究工作模式可以通過集成大數據方法和技術加以改進。大數據的“4V”特徵,即海量的數據規模(volume)、快速的數據流轉和動態的數據體系(velocity)、模態繁多的數據類型(variety)和巨大的數據價值(value),對數據管理和分析提出了新的挑戰。大數據已經引起了產業界、學術界、政府機構等各創新單元的高度重視,對於其能夠產出豐碩的成果給予很高的期望,普遍認為在數據獲取、分享、集成、分析及建立數據預測模型等方面的能力提升能夠推動各個學科新的知識發現不斷湧現。大數據範式有潛力將不完美的、複雜的以及通常是非結構化的數據轉換為切實可行的情報,並且為提升科學研究、商業活動、健康醫療、公共管理以及國家安全等關鍵領域的戰略決策能力創造了經濟可行的機遇。

情報研究人員越來越需要將不同來源、不同類型的數據集成到數據分析過程中,而主要限制因素不僅是需要分析的數據規模,更主要的是異構數據的多樣性。為解決這些挑戰,學術界和產業界提出了多種大數據集成和分析方法與工具。

數據集成

集成多樣化的數據和方法使我們能夠發展預測性分析的能力以發現新的知識。由於傳統的數據集成方法在大數據環境下效率低下,探索如何開發新的數據關聯和集成方法來最大程度地提高大數據的價值成為一個熱門的研究課題,特別是數據的深度集成仍是一個難題。除了已有多個昂貴的數據集成商業化平臺外,近年來產業界和學術界還開發了一系列用戶友好、功能豐富的數據集成開源工具。其中有許多工具,如 Kettle和 Talend Open Studio,具有直觀的圖形化用戶界面和易於使用的拖放功能,能夠兼容多個運行平臺/操作系統,並且能夠進行自定義的部署配置。這些高效低成本的解決方案能夠探索用於開發多樣化的大數據應用。

斯坦福大學 InfoLab實驗室開發了一個開源的知識抽取系統 DeepDive,能夠從非結構化信息(如文本)創建結構化數據,並將這類數據集成到現有的結構化數據庫。DeepDive充分利用統計推斷和機器學習的效率和有效性用於複雜的抽取任務,已在藥物基因組學、古生物學、反人口販賣執法等一系列領域獲得了應用。

還有相當多的研究人員在這一領域開展了大量工作。美國亞利桑那大學開發了用於情報與安全信息學的數據基礎設施,主要關注於數據採集、數據管理和數據獲取。這一基礎設施由在線存檔和分析工具組成,集成了大批的開源數據,使研究者能夠更方便地與同行開展合作。Ma等基於統一概念模型(UCM)提出了一個數據集成框架,解決現實世界中汽油和天然氣安全性監管的問題。通過 UCM的結構對齊,將不同來源的數據自動轉換成實例數據,存儲在圖數據庫中,並通過語義相似度計算指標建立相互關聯。Daraio 等提出了基於本體的數據管理(OBDM)方法集成異構數據,包括學術大數據(如論文和引文等)支持科研評估和開發科學學政策模型。Meng等建立了以作者為中心的計算機科學學科中文文獻集成系統 ScholarSpace(C-DBLP),支持按研究者、研究領域和研究主題等類別的學術信息分面檢索。Williams 等開展了數字圖書館與學術文獻搜索引擎 CiteSeerχ 的案例研究,集成了網絡上的海量文獻數據,並進行了自動抽取、聚類、實體鏈接和人名消歧等數據處理。

數據分析

數據分析是大數據價值鏈上最後和最重要的一個環節,目的是提取有用的價值,提出建設性結論和/或支撐決策。一般而言,按照數據類別可將數據分析分為 6種類型(表 1),結構化數據分析、文本分析、網站數據分析、多媒體數據分析、網絡數據分析以及移動數據分析。大部分數據分析屬於描述性分析或預測性分析,近年來在決策過程中後者受到了越來越多的重視。根據 Wlodarczyk等的定量分析結果,綜合運用大數據和預測性分析技術的趨勢顯示,大數據是預測性分析背後的主要驅動因素。

表1 大數據分析技術(按數據類型分類)

大数据环境下科技情报研究的新模式

目前,有許多大數據挖掘和分析工具在線可供使用,包括昂貴的商業軟件/平臺和 Weka、KNIME等開源工具,其中大部分基於 Java,且各平臺通用。但數據分析是一個很寬泛的領域,包含不同的情景變化並且極其複雜。根據不同的數據特徵和應用場景需求,數據分析算法的時空複雜性大相徑庭。雖然研究人員已建立了各種框架解決從數據中抽取有用知識的問題,但通常只限於有限的數據類型或特定的應用場景。因此,需要對目前的數據集成與分析方法進行詳細評估和測試,經過定製化改造後,才能解決分析多學科、動態和複雜數據的挑戰,從而在大數據環境下的科技情報研究新模式中靈活應用。

數據驅動型科技情報研究新模式

提出一種數據驅動型科技情報研究新模式的概念框架,解決傳統情報研究模式的問題和侷限性。這一概念框架主要利用大數據管理和分析方法改革現有的耗時耗力、依賴手工收集和分析信息的方式,能夠智能獲取、存儲、檢索、組織、處理、分析與可視化呈現海量異構數據,利用新技術建立不同數據集間的數據關聯,集成和綜合分析結構化和非結構化數據,從而發現有價值的知識。

整體架構

數據驅動型科技情報研究新模式的設計應考慮在大數據環境下協同工作的功能性、靈活性和可用性,設計能夠收集大批量的政策、科技和產業等類型數據,包括戰略規劃、政策、路線圖、經費預算、項目、機構、人員、研究設施、科技文獻、專利、分析報告、新聞動態、統計數據等;提供特定研究領域發展趨勢的精準分析和可視化呈現;具有高度靈活性可定製的資源描述、數據模型和算法,開展信息發現、遴選、組織和分析。該模式通過採用大數據架構和工具,設計和建造從數據獲取到數據存儲、處理、檢索和分析的全套解決方案,使情報研究人員能夠快速獲取所需信息,並靈活調用各種分析方法開展深度情報分析,整體架構如圖2所示。

大数据环境下科技情报研究的新模式

圖 2 數據驅動型科技情報研究新模式整體架構

科技態勢大數據結構體系

圍繞科技創新決策需求研究構建科技態勢大數據結構體系,支撐科研態勢分析感知環境建設,重點研究內容包括2個方面。

1)確定科技態勢基礎源數據構成。通過對各種異構的權威網站和數據庫資源梳理分析,以及開展文獻資料調研和專家諮詢等方式,在政策、經費、項目、機構、人才、裝備、論文、專利、成果、獎項、評價指標、產業經濟、資源生態、社會環境等方面發現、遴選和評價不同來源、不同類型的高質量科技態勢基礎源數據。

2)從資源投入數據和創新產出數據 2個維度來構建科技態勢大數據體系。其中,資源投入數據維度包括:科技創新戰略環境、R&D經費投入、R&D機構人員投入、R&D設施平臺投入;創新產出維度包括:科技論文、發明專利、技術貢獻、產業貢獻等。

科技態勢大數據治理框架體系

基於大數據生態架構和機器學習關鍵技術開發科技態勢數據採集、抽取與融合、存儲、索引和數據分析等先進方法,形成科技大數據治理模型和框架體系,實現對科技戰略政策文本數據、科技投入產出數據、技術經濟數據、環境社會影響數據等的智能採集、語義化知識組織和定量可視化分析,重點研究內容包括3方面。

1)科技態勢數據採集和加工處理。對 3個層面的數據資源進行收集整理,一是已經建成的科技領域專業平臺系統數據庫和非結構化、半結構化和結構化數據的採集和集成;二是動態科技監測實時流數據的採集;三是科技領域開放數據的採集等。通過數據清洗、格式轉換、實體和關係抽取、數據匯聚和關聯、有效性效驗等數據處理工作,加工數據進入科技大數據雲存儲中心。

2)科技態勢數據分佈式存儲。建設基於雲計算的科技大數據分佈式雲存儲系統,以支持海量科技數據資源的存儲擴展。深入研究大數據文件系統的海量數據管理規範,通過海量異構數據的抽取、映射、收割、導入等集成方法,形成清晰的大數據存儲結構。

3)科技態勢數據挖掘應用。研究在大數據環境下構建多種微服務集群,提供多種大數據處理架構下機器學習、數據挖掘算法和計算模型支持,對多源異構科技數據進行政策文本計算、比較分析、聚類分析、因果分析、關聯分析、趨勢預測等分析,實現數據深度挖掘,為科技前沿識別、態勢刻畫、趨勢預測以及技術評估提供數據分析支撐。

科技大數據及情報應用服務體系

完善科技大數據及情報應用服務體系設計,通過構建覆蓋多部門、多層次的協同服務體系,開展數據驅動型情報諮詢服務,發佈系列化數據分析與情報研究報告等決策支持產品,重點研究內容有3個方面。

1)建設用戶情景導向的科技大數據及情報應用服務產品體系。研究構建國家政府部門、一流科研院所、創新科技企業、社會公眾不同層級的典型需求模型,設計相應的精細化加工數據產品、情報報告和服務體系。

2)建設科技態勢大數據及情報應用服務雲平臺,對內建立完善的科技數據與情報成果管理和共享機制;對外提供科技態勢大數據多維檢索與分析,以及情報研究諮詢定製服務,提高科技大數據及情報應用服務的便利性、規範性和權威性。

3)探索研究主動對外服務和社會化傳播模式。豐富科技雲平臺的數據在線服務和情報產品個性化定製服務,提供數據規範應用程序編程接口(API),並依託學術期刊、報紙、微信新媒體等平臺,傳播科技態勢大數據與情報成果。

科技態勢大數據運維保障支撐體系

科技態勢大數據運維保障支撐體系重點研究內容包括3個方面。

1)制定完善的科技態勢大數據體系標準規範,保證數據集群應用過程中各個環節正規有序,對科技態勢大數據集群涉及的元數據標準、數據存儲、數據共享和重用以及合理使用數據問題能夠快速響應,併合理解決。

2)形成科技態勢數據資源可持續收集匯聚標準流程,保障海量異構數據資源通過定期下載、採集、收割等資源獲取方法形成科技態勢重要方向結構化、半結構化和非結構化數據資源的完整性和有效性,構建完善的科技態勢數據深加工機制。

3)建立可靠的技術支撐和支持保障機制,形成穩定的科技態勢數據資源獲取、數據資源組織、數據資源存儲到數據資源分析應用等一系列工作的長期可持續服務機制,依託平臺形成完備科技態勢數據資源基礎服務環境,保障服務平臺的穩定運維。

結 論

提出了一種數據驅動型科技情報研究新模式的概念框架,以建立科技大數據及情報應用服務體系為目標,以形成完備的科技大數據結構體系和有效的科技大數據治理框架體系為基礎,以大數據生態圈信息技術和服務平臺為支撐,以打造科技數據與情報服務產品為抓手,以數據標準和工作規範為機制保障,豐富化科技大數據資源和情報應用服務產品,全面提升科技大數據與情報應用服務的能力和水平。未來研究將進一步優化系統設計,並在解決實際決策問題的現實環境中進行評估。

1)通過開展差異化的精準用戶畫像和開發相應的海量異構數據治理模型,優化系統設計。長期以來,傳統科技情報研究模式習慣於利用單一的數據治理模式應對所有類型用戶的需求。隨著大數據時代科研範式的轉變,科技決策者的需求因時而異。科技大數據及情報應用服務體系需要探索建立用戶畫像模型庫,明確界定不同決策情景下的數據需求,以及相應的數據收集和分析模型,這將有助於情報研究人員便捷調用適用於不同領域和不同用戶需求的大數據分析方法和開發環境。

2)綜合評估現有的數據集成、數據分析方法和開源工具,避免誤用和濫用。科技大數據及情報應用服務體系需要集成多種數據集成和數據分析方法及工具,不同的方法、工具在不同數據規格和應用情景中能夠發揮的功能大相徑庭,如應用不當產生的分析結果反而會誤導決策。為解決數據敏感性和應用場景適用性問題,需要詳細調研各種方法工具適用的用戶情景和數據規範標準,從用戶需求和方法工具供給兩方面實現適配管理。

3)探索自動構建垂直科技領域知識圖譜的方法。通過提供有價值的背景領域知識,垂直科技領域知識圖譜能夠極大地提高傳統信息處理任務(如信息抽取、檢索、推薦、問答系統等)的有效性,因此對於科技情報研究而言有著重要意義。為應對決策者的不同需求,科技大數據及情報應用服務體系需要在領域專家輔助下利用大量文本語料豐富垂直科技領域知識圖譜,從而提高知識服務的效率和質量。

大数据环境下科技情报研究的新模式

作者丨陳偉,楊銳,何濤,王朔,陳江萍

轉自丨《科技導報》2018年第16期


分享到:


相關文章: