03.07 大數據背景下,信息檢索麵臨著怎樣的挑戰?

L-鵬


從數據沿襲來談一下,儘管使用數據沿襲方法是調試大數據管道的一種新穎方式,但這個過程並不簡單。面臨的挑戰包括血統商店的可擴展性,血統商店的容錯性,黑箱操作員的準確捕獲血統等等。這些挑戰必須仔細考慮,並且需要對它們之間的權衡進行評估,以便為數據沿襲捕獲進行切合實際的設計。

DISC 系統主要是為高吞吐量設計的批處理系統,每個分析執行幾個任務,每個任務有幾個任務。根據群集大小,隨時在群集中執行的操作符總數可以從數百到數千個不等。捕獲這些系統的譜系必須能夠擴展到大量數據和眾多操作員,以避免成為 DISC 分析的瓶頸。

沿襲捕獲系統也必須具有容錯能力,以避免重新運行數據流以捕獲沿襲。同時,也必須適應DISC系統的故障。為此,必須能夠識別失敗的DISC 任務,並避免在由失敗的任務生成的部分血統和由重新啟動的任務生成的重複血統之間存儲血統的重複副本。一個血統系統也應該能夠正常處理本地血統系統的多個實例。這可以通過在多個機器中存儲譜系關聯的複製品來實現。副本可以在真實副本丟失的情況下充當備份。


用於DISC數據流的Lineage系統必須能夠跨黑盒子操作員捕獲準確的血統以實現細粒度調試。目前的方法包括Prober,它尋求通過多次重放數據流來推斷最小集合和動態切片來找到能夠為黑箱操作員生成指定輸出的最小輸入集合。儘管生成高度準確的譜系,但這些技術可能會在捕獲或追蹤上花費大量時間開銷,並且為了獲得更好的性能,可能最好換取一些準確度。


硅發佈


為了回答這個問題,我專門去網上查了一下相關資料,如圖:



1、可以看到,在大數據時代背景下,各種行業都面臨著數據增多所帶來的巨大挑戰,對於信息檢索、檔案管理等來說也不例。其同樣臨著巨大的數據衝擊,導致數據的檢索和保存極容易產生一系列的問題

2、傳統統計學一般停留在用抽樣技術在總體中抽取樣本收集數據,然後建立模型對數據進行統計分析。但是在數據如此之多的今天傳統的統計學在完成這方面時面臨巨大的挑戰。

3、在大數據時代的作法是獲得全量數據,對全量數據做深度分析,通過機器學習算法找到影響多因子,發現人都很難發現的原因與問題點。


專注企業互聯網,歡迎關注,共同學習成長!


分享到:


相關文章: