03.07 大數據背景下，信息檢索麵臨著怎樣的挑戰？問答頭條網

2020-03-07 05:44:40 佚名

L-鵬

從數據沿襲來談一下，儘管使用數據沿襲方法是調試大數據管道的一種新穎方式，但這個過程並不簡單。面臨的挑戰包括血統商店的可擴展性，血統商店的容錯性，黑箱操作員的準確捕獲血統等等。這些挑戰必須仔細考慮，並且需要對它們之間的權衡進行評估，以便為數據沿襲捕獲進行切合實際的設計。

DISC 系統主要是為高吞吐量設計的批處理系統，每個分析執行幾個任務，每個任務有幾個任務。根據群集大小，隨時在群集中執行的操作符總數可以從數百到數千個不等。捕獲這些系統的譜系必須能夠擴展到大量數據和眾多操作員，以避免成為 DISC 分析的瓶頸。

沿襲捕獲系統也必須具有容錯能力，以避免重新運行數據流以捕獲沿襲。同時，也必須適應DISC系統的故障。為此，必須能夠識別失敗的DISC 任務，並避免在由失敗的任務生成的部分血統和由重新啟動的任務生成的重複血統之間存儲血統的重複副本。一個血統系統也應該能夠正常處理本地血統系統的多個實例。這可以通過在多個機器中存儲譜系關聯的複製品來實現。副本可以在真實副本丟失的情況下充當備份。

用於DISC數據流的Lineage系統必須能夠跨黑盒子操作員捕獲準確的血統以實現細粒度調試。目前的方法包括Prober，它尋求通過多次重放數據流來推斷最小集合和動態切片來找到能夠為黑箱操作員生成指定輸出的最小輸入集合。儘管生成高度準確的譜系，但這些技術可能會在捕獲或追蹤上花費大量時間開銷，並且為了獲得更好的性能，可能最好換取一些準確度。