11.23 分享一個項目:大數據標註,大數據清洗

>

分享一個項目:大數據標註,大數據清洗

每個時代都有時代專屬的需求,傳統產業需要實體產品,因此誕生替代的工廠。工廠會買進大批機器,原材料,再招攬捆綁操作機器的人,可以生產出大量毛坯產品。這個時候,售賣原材料和機器的人賺了第一波錢。

毛坯產品生產出來,還不能直接到達客戶手中,需要經過篩選和加工,不合格的要返工或者廢棄,只有檢驗合格的產品才能到達經銷商手中。這時候,廠家到經銷商之間就有了一番層利潤,而作為篩選和加工的人,也能拿到一部分酬勞。

經銷商的關係就很複雜了,有些是直接售賣到下一級經銷商,以換取渠道信息差的利潤。有些是拿來自己貼牌,在商品上添加了很多內容,尺寸包裝,效益,情懷等,以換取更高的溢價空間。這其間錯綜複雜,我就不過多施加了。

到了互聯網時代,雖然很多產品是看不見,摸不著的,但從原材料製造,加工到經銷的流程是換湯不換藥,甚至已經到了9102年。

項目介紹

如果你稍微看一點點科技新聞,應該聽說過人工智能。關於這個東西的概念,如果用很專業的術語來解釋,既玩家不想看,我也不想寫。可以這麼理解吧,人工智能是一門計算機技術,主要目的是為了讓機器學習後,能夠勝任一些人類才能完成的工作。

例如我們能瞭解到的銀行的客服機器人,電商平臺的客服機器人等,這裡的機器人甚至變形金剛那種實體的,還有依託於網絡虛擬身份存在的機器人。但不管是什麼機器人,最核心的問題在於讓機器學習。

什麼叫機器學習,一個機器人剛被生產或開發出來,只是一個空殼,它要代替人類去做一些事情,就必須要填充很多內容,就像一個人必須要讀很多書,才能學會很多原本不會的知識。

但是,機器沒有主動學習能力,就需要人類把它要學習的知識輸送給它。某種一個客服機器人,它為什麼能跟你對話,是因為它的系統裡有大量的對話存儲,知道面對什麼問題該怎麼回答。你如果問一些不常見的問題,它有可能回答不出來,就是因為它的系統裡還沒有這個數據模型。

人工智能的應用領域會越來越廣,生產機器人的公司也會越來越多,他們最需要什麼?當然是大量給機器人的學習資料,可能是圖片,視頻,聲音等,而且這個需求是源不斷的,數據越多越好。

那機器人的學習資料從哪裡來?市場上有很多專門賣大數據的公司,相當於原材料。但買回來的原始數據還不能直接用,因為裡面會有很多缺陷,有些地方不符合規範, “年齡24”可能會有多個間隔或少一個單位,就需要人工來修改或做其他處理。

所以哥要說的項目就是大數據標註,大數據清洗。

項目玩法

AI數據標註的外部市場從2011年就開始了,BAT和人工智能公司對數據標註的需求最大,學術團體次之,政府,銀行等傳統機構的需求最小但有不斷增長的趨勢,數據需求比例大概為7:2:1。看起來這好像離我們普通人比較遠,實際上就是一個搬磚項目,所以很多人利用這個項目開了數據標註工廠,就像以前的電子廠一樣。那我們普通人怎麼切入呢?

一,加入眾包團隊

這是最簡單的玩法,不用自己去對接上游的數據源公司,也不用對接下游的人工智能公司,現在市場上有比較大的眾包平臺,他們已經把這個渠道打通,按照團隊的要求去做任務就行。工作類型不固定,附加擴展圖片,剪輯視頻,檢查某處的標點符號等,都是極易上手的任務。

線下可以去招聘網站搜搜“數據標註”,“數據清洗”的職位,一般月薪在4000元左右,基本上沒有學歷要求。在線上比較好的眾包平臺有京東眾智,百度眾包,龍貓數據等,玩家可以自己去他們的官網註冊,然後跟著團隊做任務就行,多勞多得。

二,自建外包團隊

這個稍微有點困難,就像開一個工廠一樣,需要打通上下游資源,還需要招募募集穩定的工人,確保在交換任務後,能夠按時按需去完成。創業本來就要承擔一定的風險,不然憑什麼要給你高回報?

在線下,目前國內有上千家大大小小的數據標註公司,因為這個項目門雲低,基本上只要會電腦可以操作,但需要承擔一定的接單和人力成本,最好能找到長期合作的人工智能公司,人工一般以全職為主,以保證項目的持續造血性。

在線上,可以自己建造一個眾包平臺,同樣需要找到能長期合作的人工智能公司,某些擁有渠道資源的代理商,AI相關企業等;人工以兼職的學生,寶媽為主,不需要擔負月薪,按完成的數量支付酬勞即可。具體的執行過程中,需要掌握很多細節,除了自己要打通渠道,還要考慮相關的問題。

項目寄語

這個數據清洗,數據標註項目說到底就是搬磚項目,適合大部分的人來做,就像現在的年輕都跑進電子廠一樣,屬於無門高科技項目。因為之前很多玩家諮詢,有沒有多餘技術,學歷,資源的項目?這個應該是比較符合的,如果你覺得還不錯,可以按照上述第一種玩法去做,一個月幾千塊沒問題。

說到自建外部團隊,適合想創業的個人或者團隊,前期需要學習部分大數據相關知識,同時需要花費一些成本,看自己的能力和想法吧,最好的方法就是到同行公司去學習,然後複製,照搬他們的模式就行。

肯定有人會問,已經有上千個數據標註公司存在,新入門的團隊還有機會嗎?有,人工智能相關企業會越來越多,關於數據的標註和清洗需求只會越來越大,這個行業拼寫的就是數據質量和完成效率,只要把這兩個優勢發揮好,不愁沒有上游資源。這個問題可以這麼解釋,已經有大工廠存在,依然有無數的小工廠在崛起。

最後,我想跟各位說的是,數據清洗,數據標註項目起碼還有3到5年的紅利,因為真正的市場規範還沒有形成,就看玩家們的眼光了。做這個項目最需要的是學習和耐心,因為很多人並不具備這方面的知識,前期需要學習大數據相關的邏輯和術語,操作的過程中更需要細心和耐心。

如果你想著一夜暴富,這個項目可能不適合你


分享到:


相關文章: