我們看的圖片視頻文字,計算機怎麼識別的?

luckymore22


所有圖片視頻文件都是一段或多段二進制數據,可以用二進制編輯器程序打開看到這些01信息。計算機是通過對應的程序去解析這些二進制來識別的。

以圖片舉例說明,圖片在電腦磁盤中就是一段無規律的連續的0和1的二進制串。

用圖片瀏覽器打開這個圖片,實際上是讀入了這串數據。假設規定了前面100個01表示圖片的長寬信息,後面具體表示每個像素的顏色亮度信息。經過這樣的處理就可以還原出圖片。

本質上就是圖片視頻文件都是一段或多段按指定規則編碼的二進制,對應的程序按照預先定義好的規則解析出來。

用非對應的程序打開會出現錯誤,比如用文本編輯器打開一個圖片就會顯示各種亂碼,這是因為文本編輯器是按自己的格式解析的。比如用16個0或1表示一個字符,那就可以每隔16個01去解析一次,還原出對應的字符。

當然真正的圖片視頻文件會有更豐富更復雜的規則,但原理上都是如此。


從零開始刷力扣


複雜文檔/圖像/視頻(如自由手寫、歷史文檔、自然場景、網絡圖片、複雜視頻等)文本識別是利用人工智能與模式識別技術,使計算機能夠像人一樣認識物理世界與互聯網等複雜環境中普遍存在的文字,在文字錄入、歷史文檔檢索、數字移動服務、智慧城市、網絡內容監控與社會公共安全、互聯網+、大數據等方面具有重要的應用價值。
複雜文檔/圖像/視頻文本識別是當前文檔分析與識別、模式識別等領域的重要發展方向,以具有重大社會與經濟價值的歷史文檔檢索及文化保護、互聯網圖片與視頻內容安全、移動服務與智慧城市等應用為背景,以複雜環境下的文檔與圖片為對象,利用模式識別、機器學習(深度學習)、圖像處理、計算機視覺等先進技術,使得計算機像人一樣分析、提取、識別和挖掘圖像中的文本信息。通常,複雜環境下文本識別可以分為兩大類別:複雜文檔(歷史文檔)/自由手寫文本識別和自然場景/網絡圖片/複雜視頻文本識別。

基於掃描圖像的歷史文檔/自由手寫文本識別,其任務是對複雜文檔圖像進行版面分析,提取文本區域,從而進行精準的文字識別,在個人筆記、檔案、歷史文檔、票據的數子化方面具有重要的應用前景。歷史文檔/自由手寫文本識別,其技術的挑戰性主要來自於歷史文檔本身的高度複雜性和自由手寫文本本身的多樣性。


而基於拍照或人工生產等的自然場景/網絡圖片/複雜視頻文本識別,則是從高度差異及異構的圖像/視頻中檢測、提取並識別文本信息。具體而言,自然場景文本識別是利用人工智能與模式識別技術,使計算機、智能手機等能夠像人一樣認識自然界中普遍存在的文字,在數字移動服務、信息檢索、智慧城市等方面具有重要的應用價值。網絡圖片文本識別同樣也是利用人工智能與模式識別技術,使網關、計算機等自動識別提取出互聯網中海量圖片與視頻中的文字信息,並進行相應的內容智能分析,在網絡內容監控與社會公共安全、互聯網+、大數據等行業中具有重要的應用前景。


自然場景、網絡圖片和複雜視頻中的文字識別大大難於傳統掃描文檔中的文字識別,因為它們具有極大的多樣性和明顯的不確定性,諸如多語言文字、不同的文字大小、不同的字體、多樣的文本與背景顏色、多變的光照與亮度、不一致的對比度與分辨率、多方向與形變文本、複雜的圖像背景等。所以,傳統的應用於掃描書刊報紙等文檔圖像的OCR技術在自然場景與網絡圖片文本識別中具有巨大的侷限性。近十年來,國際國內模式識別、文檔分析與識別、計算機視覺等領域的眾多科研機構和大量IT界巨頭都對自然場景/網絡圖片/複雜視頻文本識別技術進行研究與攻關。
自由手寫文本行識別是對一個自由手寫的文本行或句子同時進行字符切分和識別。由於字符大小、間距不規則,有些字符多部首,有些字符之間粘連等因素,字符切分和識別不能分開進行,否則不能正確切分。一般的做法是對文本行過切分成小的片段,每個片段是一個字符或部分字符,相鄰片段合併生成候選字符,用字符識別器對候選字符分類。分類結果與語言上下文、幾何上下文(候選字符外形位置特徵及相互關係)結合對所有的候選切分方式(路徑)進行評價,搜索最優路徑得到切分和識別結果。
經過切分生成的候選字符進行分類後得到候選切分-識別網格,對網格中的候選路徑進行評價和搜索成為關鍵問題,關係到最終的切分和識別性能。在此框架下,對候選路徑評價準則、路徑搜索算法、模型參數訓練這3個方面進行了深入研究。對於路徑評價,在貝葉斯決策框架下融合了多種上下文(包括字符識別模型、幾何模型、語言模型),同時採用置信度轉換的方式將分類器的輸出轉為後驗概率形式,以達到更好的模型之間的融合效果。該新方法在中科院自動化所脫機手寫樣本數據庫(CASIA-HWDB)上進行了一系列實驗,結果表明置信度轉換以及多種上下文的融合大大提高了文檔識別的性能,取得了91.39%的字符正確率。
近年來,深度卷積神經網絡(CNN)被用於手寫漢字識別,通過巨大規模樣本訓練,可以得到超過人類的識別精度。可以把CNN用於文本行識別,代替其中的字符分類器,有望提高文本行識別的性能。在英文手寫詞和文本行識別中,基於長短時記憶再生神經網絡(LSTM-RNN)的序列分類模型取得了領先的識別性能,在手寫中文文本行識別中還沒有顯現優勢,但將來會有潛力。
自然場景、網絡圖片和複雜視頻(幀)文本識別技術主要分為兩個階段:首先是對圖片中的文字進行檢測與提取,輸入的是原始圖片而輸出的是文本區域,即文本檢測;然後,對檢測出的文本區域進行識別,輸入的是文本區域而輸出的是結果文字,即文字識別。如果一個系統,輸入的是原始圖片而輸出直接為最終識別的結果文字,則稱之為端到端識別(End-To-End Recognition)技術。
如何對自然場景/網絡圖片/複雜視頻進行有效的文本檢測、識別(特別是端到端識別),一直都是學術界和工業界共同關注的重點與難點。近幾年在文本檢測、文本提取、文字識別等各方面提出了先進的自然場景與網絡圖片文本(端到端)識別統一框架,研製了一系列領先的自然場景與網絡圖片文本識別新技術。

(1)基於自適應聚類和多通道融合的文本檢測與提取技術

在自然場景與網絡圖片等複雜環境下的文本檢測,一般都利用連通域分析或圖像分割技術等提取候選字符塊,然後利用聚類算法把這些候選字符塊聚成文本塊。在這些方法中,主要涉及三個核心問題:

1)字符塊提取中,如何利用多通道的信息儘可能的檢測出複雜背景中的文字塊;

2)相似性度量中,如何考慮不同特徵的不同影響力,即如何選擇相似度計算特徵的權重;

3)聚類計算中,如何針對實際文本塊數目確定聚類數目。在以往的方法中,往往把這些問題分割起來進行處理。

不同的是,基於尺度學習的自適應聚類和多通道融合的文本檢測新技術,同步學習相似度特徵權重和聚類數目,能夠快速、魯棒、精確的檢測與提取出圖片和視頻中各種各樣的文本。

(2)基於深度學習和樣本自生成的文本分類器及文字識別器技術

近幾年火熱的深度學習技術,同樣也流行於文本判別器和文字識別器構建中,在複雜場景下文本檢測與識別中發揮了重要的作用。然而,深度學習都是基於較大規模數據來進行訓練的,在小數量樣本集上的學習依然是一個挑戰性的難題。在自然場景與網絡圖片中,由於多語言文字、不同的字體與大小、多樣的文本顏色與光照等諸多挑戰,需要更大規模的訓練數據;如何採集整理與深度學習相匹配的有效訓練數據,已成為文本檢測與識別深度學習技術的核心問題之一。巧妙的是,新技術根據少量真實樣本,自動生成大規模訓練樣本,設計基於深度學習的文本分類器及文字識別器,能夠精確的識別自然場景與網絡圖片中各式各樣的文本。

(3)基於檢測-識別信息反饋的文本識別框架

如何分析並克服自然場景與網絡圖片文本檢測與識別的主要困難,充分利用端到端識別系統中檢測、識別一系列過程信息共享和反饋,是業界攻關的主要技術方向。新技術基於檢測-識別信息反饋,構建統一的信息共享和反饋文本識別整體框架,通過文字識別信息來優化文本檢測,並以改進後的文本檢測提升文字識別效果,較大幅度的提高了端到端場景文本識別系統的整體性能。


經過幾十年的文檔分析與識別持續研究,特別是最近幾年的模式識別、機器學習等新技術與新手段的湧現,複雜環境下的文本識別理論、方法、技術與系統等各方面取得了重要的突破,複雜文檔/圖像/視頻文本識別技術將迎來應用的新天地。
從“線下”走進“網上”(自由手寫文本識別)。諸如,每次工作會議後,無需再把白板上的討論內容抄寫下來,只要將白板用手機等智能設備拍照留存,並對其中的自由手寫文本及圖片進行識別,系統便能自動識別並分檢出相關人員的後續工作,並將待辦事項自動存放到各自的電子日曆中。
讓“自然界”融入“信息界”(自然場景文本識別)。諸如,把手機攝像頭對準菜單上的英文菜名,屏幕上實時顯示出翻譯好的中文菜名;從車載攝像頭所拍攝的街景中自動提取並識別文字,讓地圖信息更豐富更準確,進行精確的導航;戴著智能眼鏡在超市購物,看到心儀商品上的文字,能自動搜索出商品的詳細信息。
把“淨化器”、“瞄準器”移至“互聯網”(網絡圖片/複雜視頻文本識別)。諸如,網絡社交APP中的圖片與視頻內容傳輸與發佈時,網關實時檢測識別圖像中的不良文本信息並進行內容管理,構建一個健康乾淨的互聯網大數據環境;富媒體移動通信網絡中,計算機對圖像、視頻類多媒體的不良信息內容進行自動化識別與分類檢索,確保通信通暢與數據安全。在互聯網+電商平臺上,自動識別海量圖片/視頻中內嵌的文本信息,進行商品的精準搜索和用戶的個性推薦。
另外,傳統的文字識別技術應用,比如票據識別、郵政地址識別、手寫檔案和歷史文檔數字化,過去由於技術制約,長期得不到規模化應用。現在,隨著新一代文字識別技術的發展和性能提升,這些人們長期期待的傳統應用有望迎來新一輪應用的爆發。



張強Beijing


計算機本身是不能識別的,是通過文件的格式區分的。

圖片: 一般的後綴格式為,.jpg , .png , gif 等等。

如果計算機內裝了圖片軟件,這個軟件裝進去會進行後綴格式的關聯,如果該軟件關聯了圖片對應的格式,系統就會調用該軟件,打開圖片。

同理視頻也是一樣。

簡單來講,計算機不能識別,軟件才可以,計算機系統只是進行了軟件和圖片格式的關聯。


好的啦


所有的數據都是0和1.然後聲音由聲卡處理,圖片視頻有由顯卡處理。然後在經過播放軟件還原。


工控人互相學習


對於計算機來講,所有東西都是由一堆0和1組成的。

這堆0和1怎麼就成了我們看到的文字、圖片、視頻還有聲音的。


金勇挖錢網


您好!網絡為什麼讓現在人們這麼痴迷,就是因為功能太齊全,所以網絡科技可以搞定一切!網絡科技也是綜合大師。


隆飛撩生活


提取點陣,然後分析特徵


分享到:


相關文章: