Project information

  • Category: Image Recognition
  • Project date: 01 August, 2019
  • Project URL: Code & Details

Subject

參賽題目旨在希望參賽者能藉由圖像辨識、字元解析等技術來實現一個能即時且準確率高的圖像辨識工具,以取代過往需依靠人眼實際辨識的工作模式,除了降低人力成本外,亦希望能全面提升運作效益和減少人為辨識錯誤的疏忽發生

Methods

  • 影像垂直與水平投影分析
    此方法是使用在字串辨識時,將字元分割的的方法,文字間會有間隔,因此對於像素不為0的位置設為起始點,為0的位置設為終點,就可獲得字元所在位置。
  • 連通域分析(connected component)
    為圖論內經典的方法,將連接起來的像素視為一個物件,opencv也有支援的函式。
  • 影像輪廓查詢cv.findcontours
    為opencv內的一個函數,可以用來偵測圖片內的物件輪廓,並將其存為一個物件。
  • Adaptive thresholding
    是一種決定threshold的方式,決定threshold 的目的在於將圖片二值化,也因此決定threshold相當重要。比起傳統的方法為global threshold,adaptive thresholding決定threshold的方式會考慮其附近的pixel,以達到考慮不同區塊差異的效果
  • 文字辨識軟體方面,Pytesseract套件是支援python的tesseract,而tesseract是一套開源的OCR軟體,目前由google管理,這個模型已經經由多種字型的dataset訓練過,是相當成熟的模型,目前已更新到第四版,並被利用在各種應用上。VGG為Deep learning中的一大經典模型,他主要的貢獻是將CNN透過較小的Conv堆疊使模型能夠變得更 “深”,是目前CNN圖像分類的主流模型。