เทคโนโลยี OCR คืออะไร และมีขั้นตอนการทำงานอย่างไร?

เทคโนโลยี OCR คืออะไร และมีขั้นตอนการทำงานอย่างไร?

เทคโนโลยี OCR หรือ Optical Character Recognition มีแนวโน้มที่จะเข้ามาเปลี่ยนวิธีการทำธุรกิจในยุคปัจจุบัน โดยนำกระบวนการทำงานแบบอัตโนมัติมาใช้ เพื่อช่วยเพิ่มประสิทธิภาพในการทำธุรกิจ เป็นเทคโนโลยีที่ใช้ระบบคอมพิวเตอร์เข้ามาช่วยในการเปลี่ยนลายมือ หรือเอกสารสแกนลายมือ รวมถึงเอกสารการพิมพ์ให้อยู่ในรูปการเข้ารหัสตัวอักษรที่ระบบคอมพิวเตอร์สามารถเข้าใจได้ หรือคิดถึงเทคโนโลยี OCR ว่าเป็นกระบวนการในการเปลี่ยนข้อมูลที่อยู่ในรูปแบบอนาล็อกมาเป็นข้อมูลในรูปแบบดิจิทัล เป็นอีกหนึ่งเทคโนโลยีทุ่นแรงที่ช่วยประหยัดเวลาในการจัดการข้อมูล และเอกสารได้มากยิ่งขึ้น

นอกเหนือใช้กันในภาคธุรกิจแล้ว เทคโนโลยี OCR ยังอยู่ในชีวิตประจำวัน ไม่ว่าจะเป็น Google Street views และ Dropbox ที่ใช้ OCR ในการแปลจากรูปให้เป็นตัวหนังสือแบบเรียลไทม์

ในบทความนี้ AI GEN จะพามาทำความรู้จักกับเทคโนโลยี OCR รวมถึงขั้นตอนวิธีการทำงานของ OCR กันอย่างลึกซึ้งกันมากยิ่งขึ้น

เทคโนโลยี OCR คืออะไร

ภาพประกอบ : Shutterstock

OCR หรือ Optical Character Recognition คือกระบวนการในการเปลี่ยนข้อความที่อยู่ในรูป ให้อยู่ในรูปแบบของข้อความ หรือกล่าวได้ว่าเป็นการสร้างข้อความ หรือไฟล์เอกสารจากไฟล์สแกนเอกสารทั้งในรูปแบบการพิมพ์ หรือลายมือ

เพื่อให้เห็นภาพมากยิ่งขึ้น ลองนึกถึงโค้ด หรือ Serial number ที่มีทั้งตัวเลข และตัวหนังสือที่เราอยากเก็บข้อมูลให้อยู่ในรูปแบบดิจิทัล เทคโนโลยี OCR จะช่วยให้เราสามารถเก็บข้อมูลเหล่านี้ให้อยู่ในรูปแบบของดิจิทัลได้ โดยใช้เทคโนโลยีในหลากหลายรูปแบบ ในการประมวลผลข้อมูลในรูปถ่ายนั้นๆ ดึงข้อมูลตัวอักษรออกมา และทำการจำแนกตัวหนังสือเหล่านั้น

สิ่งที่ OCR ไม่สามารถทำได้ คือการอ่านวัตถุ หรือสิ่งของที่เราต้องสแกน OCR ทำหน้าที่เพียงแค่อ่านตัวหนังสือที่เราตั้งใจจะเปลี่ยนให้อยู่ในรูปแบบของดิจิทัลเท่านั้น ตัวอย่างเช่น ถ้าเราทำการสแกนคำศัพท์ เทคโนโลยี OCR จะทำการอ่าน และเรียนรู้ตัวหนังสือเหล่านั้น แต่เทคโนโลยี OCR ไม่ได้รู้ความหมายของคำคำนั้น

ขั้นตอนการทำงานของเทคโนโลยี OCR

หากสมมติว่าชีวิตเป็นเรื่องง่าย และเรามีเพียงตัวอักษรเดียว คืออักษรตัว A และถึงแม้จะเป็นอย่างนั้นจริงๆ เทคโนโลยี OCR ยังคงต้องเจอความท้าทายในเรื่องนี้ เพราะแต่ละคนเขียนอักษร A ในรูปแบบที่แตกต่างกันออกไป แม้กระทั้งตัวพิมพ์อักษร A ในหนังสือแต่ละเล่มก็ยังใช้ฟอนท์กันคนละแบบ

โดยทั่วไปแล้ว มี 2 วิธีที่สามารถแก้ไขปัญหานี้ได้ ไม่ว่าจะเป็นการจำแนกตัวหนังสือ หรืออักขระในแบบภาพรวม หรือที่เรียกว่า Pattern Recognition หรือจะเป็นวิธีการตรวจจับในแต่ละบรรทัด และลายเส้นของตัวหนังสือที่เรียกว่า Feature Detection

1) Pattern Recognition

ถ้าทุกคนเขียนตัวอักษร A เหมือนกันหมด คอมพิวเตอร์จะสามารถจำแนกตัวอักษร A ได้ง่ายมากยิ่งขึ้น แค่ทำการเปรียบเทียบรูปที่ถูกแสกนเข้ามา กับตัวหนังสือ A ที่เก็บเอาไว้ในระบบ และถ้าทั้งสองอย่างแมทช์กัน ทำให้สามารถระบุได้ว่าตัวอักษรนี้คือตัวอักษร A

แต่เราจะทำให้ทุกคนเขียนตัวหนังสือเหมือนกันได้อย่างไร? ย้อนกลับไปเมื่อปี 1960 มีการพัฒนาฟอนท์รูปแบบพิเศษขึ้นมา เรียกว่า OCR-A ที่ใช้ในการทำธุรกรรมทางการเงิน เช่น เช็ค ทุกตัวอักษรจะมีความกว้างเท่ากัน และออกแบบลายเส้นของตัวอักษรมาเป็นอย่างดีเพื่อสามารถแยกความแตกต่างจากตัวอักษรทั่วไปได้ง่ายขึ้น เช็คที่ถูกพิมพ์ออกมาจะใช้ฟอนท์พิเศษอันนี้ทั้งหมด และโปรแกรม OCR ได้ถูกออกแบบมาเพื่อจำแนกตัวอักษรประเภทนี้เช่นกัน โดยออกแบบฟอนท์ให้เป็นรูปแบบมาตรฐาน ทำให้โปรแกรม OCR สามารถจำแนกตัวอักษรได้โดยง่าย แต่ปัญหาที่สำคัญอย่างหนึ่งคือ ตัวอักษรส่วนใหญ่ในโลกไม่ได้ใช้ฟอนท์ OCR-A รวมถึงลายมือเขียนเช่นกัน ในขั้นตอนถัดไปจึงเป็นเรื่องของการสอนให้โปรแกรม OCR สามารถจำแนกฟอนท์ตัวอักษรทั่วไปได้มากขึ้น เช่น ฟอนท์ Time, Helvetica, Courier และอื่นๆ นั่นหมายถึงว่าโปรแกรม OCR จะสามารถจำแนกฟอนท์ตัวอักษรได้มากขึ้น แต่ยังไม่สามารถการันตีได้ว่าระบบ OCR จะสามารถจำแนกได้ทุกฟอนท์ที่มีการส่งไป

ocr-a-font-sample.png (6 KB) รูปแบบฟอนท์ OCR-A (ภาพประกอบจาก explainthatstuff)

2) Feature Detection

หรือเรียกกันว่า Feature extraction หรืออีกชื่อเรียกว่า Intelligent Character Recognition (ICR) วิธีการนี้เป็นวิธีที่สามารถจำแนกตัวหนังสือได้มากกว่า สมมติว่าเราเป็นโปรแกรม OCR ที่ต้องจำแนกตัวหนังสือที่เป็นลายมือที่มีความหลากหลาย เราจะเลือกตัวหนังสือ A ออกมาได้อย่างไร ถึงแม้ว่ามีการเขียนที่แตกต่างกันเพียงเล็กน้อย วิธีการนี้ใช้กฏการทำงานดังต่อไปนี้ ถ้าเราเห็นเส้นตรงเฉียงสองเส้นที่มาประกบกันตรงกลางด้านบนสุด และมีเส้นแนวนอนตรงกลางระหว่างเส้นตรงเฉียงสองเส้น โดยการใช้กฏการทำงานนี้ จะสามารถจำแนกได้ว่าตัวอักษรนี้คือตักอักษร A ไม่ว่าจะเป็นฟอนท์รูปแบบไหน แทนที่จะใช้วิธีการจำแนกแพทเทิร์นตัวอักษร A แบบสมบูรณ์ ใช้เป็นวิธีในการจำแนกแต่ละองค์ประกอบของตัวหนังสือ (เส้นด้านข้าง, เส้นขีดคร่อม และอื่นๆ) แทน โปรแกรม OCR ส่วนใหญ่ที่จำแนกตัวหนังสือแบบ Omnifont (โปรแกรมจำแนกตัวหนังสือแบบพิมพ์ในหลากหลายฟอนท์) ใช้วิธีการทำงานแบบ Feature Detection มากกว่าที่จะใช้วิธี Pattern Recognition และโปรแกรม OCR บางประเภทใช้วิธี Neuron Network (โปรแกรมคอมพิวเตอร์ที่ใช้วิธีดึงแพทเทิร์นแบบอัตโนมัติเหมือนวิธีการทำงานของสมอง)

ภาพประกอบจาก explainthatstuff

เพื่อให้สามารถจัดการกับเอกสารได้หลากหลายประเภทมากยิ่งขึ้น ผู้ให้บริการเทคโนโลยี OCR เริ่มมีการพัฒนาระบบที่มีความเฉพาะเจาะจงมากยิ่งขึ้น เช่นระบบที่สามารถประมวลผลรูปภาพแบบพิเศษ เพื่อเพิ่มความแม่นยำในการจำแนกอักขระ หรือตัวอักษร รวมถึงมีการรวบรวมหลายเทคนิคไว้ด้วยกัน ตัวอย่างเช่น ใช้กฏเกณฑ์ในการทำธุรกิจบางอย่าง มาตรฐานคำศัพท์ หรือข้อมูลที่ประกอบด้วยรูปภาพสี เหล่านี้เป็นการใช้กลยุทธ์การรวมหลายๆเทคนิค Optimazation เข้าไว้ด้วยกัน ที่เรียกว่า “application-oriented OCR” or “customized OCR” มักจะประยุกต์ใช้กับการอ่านข้อมูลนามบัตร ใบเสร็จ/ใบกำกับภาษี รวมถึงบัตรประจำตัวประชาชน

สรุป

ถือได้ว่าเทคโนโลยี OCR สามารถประยุกต์ใช้ได้ทั้งในชีวิตประจำวัน และในภาคธุรกิจ เป็นอีกหนึ่งเทคโนโลยีที่ช่วยอำนวยความสะดวกและทุ่นแรงในการทำงาน เหมือนมีผู้ช่วยในการจำแนกตัวหนังสือ และประเภทของเอกสาร รวมถึงการแปลภาษาให้อีกด้วย ช่วยเพิ่มประสิทธิภาพในการทำงาน และลดความผิดพลาดของการกรอกข้อมูล รวมถึงทำให้มนุษย์มีเวลาที่จะสร้างสรรค์ผลงานด้านอื่นๆได้มากยิ่งขึ้นอีกด้วย

อ้างอิง : explainthatstuff, anyline, themanifest

Back

โซลูชั่น AI-Powered Face Recognition คืออะไร ช่วยธุรกิจในปัจจุบันได้อย่างไรบ้าง?

5 ไอเดียในการนำเทคโนโลยี AI ไปใช้ในภาคธุรกิจ