1.1. Definisi
OCR
adalah sebuah sistem komputer yang dapat membaca huruf, baik yang berasal dari
sebuah pencetak (printer atau mesin ketik) maupun yang berasal dari tulisan
tangan. Adanya sistem pengenal huruf ini akan meningkatkan fleksibilitas
ataupun kemampuan dan kecerdasan system komputer. Dengan adanya sistem OCR maka
user dapat lebih leluasa memasukkan data karena user tidak harus memakai papan
ketik tetapi bias menggunakan pena elektronik untuk menulis sebagaimana user
menulis di kertas. Adanya OCR juga akan memudahkan penanganan pekerjaan yang
memakai input tulisan seperti penyortiran surat di kantor pos, pemasukan data
buku di perpustakaan, dll. Adanya sistem pengenal huruf yang cerdas akan sangat
membantu usaha besar-besaran yang saat ini dilakukan banyak pihak yakni usaha
digitalisasi informasi dan pengetahuan, misalnya dalam pembuatan koleksi
pustaka digital, koleksi sastra kuno digital, dll.
OCR
dapat dipandang sebagai bagian dari pengenal otomatis yang lebih luas yakni
pengenal pola otomatis (automatic pattern recognition).Dalam pengenal pola
otomatis, sistem pengenal pola mencoba mengenali apakah citra masukan yang
diterima cocok dengan salah satu citra yang telah ditentukan.Sistem ini
misalnya dipakai untuk mendeteksi sidik jari, tanda tangan, bahkan wajah
seseorang. Ada banyak pendekatan yang dapat dipakai untuk mengembangkan
pembuatan pengenal pola otomatis antara lain memakai pendekatan numerik,
statistik, sintaktik, neural dan, aturan produksi (rule-based).
Secara
umum metode-metode tersebut dapat digolongkan menjadi dua kelompok metode yakni
metode berbasis statistik dan metode berbasis struktur.Dalam metode yang
berbasis statistik, setiap pola ditransformasi ke dalam vektor yang memakai
ukuran dan karakteristik tertentu.Karakteristik ini seringkali lebih bersifat
statistik misalnya distribusi pixel ataupun jarak pixel.Sedang dalam metode
yang berbasis struktur, setiap pola yang diproses dinyatakan sebagai gabungan
beberapa struktur elementer.Pengenalan selanjutnya dilakukan dengan mencocokkan
komposisi struktur elementer dengan struktur yang sudah disimpan memakai aturan
tertentu misalnya memakai pendekatan teori bahasa formal dan automata. Secara
umum blok diagram kerja OCR adalah sebagai berikut : dengan struktur yang sudah
disimpan memakai aturan tertentu misalnya memakai pendekatan teori bahasa
formal dan automata.
1.2. Sistem
Kerja OCR
Data
Capture Data capture merupakan proses konversi suatu dokumen (hardcopy) menjadi
suatu file gambar (BMP). Preprocessing Preprocessing merupakan suatu proses
untuk menghilangkan bagian-bagian yang tidak diperlukan pada gambar
input untuk proses selanjutnya. Beberapa contoh preprocessing adalah noise
filtering. Segmentation Segmentasi adalah proses memisahkan area pengamatan
(region) pada tiap karakter yang akan dideteksi.
Normalization
Normalization adalah proses merubah dimensi region tiap karakter dan ketebalan
karakter. Dalam OCR algoritma yang digunakan pada proses ini adalah algoritma
scaling dan thinning. Feature Extraction Feature Extraction adalah proses untuk
Recognition mengambil ciri-ciri tertentu dari karakter yang diamati.
Recognition merupakan proses untuk mengenali karakter yang diamati dengan cara
membandingkan ciri-ciri karakter yang diperoleh dengan ciri-ciri karakter yang
ada pada database.
Postprocessing Pada umumnya proses yang dilakukan pada tahap ini adalah proses
koreksi ejaan sesuai dengan bahasa yang digunakan.
1.3. Kelebihan
dan kekurangan
a. Kelebihan
Dari pencarian cepat untuk menghemat ruang, ada banyak
manfaat untuk memindai dokumen Anda dengan software OCR:
* Tidak ada lagi
mengetik ulang
Jika Anda kehilangan atau tidak sengaja menghapus file
digital yang penting, seperti proposal atau faktur, tetapi masih memiliki hard
copy, Anda dapat dengan mudah menggantinya dalam sistem pengarsipan digital
Anda dengan menggunakan software OCR untuk memindai dari dokumen asli
* Quick digital
searches
OCR software mengkonversi teks ke dalam file pengolah
kata, memberikan Anda kesempatan untuk mencari dokumen-dokumen tertentu
menggunakan kata kunci (Keyword) atau frase. Misalnya, Anda dengan mudah dapat
mencari ratusan faktur dan menemukan nama tertentu sesuai name list.
* Edit teks
Setelah Anda memindai dokumen Anda menggunakan OCR,
Anda memiliki pilihan untuk mengedit teks dalam program pengolah kata pilihan
Anda.Scan item yang mungkin perlu diperbarui/edit di masa depan untuk membantu
mempercepat proses editing:
-Resep masakan keluarga
-Rental perjanjian
-Resumes/Lam
-Kontrak
*Hemat Tempat
Membebaskan ruang penyimpanan dokumen Anda dengan scan dokumen
dan menyimpan file aslinya ke lemari penyimpanan.
* Accessibility
OCR software memberi Kemudahan Access. Pengguna dapat
men-scan buku-buku, majalah, fax masuk, atau dokumen lain ke dalam program
pengolah kata untuk digunakan dengan voice-over utility.
b. Kelemahan
Ada beberapa kelemahan dari layanan OCR mengenai biaya
serta proses mengenali karakter. Awalnya, biaya pengembangan melalui proses OCR
replika mungkin tampak menguntungkan tapi jika Anda mempertimbangkan biaya
siklus hidup sistem OCR keseluruhan, biaya akan jauh lebih tinggi dari layanan
entri data. Mengoreksi kesalahan OCR jumlah biaya lebih dari menyiapkan format
digital dokumen.
Akurasi yang tinggi perangkat lunak OCR dapat membaca
lebih dari 400 karakter / detik, kira-kira, dan menghasilkan jumlah kurang dari
kesalahan OCR dibandingkan dengan perangkat lunak OCR biasa. Oleh karena itu,
jika Anda mencari proses OCR Anda harus menjaga workstation terpisah untuk
memperbaiki kesalahan OCR.
OCR perangkat lunak tidak efisien dalam mengenali
tulisan tangan dan font, yang cukup mirip dengan tulisan tangan. Dalam kasus
seperti mengetik pengguna memainkan peran yang lebih baik dari proses OCR.