אתר מאמרים
מעגל הכותבים אתר מאמרים קהילתי
שלום אורח!

OCR עברי - מה זה?

 

תוכנת זיהוי תווים אופטי, או באנגלית Optical Character Recognition  - OCR, היא תוכנה המבצעת המרה של תמונה סרוקה למסמך בר עריכה במעבד תמלילים במחשב. 

כשסורקים מסמך למחשב מקבלים קובץ תמונה (בד"כ TIF, JPG, PDF). כפי שלא ניתן לבצע התערבות בתמונות מצולמות המכילות טקסט ללא שימוש בתוכנה מתאימה, כך גם לא ניתן לבצע עריכה בקבצים של מסמכים סרוקים. 

כדי לעשות שימוש בטקסט המופיע בתמונה לצרכי חיפוש או עריכה במעבד תמלילים יש צורך לבצע פעולה על הקובץ הסרוק. 

האתגר הגדול ביותר של מפתחי תוכנות זיהוי טקסט הוא להגיע לאחוזי זיהוי גבוהים בתהליך המרת תמונה של מסמך (או כתב יד). הפעולה עצמה היא זיהוי כל תו מתווי המסמך ותרגומו לאות. תהליך זה כולל מספר כללים וחוקים הקשורים לקטעי התמליל, לסוג האותיות ולשפת האותיות. 

קיימות שתי דרכים עיקריות בתהליך זיהוי תווים אופטי  -  בדרך הראשונה בודקים איזה מהאותיות דומה לתבנית מוגדרת מראש, ובדרך השנייה מחלקים את האות לחלקים ונותנים תיאור לכל חלק של האות.

החיסרון העיקרי של שימוש ב- OCR הוא אחוז גבוה של שגיאות. תוכנה שמזהה 90% מהמילים, עדיין שוגה ב- 9 מכל 10 מילים. אם המסמך שלכם מכיל 10,000 מילים, 1,000 מילים יהיו שגויות ותצטרכו להשקיע זמן ניכר בתיקון השגיאות והתאמת הטקסט הסרוק למסמך המקורי. 

כדי למזער את כמות השגיאות, התוכנה נעזרת במילון. בדרך זו התוכנה מכילה שכבה המתרגמת ומשלימה תווים שזוהו למילים שלמות. אם לא נוצרה מילה שלמה התוכנה משנה תווים במילה עד שנמצאת השלמה מול מילה זהה במילון, או המילה הקרובה ביותר. 

קיימת בעיה נוספת בתהליך הזיהוי. אם המסמך נסרק באופן לא מיושר, יש צורך ביישור השורות והמילים לפני הפעלת אלגוריתם הזיהוי. קיימים גם פונטים מורכבים שלא כל תוכנה יכולה או יודעת להתמודד איתם, כגון פונט רש"י. 

החוכמה בבחירת תוכנה מתאימה נמצאת באחוזי הצלחת הפענוח והזיהוי של התוכנה. השאיפה היא לקבל 100% זיהוי של קובץ סרוק. אם מצאתם תוכנה עם 98 – 99% זיהוי עשיתם עסק לא רע. 


אודות מחבר המאמר

המאמר נכתב ע"י מנהל האתרים:

 

דוקיומנטס - ניהול מסמכים, סריקת מסמכים, שירותי סריקה, ארכיון דיגיטלי, חברות לסריקת מסמכים.

http://www.documents.co.il

 

סקאנבוק - שרותי סריקה, ארכיון דיגיטאלי ממוחשב, סריקת ספרים, סריקת תמונות, מכירת סורקים לסריקת ארכיונים.

http://www.scanbook.co.il

 

PDF to WORD – המרת קבצים,  pdf ל word - , המרת, pdf  המרת קובץ , pdf - תוכנה להמרת קבצים, pdf ל , word - המרת pdf ל. word –

http://www.pdftoword.co.il/

 

Rent A Scanner - סורקים להשכרה, השכרת סורקי מסמכים מקצועיים לסריקת ארכיון מסמכים, מכירת סורקי מסמכים מקצועיים.

http://rentascanner.co.il

 

מסמכים - אתר אינפורמטיבי בנושאים: ניהול מסמכים, סריקת מסמכים, ארכיון אלקטרוני, סריקת ספרים. http://mismachim.co.il

 

טל: 054-5880060

דרושים בתחום הכתיבה | תנאי שימוש ומדיניות פרטיות | תוכן המפרסמים באתר מופץ ברשיון ייחוס-איסור יצירות נגזרות של Creative Common License.
כל הזכויות שמורות © Circle.co.il 2009-2012 - מאמרים להפצה חופשית מאת מעגל הכותבים.