אתר מאמרים
מעגל הכותבים אתר מאמרים קהילתי
שלום אורח!
מאמרים » ניהול תוכן » OCR עברי - מה זה?

OCR עברי - מה זה?

מחבר המאמר:
פורסם בקטגוריה: ניהול תוכן
המאמר נקרא 3175 פעמים
תאריך פרסום:
גרסת הדפסה | 0 תגובות
פורסם באתר Circle: אתר מאמרים קהילתי



תוכנת זיהוי תווים אופטי, או באנגלית Optical Character Recognition  - OCR, היא תוכנה המבצעת המרה של תמונה סרוקה למסמך בר עריכה במעבד תמלילים במחשב. 

כשסורקים מסמך למחשב מקבלים קובץ תמונה (בד"כ TIF, JPG, PDF). כפי שלא ניתן לבצע התערבות בתמונות מצולמות המכילות טקסט ללא שימוש בתוכנה מתאימה, כך גם לא ניתן לבצע עריכה בקבצים של מסמכים סרוקים. 

כדי לעשות שימוש בטקסט המופיע בתמונה לצרכי חיפוש או עריכה במעבד תמלילים יש צורך לבצע פעולה על הקובץ הסרוק. 

האתגר הגדול ביותר של מפתחי תוכנות זיהוי טקסט הוא להגיע לאחוזי זיהוי גבוהים בתהליך המרת תמונה של מסמך (או כתב יד). הפעולה עצמה היא זיהוי כל תו מתווי המסמך ותרגומו לאות. תהליך זה כולל מספר כללים וחוקים הקשורים לקטעי התמליל, לסוג האותיות ולשפת האותיות. 

קיימות שתי דרכים עיקריות בתהליך זיהוי תווים אופטי  -  בדרך הראשונה בודקים איזה מהאותיות דומה לתבנית מוגדרת מראש, ובדרך השנייה מחלקים את האות לחלקים ונותנים תיאור לכל חלק של האות.

החיסרון העיקרי של שימוש ב- OCR הוא אחוז גבוה של שגיאות. תוכנה שמזהה 90% מהמילים, עדיין שוגה ב- 9 מכל 10 מילים. אם המסמך שלכם מכיל 10,000 מילים, 1,000 מילים יהיו שגויות ותצטרכו להשקיע זמן ניכר בתיקון השגיאות והתאמת הטקסט הסרוק למסמך המקורי. 

כדי למזער את כמות השגיאות, התוכנה נעזרת במילון. בדרך זו התוכנה מכילה שכבה המתרגמת ומשלימה תווים שזוהו למילים שלמות. אם לא נוצרה מילה שלמה התוכנה משנה תווים במילה עד שנמצאת השלמה מול מילה זהה במילון, או המילה הקרובה ביותר. 

קיימת בעיה נוספת בתהליך הזיהוי. אם המסמך נסרק באופן לא מיושר, יש צורך ביישור השורות והמילים לפני הפעלת אלגוריתם הזיהוי. קיימים גם פונטים מורכבים שלא כל תוכנה יכולה או יודעת להתמודד איתם, כגון פונט רש"י. 

החוכמה בבחירת תוכנה מתאימה נמצאת באחוזי הצלחת הפענוח והזיהוי של התוכנה. השאיפה היא לקבל 100% זיהוי של קובץ סרוק. אם מצאתם תוכנה עם 98 – 99% זיהוי עשיתם עסק לא רע. 


אודות מחבר המאמר:

המאמר נכתב ע"י מנהל האתרים:

 

דוקיומנטס - ניהול מסמכים, סריקת מסמכים, שירותי סריקה, ארכיון דיגיטלי, חברות לסריקת מסמכים.

http://www.documents.co.il

 

סקאנבוק - שרותי סריקה, ארכיון דיגיטאלי ממוחשב, סריקת ספרים, סריקת תמונות, מכירת סורקים לסריקת ארכיונים.

http://www.scanbook.co.il

 

PDF to WORD – המרת קבצים,  pdf ל word - , המרת, pdf  המרת קובץ , pdf - תוכנה להמרת קבצים, pdf ל , word - המרת pdf ל. word –

http://www.pdftoword.co.il/

 

Rent A Scanner - סורקים להשכרה, השכרת סורקי מסמכים מקצועיים לסריקת ארכיון מסמכים, מכירת סורקי מסמכים מקצועיים.

http://rentascanner.co.il

 

מסמכים - אתר אינפורמטיבי בנושאים: ניהול מסמכים, סריקת מסמכים, ארכיון אלקטרוני, סריקת ספרים. http://mismachim.co.il

 

טל: 054-5880060



דירוג המאמר: לא דורג עדיין

תגובות למאמר OCR עברי - מה זה? תגובות למאמר OCR עברי - מה זה?

עד כה לא נרשמו כל תגובות למאמר OCR עברי - מה זה?. רוצה להיות הראשון?

הוספת תגובה חדשה


שם מלא:


כתובת דוא"ל:


תוכן התגובה

הקלידו את הקוד שבתמונה

Visual CAPTCHA


מאמרים נוספים בנושא ניהול תוכן

ניהול מסמכים – איך משפרים את היעילות במשרד המתקדם?
מערכות מידע – מקצוע העתיד
שירותי קלדנות – פתרון בזמן אמת
סריקת מסמכים - סריקת מפות – סריקת שרטוטים, איך עושים זאת?
סריקת מסמכים + ארכיון דיגיטלי = הגיבוי האופטימלי למסמכים בארגון
סריקת מסמכים - למה חשוב לבקש הצעת מחיר?
סריקת מסמכים - איך סורקים מסמכים בפורמט רחב
סריקת מסמכים – איך בוחרים תוכנה לניהול וסריקת מסמכים?
סריקת מסמכים – איך בוחרים שירותי סריקה באתר הלקוח?
ניהול מסמכים – איך עושים זאת בקלות ובמהירות?
ארכיון דיגיטלי – הדרך החכמה לניהול המסמכים שלכם
סריקת מסמכים – למה כדאי?
סריקת ארכיון מסמכים – איך עושים זאת הלכה למעשה?
OCR עברי - מה זה?
ניהול מסמכים - איך יוצרים ארכיון מסמכים?

הנך נמצא כאן: OCR עברי - מה זה?.

פרסם את מאמריך באתר! פרסם את מאמריך באתר!
תהנה מחשיפה מקצועית בחינם ואפשר לאלפי גולשים פוטנציאליים להיחשף לדעותיך.
פרסם מאמר.
דרושים בתחום הכתיבה | תנאי שימוש ומדיניות פרטיות | תוכן המפרסמים באתר מופץ ברשיון ייחוס-איסור יצירות נגזרות של Creative Common License.
כל הזכויות שמורות © Circle.co.il 2009-2012 - מאמרים להפצה חופשית מאת מעגל הכותבים.