OCR על מסמכים ישנים: חזור ל-1995 ומצא חוזה תוך שניות

מסמכים ישנים ל-PDF ניתן לחיפוש

ארכיון נייר של עשרות שנים, חוזים ישנים, תיקי לקוחות, מסמכים היסטוריים - כולם סרוקים אבל לא ניתנים לחיפוש. OCR מוסיף שכבת טקסט לכל קובץ: עכשיו חיפוש בשניות.

הכלי המקצועי

PDF לניתן לחיפוש - ישירות בדפדפן

חינמי · בלי התקנה · עברית מלאה

PDF לניתן לחיפוש עכשיו

ארכוב מסמכים ישנים: המדריך

ארכוב דיגיטלי: למה עכשיו?

מסמכי נייר מתדרדרים:

  • נייר מצהיב ונשבר
  • דיו דוהה
  • עובש ולחות
  • שריפה / שיטפון

עלות ממשית: ארכיון מ-1990 שלא דיגיטל = מסמכים שאובדים עם הפרישה / מכירת עסק.

ארכוב + OCR = נגישות לצמיתות:

  • חיפוש בשניות
  • שיתוף ללא חיפוש פיזי
  • גיבוי בענן = שרידות

סריקה לארכוב: הגדרות מומלצות

DPI:

  • 200DPI: מינימום, מסמכים עם טקסט גדול
  • 300DPI: מומלץ לרוב המסמכים
  • 400DPI: מסמכים ישנים / טקסט קטן / כתב יד

פורמט:

  • PDF מולטי-עמוד (לא JPEG נפרד לכל עמוד)
  • TIFF: איכות גבוהה, קובץ גדול (לארכיון מוסדי)
  • PDF/A: סטנדרט ארכיב (ראה make-searchable/archive)

צבע:

  • Grayscale (אפור): מספיק לטקסט, קובץ קטן
  • Color: למסמכים עם צבע חשוב (תמונות, חותמות)
  • Black & White: קטן מאוד, מתאים לטקסט פשוט

OCR על כתב יד ישן: ציפיות ריאליסטיות

כתב יד מודפס ברור (שנות ה-70-80):

  • OCR: 60-75% דיוק
  • שגיאות נפוצות: ו/ז, ל/ר, כ/ב
  • שימושי לחיפוש גס אבל לא מושלם

כתב יד רשמי (משרד, עורך דין):

  • OCR: 40-60% דיוק
  • הרבה שגיאות
  • מוסיף ערך מסוים לחיפוש

כתב יד בלתי-ניתן לקריאה:

  • OCR: <30% דיוק
  • ייתכן שלא שווה OCR
  • שמור כסריקה תמונה בלבד

המלצה: תמיד עדיף לנסות OCR - גם 60% דיוק עדיף על 0%. ניתן לחפש ולמצוא גם עם שגיאות חלקיות.

ארגון ארכיון דיגיטלי

מבנה תיקיות לארכיון עסקי:

ארכיון/
  לקוחות/
    כהן-דוד-1234/
      חוזים/
        חוזה-2001-OCR.pdf
        חוזה-2008-OCR.pdf
      התכתבות/
        מכתבים-2001-2005-OCR.pdf
  ספקים/
    ספק-א/
      ...
  פנימי/
    פרוטוקולים/
      ...

קונבנציית שמות:

  • [קטגוריה]-[שם]-[שנים]-OCR.pdf
  • OCR בשם = ידוע שהקובץ עם שכבת טקסט

Google Drive לארכיון: יתרונות

חיפוש מלא ב-Drive:

  • Drive מאנדקס כל PDF עם OCR
  • חפש שם לקוח, מספר חוזה, תאריך
  • תוצאות בשניות לאחר אינדוקס

מגבלות חינמי:

  • 15GB בחינם
  • ארכיון גדול (1000+ מסמכים): Google Workspace (בתשלום)

חלופות:

  • Dropbox Business: חיפוש טקסט ב-PDF
  • NAS Synology: חיפוש פנימי + גיבוי מקומי

ביצוע OCR בפרויקט גדול: כיצד לנהל

שלב 1: סריקה מסורתית

  • שכור סורק/ית לפרויקט
  • ציין: 300DPI, PDF, שמות ברורים

שלב 2: OCR ב-Batch

  • קבוצות של 50 PDF-ים בכל פעם
  • make-searchable לכל קובץ
  • שמור תוצאות

שלב 3: בדיקת איכות

  • פתח PDF אקראיים
  • Ctrl+F → חפש מילות מפתח
  • בדוק דיוק OCR

שלב 4: ארגון ב-Drive

  • העלה לפי מבנה תיקיות
  • המתן לאינדוקס (שעות לארכיון גדול)
  • בדוק חיפוש

זמן ממוצע לארכיון של 5000 מסמכים: 2-3 שבועות (כולל סריקה).

מסמכים ישנים ל-PDF ניתן לחיפוש - שלב אחר שלב

  1. 1

    סרוק מסמכים ישנים

    סורק שולחן עם 300DPI לפחות. מסמך ישן / צהוב: 400DPI לתוצאות טובות יותר. אל תשתמש בטלפון לארכיון - סורק פיזי יותר מדויק.

  2. 2

    מזג לPDF לפי קבוצות הגיוניות

    kovetz.co.il/merge: מזג כל מסמכים של תיק / תקופה לPDF אחד. שמות קבצים: 'לקוח-כהן-1995-2000.pdf', 'חוזי-שכירות-2000.pdf'.

  3. 3

    הפעל OCR ב-kovetz.co.il/make-searchable

    גרור PDF. בחר שפה (עברית). עבד. הורד. שמור עם שם ברור.

  4. 4

    אנדקס ב-Drive / NAS

    העלה ל-Google Drive בתיקיית ארכיון. Drive יאנדקס ויאפשר חיפוש. לארכיון גדול: NAS (Synology) עם מנוע חיפוש פנימי.

שאלות ותשובות

OCR על מסמכים ישנים מ-1980-1990 - יעבוד?
תלוי בטיב הסריקה והמסמך. מסמכים מודפסים (מכונת כתיבה, מדפסת) מ-1980+ עם סריקה טובה: OCR מצליח 80-90%. כתב יד: תוצאות משתנות - חלקי הצלחה. מסמך מצהיב / מרוסק: OCR מתקשה.
כמה מסמכים ניתן לעבד בבת אחת?
PDF אחד עם כמה מאות עמודים אפשרי. מגבלה: גודל קובץ 100MB. לארכיון גדול: עבד ב-PDF-ים של 50-100 עמודים כל אחד.
OCR משמר את מראה המסמך המקורי?
כן. PDF לאחר OCR נראה בדיוק כמו לפני - תמונת המסמך המקורית נשמרת. OCR רק מוסיף שכבת טקסט בלתי-נראית מתחת. הנמען רואה את המסמך המקורי.
שפות מעורבות (עברית + ערבית / עברית + אנגלית) - מה לבחור?
בחר את כל השפות שמופיעות במסמך. לרוב מסמכים ישראלים: עברית + אנגלית. מסמכים מהשלטון הבריטי/עות'מאני: בחר שפה שולטת + אנגלית.
אחרי OCR - ניתן להמיר לWord?
PDF עם OCR ניתן להמיר ל-Word. kovetz.co.il/word → המרה. לא תמיד מושלמת למסמכים ישנים - פורמט עלול להשתבש. עדיף לחפש ב-PDF מאשר להמיר.