רברס עם פלטפורמה

513 - Hebrew PDF at AI21Labs


Listen Later

פרק מספר 513 של רברס עם פלטפורמה. רן ואורי מארחים את יובל פלג לוי מ-AI21 Labs לשיחה על אחד האתגרים המורכבים והכאובים בעולם ה-AI הארגוני: חילוץ והבנה של קובצי PDF, בדגש על השפה העברית. יובל משתף במחקר מרתק וטריק יצירתי במיוחד שהם פיתחו כדי לגרום למודלים לקרוא עברית בצורה חלקה.

[00:00] היכרות ומה עושים ב-AI21

  • יובל נמצא ב-AI21 כבר כארבע שנים (לפני כן עבד ב-SparkBeyond וב-Ginger Software).
  • ב-AI21 עסק תחילה בסיכומים וב-Pre-training של המודל Jamba, וכיום מתמקד בעולם ה-Agents.
  • המערכת המרכזית עליה עובדים היום בחברה נקראת Maestro, שנועדה לתת שליטה (Controllability) ולהוציא את המקסימום מאייג'נטים מבחינת איכות ועלויות.
  • הקשר ל-PDF: מדובר בבלוק מידע בסיסי בעולם. אם מכניסים לאייג'נט PDF "מורעל" שבו המילה 'רן' מפוענחת כ-'דן', כל ה-Pipeline וההקשר הסמנטי נהרסים.
  • [04:38] למה PDF זה כזה כאב ראש?

    • בניגוד ל-HTML או LaTeX, פורמט PDF הוא נורא לא סמנטי ומתבסס בעיקר על גרפיקה.
      • הפרימיטיבים המרכזיים שם הם שורות מרחפות וגרפיקות וקטוריות. למשל, טבלה היא פשוט אוסף של שורות עם ציור של קווים ביניהן.
      • חבילות מודרניות לקריאת מסמכים (כמו MinerU או Marker) מנסות להרכיב Pipelines שמשלבים מודלים לזיהוי אזורים ויזואליים יחד עם חילוץ מטא-דאטה, אבל זה מורכב.
      • צלילה לעברית: ב-AI21 יצרו דאטה סינתטי וגילו שיש צניחה משמעותית בביצועים (עשרות אחוזים) של כמעט כל המודלים בשוק כשמדובר בעברית, כולל מודלי State of the Art.
      • [15:56] הפתרון: לעבוד על המודל בעיניים

        • מדעני נתונים בדרך כלל בוחרים בין כתיבת חוקים (יוריסטיקות) לבין אימון מודל מאפס עם המון דאטה. ב-AI21 רצו להימנע משני הפתרונות הללו.
        • הרעיון: לקחת מודל שטוב באנגלית, ולגרום לו לחשוב שהוא קורא אנגלית - למרות שהמסמך בעברית.
          • אי אפשר פשוט לתרגם את המילים לאנגלית, כי אורך המילים ישתנה וידרוס אלמנטים גרפיים וגבולות של טבלאות.
          • אי אפשר להמיר את המילים לסתם מספרים או תווים, כי המודל לא מבין הקשר כזה.
          • הפתרון שנבחר: לקחו מילים פופולריות באנגלית ומיפו אותן לגודל התיבה (Bounding Box) שלהן.
            • עבור כל מילה בעברית במסמך, מצאו מילה באנגלית שיש לה בדיוק את אותן מידות פיזיות של גובה ורוחב, והחליפו אותה במסמך (תוך שמירת המיפוי במילון).
            • התוצאה: מסמך PDF מרונדר מחדש, שנראה ויזואלית תקין לחלוטין עם רווחים מדויקים, אבל קריאה שלו באנגלית היא ג'יבריש מוחלט ללא כל משמעות סמנטית.
            • [24:30] מדידות, ביצועים ו-DeepSeek-OCR

              • כדי למדוד את ההצלחה, יצרו דאטה-סט בעברית שתויג ידנית באמצעות Label Studio.
              • השתמשו בפורמט בדיקה מקובל בתעשייה בשם OmniDocBench, המשתמש במדדים כמו Edit Distance לטקסט ו-Tree Edit Distance לטבלאות (שניתן לייצג במבנה עצי כמו HTML).
              • התוצאות: שיפור מרשים בכל המודלים שניסו (קפיצה של כ-7-8 אחוזים במודלים חזקים).
              • הקסם האמיתי הוא במודלים מסוג On-Prem (עבור בנקים או גופים ביטחוניים שלא יכולים להשתמש ב-API חיצוני) - שם השיטה הקפיצה את אחוזי ההצלחה מ-10% ל-50%.
              • כדי לחסוך את זמן העיבוד שדורש הרינדור מחדש של ה-PDF בזמן אמת, AI21 השתמשו בשיטה הזו כדי לאסוף ולייצר מסד נתונים עצום. בעזרתו הם אימנו מודל משקולות מבוסס DeepSeek-OCR שעושה את העבודה בצורה מהירה ויעילה, וגם יודע להתמודד עם מסמכים סרוקים (שאין להם מטא-דאטה להישען עליו).
              • [35:00] מה לגבי שפות אחרות?

                • ערבית: בדקו את השיטה גם על ערבית, וגילו שחלק מהמודלים הגדולים מציגים מדדי ביטחון (Self-Consistency) גבוהים מאוד בערבית ולכן השיטה פחות השפיעה שם, אבל כן עזרה משמעותית במודלים קטנים (Mini/Nano).
                • השערה: מודלים של שפה הם חיות שניזונות ממידע קיים, ופשוט יש הרבה פחות מידע זמין בעברית ברחבי האינטרנט ביחס לשפות אחרות.
                • קריאה נוספת: RTL PDF Parsing — הבלוג של AI21

                  האזנה נעימה!

                  ...more
                  View all episodesView all episodes
                  Download on the App Store

                  רברס עם פלטפורמהBy רברס עם פלטפורמה

                  • 4.4
                  • 4.4
                  • 4.4
                  • 4.4
                  • 4.4

                  4.4

                  5 ratings


                  More shows like רברס עם פלטפורמה

                  View all
                  גיקונומי by ראם שרמן ודורון ניר

                  גיקונומי

                  93 Listeners

                  עושים היסטוריה עם רן לוי Osim Historia With Ran Levi by רשת עושים היסטוריה

                  עושים היסטוריה עם רן לוי Osim Historia With Ran Levi

                  156 Listeners

                  חיות כיס Hayot Kiss by כאן | Kan

                  חיות כיס Hayot Kiss

                  142 Listeners

                  שיר אחד One Song by כאן | Kan

                  שיר אחד One Song

                  167 Listeners

                  מפתחים חסרי תרבות by מפתחים חסרי תרבות

                  מפתחים חסרי תרבות

                  10 Listeners

                  מנועי הכסף by כלכליסט

                  מנועי הכסף

                  39 Listeners

                  עושים תוכנה Osim Tochna by רשת עושים היסטוריה

                  עושים תוכנה Osim Tochna

                  8 Listeners

                  Startup for Startup by Powered by monday.com

                  Startup for Startup

                  20 Listeners

                  בזמן שעבדתם by mako מאקו

                  בזמן שעבדתם

                  104 Listeners

                  אחד ביום by N12

                  אחד ביום

                  313 Listeners

                  מפלגת המחשבות by Beit Avi Chai

                  מפלגת המחשבות

                  98 Listeners

                  השקעות לעצלנים - פודקאסט על כסף, השקעות והחיים עצמם by תמיר מנדובסקי

                  השקעות לעצלנים - פודקאסט על כסף, השקעות והחיים עצמם

                  26 Listeners

                  מפתחים מחוץ לקופסה by שחר פולק ודותן טליתמן

                  מפתחים מחוץ לקופסה

                  1 Listeners

                  LangTalks by Lee Twito, Gal Peretz

                  LangTalks

                  0 Listeners

                  הקרנף - עם יואב רבינוביץ׳ by בית הפודיום

                  הקרנף - עם יואב רבינוביץ׳

                  23 Listeners