NLP ותמיכה בעברית – המרה ופענוח לכתב ולקול

שרית ביין
1 בינו׳ 2022
זמן קריאה 2 דקות

עודכן: 12 בפבר׳

עיבוד שפה טבעית בעברית מאפשר למערכות AI להבין דיבור וטקסט מעבר לזיהוי מילים. הוא מתמודד עם אתגרי השפה כמו היעדר ניקוד, ריבוי משמעויות ומבנה גמיש, באמצעות ניתוח הקשר, למידת מכונה ומודלים מתקדמים. עבור ארגונים ומפתחים, המשמעות היא יצירת תוכן ברור ומובנה, שמאפשר למערכות חיפוש ועוזרים חכמים לספק מענה מדויק ואמין גם בעברית.

עיבוד שפה טבעית(Natural Language Processing NLP) הוא תת-תחום של בינה מלאכותית ובלשנות העוסק

בבעיות הקשורות להבנה, פירוש ועיבוד של שפה, על מנת לגרום למחשבים "להבין" דברים שנאמרים או נכתבים בשפות אנושיות.

תיאור הבעיה

בעת התאמת השפה ולימוד המכונות עברית, נמצא כי המרת הדיבור בעברית לטקסט מתבצעת ברמה סבירה; הבעיה המורכבת עימה מתמודדים היא הקושי בפענוח משמעויות הטקסטים:

עקב העובדה שמבנה העברית והכתיב שונים מאוד משפות שבהן יש כיום מודלים מפותחים לעיבוד שפה טבעית, אי אפשר להשתמש במודלים הקיימים באופן ישיר לקבלת תוצאות טובות. למשל - בעברית אין אותיות ניקוד ומילים בנות 3-4 אותיות יכולות להיקרא בצורות שונות (רכבת – כלי התחבורה לעומת רכבת – הפועל בזמן עבר), ולעומת אנגלית, סדר המילים במשפט בעברית לא משנה את משמעות המשפט.
בנוסף, המכונות מתקשות להבין את הכוונה של משפטים ולשים מילים בהקשר הנכון. למשל - מה הכוונה במילה "רימון"? האם הכוונה לפרי או לכלי נשק? ובאופן דומה – למה הכוונה במילה "אח"? עובד בית חולים, תנור חימום או קרוב משפחה?

מכיוון שמספר דוברי העברית בעולם קטן מאוד יחסית, על אף שמרכזי הפיתוח של חלק מהחברות נמצא בארץ, לחברות אין הצדקה כלכלית מספקת להשקיע בעניין.

ניסיונות לפתרון

דרך אחת לפתור את הבעיה ננקטה ברשות התקשוב הממשלתית – הם פתחו בשנת 2020 ביוזמה ליצור מאגר מידע שישמש לאימון מכונות להבנת השפה העברית, ושיהיה זמין לשירותים הממשלתיים, לסטארט-אפים ולחברות גדולות. המאגר – "קורפוס מתויג ידני של עברית בת-זמננו" – הינו מאגר של משפטים בעברית המוגדרים על ידי הערך המילוני, חלקי הדיבר (פעלים, שמות וכו') וישויות תחביריות (נושא המשפט וכו'). לאחר שהוזנו משפטים רבים, באמצעות למידת מכונה, התוכנה תוכל להתחיל ולתת מענה גם למשפטים שלא הוזנו אליה קודם לכן. הפרויקט זכה בינואר 2021 לתעודת הוקרה מיוחדת של חבר השופטים בכנס 'הלשכה לטכנולוגיות המידע בישראל'.

גישה נוספת בה נוקטים החוקרים, על מנת לפתח עוזר/ת קולי/ת כמו אלכסה, סירי ודומים דוברי עברית, הינה פיתוח מודלים ממוחשבים מבוססי נתוני עתק (big data). מודלים אלו מעבדים מילים בהקשר (in context), כלומר ביחס למילים אחרות שבאות לפניהן ואחריהן במשפט, ומבוססים על עיבוד כמויות גדולות של נתונים. דוגמא לכך הוא מנוע BERT של גוגל (Bidirectional Encoder Representations from Transformers), שיצא בשנת 2019. BERT עוזר לגוגל בעיבוד שפה טבעית וע״י הדמיית רשת נוירונים מלאכותית הוא מסייע בהבנה טובה יותר של ההקשר של מילים שונות בשאילתה, בעיקר כאשר ישנו כפל משמעות. אחד החידושים שמציע BERT הוא היכולת להבין הקשרים גם בין מילים הקרובות אחת לשנייה, ולא רק כאשר אלו צמודות. כלומר - הוא יכול אפילו לנחש מילים חסרות.

לסיכום

על אף הקשיים האובייקטיבים הנעוצים במבנה השפה העברית / שפות שמיות, לעומת שפות אחרות, נראה כי עם ההתקדמות המואצת בטכנולוגיה בימינו, ואולי בזכות זה שלצד 10 מיליון פלוס דוברי העברית יש גם 300 מיליון דוברי ערבית, נוכל גם אנחנו ליהנות בקרוב מצ'אט-בוטים קוליים / טקסטואליים שתומכים תמיכה מלאה וברמה טובה גם בעברית.