על היחידה לעיבוד שפה במאל"ו

היחידה לעיבוד שפה הוקמה על ידי המרכז הארצי לבחינות ולהערכה (מאל"ו) בשנת 2000 והיא עוסקת בפיתוח כלים ממוחשבים לניתוח לשוני של טקסטים בעברית ובערבית ובפיתוח תכנה להערכה ממוחשבת של תוצרי כתיבה (חיבורים). עד כה פותחו במסגרת היחידה כלים ויישומים רבים, והם מצויים בתהליך מתמיד של עדכון ושיפור.

לפניכם תיאור של הכלים העיקריים שפותחו ביחידה. באתר זה תוכלו למצוא הדגמה של חלקם.

מילון מורפולוגי

המילון המורפולוגי שנבנה במסגרת היחידה מהווה בסיס לניתוח טקסטים בעברית. המילון נוצר באמצעות הזנה ידנית של ערכים מילוניים (שורשים וצורות בסיס) ושל מידע לשוני על כל ערך, לרבות תבניות הנטייה וצורות הכתיב השונות של הערך. המילון מכיל 35,143 ערכים בסיסיים, מתוכם 3,062 שורשים פועליים, 17,338 שמות עצם, 4,211 שמות תואר, 381 תוארי פועל, 9,079 שמות פרטיים ו־1,072 מילות דקדוק ומילים מקטגוריות מצומצמות נוספות (מילות שלילה, מילות קיום וכיו"ב). המילים מופיעות במילון הן בכתיב חסר הן בכתיב מלא. סך הכול כולל המילון 1,019,459 צורות מנותחות מורפולוגית (נכון ליוני 2023). המילון דינמי ומתעדכן באופן שוטף באמצעות תוכנה ייעודית.

קורפוסים

קורפוס מתויג באופן ידני

הקורפוס המתויג כולל 350,506 מחרוזות מילים, שנלקחו מתוך טקסטים מגוונים (נכון ליוני 2023). מחרוזות המילים תויגו באופן ידני על ידי מתייגים בעלי הכשרה לשונית אקדמית באמצעות תוכנה שפותחה למטרה זו. התוכנה מאפשרת בחירה ידנית של הפירוש המורפולוגי הנכון של כל מחרוזת בטקסט מתוך מכלול הפירושים המורפולוגיים האפשריים עבורה, הנשלפים מתוך המילון המורפולוגי. הקורפוס המתויג מתעדכן באופן שוטף ומשמש בסיס ליצירת מודל סטטיסטי לביצוע תיוג מורפולוגי וסמנטי באופן ממוחשב (ר' להלן).

קורפוסים מתויגים באופן ממוחשב

להלן הקורפוסים העיקריים שנאספו במסגרת היחידה ומשמשים בפיתוח כלי ניתוח הטקסטים. כל אחד מן הקורפוסים תויג מורפולוגית וסמנטית באופן ממוחשב (ר' להלן) והופקה לפיו רשימת שכיחות מילים.

קורפוס M1

קורפוס M1 כולל כמיליון מילים ונאסף מתוך מאות טקסטים שנלקחו ממקורות שונים ומייצגים סוגות שונות (מאמרים עיוניים, טקסטים עיתונאיים מגוונים, ערכי אנציקלופדיה וקטעי ספרות). הקורפוס משמש לצורכי מחקר ופיתוח. בין השאר שימש הקורפוס לפיתוח כלי הניתוח ולהפקה ראשונית של רשימת שכיחות מילים (ולקסמות) בשפה העברית.
באתר זה ניתן להוריד את רשימת שכיחות המילים ואת רשימת שכיחות הלקסמות של קורפוס זה.

עבור לדף החומרים להורדה

קורפוס ויקיפדיה

קורפוס ויקיפדיה של היחידה כולל כ־60 מיליון מילים ונאסף בדצמבר 2013 מ־138,027 מאמרי תוכן אנציקלופדיים של ויקיפדיה בעברית. המאמרים נאספו באמצעות "זחלן" שהותאם לאיסוף טקסט נקי מויקיפדיה. בתהליך הפיתוח הקורפוס הוא בסיס לבניית מודלים של השפה העברית שמהם מופק מידע סטטיסטי המשמש למשימות עיבוד שפה שונות. קורפוס זה מוצע ככלי לקהילת המחקר וניתן לקבלו ברמות פירוט שונות.
באתר זה ניתן להוריד את הטקסטים של קורפוס ויקיפדיה בצורתם הנקייה בדף החומרים להורדה.

עבור לדף החומרים להורדה

כלי ניתוח ממוחשבים

מפריד תמניות (Tokenizer)

מפריד התמניות משמש לזיהוי ולהגדרה של מחרוזות תווים (מילים, מספרים וסימנים) בטקסט נתון. הפרדת התמניות נעשית כשלב ראשוני בניתוח הטקסט. ביחידה פותחו מפרידי תמניות בעברית ובערבית.

מנתח מורפולוגי ממוחשב

המנתח המורפולוגי הוא כלי המפיק את כל הפירושים המורפולוגיים האפשריים עבור מחרוזת טקסטואלית נתונה. כל פירוש מורפולוגי מורכב מחלק דיבר, מצורת בסיס ומתכונות מורפולוגיות רלוונטיות (בניין, גוף, מין, מספר, זמן וכו'). הניתוח מתבסס על המילון המורפולוגי שנבנה ביחידה ועל אוסף כללי הצטרפות חוץ־מילוניים.

מתייג מורפולוגי ממוחשב

המתייג המורפולוגי הממוחשב הוא כלי המפיג את העמימות המורפולוגית שנוצרת לאחר עבודתו של המנתח המורפולוגי הממוחשב. הוא בוחן את מכלול הפירושים האפשריים של כל מחרוזת ובוחר את הפירוש הסביר ביותר עבור המחרוזת בהקשרה. בחירת הפירוש הסביר ביותר מתבססת על מודל סטטיסטי (מודל מרקובי חבוי HMM – Hidden Markov Model), הנלמד מהקורפוס שתויג תיוג ידני ומכיל את ההסתברויות של הופעת מחרוזות ותגים מורפולוגיים ואת ההסתברויות של הופעת רצפים של תגים מורפולוגיים. המתייג המורפולוגי הממוחשב בגרסתו העדכנית מפיג עמימות ברמת דיוק של כ־92% עבור כל המאפיינים המורפולוגיים וברמת דיוק של כ־96% עבור חלקי הדיבר. מחרוזות שנותרות עמומות לאחר הפגת העמימות המורפולוגית (בשל קיומן של כמה אפשרויות ניתוח הזהות מבחינה מורפולוגית) עוברות תהליך נוסף של הפגת עמימות על סמך ההקשר הסמנטי.

באתר ניתן לראות דוגמה לעבודתו של המתייג הממוחשב. בשלב זה ניתן לבצע באתר ניתוח של טקסט באורך מקסימלי של 3,000 תווים.*

עבור לכלי לניתוח מורפולוגי

מתקן שגיאות כתיב מבוסס חוקים

מתקן השגיאות מזהה מחרוזות שאינן מזוהות כמחרוזות תקינות המצויות במילון ומתקנן. הכלי יוצר עבור כל מחרוזת לא מזוהה רשימת של מחרוזות תקינות חלופיות, ובוחר מתוכן את המחרוזת הסבירה ביותר. ייצור המחרוזות החלופיות נשען על חוקים לשוניים וההכרעה ביניהן מבוססת על מדדי סבירות סטטיסטיים שהופקו ממחקר ראשוני שנעשה על שגיאות כתיב של תלמידי תיכון במקבץ חיבורים נתון. מתקן השגיאות ניתן לשילוב גם בתהליך הפגת העמימות האוטומטית, כאשר הטקסט כולל מחרוזת לא מזוהה.

מנתח תוכן

מנתח התוכן מבוסס על שיטת Latent Semantic Analysis) LSA) שהיא שיטה סטטיסטית־מתמטית לסיווג טקסטים לקטגוריות תוכן. הסיווג נעשה על פי דמיון סמנטי והוא מבוסס בדרך כלל על סמיכות מילות תוכן בטקסט או במקבץ טקסטים. הכלי כולל שני יישומים:
(1) מודול המסייע בהפגת עמימות סמנטית בין מחרוזות בעלות ניתוח מורפולוגי זהה. מודול זה משלים את עבודת מפיג העמימות הממוחשב; (2) מודול הבודק קטגוריות סמנטיות ברמות טקסט שונות (משפט, פסקה וטקסט מלא) ומאפשר, בין היתר, לבדוק את מידת הקוהרנטיות בתוך טקסט ולא רק בין טקסטים.

מנתח לשוני סטטיסטי

המנתח הלשוני הסטטיסטי יכול להפיק כ־250 מאפייני טקסט לשוניים מטקסט יחיד או מקבוצת טקסטים. מאפיינים אלה כוללים מאפייני שטח (שאינם תלויי שפה), מאפיינים מורפולוגיים ומורפו־סינטקטיים, מאפיינים לקסיקליים ומאפיינים סמנטיים.

באתר ניתן לראות דוגמה להפקת מאפייני טקסט אחדים משלושה סוגים:
שכיחויות של מחרוזות בטקסט הנתון;
שכיחויות של לקסמות בטקסט הנתון;
מאפייני שטח לשוניים (כמות מחרוזות, אורך ממוצע של משפט וכד') ומאפיינים המבוססים על ניתוח מורפולוגי (אוטומטי) של הטקסט (שיעור מילים בבניין מסוים, שיעור מילות שעבוד וכד') ומאפיינים לקסיקליים.

בשלב זה ניתן לבצע באתר ניתוח של טקסט באורך מרבי של 20,000 תווים.*

עבור לכלי לניתוח לשוני סטטיסטי

כלי לחקירת קורפוס

הכלי לחקירת קורפוס מאפשר עבודה עם אוסף של טקסטים מתויגים. הוא מאפשר למשל איתור ערכים (או צירופי ערכים) ומאפיינים מורפולוגיים, וכולל כלֵי עזר המאפשרים ביצוע שינויים רוחביים (שינוי האפיון המורפולוגי של מילה נתונה בכל מופעיה בטקסטים וכד').

באתר ניתן לראות הדגמה בסיסית של הכלי על הקורפוס שתויג באופן ידני (ר' לעיל).*

עבור לכלי לחקירת הקורפוס

מגיה לשוני

המגיה הלשוני נבנה ככלי לשימוש הציבור. הכלי כולל כיום כ־600 חוקים לאיתור בעיות לשון מסוגים מגוונים והוא משתמש במתייג הלשוני ובמתקן שגיאות הכתיב שפותחו ביחידה. הכלי מסמן את הבעיות שהוא מוצא ומצמיד לכל סימון הערה לבחינת המשתמש. ההערות מכוונות לטקסטים בשפה פורמלית תקנית, והן יכולות להיות מסוגים שונים – ענייני כתיב, טעויות דקדוק, ענייני סגנון, שיבושי לשון ועוד.
ברצוננו להדגיש כי המגיה הלשוני אינו חלק מהמערכת להערכה ממוחשבת של טקסטים, וההערות המופיעות בו ברובן אינן מצביעות על בעיות המשפיעות על ציון מטלת הכתיבה בבחינה הפסיכומטרית או במבחן הידע בעברית (בחינת יע"ל), הנבדקים על ידי בודקים אנושיים.
הכלי עדיין בתהליכי פיתוח, אך תוכלו להתנסות בגרסת הבטא הנוכחית שלו באתר.

עבור למגיה הלשוני

NiteRater – מערכת להערכה ממוחשבת של טקסטים

NiteRater היא מערכת ממוחשבת לניתוח ולהערכה של טקסטים ובכלל זה תוצרי כתיבה (חיבורים). המערכת מאפשרת חקירה נוחה ומקיפה של טקסטים וכוללת ארבעה שלבים עיקריים: (1) ארגון ועיבוד של קורפוס טקסטים חדש; (2) הפקת מאפיינים לשוניים לכל טקסט;
(3) למידת משוואה/משוואות לניבוי הקושי או האיכות של הטקסט; (4) יישום משוואות הניבוי לשם הערכה של טקסטים חדשים. כל שלב ניתן להפעלה בנפרד.


* אם ברצונכם להשתמש בכלים על טקסטים ארוכים יותר או על קורפוסים אחרים, אנא צרו עמנו קשר.