על פרויקט השפה העברית של מאל"ו

פרויקט השפה העברית הושק על ידי המרכז הארצי לבחינות ולהערכה (מאל"ו) בשנת 2000 והוא עוסק בפיתוח כלים ממוחשבים לניתוח לשוני של טקסטים בעברית ובפיתוח תכנה להערכה ממוחשבת של תוצרי כתיבה (חיבורים). עד כה פותחו במסגרת הפרויקט כלים ויישומים רבים, והם מצויים בתהליך מתמיד של עדכון ושיפור.

לפניכם תיאור של הכלים העיקריים שפותחו בפרויקט. באתר זה תוכלו למצוא הדגמה של חלקם.

מילון מורפולוגי

המילון המורפולוגי שנבנה במסגרת הפרויקט מהווה בסיס לניתוח טקסטים בעברית. המילון נוצר באמצעות הזנה ידנית של ערכים מילוניים (שורשים וצורות בסיס) ושל מידע לשוני על כל ערך, לרבות תבניות הנטייה וצורות הכתיב השונות של הערך. המילון מכיל 32,514 ערכים בסיסיים, מתוכם 3,215 שורשים פועליים, 16,710 שמות עצם, 3,239 שמות תואר, 342 תוארי פועל, 8,082 שמות פרטיים ו-926 מילות דקדוק ומילים מקטגוריות מצומצמות נוספות (מילות שלילה, מילות קיום וכיו"ב). המילים מופיעות במילון הן בכתיב חסר הן בכתיב מלא. סך הכול כולל המילון 1,105,112 צורות מנותחות מורפולוגית (נכון למאי 2018). המילון דינאמי ומתעדכן באופן שוטף באמצעות תוכנה ייעודית.

קורפוסים

קורפוס מתויג באופן ידני

הקורפוס המתויג כולל כ-283,400 מחרוזות מילים, שנלקחו מתוך 277 טקסטים שונים (נכון למאי 2018). מחרוזות המילים תויגו באופן ידני על ידי מתייגים בעלי הכשרה לשונית אקדמית באמצעות תוכנה שפותחה למטרה זו. התוכנה מאפשרת בחירה ידנית של הפירוש המורפולוגי הנכון של כל מחרוזת בטקסט מתוך מכלול הפירושים המורפולוגיים האפשריים עבורה, הנשלפים מתוך המילון המורפולוגי. הקורפוס המתויג מתעדכן באופן שוטף ומשמש בסיס ליצירת מודל סטטיסטי לביצוע תיוג מורפולוגי וסמנטי באופן ממוחשב (ר' להלן).

קורפוסים מתויגים באופן ממוחשב

להלן הקורפוסים העיקריים שנאספו במסגרת הפרויקט ומשמשים בפיתוח כלי ניתוח הטקסטים. איסוף קורפוסים מרשת האינטרנט הוא חלק מן העבודה השוטפת בפרויקט, והוא מתבצע באמצעות תוכנה ייעודית (זחלן) שהותאמה למטרה זו. כל אחד מן הקורפוסים תויג מורפולוגית וסמנטית באופן ממוחשב (ר' להלן) והופקה לפיו רשימת שכיחות מילים.

קורפוס M1

קורפוס M1 כולל כמיליון מילים ונאסף מתוך 637 טקסטים שנלקחו ממקורות שונים ומייצגים סוגות שונות. הקורפוס משמש לצורכי מחקר ופיתוח. בין השאר שימש הקורפוס לפיתוח כלי הניתוח ולהפקה ראשונית של רשימת שכיחות מילים (ולקסמות) בשפה העברית.
באתר זה ניתן להוריד את רשימת שכיחות המילים ואת רשימת שכיחות הלקסמות של קורפוס זה.

עבור לדף החומרים להורדה

קורפוס ויקיפדיה

קורפוס ויקיפדיה של הפרויקט כולל למעלה מ-60 מיליון מילים ונאסף בדצמבר 2013 מ-138,327 מאמרי תוכן של ויקיפדיה בעברית המשויכים ל-30,454 קטגוריות ויקיפדיה שונות. המאמרים הם טקסטים אנציקלופדיים מתחומים שונים. בתהליך הפיתוח משמש הקורפוס בסיס לבניית מודלים של השפה העברית שמהם מופק מידע סטטיסטי המשמש למשימות עיבוד שפה שונות. קורפוס זה מוצע ככלי לקהילת המחקר וניתן לקבלו ברמות פירוט שונות.
באתר זה ניתן להוריד את הטקסטים של קורפוס ויקיפדיה בצורתם הנקייה בדף החומרים להורדה.

עבור לדף החומרים להורדה

מודלי שפה מסוג N-Gram

מודל שפה מסוג N-Gram מייצג מידע סטטיסטי על רצפי מילים בשפה, וניתן להפיק באמצעותו נתונים סטטיסטיים עבור טקסטים ולבצע משימות כמו איתור שגיאות לשוניות מסוגים שונים ותיקונן. הבסיס למודל הוא ספירות של רצפי מילים (באורך N) מתוך קורפוס גדול בשפה. להלן המודלים העיקריים שנאספו עד כה במסגרת הפרויקט ומשמשים בתהליך הפיתוח. המודלים נוצרו באמצעות תוכנה שפותחה למטרה זו ומאפשרת הגדרת מודל לפי פרמטרים שונים.

קורפוס N הגדרת מילה מספר משפטים מספר מילים ייחודיות מספר מופעי מילים כולל מספר רצפי N-Gram ייחודיים
M1 3 מחרוזת 82,173 62,264 1,200,332 947,006
הארץ (של מרכז מיל"ה) 3 מחרוזת 594,827 302,426 9,967,281 7,256,505
ויקיפדיה (של מאל"ו) 3 מחרוזת 3,597,952 1,178,676 64,403,666 44,786,939

כלי ניתוח ממוחשבים

מפריד תמניות (Tokenizer)

מפריד התמניות משמש לזיהוי ולהגדרה של מחרוזות תווים (מילים, מספרים וסימנים) בטקסט נתון. הפרדת התמניות נעשית כשלב ראשוני בניתוח הטקסט. במסגרת הפרויקט פותחו מפרידי תמניות בעברית ובערבית.

מנתח מורפולוגי ממוחשב

המנתח המורפולוגי הוא כלי המפיק את כל הפירושים המורפולוגיים האפשריים עבור מחרוזת טקסטואלית נתונה. כל פירוש מורפולוגי מורכב מחלק דיבר, מצורת בסיס ומתכונות מורפולוגיות רלוונטיות (בניין, גוף, מין, מספר, זמן וכו'). הניתוח מתבסס על המילון המורפולוגי שנבנה במסגרת הפרויקט ועל אוסף כללי הצטרפות חוץ-מילוניים.

מתייג מורפולוגי ממוחשב

המתייג המורפולוגי הממוחשב הוא כלי המפיג את העמימות המורפולוגית שנוצרת לאחר עבודתו של המנתח המורפולוגי הממוחשב. הוא בוחן את מכלול הפירושים האפשריים של כל מחרוזת ובוחר את הפירוש הסביר ביותר עבור המחרוזת בהקשרה. בחירת הפירוש הסביר ביותר מתבססת על מודל סטטיסטי (מודל מרקובי חבוי HMM – Hidden Markov Model), הנלמד מהקורפוס שתויג תיוג ידני ומכיל את ההסתברויות של הופעת מחרוזות ותגים מורפולוגיים ואת ההסתברויות של הופעת רצפים של תגים מורפולוגיים. המתייג המורפולוגי הממוחשב בגרסתו העדכנית מפיג עמימות ברמת דיוק של כ-90% עבור כל המאפיינים המורפולוגיים וברמת דיוק של כ-95% עבור חלקי הדיבר. מחרוזות שנותרות עמומות לאחר הפגת העמימות המורפולוגית (בשל קיומן של כמה אפשרויות ניתוח הזהות מבחינה מורפולוגית) עוברות תהליך נוסף של הפגת עמימות על סמך ההקשר הסמנטי.

באתר ניתן לראות דוגמה לעבודתו של המתייג הממוחשב. בשלב זה ניתן לבצע באתר ניתוח של טקסט באורך מקסימלי של 3,000 תווים.*

עבור לכלי לניתוח מורפולוגי

מתקן שגיאות כתיב מבוסס חוקים

מתקן השגיאות מזהה מחרוזות שאינן מזוהות כמחרוזות תקינות המצויות במילון ומתקנן. הכלי יוצר עבור כל מחרוזת לא מזוהה רשימת של מחרוזות תקינות חלופיות, ובוחר מתוכן את המחרוזת הסבירה ביותר. ייצור המחרוזות החלופיות נשען על חוקים לשוניים וההכרעה ביניהן מבוססת על מדדי סבירות סטטיסטיים שהופקו ממחקר ראשוני שנעשה על שגיאות כתיב של תלמידי תיכון במקבץ חיבורים נתון. מתקן השגיאות ניתן לשילוב גם בתהליך הפגת העמימות האוטומטית, במקרים בהם הטקסט כולל מחרוזת לא מזוהה.

מנתח תוכן

מנתח התוכן מבוסס על שיטת Latent Semantic Analysis) LSA) שהיא שיטה סטטיסטית-מתמטית לסיווג טקסטים לקטגוריות תוכן. הסיווג נעשה על פי דמיון סמנטי והוא מבוסס בדרך כלל על סמיכות מילות תוכן בטקסט או במקבץ טקסטים. הכלי כולל שני יישומים:
(1) מודול המסייע בהפגת עמימות סמנטית בין מחרוזות בעלות ניתוח מורפולוגי זהה. מודול זה משלים את עבודת מפיג העמימות הממוחשב; (2) מודול הבודק קטגוריות סמנטיות ברמות טקסט שונות (משפט, פסקה וטקסט מלא) ומאפשר, בין היתר, לבדוק את מידת הקוהרנטיות בתוך טקסט ולא רק בין טקסטים.

מנתח לשוני סטטיסטי

המנתח הלשוני הסטטיסטי מפיק כ-200 מאפייני טקסט לשוניים מטקסט יחיד או מקבוצת טקסטים. מאפיינים אלה כוללים מאפייני שטח (שאינם תלויי שפה), מאפיינים מורפולוגיים ומורפו-סינטקטיים, מאפיינים לקסיקליים ומאפיינים סמנטיים.

באתר ניתן לראות דוגמה להפקת מאפייני טקסט אחדים משלושה סוגים:
שכיחויות של מחרוזות בטקסט הנתון;
שכיחויות של לקסמות בטקסט הנתון;
מאפייני שטח לשוניים (כמות מחרוזות, אורך ממוצע של משפט וכד') ומאפיינים המבוססים על ניתוח מורפולוגי (אוטומטי) של הטקסט (שיעור מילים בבניין מסוים, שיעור מילות שעבוד וכד') ומאפיינים לקסיקליים.

בשלב זה ניתן לבצע באתר ניתוח של טקסט באורך מרבי של 20,000 תווים.*

עבור לכלי לניתוח לשוני סטטיסטי (זמנית לא פעיל)

כלי לחקירת מודל שפה

כלי ליצירה ולעיבוד של מודל שפה מסוג N-Gram מתוך קורפוס גדול מתויג. הכלי מאפשר יצירת מודל N-Gram המוגדר לפי פרמטרים שונים, אמידת טיבו של המודל והפקת נתונים סטטיסטיים עבור טקסטים חדשים (מנותחים) לפי מודלים קיימים.

כלי לחקירת קורפוס

הכלי לחקירת קורפוס מאפשר עבודה עם אוסף של טקסטים מתויגים. הוא מאפשר למשל איתור ערכים (או צירופי ערכים) ומאפיינים מורפולוגיים, וכולל כלֵי עזר המאפשרים ביצוע שינויים רוחביים (שינוי האפיון המורפולוגי של מילה נתונה בכל מופעיה בטקסטים וכד').

באתר ניתן לראות הדגמה בסיסית של הכלי על הקורפוס שתויג באופן ידני (ר' לעיל). *

עבור לכלי לחקירת הקורפוס

NiteRater – מערכת להערכה ממוחשבת של טקסטים

NiteRater היא מערכת ממוחשבת לניתוח ולהערכה של טקסטים ובכלל זה תוצרי כתיבה (חיבורים). המערכת מאפשרת חקירה נוחה ומקיפה של טקסטים וכוללת ארבעה שלבים עיקריים: (1) ארגון ועיבוד של קורפוס טקסטים חדש; (2) הפקת מאפיינים לשוניים לכל טקסט;
(3) למידת משוואה/משוואות לניבוי הקושי או האיכות של הטקסט; (4) יישום משוואות הניבוי לשם הערכה של טקסטים חדשים. כל שלב ניתן להפעלה בנפרד.


* אם ברצונכם להשתמש בכלים על טקסטים ארוכים יותר או על קורפוסים אחרים, אנא צרו עמנו קשר.