רשימות שכיחות וקורפוסים להורדה



כחלק מהעבודה הנעשית בפרויקט נאספים טקסטים כתובים בשפה העברית. טקסטים אלה משמשים בסיס עבור כלים בלשניים חישוביים שונים. בדף זה נציג רשימות שכיחות המתבססות על הקורפוסים שלנו (ר' תיאור הקורפוסים בעמוד הראשי), וכן את קורפוס ויקיפדיה שאספנו. החומרים כוללים מסמכי תיעוד, והם חופשיים לשימוש בכפוף לאמור בתנאים שבמסמך המצורף. * רשימות השכיחות עשויות להתעדכן מעת לעת. אנא שימו לב לתאריך הגרסה המופיע בראש האתר ובראש כל רשימה.
לצורך קבלת גישה להורדת הקבצים יש למלא  את טופס ההרשמה.

פריט להורדה הערות מספר מילים בפריט
רשימת שכיחות לקסמות של הקורפוס המתויג ידנית
  • הרשימה מתבססת על קורפוס בן 318,884 מילים שתויג באופן ידני.
18,233 (לקסמות)
רשימת שכיחות מחרוזות של קורפוס M1
  • הרשימה מתבססת על קורפוס בן 1,057,765 מילים (מחרוזות אותיות).
126,202
רשימת שכיחות לקסמות של קורפוס M1
  • הרשימה מתבססת על קורפוס בן 1,055,544 מילים עבריות שנותח באופן אוטומטי וכוללת רק מילים שזוהו ע"י המילון המורפולוגי. מטבע הדברים, שכיחות הלקסמות בקורפוס זה נתונה לאי דיוקים הנובעים מטעויות של המנתח האוטומטי.
25,465 (לקסמות)
קורפוס ויקיפדיה 2013
(Hebrew Wikipedia)
  • תנאי שימוש
  • הקורפוס נאסף בדצמבר 2013. הוא כולל 138,027 ערכים. מתוך הערכים נאספו בעיקר חלקים מילוליים (ר' פירוט במסמך התיעוד המצורף לקובצי הקורפוס).
כ-59,783,500