רשימות שכיחות וקורפוסים להורדה



כחלק מהעבודה הנעשית בפרויקט נאספים טקסטים כתובים בשפה העברית. טקסטים אלה משמשים בסיס עבור כלים בלשניים חישוביים שונים. בדף זה נציג רשימות שכיחות המתבססות על הקורפוסים שלנו (ר' תיאור הקורפוסים בעמוד הראשי), וכן את קורפוס ויקיפדיה שאספנו. החומרים כוללים מסמכי תיעוד, והם חופשיים לשימוש בכפוף לאמור בתנאים שבמסמך המצורף. * רשימות השכיחות עשויות להתעדכן מעת לעת. אנא שימו לב לתאריך הגרסה המופיע בראש האתר.
לצורך קבלת גישה להורדת הקבצים יש למלא  את טופס ההרשמה.

פריט להורדה הערות מספר מילים בפריט
רשימת שכיחות לקסמות של הקורפוס המתויג ידנית
  • הרשימה מתבססת על קורפוס בן כ-283,400 מילים שתויג באופן ידני.
17,014 (לקסמות)
רשימת שכיחות מחרוזות של קורפוס M1
  • הרשימה מתבססת על קורפוס בן כ-1,026,570 מילים.
122,919
רשימת שכיחות לקסמות של קורפוס M1
  • הרשימה מתבססת על קורפוס בן כ-1,026,570 מילים שנותח באופן אוטומטי. מטבע הדברים, שכיחות הלקסמות בקורפוס זה נתונה לאי דיוקים הנובעים מטעויות של המנתח האוטומטי.
31,028 (לקסמות)
קורפוס ויקיפדיה 2013
(Hebrew Wikipedia)
  • תנאי שימוש
  • הקורפוס נאסף בדצמבר 2013. הוא כולל 138,327 ערכים המשתייכים ל-30,454 "קטגוריות" של ויקיפדיה. מתוך הערכים נאספו בעיקר חלקים מילוליים (ר' פירוט במסמך התיעוד המצורף לקובצי הקורפוס).
כ-64,500,000