רשימות שכיחות וקורפוסים להורדה



כחלק מהעבודה הנעשית ביחידה נאספים טקסטים כתובים בשפה העברית. טקסטים אלה משמשים בסיס עבור כלים בלשניים חישוביים שונים. בדף זה נציג רשימות שכיחות המתבססות על הקורפוסים שלנו (ר' תיאור הקורפוסים בעמוד הראשי), וכן את קורפוס ויקיפדיה שאספנו. החומרים כוללים מסמכי תיעוד, והם חופשיים לשימוש בכפוף לאמור בתנאים שבמסמך המצורף. * רשימות השכיחות עשויות להתעדכן מעת לעת. אנא שימו לב לתאריך הגרסה המופיע בראש האתר ובראש כל רשימה.
לצורך קבלת גישה להורדת הקבצים יש למלא  את טופס ההרשמה.

פריט להורדה הערות מספר מילים בפריט
רשימת שכיחות לקסמות של הקורפוס המתויג ידנית
  • הרשימה מתבססת על קורפוס ובו 349,838 מילים עבריות שתויגו באופן ידני.
19,197 (לקסמות)
רשימת שכיחות מחרוזות של קורפוס M1
  • הרשימה מתבססת על קורפוס ובו 1,087,140 מילים (מחרוזות אותיות).
128,433
רשימת שכיחות לקסמות של קורפוס M1
  • הרשימה מתבססת על קורפוס ובו 1,084,919 מילים עבריות שנותח באופן אוטומטי וכוללת רק מילים שזוהו ע"י המילון המורפולוגי. מטבע הדברים, שכיחות הלקסמות בקורפוס זה נתונה לאי דיוקים הנובעים מטעויות של המנתח האוטומטי.
25,878 (לקסמות)
קורפוס ויקיפדיה 2013
(Hebrew Wikipedia)
  • תנאי שימוש
  • הקורפוס נאסף בדצמבר 2013. הוא כולל 138,027 ערכים. מתוך הערכים נאספו בעיקר חלקים מילוליים (ר' פירוט במסמך התיעוד המצורף לקובצי הקורפוס).
כ-59,783,500