Where can I find a list of Hebrew stop words?
function getStopWords(){
return array(
'אני',
'את',
'אתה',
'אנחנו',
'אתן',
'אתם',
'הם',
'הן',
'היא',
'הוא',
'שלי',
'שלו',
'שלך',
'שלה',
'שלנו',
'שלכם',
'שלכן',
'שלהם',
'שלהן',
'לי',
'לו',
'לה',
'לנו',
'לכם',
'לכן',
'להם',
'להן',
'אותה',
'אותו',
'זה',
'זאת',
'אלה',
'אלו',
'תחת',
'מתחת',
'מעל',
'בין',
'עם',
'עד',
'נגר',
'על',
'אל',
'מול',
'של',
'אצל',
'כמו',
'אחר',
'אותו',
'בלי',
'לפני',
'אחרי',
'מאחורי',
'עלי',
'עליו',
'עליה',
'עליך',
'עלינו',
'עליכם',
'לעיכן',
'עליהם',
'עליהן',
'כל',
'כולם',
'כולן',
'כך',
'ככה',
'כזה',
'זה',
'זות',
'אותי',
'אותה',
'אותם',
'אותך',
'אותו',
'אותן',
'אותנו',
'ואת',
'את',
'אתכם',
'אתכן',
'איתי',
'איתו',
'איתך',
'איתה',
'איתם',
'איתן',
'איתנו',
'איתכם',
'איתכן',
'יהיה',
'תהיה',
'היתי',
'היתה',
'היה',
'להיות',
'עצמי',
'עצמו',
'עצמה',
'עצמם',
'עצמן',
'עצמנו',
'עצמהם',
'עצמהן',
'מי',
'מה',
'איפה',
'היכן',
'במקום שבו',
'אם',
'לאן',
'למקום שבו',
'מקום בו',
'איזה',
'מהיכן',
'איך',
'כיצד',
'באיזו מידה',
'מתי',
'בשעה ש',
'כאשר',
'כש',
'למרות',
'לפני',
'אחרי',
'מאיזו סיבה',
'הסיבה שבגללה',
'למה',
'מדוע',
'לאיזו תכלית',
'כי',
'יש',
'אין',
'אך',
'מנין',
'מאין',
'מאיפה',
'יכל',
'יכלה',
'יכלו',
'יכול',
'יכולה',
'יכולים',
'יכולות',
'יוכלו',
'יוכל',
'מסוגל',
'לא',
'רק',
'אולי',
'אין',
'לאו',
'אי',
'כלל',
'נגד',
'אם',
'עם',
'אל',
'אלה',
'אלו',
'אף',
'על',
'מעל',
'מתחת',
'מצד',
'בשביל',
'לבין',
'באמצע',
'בתוך',
'דרך',
'מבעד',
'באמצעות',
'למעלה',
'למטה',
'מחוץ',
'מן',
'לעבר',
'מכאן',
'כאן',
'הנה',
'הרי',
'פה',
'שם',
'אך',
'ברם',
'שוב',
'אבל',
'מבלי',
'בלי',
'מלבד',
'רק',
'בגלל',
'מכיוון',
'עד',
'אשר',
'ואילו',
'למרות',
'אס',
'כמו',
'כפי',
'אז',
'אחרי',
'כן',
'לכן',
'לפיכך',
'מאד',
'עז',
'מעט',
'מעטים',
'במידה',
'שוב',
'יותר',
'מדי',
'גם',
'כן',
'נו',
'אחר',
'אחרת',
'אחרים',
'אחרות',
'אשר',
'או'
);
}
I doubt that there is one openly available, but as a simple approximation, you could create a list of very frequent tokens in a reasonably large corpus. Then, depending on your need, you can use the list as such, or filter it manually, or do some trial-and-error with your algorithm to see how it works.
Here's a list of the 100 most common tokens from a pretty large news corpus I have. Note that for my purposes, I counted various punctuation characters as tokens. The number "1" represents all the numeric tokens, hence its high position in the list.
You would probably be aware of that stop list is a problematic concept in Hebrew due to the morphology & orthography - some of the useful ones are just attached to the words.
The Mila center has a list of high frequency token compiled from large corporas they are working with. See the bottom of the page: http://www.mila.cs.technion.ac.il/hebrew/resources/corpora/index.html.
Also, another thing to take into account is stop words ambiguity - where a certain word can either be without any meaning, or with a very improtant meaning. For example - the words אלה and אשר, both are both Hebrew prepositions and valid personal names. More info on this Hebrew phenomenon can be found here: http://www.code972.com/blog/2010/05/challenges-indexing-hebrew/ (scroll to "Stop words ambiguity").
Because of this, I don't think it is possible to have a complete and absolute Hebrew stop list - it is too dependent on your corpora and use case.
The link provided earlier is broken. This is the new link: http://www.mila.cs.technion.ac.il/index.html
The list in question has some missing terms (אתך, אתכן, אתכם, etc.).
Kind regards, Yaron Shahrabani.
Here's a list of 500 Hebrew stop words (with and without the counts):
https://github.com/gidim/HebrewStopWords
Also available here:
את
לא
של
אני
על
זה
עם
כל
הוא
אם
או
גם
יותר
יש
לי
מה
אבל
פורום
אז
טוב
רק
כי
שלי
היה
בפורום
אין
עוד
היא
אחד
ב
ל
עד
לך
כמו
להיות
אתה
כמה
אנחנו
הם
כבר
אנשים
אפשר
תודה
שלא
אותו
ה
מאוד
הרבה
ולא
ממש
לו
א
מי
חיים
בית
שאני
יכול
שהוא
כך
הזה
איך
היום
קצת
עכשיו
שם
בכל
יהיה
תמיד
י
שלך
הכי
ש
בו
לעשות
צריך
כן
פעם
לכם
ואני
משהו
אל
שלו
שיש
ו
וגם
אתכם
אחרי
בנושא
כדי
פשוט
לפני
שזה
אותי
אנו
למה
דבר
כ
כאן
אולי
טובים
רוצה
שנה
בעלי
החיים
למען
אתם
מ
בין
יום
זאת
איזה
ביותר
לה
אחת
הכל
הפורומים
לכל
אלא
פה
יודע
שלום
דקות
לנו
השנה
דרך
אדם
נראה
זו
היחידה
רוצים
בכלל
טובה
שלנו
האם
הייתי
הלב
היו
ח
שדרות
בלי
להם
שאתה
אותה
מקום
ואתם
חלק
בן
בואו
אחר
האחת
אותך
כמובן
בגלל
באמת
מישהו
ילדים
אותם
הפורום
טיפוח
וזה
ר
שהם
אך
מזמין
ישראל
כוס
זמן
ועוד
הילדים
עדיין
כזה
עושה
שום
לקחת
העולם
תפוז
לראות
לפורום
וכל
לקבל
נכון
יוצא
לעולם
גדול
אפילו
ניתן
שני
אוכל
קשה
משחק
ביום
ככה
אמא
בת
השבוע
נוספים
לגבי
בבית
אחרת
לפי
ללא
שנים
הזמן
שמן
מעט
לפחות
אף
שוב
שלהם
במקום
כולם
נועית
הבא
מעל
לב
המון
לדבר
ע
אוהב
מוסיפים
חצי
בעיקר
כפות
לפעמים
שהיא
הנהלת
ועל
ק
אוהבים
ת
יודעת
ד
גרוע
שאנחנו
מים
לילדים
בארץ
מודיע
אשמח
שלכם
פחות
לכולם
די
אהבה
יכולה
דברים
הקהילה
לעזור
פרטים
בדיוק
מלח
קל
הראשי
שלה
להוסיף
השני
לדעתי
בר
למרות
שגם
מוזמנים
לאחר
במה
חושב
מאד
יפה
להגשים
חדש
קטן
מחפשים
שמח
מדברים
ואם
במיוחד
עבודה
מדי
ואז
חשוב
שאם
אוהבת
פעמים
מנהלת
אומר
מול
קשר
מנהל
שיהיה
שאין
שאנו
האהבה
ס
הצטרפו
כפית
בשביל
החגים
אופן
לתת
כף
בתוך
סוכר
גיל
בהצלחה
והוא
מקווה
סתם
ויש
נגד
כמעט
שאת
עולה
אי
מספר
ראשון
לדרך
נהיה
לעצב
עושים
ולנהל
היתה
עליו
מזה
הייתה
בא
בפרס
חלות
ראש
מזמינים
טיפים
מכבי
רבה
הורים
‡
מקרה
קרן
המוצלח
להגיע
גדולה
כנראה
החמשיר
הראשון
פלפל
המשחק
וכאן
לדעת
ואת
גרועים
ספר
אגב
אחרים
להגיד
בתפוז
והעולם
אופנה
דווקא
מספיק
שעות
תמונות
כשאנחנו
שוקולד
ולכן
ג
לקרוא
לניהול
שבוע
ויופי
חלום
בה
שהיה
שאלה
מקומה
הזו
בפורומים
החדש
מתאמצים
שחקן
שמזינים
נשמת
בערך
מכל
ומה
רגל
כסף
רואה
קטנה
בצל
בעולם
אינטרנט
חוץ
ברור
הולך
חושבת
לזה
כלום
הן
כאלה
בטוח
הדבר
תהיה
מגיע
סוף
האמת
ממנו
מיכל
החדשה
לתרום
האנשים
ועד
בדרך
אצלי
ההורים
בני
מתוך
כאשר
לבד
ראיתי
מצב
מלא
לבחור
נשמח
החג
רע
עוף
מן
להביא
מצאתי
כתובות
מעניין
צריכה
להכנס
לחלוטין
שעה
מתכון
קודם
תשובות
מדובר
ניהול
מזל
כדאי
יהיו
ההודעות
בוקר
נילוות
איפה
בעיה
קמח
ללכת
פורומים
אמר
נושא
ההכנה
בבקשה
שכל
הזאת
למשחק
פנינה
תחרות
חבר
לקנות
מהם
רגע
גרם
אלו
עצמו
מראש
הכלב
כולנו
עדיף
איתו
למשל
לבשל
למי
רעיונות
הבלוג
רוב
אביב
כרגע
בסוף
אלה
לחג
ערוץ
שווה
באופן
מאמין
לבן
בזה
הכבוד
לראש
ם
ימי
שחור
בצורה
בעמוד
ועם
וחצי
האלה
תמונה
בשלב
משחקים
נו
I've found this .xlsx file in https://yeda.cs.technion.ac.il/resources_lexicons_stopwords.html It's a very reach list (23k rows) and you can get the list out of it pretty quickly
© 2022 - 2024 — McMap. All rights reserved.
nltk
library now too – Tijerina