שיחה:מדדי הערכה למסווג דו-ערכי

תוכן הדף אינו נתמך בשפות אחרות.
הוספת נושא
מתוך ויקיפדיה, האנציקלופדיה החופשית

תרגום מונחים[עריכת קוד מקור]

התחום מלא במונחים שקשה לי למצוא להם תרגום נאות בעברית. אשמח אם אוכל לקבל עזרה באחד או יותר מהם:

  • recall - בספרות שמצאתי היו שני תרגומים: 'כיסוי' ו-'החזר'. יש אחד שהוא יותר נפוץ? או יותר מובן?
במונחון האקדמיה 'היקף (התשובה)'. לא מאוד מספק.
  • fall-out - אם אין תרגום "רשמי", אני מציע את המונח 'דלף'. אינטואיטיבית, המדד הזה מעריך את שיעור ה"דליפה" מבין התוצאות הלא-רלוונטיות, אל תוך תוצאות החיפוש.
נשורת, נפולת (לפי בבילון) (YD)
  • חיובי ושלילי; אמיתי וכוזב: האם אלו המונחים?
בחיפוש שערכתי, מצאתי כמה וכמה דרכים לציין את המונחים הללו. אבל הדרך שנשמעת לי הכי "עברית" היא 'תוצאה חיובית/שלילית מוצדקת/מוטעית'.
(אפשרויות נוספות, חלקן מופיעות בספרות, הן:
כוזב -> 'מדומה'? 'שקרי'? 'שגוי'?
אמיתי -> 'צודק'? 'נכון'?)
  • odds - הייתם מתרגמים ל"סיכוי"? מבחינה מתמטית, יש הבדל בין probability ל-odds:
אם אני מהמר על סוס שמעריכים שינצח ב-40% מהפעמים (אילו חזרנו על המירוץ שוב ושוב), אז ההסתברות לניצחון הסוס היא 0.4, אבל ה-odds הם 2:3 (או: ).
סיכויים (YD)
  • איך לתרגם trade-off? האקדמיה (ומורפיקס בעקבותיה) מציעה שקלול תמורות. אבל זה לא מספיק בהקשר. הייתי רוצה לומר משהו בסגנון: יש trade-off בין הסגוליות של המבחן לבין הרגישות שלו.
הייתי מציע חילופין (החלפת משהו במשהו אחר) (YD)
  • מסווג: כתרגום של classifier הוא מְסַוֵּג או מַסְוֵג?
  • בדומה, לגבי predictor: מְנַבֵּא? מַנְבֵּא? אולי בכלל נַבָּא או נַבָּאי?
  • עקומת ROC: המונח המקורי הוא Receiver Operating Characteristic, אבל השם הזה נובע מסיבות היסטוריות (Receiver היא מילה ישנה למכ"ם, שהיה ההקשר הראשוני בו בוצע ניתוח שכזה), ואין לו באמת משמעות רלוונטית. תרגמתי ל"עקומת ROC" או "עקומה אופיינית למסווג", אבל אני לא ממש בנוח עם זה.

ואולי יש עוד דברים שכבר שכחתי...

תודה רבה מראש על כל עזרה שתציעו.

נדב ס.שיחה 04:17, 6 בדצמבר 2015 (IST)תגובה

ביקורת עמיתים[עריכת קוד מקור]

נדב ס., בעקבות הבקשה במזנון לקבלת ביקורת עמיתים קראתי את הערך ואני מעלה כאן כמה נקודות לשיפור והערות. זה ערך בנושא שימושי וחשוב, ומעט הופתעתי שהוא לא היה קיים לפני כן, ונוצר רק לאחרונה במסגרת תחרות סטטסטיפדיה.

הערך כתוב טוב, ובצורה ברורה ונגישה לקהל הרחב כשכל המושגים בו מוגדרים היטב וגם מלווים באיורים שממחישים אותם. מה שחסר זה קצת השוואה ומוטיבציה לקיומם של מדדים שונים (יש רק משפט בפתיח "בשל השוני הגדול בצרכים של כל אחד מהתחומים, נפוצים בהם מדדים שונים"), אולי באמצעות דוגמאות לבעיות שבהן יש יתרון למדד אחד על פני אחר, שלדעתי עשויים להפוך את הערך למעניין ומושך יותר לקריאה. למשל אפשר להביא כדוגמה בעיה שבה כמעט כל הדוגמאות שליליות/חיובית, כמו בדוגמה שמובאת ב [1] ולהראות שמסווג "טיפש" יכול להצליח במדד אחד ולהיכשל במדד אחר.

עוד כמה נקודות:

  1. לדעתי המושג מסווג בינארי נפוץ יותר מ"דו-ערכי" וכדאי לכל הפחות להזכיר גם את המינוח הזה בפתיח של הערך.
  2. כדאי להוסיף פרק פתיח בתחילת הערך שיסביר על מסווגים, ואולי לקשר בו גם לדוגמאות לשיטות לבניית מסווגים - למשל עצי החלטה, SVM או מסווג בייסיאני.
  3. הערך מתמקד בשיטות להערכת מסווגים בינאריים, אבל אולי כדאי שיעסוק באופן כללי בשיטות להערכת מסווגים (לא רק בינאריים)? אפשר להשאיר את מבנה הערך בצורה דומה ורק להזכיר, עבור השיטות שלהן קיימת הכללה מקובלת לבעיית סיווג רב-ערכי איך ניתן להכליל אותן, או להוסיף פרק נפרד שידון בכך.
  4. כדאי להוסיף את טבלת המושגים שיש באנגלית בתחילת הערך, שמסכמת בצורה יפה מדדים מקובלים.

ערן - שיחה 18:20, 25 בדצמבר 2015 (IST)תגובה

תודה על הביקורת הבונה. אקח לתשומת לבי, בתקווה ליישם לפחות חלק מההמלצות. נדב ס.שיחה 07:42, 27 בדצמבר 2015 (IST)תגובה

דפים נוספים שנוצרו במסגרת סטטיסטיפדיה[עריכת קוד מקור]

ערכים שיצרתי[עריכת קוד מקור]

כמו כן, יצרתי את הקטגוריה קטגוריה: סיווג (סטטיסטיקה)


קבצים שהעליתי לויקישיתוף[עריכת קוד מקור]

מתוך הערך המקביל בגרמנית:

המחשה של השינוי בקריטריון על עקומת ROC

ותמונה שערכתי מתוך הערך בויקיפדיה האנגלית על עקומת ROC:


נדב ס.שיחה 00:25, 1 בינואר 2016 (IST)תגובה

מונחים וכפילויות[עריכת קוד מקור]

יש לשים לב שיש כפילות של הערך עם הערכים [סגוליות] ו[חיוביות] וההגדרות שם שונות. למשל ההגדרה סגוליות - שליליים אמיתיים\שליליים היא מאוד מבלבלת - שימוש במונח שלילי פעם כמדד של המבחן המסווג ופעם כמדד הזהב. 62.90.162.124 14:53, 26 בינואר 2016 (IST)תגובה

קודם כול, תודה רבה על התיקון שעשית בערך. לא שמתי לב לטעות הזו...
שנית, אני מבין את הבעייתיות, אבל אני לא יודע אם יש דרך פשוטה מספיק ומובנת מספיק לנסח את זה. בדיוק בשביל כך הוספתי בפירוש את השוויון הנוסף: כך הכול מוגדר בצורה ברורה. נדב ס.שיחה 09:26, 27 בינואר 2016 (IST)תגובה

נמצאו קישורים חיצוניים שצריכים תיקון (נובמבר 2022)[עריכת קוד מקור]

שלום עורכים יקרים,

מצאתי קישור חיצוני אחד או יותר במדדי הערכה למסווג דו-ערכי שזקוק לתשומת לב. אנא קחו רגע כדי לבדוק את הקישורים שמצאתי ולתקן אותם בערך אם נדרש. מצאתי את הבעיות הבאות:

כאשר תסיימו לערוך את השינויים הנדרשים, אנא בקרו בדף השו"ת למידע נוסף לתיקון בעיות עם הקישורים לעיל.

הודעה זו תופיע רק פעם אחת לקישורים אלו.

בידידות.—InternetArchiveBot (דווח על באג) 12:53, 17 בנובמבר 2022 (IST)תגובה