וינסוריזציה

מתוך ויקיפדיה, האנציקלופדיה החופשית

וינסוריזציה (Winsorization) היא שינוי של סטטיסטי על ידי הגבלת הערכים הקיצוניים שיכולים להתקבל במדגם, על מנת להקטין את ההשפעה של התצפיות החריגות.

הטכניקה נקראת על שם צ'ארלס פ. וינסור (אנ') (1895–1951).

הגדרה[עריכת קוד מקור | עריכה]

וינסוריזציה מתבצעת בשני שלבים - בשלב הראשון מתבצעת החלטה על ערכי סף – ערך מינימום וערך מקסימום – שיגדירו את תחום התצפיות שיישמרו, ולאחר מכן החלפת הערכים הקיצוניים מערכים אלו באותם ערכי מקסימום ומינימום.

לדוגמה, בווינסוריזציה ברמה 90% מוצאים את האחוזון ה-5% בנתונים ואת האחוזון ה-95% בנתונים, ומחליפים כל תצפית שערכה קטן מהמספר הראשון במספר הראשון עצמו, וכל תצפית שערכה גבוה מהמספר השני במספר השני.

דוגמה[עריכת קוד מקור | עריכה]

נניח שהסטטיסטי בו אנו מעוניינים הוא הממוצע, ונניח שערכי המדגם הם:

האחוזון ה-5 הוא , והאחוזון ה-95 הוא .

לכן, ערכים נמוכים מ- (במקרה זה, ) ישונו ל-, וערכים גבוהים מ- (במקרה זה, ) ישונו ל-:

ניתן לראות שהווינסוריזציה שינתה את הערך של הסטטיסטי (הממוצע) מ-101.5 ל-55.65 - שינוי משמעותי מאוד. למעשה, לפני יישום השיטה הממוצע הושפע בצורה קיצונית מאוד מתצפית בודדת, ולכן הוא לא ייצג בצורה טובה את המדגם.


יתרון השיטה[עריכת קוד מקור | עריכה]

המטרה העיקרית של השיטה היא ליצור סטטיסטי יותר חסין (robust).

שיטה נוספת ודומה שמאפשרת ליצור סטטיסטים חסינים יותר היא קטימה. ההבדל בין השיטות הוא שבווינסוריזציה לא משמיטים ערכים אלא רק משנים את ערכם כך שהם לא יהיו גדולים או קטנים מערכים מסוימים, בעוד בקטימה הערכים שערכם קיצוני מדי מושמטים לחלוטין.

ראו גם[עריכת קוד מקור | עריכה]