מובהקות סטטיסטית

מתוך ויקיפדיה, האנציקלופדיה החופשית

בסטטיסטיקה, מובהקות סטטיסטית (או רמת מובהקות) היא הסיכוי שבעת ביצוע מבחן סטטיסטי לבדיקת השערות נדחה את השערת האפס על אף שהיא נכונה. "רמת סמך" היא המשלים של רמת המובהקות (למשל, אם רמת המובהקות היא 5% אז רמת הסמך היא 95%).

בבדיקת השערות עומדת לבחינה השערה, הנקראת 'השערת האפס'. לצורך החלטה מבצעים ניסוי, ומשלבים את התוצאות במבחן שנבחר מראש. תוצאת המבחן היא אחת משתי מסקנות אפשריות: לדחות את ההשערה, או שלא לדחות אותה.

המבחן מורה לדחות את השערת האפס, אם תוצאות הניסוי אינן סבירות כאשר מניחים שההשערה נכונה. מכיוון שהניסוי כולל דגימה של משתנים מקריים, גם כאשר השערת האפס נכונה, בהחלט ייתכן שתתקבל תוצאה שלאורה השערת האפס תיראה בלתי סבירה (ותחייב את דחיית השערת האפס). לטעות כזו, שבה דוחים את ההשערה שלא בצדק, קוראים שגיאה מסוג I ("דחייה שגויה"). להסתברות שטעות כזו תתרחש קוראים רמת המובהקות של המבחן. רמת מובהקות זו מיוצגת באות היוונית α ("אלפא"). לדוגמה, במחקר לגבי תועלת של תרופה מול פלצבו, נקבעת מראש רמת מובהקות של α=5%. השערת האפס היא שאין הבדל בין התרופה לפלצבו. יש סיכוי של 5% שנדחה השערה זו בטעות. במילים אחרות אם התרופה לא מועילה כלל, יש סיכוי של 5% שהמחקר יראה כאילו הועילה.

דוגמה[עריכת קוד מקור | עריכה]

נאמר שברצוננו לבדוק האם מטבע מסוים הוא 'הוגן', כלומר נופל על שני צדדיו בסיכויים שווים. השערת האפס קובעת שהמטבע הוא אכן כזה. כאשר מטילים מטבע הוגן 200 פעם, הסיכוי לכך שאחד הצדדים יופיע 115 פעמים או יותר הוא 4%. אנו עורכים ניסוי שבו מטילים את המטבע 200 פעם. ממטבע הוגן מצפים שמספר הנפילות על כל צד יהיה קרוב ל-100. אנו מחליטים לדחות את השערת האפס (ולהכריז על המטבע כלא-הוגן), אם אחד הצדדים יופיע 115 פעמים או יותר. רמת המובהקות של ניסוי זה היא 4%. בניסוח אחר, לו היינו מפעילים את המבחן שלנו כדי לבחון מטבעות שונים, אפשר לצפות שארבעה מבין 100 מטבעות הוגנים יפסלו בטעות. יכולנו לקבוע רף גבוה יותר, למשל 125 נפילות על אותו צד, ולקבל רמת מובהקות טובה פי מאה, כ-0.05%.

מצד שני אם המטבע פגום והסיכוי שייפול על אחד הצדדים הוא 65%, למבחן הראשון סיכוי של 1% בלבד להחמיץ את התקלה ולדווח שהמטבע תקין, בעוד שלמבחן השני סיכוי של 20% לשגיאה כזו. זוהי שגיאה מסוג II ("קבלה שגויה") והיא קשורה לעוצמת המבחנים.

אפשר לחשוב על זאת כך: אם מעלים את סף הסובלנות לסטייה מהמצב הסביר (במקרה שלנו: סטייה מהתפלגות 100–100 ב-200 הטלות) הסיכוי לפסול מטבע הוגן ("דחייה שגויה") קטן, אך הסיכוי לאשר מטבע לא הוגן ("קבלה שגויה") גדל.

ערכים מקובלים[עריכת קוד מקור | עריכה]

כאשר עורכים ניסויים מדעיים, ערכים מקובלים לרמת מובהקות הם 5% או 1%. ערכים אלו הם שרירותיים אך נוחים לעבודה ועל כן השתרשו. לכאורה נראה שאחת מבין 20 הכרזות על דחיית השערת האפס, מקורה בחוסר מזל סטטיסטי; אלא שלעיתים קרובות מתברר, בדיעבד, שדין השערת האפס היה להידחות גם במבחן בעל מסננת הדוקה יותר, ולכן שיעור השגיאות נמוך בהרבה.

את רמת המובהקות של המבחן חובה לקבוע מראש, לפני ביצוע הניסוי: בשלב ראשון קובעים משפחה של מבחנים. במקביל קובעים את רמת המובהקות הרצויה, תוך מתן משקל ל גודל האפקט (אנ') שאותו מבקשים לזהות, לחומרה של שגיאה מסוג I לעומת שגיאה מסוג II, ולעלויות הכרוכות בהגדלת המדגם. בהמשך בוחרים מתוך המשפחה את המבחן אשר לו רמת המובהקות המתאימה, ואז אפשר לגשת לביצוע הניסוי.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]