מהימנות ותוקף של בחינות מיון והשמה - הגדרות והסברים

מבוא

שניים ממאפייני היסוד שלפיהם נמדדת איכותם של מבחנים הם מהימנות ותוקף. מהימנות בודקת באיזו מידה תוצאות המבחן הן יציבות או עקביות מעבר למדידות חוזרות. תוקף עוסק בשאלה באיזו מידה המבחן מודד את מה שהוא מיועד למדוד (בהמשך נפרט מעט יותר). במסמך זה יוצגו בקצרה המדדים העיקריים לתיאור המהימנות והתוקף של מבחן. לפני כן יתואר מקדם המתאם של פירסון שממלא תפקיד מרכזי בחישוב שני המאפיינים הללו.

מרבית המדדים שנותנים מידע על מהימנות ותוקף מתבססים על קשר בין משתנים. מדד הקשר המקובל ביותר הוא מקדם המתאם של פירסון, שמתאר את עוצמת הקשר הלינארי בין משתנים. טווח הערכים של מקדם מתאם זה נע מ-1.00+, שמציין קשר חיובי מושלם בין שני המשתנים, ועד למתאם של 1.00-, שמציין קשר שלילי מושלם. קשר חיובי מושלם בין שני משתנים מתקבל כאשר מי שקיבל את הציון הגבוה ביותר במשתנה אחד קיבל גם את הציון הגבוה ביותר במשתנה השני, וכן הלאה. קשר שלילי מושלם מתקבל כאשר מי שקיבל את הציון הגבוה ביותר במשתנה אחד קיבל את הציון הנמוך ביותר במשתנה השני, וכן הלאה. מתאם של 0 פירושו שאין שום קשר בין שני המשתנים: מי שקיבל את הציון הגבוה ביותר במשתנה אחד עשוי לקבל ציון גבוה, בינוני או נמוך במשתנה השני [1]. כלל אצבע מקובל לפירוש מקדמֵי מתאם (בערכים מוחלטים) הוא שמתאם נמוך מ-0.10 נחשב זניח, מתאם בטווח של 0.29-0.10 נחשב נמוך, מתאם בטווח של 0.49-0.30 נחשב בינוני, ומתאם של 0.50 ומעלה נחשב גבוה (Cohen, 1988). עם זאת, הערכים שנחשבים משביעי רצון תלויים בהקשר הספציפי שבו מחושב המתאם, ובפרט: מהם שני המשתנים שביניהם מחושב המתאם (למשל: אם שתי סדרות הציונים שביניהן מחושב המתאם התקבלו משתי העברות של אותו מבחן או משני מבחנים שונים שמודדים תכונות קשורות אך לא זהות).

ערכו של מקדם המתאם של פירסון מושפע, בין השאר, ממידת השוני בציונים במדגם: הוא גבוה יותר ככל שהוא מבוסס על קבוצת אנשים רבגונית יותר, או, במילים אחרות, ככל ששונות הציונים גדולה יותר. לכן, כשאנו משתמשים במקדם המתאם של פירסון בחישובי מהימנות ותוקף, חשוב להיות מודעים לאפשרות שטווח הציונים במדגם שמשמש אותנו בחישוב מקדם המתאם מצומצם יחסית לטווח באוכלוסייה שבמוקד העניין. לדוגמה, כשמתעניינים בקשר בין ציוני מבחן המשמש לברירת מועמדים ללימודים ובין ההישגים בלימודים, נרצה לבדוק אותו בקרב כל המועמדים, כי הם אלה שבקרבם נעשה תהליך המיון; אך בפועל ניתן לחשב את מקדם המתאם בין שני המשתנים (ציוני המבחן וההישגים בלימודים) רק בקרב אותם מועמדים שהתקבלו והתחילו ללמוד, כיוון שרק לגביהם יש מידע על הישגים בלימודים. באופן טיפוסי המועמדים שהתקבלו הם אלה שציוניהם במבחן היו מעל לנקודת החתך, ולכן טווח הציונים בקבוצה זו יהיה מצומצם יותר בהשוואה לטווח הציונים בקרב כלל המועמדים (תופעה המכונה "קיצוץ תחום"). בנסיבות אלה המתאם שמחשבים אינו משקף את המתאם שמעניין אותנו, ובאופן טיפוסי הוא יהיה נמוך יותר מהמתאם שבו אנו מתעניינים. כדי לטפל בהחלשה זו של המתאם משתמשים בתיקון סטטיסטי - תיקון לקיצוץ תחום (Gulliksen, 1987). בחלק מן הנתונים המוצגים היה צורך בתיקון כזה, והדבר יצוין במקומות הרלוונטיים.

להלן המדדים השונים שבהם נשתמש בהתייחס למהימנות ולתוקף של המבחנים.

מהימנות

כאמור, מהימנות של מבחן בודקת באיזו מידה תוצאות המבחן הן יציבות או עקביות מעבר למדידות. ככל שהציונים המתקבלים במדידות שונות הם יציבים או עקביים יותר, כך נוכל להסיק ביתר ביטחון שהם אינם מושפעים מטעויות מקריות. טעויות מקריות הן תנודות בציונים שמקורן בגורמים משתנים שאינם רלוונטיים לתכונה הנמדדת, כמו: השאלות המסוימות שהופיעו במבחן, תנאי ההיבחנות המסוימים (טמפרטורה, שעה ביום) או המעריך המסוים שנתן את הציון. בהתאם לכך, מהימנות בודקת באיזו מידה הציון הוא יציב כאשר שאלות המבחן, המעריך ו/או זמן ההיבחנות משתנים. פותחו מספר שיטות לאמידת מהימנות, שכולן מתבססות בעיקרון על המתאם בין שתי מדידות. השיטות המקובלות לחישוב מהימנות הן :

  • מהימנות כעקיבות פנימית (מקדם אלפא של קרונבך או נוסחת קודר-ריצ'רדסון), המשקפת באיזו מידה הציון יציב מעבר לשאלות שונות; אומדן המהימנות בשיטה זו הוא פונקציה של המתאמים שבין השאלות לבין עצמן;
  • מהימנות מבחן חוזר (עם נוסחים מקבילים [2]), הבודקת את המתאם בין הציונים שהתקבלו בשתי היבחנויות - בזמנים שונים ובנוסחים שונים של המבחן;
  • מהימנות בין מעריכים, שהיא רלוונטית למבחנים שמורכבים משאלות פתוחות, ומבוססת על המתאם בין הציונים שנתנו מעריכים שונים, תוך התחשבות במספר ההערכות שממצעים בעת חישוב הציון בפועל. המתאם בין הציונים שנתנו מעריכים שונים משקף את מהימנות ההערכה במקרה שבו הציון נקבע על ידי מעריך יחיד. נוסחת התיקון של ספירמן-בראון (Gulliksen, 1987) מאפשרת לנו לאמוד את מהימנות ההערכה בהינתן שהציון מחושב כממוצע הציונים שנתנו מעריכים אחדים (2 או יותר) [3].

השיטות שלעיל לאמידת המהימנות שונות זו מזו במידה שבה הן רגישות למקורות השונים שעשויים לגרום לחוסר עקביות במדידה. כך, למשל, מהימנות מבחן חוזר עם נוסחים מקבילים רגישה הן לחוסר עקביות שעשויה לנבוע מדגימת השאלות (הרכב שונה של שאלות בנוסחים השונים) והן לחוסר עקביות שעשויה לנבוע מהעובדה שההיבחנות נעשתה בזמנים שונים. לעומת זאת, מהימנות כעקיבות פנימית רגישה רק לחוסר עקביות שעשויה לנבוע מדגימת השאלות. ככל שהשיטה רגישה למקורות רבים יותר של תנודות אפשריות בציונים, כלומר, מביאה בחשבון מגוון רחב יותר של גורמי טעות, כך נוכל להכליל ממנה ביתר ביטחון לגבי מהימנות המבחן.

באופן כללי, מקדמי המהימנות נעים בין 0 ל 1.00. אף שהערכת גובה המהימנות תלויה בשיטת החישוב שלה, מקדמי מהימנות העולים על 0.80 נחשבים מקובלים ונאותים.

תוקף

ההגדרה הקלסית של תוקף, שהוצגה לעיל, היא שתוקף הוא המידה שבה המבחן מודד את מה שהוא מיועד למדוד. הסטנדרטים למבחנים חינוכיים ופסיכולוגיים (AERA, APA, NCME, 2014) מגדירים תוקף כמידה שבה ראיות ותאוריה תומכות בפירושים הניתנים לציוני המבחן עבור השימושים הנעשים בהם. הגדרה זו מחדדת את העובדה שתוקף אינו מאפיין של המבחן עצמו, אלא של פירוש מסוים שניתן לציוני המבחן, ולכן חשוב לזהות ולנסח את הפירוש הרלוונטי, בין אם הוא מנוסח באופן מפורש, ובין אם הוא משתמע בעקיפין מן השימוש שעושים בציונים.

תיקוף הוא התהליך שבו אוספים ראיות לשם תמיכה בפירושים של ציוני המבחן עבור השימושים הנעשים בהם. הסטנדרטים שלעיל מציגים מקורות אחדים לראיות שבהן אפשר להשתמש בתהליך התיקוף. סוג אחד של ראיות הוא ראיות שמבוססות על תוכן המבחן. ראיות אלה מתקבלות מניתוח לוגי של הקשר בין תוכן המבחן ובין התכונה או המבנה (קונסטרקט) שהוא מיועד למדוד. ראיות כאלה מתבססות לרוב על שיפוטי מומחים בנוגע למידה שבה שאלות המבחן מהוות מדגם מייצג ונאות של החומר שהמבחן אמור להקיף.

סוג נוסף של ראיות הוא ראיות שמבוססות על קשרים עם משתנים אחרים, שכוללות:

  • ראיות מתכנסות וראיות מבחינות, כאשר ראיה מתכנסת היא מתאם גבוה בין ציוני המבחן למדדים אחרים שמיועדים למדוד את אותה תכונה, וראיה מבחינה היא מתאם נמוך בין ציוני המבחן למדדים שמיועדים למדוד תכונות אחרות.
  • קשרי מבחן-קריטריון, שמספקים ראיות על עוצמת הקשר בין הציון במבחן לבין משתנה שאותו הוא אמור לנבא (קריטריון). לדוגמה, בתיקוף הבחינה הפסיכומטרית, הקריטריון הוא ההישגים בלימודי התואר הראשון.

סוג שלישי של ראיות שנאסף ביחס לחלק מהמבחנים הוא ראיות שמבוססות על המבנה הפנימי של המבחן. ראיות כאלה נועדו לבדוק אם הקשר בין פריטי המבחן תואם למבנה המשוער של התכונה שמבקשים למדוד. כך, למשל, אם בונה המבחן משער שהתכונה שהוא מודד (לדוגמה, מוחצנות/אקסטרוורטיות) מורכבת משלושה תתי-סולמות (חברותיות, אסרטיביות ואקטיביות), אזי מתאמים גבוהים בין שאלות ששייכות לאותו תת-סולם לעומת מתאמים נמוכים יחסית בין שאלות ששייכות לתת-סולמות שונים, יהוו אישוש לכך שהמבחן בודק את התכונה המיועדת. השיטה הרווחת לבדיקת המבנה הפנימי של המבחן היא ניתוח גורמים

חשוב להדגיש שאף אחת מהראיות אינה מספיקה כשלעצמה כדי להוכיח שמבחן הוא תקף (לפירוש ולשימוש המיועדים). בדרך כלל מומלץ לאסוף עדות מכמה מקורות. יחד עם זאת, לא כל המקורות נחוצים ורלוונטיים בכל הקשר, ויש מקורות שהם חשובים במיוחד בהקשרים מסוימים. כך, למשל, כשהמבחן מיועד לשמש בתהליך ברירה, קשרי מבחן-קריטריון הם חשובים במיוחד.

מקורות

AERA (American Educational Research Association), APA (American Psychological Association), & NCME (National Council on Measurement in Education) (2014). Standards for educational and psychological testing. Washington, DC: Author.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.

Gulliksen, H. (1987). Theory of mental tests. Hillsdale, NJ: Erlbaum. (Original work published 1950).

 

[1] כשכאמור, הקשר הנבדק הוא קשר לינארי (קווי), שפירושו שקיימת נוסחה של קו ישר (y=ax+b) שמקשרת את שני המשתנים (x ו-y).

[2] שני נוסחים של מבחן שהם שווי-ערך במובן שהם כוללים אותם סוגים של שאלות, ובאותה רמת קושי, אך התוכן הספציפי של השאלות הוא שונה.

[3] נוסחת ספירמן-בראון משמשת, באופן עקרוני, לאמידת המהימנות של מבחן בעקבות קיצור או הארכה שלו; ביסוס הציון על יותר ממעריך יחיד משול להארכת המבחן.