כאשר מעריכים ביצועים של מודל בינה מלאכותית המבצע קלסיפיקציה לשני מצבים (למשל, גבר או אשה בתמונה, דלקת ריאות או העדר דלקת ריאות בצילום), משתמשים באותה טבלת שכיחויות המוכרת לנו מהערכת ביצועי בדיקה אבחנתית. גם בחקר ביצועי הבינה וגם ברפואה הנתונים הגולמיים (כמו למשל שיעור בדיקה חיובית כוזבת) נקראים באותו שם. אך כאשר מדובר במדדי ביצוע מורכבים, השמות משתנים. במקום רגישות, משתמשים במונח ריקול, ובמקום ערך מנבא חיובי, במונח פרסיז'ן. בניגוד לרפואה ולמחקר על בדיקות רפואיות, במדידת ביצועי מודל בינה מלאכותית משתמשים הרבה גם במדד המתייחס בבת אחת גם לרגישות וגם לערך המנבא החיובי, מדד 1F, שהוא ממוצע הרמוני של שני אלו. ממוצע הרמוני "מעניש" עבור ערך נמוך, זאת אומרת יהיה קרוב יותר לערך הנמוך יותר מבין שני הערכים.