זה לא קליקבייט: OpenAI מודים: קלוד יותר טוב!

published on 06 April 2026

זה לא קליקבייט: OpenAI מודים: קלוד יותר טוב!

כן כן, קראתם נכון. תנו לי להסביר.
רוב הבנצ'מרקים עם הגרפים היפים שמודדים איזה מודל "יותר טוב" מבוססים על משימות מתמטיקה, תכנות וחידות לוגיקה תלושות מהמציאות.

השבוע, ב-OpenAI סוף כל סוף השיקו בנצ'מארק חדש בשם GDP-Eval, שבוחן מודלים על "עבודה בעלת ערך עסקי וכלכלי": בניית מצגות, ניתוח נתונים באקסל, כתיבת מסמכים, כלומר העבודה שרובנו מנסים לעשות עם מודלי שפה.

התוצאות? מפתיעות, ובעיקר אמיצות. במחקר של OpenAI עצמם, המודל שלהם (ממשפחת GPT-5) הפסיד למומחה אנושי. בערך בשני שלישים מהמקרים, אנשים העדיפו את התוצר של בן אדם.
אבל הסיפור האמיתי הוא זה: Claude Opus 4.1 של Anthropic הציג ביצועים מאוד קרובים לאלו של מומחה אנושי.
כל הכבוד ל-OpenAI על השקיפות והיושרה! מרענן בתחום שכולם משקרים עם דאטה.

כתבתי וגם אפשר לראות בגרף שקלוד הגיע כמעט לביצועים של מומחה אנושי, האם זה אומר שה-AI תכף מחליף את כולנו?
לא! והסיבה פשוטה: הבנצ'מארק, על אף שהתבסס על משימות אמיתיות, סיפק למודלים "קונטקסט מלאכותי ונקי". כל המידע הוגש למודל בצורה מסודרת: הנה התמונה, הנה הטקסט, הנה ההוראות המדויקות.
במציאות, אף אחד לא עובד ככה.
העבודה האמיתית שלנו היא לאסוף פיסות מידע מ-16 שרשורי מייל שונים, מהודעת סלאק שנשלחה בחטף, ומשיחת מסדרון. חלק מאוד גדול מהעבודה שלנו הוא להתמודד עם קונטקסט מבולגן.
גם אם מודל עתידי ינצח את המומחה האנושי במשימה "נקייה", עדיין יצטרכו אותנו כדי לנווט בבלגן, לסנתז את המידע ולהגדיר את המשימה. התפקיד שלנו לא נעלם, הוא משתנה: מ"עושי המשימה" ל"מנהלי המשימה".

מישהו השתכנע ועובר לקלוד? תעדכנו
לסקרנים, אצרף לינק לבנצ'מארק 
https://openai.com/index/gdpval/

<style>
.blog_post-01, .container-p--large {
direction: rtl;
text-align: right;
}
</style>

Read more