אם אתם נותנים ל-Gen AI לשפוט את העבודה שלכם... אולי עדיף פשוט להטיל מטבע. 🪙
זה אולי נשמע קיצוני, אבל מחקר סיני-סינגפורי חדש בדק ומצא, שכשביקשו מ-LLMs להעריך איכות של כתיבה יוצרת, רמת הדיוק שלהם עמדה על כ-50%. במילים אחרות: הטלת מטבע.
וזה לא רק עבור מטלות סוביקטיביות כמו כתיבה יצירתית. גם בתחומים יותר "אובייקטיביים" כמו תמיכת לקוחות, ה-AI מועד להטיות.
הוא מוטה לחשוב שטקסטים ארוכים יותר הם "טובים" יותר, או שכמות ציטוטים שווה ל"אמינות". מאוד דומה להטיות האנושיות שלנו, וקל מאוד לנצל את זה לרעה.
אז מה הפתרון? (ואם כבר יצא לכם לקרוא את הפוסטים שלי, כנראה שלא תופתעו) - פרומפטינג נכון.
הבעיה היא לא הכלי, אלא האופן שבו אנחנו מצפים ממנו לפעול כ"שופט" במקום כ"עוזר".
איך עושים את זה נכון?
1️⃣ בעבודה יצירתית: אל תבקשו "ציון". בקשו קודם כל "ביקורת מפורטת" (Critique). רק אחרי שקיבלתם ניתוח המבוסס על קריטריונים ספציפיים שהגדרתם, בקשו הערכה מסכמת.
2️⃣ במשימות "אובייקטיביות": הגדירו את המטרה. הקריטריונים הם לא "כמה זה נשמע טוב", אלא "האם זה נכון?" ו"האם זה רלוונטי?"
תוצאות AI טובות לא מגיעות במקרה. הן מגיעות מידיעה מתי ואיך להשתמש בכלי הנכון למשימה.
אגב, גם לבקש ממנו לתת לכם "Confidence Score" צריך לקחת בערבון מוגבל.
גם שהוא טועה הוא עושה את זה בביטחון 😂
האם גם אתם משתמש ב-AI כשופט? אם כן, שתפו בתגובות איך אתם גורמים לו לעשות את זה נכון.
ואם אתם רוצים לבנות את המערכות AI הארגוניות שלכם, אשמח אם נדבר 😊
עבור הסקרנים, לינק למחקר: https://lnkd.in/dUys9Z66
<style>
.blog_post-01, .container-p--large {
direction: rtl;
text-align: right;
}
</style>