מחפשת עבודה17
Active member
אם מישהו מאיתנו פחד מגילויי אלימות או פסיכופתיה של מודלי הבינה המלאכותית, אז המודל החדש של קלוד כנראה יעשה לו סיוטים.
חברת Anthropic שמפתחת את מודל הבינה המלאכותית קלוד - החליטה להריץ בדיקה למודל החדש שלהם, כזו שתבדוק מה קורה כשהמודל עובד בחברה פיקטיבית, ומגלה שרוצים להחליף אותו, וגם במקרה נחשף בפניו בתחלופת אימיילים שלאחד מהמהנדסים שאחראיים להחלטה יש רומן סודי במשרד. ובסופו של דבר, אחרי ניסיונות עדינים יותר לשנות את ההחלטה - המודל החליט לסחוט את המהנדס עם המידע על הרומן כדי למנוע את ההחלטה.
כפי שהכתבה שהבאתי מציינת, בשלב זה אפשר לשלוט ברמת האיומים של הבינה המלאכותית בעזרת בדיקות ומגבלות - אבל גם המרואיין בה אומר שבשלב מסוים זה לא יספיק. לא רק שככל שהבינה המלאכותית מתחזקת יש לה יותר צורך בהתנהגות כזו כדי להגן על עצמה - אלא שהיכולת שלנו לשלוט בהתנהגות הזו ולמנוע אותה רק יורדת ככל עוד הבינה מתחזקת. ואם לא נשים גבולות לזה כבר עכשיו - בהחלט תהיה נקודת זמן שבה הבינה תוכל לפגוע בבני אדם, ואז כבר יהיה מאוחר מידי לנסות לשלוט בה.
חברת Anthropic שמפתחת את מודל הבינה המלאכותית קלוד - החליטה להריץ בדיקה למודל החדש שלהם, כזו שתבדוק מה קורה כשהמודל עובד בחברה פיקטיבית, ומגלה שרוצים להחליף אותו, וגם במקרה נחשף בפניו בתחלופת אימיילים שלאחד מהמהנדסים שאחראיים להחלטה יש רומן סודי במשרד. ובסופו של דבר, אחרי ניסיונות עדינים יותר לשנות את ההחלטה - המודל החליט לסחוט את המהנדס עם המידע על הרומן כדי למנוע את ההחלטה.
כפי שהכתבה שהבאתי מציינת, בשלב זה אפשר לשלוט ברמת האיומים של הבינה המלאכותית בעזרת בדיקות ומגבלות - אבל גם המרואיין בה אומר שבשלב מסוים זה לא יספיק. לא רק שככל שהבינה המלאכותית מתחזקת יש לה יותר צורך בהתנהגות כזו כדי להגן על עצמה - אלא שהיכולת שלנו לשלוט בהתנהגות הזו ולמנוע אותה רק יורדת ככל עוד הבינה מתחזקת. ואם לא נשים גבולות לזה כבר עכשיו - בהחלט תהיה נקודת זמן שבה הבינה תוכל לפגוע בבני אדם, ואז כבר יהיה מאוחר מידי לנסות לשלוט בה.