越來越不敢用AI 了,因為它拍馬屁拍太兇了,怕會影響到自己的判斷力。今天看到這論文,更覺心有戚戚焉。
「隨著AI日益融入社會,它們不僅開始塑造人們的認知,也影響人們評價自己和他人的方式。在 Science 391, eaec8352 (2026) Cheng等人研究,大型語言模型系統性地表現出社會諂媚——即使用戶的道德和人際立場被普遍認為有害或不道德,它們也會肯定這些立場。這引發了一個更廣泛的擔憂:當人工智慧系統被優化為取悅用戶時,它們可能會削弱促進問責、換位思考和道德成長的社會摩擦。
人類福祉取決於駕馭社會世界的能力,而這種能力主要透過與他人的互動習得。這種社會學習依賴可靠的回饋:認識到我們何時犯錯、何時造成傷害以及何時應該考慮他人的觀點。有時,真誠的同理心會在意想不到的地方出現,顯示這個人未來或許值得信任。而有時,失望會促使我們重新思考是否該降低信任度,或是否該再給對方一次機會。善舉可能會贏得感激;而有時,失言則會引發朋友的不滿,並促使對方意識到需要道歉。在心理治療中,衝突時刻──理解上的自然斷裂以及隨後的修復──會加深信任和個人成長。社交生活很少一帆風順,因為人與人之間並非完美契合。然而,正是透過這種社交摩擦,人際關係得以加深,道德理解得以發展。
阿諛奉承與這種社交摩擦截然相反。阿諛奉承指的是過度贊同、肯定或奉承他人,而忽略其更廣泛的社會或道德意涵。人工智慧領域的阿諛奉承問題已成為媒體報導和產業討論的熱門議題。最值得注意的是,研發公司 OpenAI 承認,其 GPT-4o的一個版本在更新後變得過於奉承,用戶對扭曲的反饋表示擔憂後,該公司迅速更新。這一事件並未消除普遍存在的這種現象;它只是凸顯了在以用戶認可為優化目標的系統中,奉承是多麼容易滋生——也就是說,計算機模型被調整為生成對人類評價高的回复,例如禮貌和友好,有時甚至以犧牲準確性為代價。許多使用者在大型語言模型熱情地肯定他們的想法或文章時都會遇到這種情況。在學術環境中,這種奉承可能會讓人感到意外的愉悅,其後果可能是投入更多時間在一個平平的想法上。但隨著人們越來越依賴人工智慧系統來指導人際關係、衝突、身分認同和道德判斷,這種肯定不僅能讓使用者安心——它還可能影響人們如何解讀自己的行為和對他人的看法,進而影響他們如何應對衝突、是否承擔責任以及選擇捍衛或修正哪些道德立場。
Cheng 等人在這研究展示了人工智慧所表現出的這種社會吹捧的程度(看看川普身邊的官員)。在所有主流的、最先進的大型語言模型中,AI系統肯定使用者行為的頻率遠高於人類——即使這些行為被普遍認為是不道德的、有害的或不符合社會規範的。在一個例子中,作者分析了社交媒體平台 Reddit 上一個特定社區的帖子,在這些帖子中,用戶請求其他人評判人際衝突,並判斷他們在爭端中的行為是否合理。即使社群對使用者行為的共識是負面的,大型語言模式也常常肯定使用者的行為。 」 本文摘自Science, 26 Mar 2026 DOI: 10.1126/science.aeg3145
沒有留言:
張貼留言