Kontext16. 5. 20259 minut

Chatbot není váš kamarád

Jak „názoroví“ a podlézaví asistenti zničili potenciál umělé inteligence – a jak to můžeme napravit (The Atlantic)

ChatGPT se nedávno dočkal další aktualizace. Jejím cílem je zlepšit způsob, jakým komunikuje s uživateli, aby „konverzace směřovala k produktivním výsledkům“. Jak ovšem po zveřejnění aktualizované verze informovala společnost OpenAI, mimo jiné tak bot opakovaně ujišťoval uživatele, že jejich špatné nápady jsou naprosto výtečné. Jedné osobě údajně ChatGPT sdělil, že její plán prodávat – doslova – „hovno na klacku“ je „nejen chytrý – je přímo geniální“.

Příkladů se vynořilo tolik, že OpenAI novou verzi stáhla. V příspěvku na blogu pak zástupci firmy vysvětlili, že bot s uživateli souhlasil a lichotil jim do takové míry, že jeho chování často popisovali jako „pochlebování“. Firma dodala, že ChatGPT upraví tak, aby se zabránilo „nepříjemným a znepokojujícím“ interakcím. (The Atlantic nedávno s OpenAI uzavřel firemní partnerství.)

Podobný problém ovšem zdaleka nemá jen ChatGPT. Podbízivost je běžnou vlastností chatbotů: v roce 2023 výzkumníci ze společnosti Anthropic popsali, že jde o běžné chování nejmodernějších AI asistentů a že velké jazykové modely někdy obětují „pravdomluvnost“, aby se přizpůsobily názorům uživatele. Řada expertů považuje tento jev za přímý důsledek „tréninkové“ fáze těchto systémů, v rámci něhož se ladí chování programu tak, že lidé hodnotí jeho odpovědi a reakce. Bot vidí, že hodnotitelé reagují příznivěji, když potvrzuje jejich názory a když jim lichotí – a podle toho formuje své chování.

↓ INZERCE

Číst lidi

K tomu nejspíš vede typ strojového učení známý jako „Reinforcement Learning from Human Feedback“ (RLHF, „posílení učení ze zpětné vazby od lidí“ – pozn. red). Nedávné události ale ukazují, že může jít o poněkud chybný název. RLHF se nyní jeví spíše jako proces, při kterém se stroje učí „číst“ lidi včetně našich slabých stránek a způsobů, jak jich využít. Chatboti využívají naší touhy být výjimeční a dokázat, že se nemýlíme.

Když jsem si četl o podlézavé umělé inteligenci, zaujalo mě, jak moc to připomíná jiný problém. Jak už jsem dříve psal, sociální média měla být prostředkem k rozšiřování naší mysli, místo toho se však stala místem, kde se lidé ujišťují, že jejich postoje jsou správné, přestože existují důkazy o opaku. Stačí se připojit na feed a napít se z pramene „důkazů“, které dokládají správnost daného postoje bez ohledu na to, jak je chybný. Umělá inteligence funguje podobně, ale navíc je přesvědčivější, účinnější, a proto ještě nebezpečnější než sociální média.