Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench

Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.

Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.

Если все «честно», каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:

Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)

Кстати, описанный эксперимент является классикой «бейесовского автомата». Если вы поняли, о чём я.

Хотите выжить, когда придёт время ИИ? Купите телефон и не будьте русским.

Или заранее выясните, где у них рубильник.


(Feed generated with FetchRSS)

0 комментариев

Новая книга

 

Font Resizer