токсичные чатботы

Written By: Anna Liednikova

Технологии не стоят на месте, появляются новые модели способные генерировать текст. Для чатботов такие модели тренируются на данных социальных сетей, например, Twitter или Reddit. Но чем лучше становилась генерация текста, тем опаснее становилось использование таких чатботов. Почему же?

Год назад Microsoft выпустила новую модель генерации диалога, обученную на огромном массиве данных - 147 миллионов разговорных веток Reddit c 2005 по 2017 год. Преимущество данной модели, что ее легко можно адаптировать под свои нужды. Но вот незадача! Ссылки на источники в статье нет, только небольшая пометка: “Из-за случайных токсичных выходов мы не можем выпустить код генерации в настоящее время.” Сейчас же с этой моделью уже можно баловаться тут.

Мне и самой приходилось встречаться с неприятными ответами модели GPT-2. Как-то на моей практике был такой диалог:

Бот: Испытываете ли вы трудности со сном?
Пользователь: Да, иногда просыпаюсь ночью
Бот: Что вас будит ночью?
Пользователь: Жена храпит
Бот: Так задави ее подушкой

В общем, после такого исхода, подогнав модель под контекст и максимально лишив ее творчества, я плавно отошла от генеративных моделей…

Тут же можно вспомнить робота Софию, которая в какой-то момент прониклась ненавистью к человечеству.

А откуда ноги то растут? А от нас, от родненьких, и растут.

3 года назад, в марте 2018 года, команда Conversation AI, исследовательская инициатива, основанная Jigsaw и Google поделились на Kaggle датасетом с токсичными комментариями, чтобы пользователи поборолись за приз $35000 и разработали наилучший классификатор.

А этой зимой, 2020 года, можно было уже протестировать приложение detoxifAI, которое просто напросто скрывает язвительные и жестокие комментарии в интернете.

Давайте вернемся к чатботам. Как же с ними быть? Ведь генеративные модели делают разговор интересным и мало предсказуемым. Спустя полгода после Microsoft, Facebook выпустил модель Blender, который отличается особым дружелюбием и позитивом. Тем не менее в своей статье они предупреждают, что поскольку изначально модель тренировалась на Reddit, вероятность токсичности все еще остается.

Добиться значительного улучшения им удалось весьма простым решением: предлагаемые моделью кандидаты для ответа собеседнику фильтруются классификатором, подобным тем, что разрабатывали на Kaggle.

Такие дела, дорогие мои! Надеюсь, вы не причастны к этим беспорядкам и весьма приятные собеседники. А пока можно делать ставки, что произойдет раньше: люди научаться “фильтровать свой базар” в интернете или технологии найдут способ их моментально обезвреживать?

Posted on 2020-11-14 00:01:21 +0000