Искусственный
интеллект (AI)
модерирует контент

Кейс: как искусственный интеллект (AI) и разумная автоматизация бизнес-процессов сократили время модерации контента с 24 часов до 30 секунд, а также где его применение обосновано, а где - может навредить

08 Ноября 2018

#ai #cases

Reading time: 8 min

В ноябре на ежегодном международном Sberbank Data Science Day Герман Греф в очередной раз выступил генератором контента: то есть сделал еще ряд заявлений, после которых Рунет вновь ощутил непреодолимую тягу высказаться. На этот раз дело касалось, собственно, темы конференции – искусственного интеллекта (ИИ).

QUOTE

У нас в Сбербанке есть интеллектуальная система управления, внутри которой стоит движок, он каждый день обучается при принятии решений и рекомендаций. И это привело к огромному сокращению сотрудников на различных позициях, которые занимались простыми задачами: допустим, на среднем уровне мы сократили примерно 70% менеджеров - больше всего страдает от этого среднее звено,

- заявил председатель правления Сбербанка России Герман Греф (Цитата по ТАСС от 10 ноября).

Несмотря на явную гордость за использование ИИ в стенах Сбербанка, Греф на той же конференции заявил, что искусственный интеллект надо «оставить в покое». И сперва научиться пользоваться своими собственными мозгами. Звучало это именно так: «Оставьте в покое искусственный интеллект, нужно научиться сначала пользоваться своим интеллектом».

Пусть странно видеть настолько полярные высказывания одного спикера в едином контексте, но со вторым, по крайней мере, сложно поспорить. А вот первое быстро стало предметом дискуссий.

К примеру, в деле сокращения 70% менеджеров среднего звена, скорее всего, замешан как раз второй тезис Грефа. И тот факт, что сильно раздутый штат Сбербанка попросту пора было прореживать, о чем грамотному управленцу должен был давно сигнализировать его не-искусственный интеллект.

А вот в том, что касается «интеллектуальной системы управления» как таковой, многие поспешили напомнить, что на этом поле IT-сфера пожинала плоды еще тогда, когда это не называлось во всеуслышание «искусственным интеллектом». Да и вообще не было мэйнстримом.

Вот и у нас в закромах (тех времен, «когда это не было мэйнстримом») есть кейс на эту тему, который отлично показывает, что искусственный интеллект, как его не назови, это просто и эффективно, что не надо быть Сбербанком, чтобы пользоваться этой технологией и что, вообще, можно самые трудоемкие задачи решать вот таким нетривиальным способом – и попутно принести пользу не только заказчику, но и его сотрудникам и клиентам. Итак...

Давным-давно (в 2013 году) в одной далекой-далекой Омской области

Или знакомство с заказчиком

На этот раз наш заказчик очень боялся «попасть на деньги», а то и вовсе потерять все. Думаете, контрабанда или еще что-то запрещенное? Да ничего подобного. У него просто был сайт бесплатных объявлений. Туда пользователи подавали их через электронную форму в различные рубрики: недвижимость, автомобили, работа и прочее. И что же тут криминального? Сейчас все объясним. Эти объявления тщательно проверялись модераторами. А все потому, что, согласно закону «О рекламе», такая вот платформа в Сети тоже несет серьезную ответственность за размещенные на ней рекламные объявления. А согласно статье КоАП за нарушение этого закона – ответственность в финансовом эквиваленте может составлять от 200 до 500 тысяч рублей.

Закон (ФЗ "О рекламе") и Штрафы (Статьи КоАП за нарушение закона "О рекламе")

Деньги для омского портала формата «доска объявлений» образца 2013 года весьма и весьма внушительные. Да и на сегодняшний день – тоже. Поэтому в рамках нашего долгосрочного сотрудничества было решено отладить эту систему раз и навсегда.

Может показаться, что это далеко не самая важная задача в общем потоке, но для клиента эта сфера заключала большие риски. Отлаживать было что, поскольку получить гигантский штраф через опубликованные посты от клиентов можно было множеством способов.

К примеру, в разделе «Недвижимость» риэлтор мог заявить о продаже квартир в новостройке, на которую даже еще разрешение на строительство не получено. Документы не оформлены – все: в этом случае могут наказать и рекламодателя, и сам сайт. Не говоря уже о товарах, оборот которых вообще регламентирован только одним документом – УК РФ.

Как это все работало?

Точнее, как это все НЕ работало

Изучив рабочий процесс модераторов данного ресурса, мы выяснили следующее. Несмотря на всю важность модерации объявлений, у тех сотрудников, которые ею занимались, это была вовсе не основная обязанность, а, что называется, «подработка по возможности». При этом за модерацию платили сдельно: сколько объявлений проверил – столько денег и получил. Как и в других подобных случаях (Помните историю про «индусский код»?), ни к чему хорошему это не привело.

«Памагитя!»

Или постановка задачи

На теле системы модерации зияли гигантские дыры:

Поскольку модерация – не основная работа сотрудника, то гарантировать, что «свежее» объявление будет сразу же проверено, было невозможно. Оно могло ждать своей очереди в среднем 24 часа. Разумеется, при таких сроках, премодерация была неприемлема, все проверки выполнялись постфактум. То есть, фактически, в течение 24 часов на сайте могла «висеть» угроза штрафа или немедленной блокировки сайта.

Из-за сдельной оплаты модераторы сосредоточились на том, как проверить побольше объявлений, чтобы получше заработать – это очевидно (и нормально – люди хотят зарабатывать деньги). Поэтому самые сложные и проблемные объявления никто в работу брать не хотел, они оставались «в хвосте» очереди и пребывали там довольно долго.

Хлопот добавляли и пользователи. Оказалось, что на сайте активно практиковалась такая система: по умолчанию объявления на главной странице располагались в порядке их последней модификации – первыми в выдаче шли те, в которых были наиболее свежие изменения. И клиенты быстро сообразили, что если взять объявление, открыть и поставить там еще один пробел, то время модификации обновится и объявление снова поднимется вверх, а значит его увидит больше людей. Замечательная идея, если не считать того, что сбитые с толку модераторы вынуждены были проверять одни и те же объявления снова и снова, даже не подозревая, что там НИЧЕГО не изменилось.

В цифрах

5 модераторов;

50 000+ объявлений в неделю;

24 часа - среднее время модерации 1 объявления;

Тут мы прямо-таки задались вопросом, что написать – перед нами предстала до того «кривая» система модерации, что воображение настойчиво рисовало образ заказчика, который просто растерян и зовет на помощь, воздевая руки к небу.

Потому что как же так вообще работать, если по 24 часа на сайте висит объявление, в котором может быть реклама ТАКОГО, за КАКОЕ сайт без разговоров будет заблокирован. А блокировка сразу лишает заказчика дохода, и не факт, что удастся быстро решить этот вопрос и восстановить работоспособность портала. Ну, это, не считая прочих нюансов.

Решение задачи по шагам

1. Сократили число объявлений для повторной модерации

В первую очередь, необходимо было всеми возможными способами сократить количество объявлений, которые попадают на повторную модерацию. Поэтому первым решением было просто добавить на сайт кнопку «Поднять» - чтобы можно было поднимать объявления в выдаче без изменений (и отправки на повторную модерацию, соответственно). Кнопка стала пользоваться большой популярностью у авторов объявлений.

2. Лишили модераторов возможности самим выбирать объявление для модерации

Во-вторых, мы решили, что модераторы не должны самостоятельно выбирать те объявления, которые хотят проверить – необходим алгоритм, который будет принимать решение за них. Теперь его можно называть «искусственным интеллектом». Но мы все-таки остановимся на алгоритме или просто «очереди». Автоматическая «очередь» сама определяла, какому из модераторов отправить объявление на проверку. Были заданы временные нормативы, и, если в течение определенного промежутка времени какой-то модератор не смог обработать объявление, его возвращали в самое начало «очереди». Система следила за тем, чтобы среднее время модерации становилось как можно меньше. Если модератор считал, что он справится с работой, но ему нужно больше времени, это необходимо было подтвердить.

3. Выявили типовые правки, которые можно проверить без модерации

На третьем шаге мы определили, что есть некоторые действия, которые чаще всего совершает автор объявления, этакий набор типичных правок. Одна из наиболее распространенных – это изменение цены, при котором сам текст объявления остается тем же самым. Этот совершенно никак не мог повлиять на соблюдение закона «О рекламе». И мы дали возможность публиковать объявления при изменении одной только цены без повторной модерации. Так же поступили еще с рядом атрибутов, которые по логике не требовали модерации.

4. Внедрили искусственный интеллект для распознавания текста объявления

На четвертом шаге мы добавили систему «разбора» текста и выделения в нем определенной информации. Реализация выглядела так: мы берем объявление, которое напечатал своими руками на русском языке наш пользователь, и учим систему анализировать его. С одной стороны, она выделяет полезную информацию – например, адреса и другие подробности. С другой – определяет комбинации слов, которые указывают на то, что это «подозрительное» объявление. Если система могла полностью распознать объявление и не находила ничего подозрительного, то на модерацию оно не отправлялось, а публиковалось автоматически. Если же нечто обнаруживалось или же не было распознано – тогда объявление шло к модератору. Плюс, «неопознанные» объявления использовались для дообучения нашего искусственного интеллекта. Шутки шутками, но здесь действительно использованы элементы искусственного интеллекта с машинным обучением. В результате, наш алгоритм успешно находил в новых объявлениях такие попытки обмануть систему, когда в заголовке была разрешенная информация, а внутри поста был, к примеру, «спрятан» адрес дома без разрешительных документов.

5. Отказались от искусственного интеллекта там, где человек эффективнее

Мы сознательно не стали учить наш искусственный интеллект распознавать фотографии. В результате, основной работой модератора как раз и стал просмотр фото. Почему мы не рискнули обучать систему распознавать снимки? Потому что пользователи так лихо хитрили с фотографиями, «запихивая» на них запрещенные к продаже товары, что поймать их на этом было сложно даже человеческому интеллекту. А в фантазии, смекалке и выдумке искусственный интеллект все же не может соревноваться с человеческим, поэтому риск пропустить что-то запрещенное и получить за это наказание был очень велик.

6. Упростили задачу модераторам

С помощью «подсветки» мы смогли «показать» модераторам те фото и текст, которые были изменены в объявлении, если оно приходило на повторную проверку – им больше не нужно было просматривать все целиком, достаточно было обратить внимание на выделенные фрагменты.

7. Сделали веб-приложение - теперь модераторы не привязаны к офису

Все это теперь было реализовано в форме веб-приложения. Ранее у этой системы была только десктопная версия и, соответственно, модератор должен был найти возможность, чтобы это приложение установить. Теперь же все было в Сети, и сотрудник мог в любое время в любом месте заниматься проверкой объявлений.

Отмодерировать за 30 секунд

Или итоги нашей работы

В итоге, время модерации одного объявления сократилось в (страшно считать!) 2880 раз и стало составлять не 24 часа, а 30 секунд. Разумеется, в этом случае портал смог позволить себе премодерацию и минимизировал риск того, что «опасное» объявление окажется на всеобщем обозрении. Штат модераторов удалось сократить 80% – проще говоря, вместо 5 модераторов с работой теперь успешно справлялся один. Причина проста: большую часть работы мы автоматизировали.

В цифрах

80% - Именно настолько удалось сократить необходимый штат модераторов: 1 сотрудник вместо 5;

30 секунд, а не 24 часа на одно объявление;

1 кнопка, которая сделала сервис в разы удобнее для пользователей;

Штат модераторов удалось сократить 80% – проще говоря, вместо 5 модераторов с работой теперь успешно справлялся один. Причина проста: большую часть работы мы автоматизировали. В этом кейсе нам удалось широко применить систему обработки естественного языка (Natural Language Processing, NLP) — это общее направление искусственного интеллекта и математической лингвистики. Применительно к искусственному интеллекту анализ означает понимание языка, в частности, мы решили задачу извлечения фактов из текста (в форме которого рассматривались все объявления на сайте). Необходимо иметь ввиду, что изначально в работе системы было много неточностей и исключений, поэтому мы обеспечили ей процесс дообучения. Весь процесс возвращает нас к более широкому обсуждению того, что искусственный интеллект не может заменить человека: понимание, что делают пользователи, какую задачу они пытаются решить вряд ли в полной мере может быть доступно искусственному интеллекту. Кроме того, в ходе решения задач мы реализовали приятный функционал для пользователей – кнопку «Поднять объявление». Сегодня это достаточно распространенное явление, но еще пять-шесть лет назад все было иначе. Таким образом, в ходе улучшения внутренних рабочих процессов компании, мы смогли принести пользу клиентам.

Резюме

В данном случае наши решения, казалось бы, были направлены исключительно «вовнутрь» рабочих процессов компании – на их улучшение, чтобы снизить риски для площадки быть оштрафованной за размещение недобросовестной рекламы. Но, по итогам, от такого «корыстного» кейса выиграли все: на сайте воцарился порядок, модераторам стало комфортнее работать, компания снизила риски, а пользователи, во-первых, получили приятный функционал в виде кнопки «Поднять объявление», а во-вторых, их объявления теперь быстро проходили модерацию.

Наши статьи!

Искусственный
интеллект (AI)
модерирует контент