Сегодня в газете, а завтра... Как анализировать контрагентов с помощью СМИ

Мониторинг СМИ — важный инструмент не только для PR-подразделений, но и для служб безопасности. Анализ медийного поля зачастую позволяет выявить проблемы у контрагента гораздо раньше, чем дело дойдет до судебных разбирательств или банкротства. Отслеживать новости по контрагентам, даже если их у вас тысячи, находить «рисковые» упоминания СКАН теперь умеет в два клика.

Почему СМИ?

«На северо-востоке столицы учредитель фирмы, руководство которой подозревается в уклонении от уплаты налогов, попытался уничтожить вещественные доказательства и избил сотрудника полиции во время обыска. Об этом Агентству городских новостей "Москва" сообщил источник в правоохранительных органах. По его словам, вечером 3 апреля сотрудники отдела экономической безопасности и противодействию коррупции в рамках уголовного дела об уклонении от уплаты налогов проводили обыск в офисе ООО "Т....." - телекоммуникационной компании, расположенной на ул. Академика Королева. Присутствовавший при обыске учредитель фирмы Сергей Мартанов попытался молотком уничтожить изымаемый жесткий диск....».

Прочитав такое сообщение, остается довольно мало сомнений, с какими рисками столкнулась упомянутая журналистами компания. Причем в нашем случае других сигналов о налоговых рисках в карточке компании в СПАРК не было.

Сведения о проблемах у контрагента в официальные источники попадают не мгновенно. Например, банкротство — длительная процедура, и пока на сайте fedresurs.ru появится соответствующее сообщение, пройдет несколько месяцев. СМИ же могут написать о финансовых трудностях компании гораздо раньше. Например, так было с «Трансаэро».

Но оценка контрагентов — не только бизнес-необходимость, это и требование законодательства. Государство все активнее и успешнее борется со схемами уклонения от налогов, отмыванием доходов и фирмами-однодневками. И если компания заключила договор с недобросовестным подрядчиком, не проверив его деловую репутацию, то у налоговых органов или у банков, осуществляющих платежи, могут возникнуть вопросы.

Так что проверка контрагента через медиа позволяет и избежать финансовых потерь, и потенциальных претензий госорганов.

«Вектор» или «Вектор»?

В процессе мониторинга СМИ службы безопасности сталкиваются с двумя основными сложностями. Первая связана с идентификацией контрагента, вторая — с вычленением «проблемного» сюжета в потоке информации.

Одно дело, если контрагент — всем известный «Сбербанк» или «Газпром». Но чаще это — условное ООО «Вектор».

Например, в материале журналиста можно встретить фразу вроде: «Работы пока ведутся, но подрядчика N правоохранительные органы, как сообщил наш источник, подозревают в откатах...» Однако N в регионе - добрый десяток, а ИНН журналисты, понятное дело, не указывают.

Конечно, если у вас три контрагента и о них пишут раз в год, несложно каждую неделю открывать популярный поисковик, делать запрос по названию компании и надеяться, что отсутствие результатов в выдаче означает отсутствие рисков. Но если у вас сотни или тысячи контрагентов и заемщиков, то мониторить ежедневно материалы по каждому из них «в ручном режиме» нереально.

СКАН решает эту задачу в автоматическом режиме. Для мы почти в буквальном смысле научили систему читать.

Идентификация контрагента происходит в СКАНе поэтапно.

Начнем с того, что обычно в публикации автор упоминает только название (причем далеко не всегда официальное) юридического лица.Предположим, автор называет Страховой дом ВСК. Это крупная компания со сложной структурой. Ее можно назвать множеством разных способов. Официальное название — СТРАХОВОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «ВСК» или САО ВСК — в текстах встречается в половине случаев. Часто пишут Страховой Дом ВСК, компания ВСК, СОАО ВСК, да и просто ВСК.

Возьмем типичный случай: страховую компанию назвали просто ВСК. Чтобы робот мог в такой ситуации идентифицировать юридическое лицо, он должен уметь решать три задачи: задачу детекции названия в тексте (Named-entity recognition), приближенного поиска по названию и снятия неоднозначности (Entity Linking).

Задачу распознавания (Named-entity recognition) СКАН решает методами, основанными на семантическом и синтаксическом анализе.

Решая вторую задачу (Entity Linking), робот сначала должен найти всё варианты наименования. Например, ООО ВСК, САО ВСК, АО ВСК в данном случае подходят, а Вертолетная сервисная компания (ВСК), Владивостокский судостроительный колледж (ВСК) – не подходят.

Затем из всех полученных вариантов робот должен однозначно выбрать именно то юридическое лицо, которое имелось в виду. Это делается по контексту.

Так, именно из контекста можно попробовать узнать отрасль, о которой идет речь (если он содержит специфические слова и выражения — например, «страховка», «полис»). Можно узнать, какие регионы упомянуты в тексте, и сопоставить их с регионами нахождения или деятельности юридических лиц. Можно найти упоминания в контексте имен людей, сопоставить их с руководителями компаний и выбрать те, которые подходят. И так далее.

Но ведь отрасли, регионы, люди — это просто слова в тексте. Чтобы использовать их качественно, их тоже нужно идентифицировать, иначе будут ошибки.

Например, робот увидит в тексте про ВСК слово «Владимир» и должен разобраться — это компания ВСК из Владимира или компания ВСК с руководителем, которого зовут Владимир. Или в сочетании «САО ВСК» робот должен понять, что речь не идет о Северном Административном Округе (САО).

Другими словами, чтобы качественно идентифицировать юридические лица, нужно так же качественно идентифицировать максимум других объектов — регионов, отраслей, тематик, персоналий в каждой публикации. Это порождает глобальную задачу, которая в компьютерной лингвистике называется Entity Linking. Алгоритмы решения этой задачи в СКАНе работают уже много лет, и совершенствуются с каждым годом.

Преступник или жертва?

У крупных компаний — сотни и тысячи контрагентов. Большая часть публикаций про них нейтральная, содержит лишь упоминание компании во второстепенном контексте — обычно это пара предложений в большом материале.

Задача СКАНа — не просто показать эти публикации, заставляя тем самым специалиста службы безопасности читать огромные статьи. Система должна оставить в выдаче только те фрагменты текстов, которые значимы.

Мы выделяем несколько специфических «рискованных» тем: коррупция, хищения, увольнения и сокращения, проверки государственных органов, конфликты акционеров...

Задача СКАНа – дать специалисту «срез» инфополя: с коррупцией связаны 10 публикаций, с проблемами увольнений со скандалами — 20 публикаций... А все остальные найденные публикации не представляют интереса с точки зрения репутационных рисков, тратить время на них не нужно.

Таким образом, все инфополе «сужается» в соответствии с двумя параметрами: названием контрагента и сюжетом. Такие пары называются биграммами. Это способ поиска, в котором учитывается не одно слово, а их сочетание.

Но это еще не все. В событиях разных типов разные участники по-разному взаимодействуют друг с другом. Например, сотрудник одной компании похитил материальные ценности у другой компании. Тут надо понять, кто совершил преступление, и кто жертва.

А вот в сюжете о коррупции есть два участника: тот, кто дает, и тот, кто берет взятку. И оба они вне закона, и могут представлять интерес для служб безопасности.

Если же у крупного банка вскрыли банкомат и похитили деньги, то для его репутации это менее критично, чем если топ-менеджер пойман на взятке.

СКАН определяет, о каком событии идет речь в материале, идентифицирует роли участников. Например, он видит пару «виновный — жертва» или «пострадавший — спасатель», тройку «истец — ответчик — третья сторона».

«А разве вы не читали?!»

Задача СКАНа - системный подход к вопросам репутации.

С его помощью можно сделать экспресс проверку репутации контрагента или группы контрагентов и увидеть на одном экране все сработавшие риски.

Можно загрузить список контрагентов (до 10 000 в одном списке) и ежедневно получать регулярный мониторинг рисковых упоминаний или другой чувствительной для бизнеса информации.

Данные СКАНа можно интегрировать встроеныв кредитные конвейеры крупнейших банков по API и проверять на потоке репутацию тысяч организаций, строитьрассчитывать собственные скоринговые модели или воспользоваться нашим Индексом репутационного риска (ИРР).

Наш ИРР показывает условную “карму” компании: учитывает вклад как отрицательных контекстов так и положительных или нейтральных. Индекс рассчитывается каждый день и учитывает всю актуальную информационную повестку.

Так, например в начале октября 2019 г. в СМИ прошли новости об утечке данных пользователей Сбербанка и взрыве банкомата банка. СКАН уже спустя несколько часов после появления новостей показал резкий, но короткий рост рисковых упоминаний по банку.

Благодаря СКАНу риск-менеджеры могут в режиме реального времени получать сигналы о важных изменениях, связанных с деловой репутацией, и принимать необходимые решения. И их не застанет врасплох вопрос: «А разве вы не читали?!»

10.03.2020 16:42

Попробуйте технологии SCAN в деле