Цифровая репутация. Создать, развить и защитить

Текст
4
Отзывы
Читать фрагмент
Отметить прочитанной
Как читать книгу после покупки
Шрифт:Меньше АаБольше Аа

Парсеры и системы мониторинга

Системы для анализа соцсетей делятся на два основных типа: парсеры и системы мониторинга.

• Парсеры (от англ. parse – «разбирать, анализировать») – это относительно простые и лёгкие инструменты для выкачки небольшого количества аккаунтов и их основных параметров, существующие и в виде подписных интернет-сервисов, и в виде программ для персонального компьютера. Парсеры выкачивают сотни или тысячи аккаунтов по заданному списку, иногда до десятков тысяч, а также собирают релевантные сообщества и страницы. На рынке имеется довольно широкий выбор парсеров.

• Системы мониторинга – это «тяжёлые» системы, работающие на большом количестве серверов, исполненные исключительно в виде подписных интернет-сервисов. Они выкачивают не конкретные списки или сегменты соцсетей, а всё, до чего «могут дотянуться», десятки миллионов сообщений в сутки с сотен миллионов аккаунтов. Этих систем в современном Рунете фактически всего 3–4. О них мы подробно расскажем ниже.

Есть также отдельный промежуточный тип систем мониторинга, которые отслеживают интернет-СМИ. Они не такие мощные, как системы мониторинга соцсетей, и нужны в основном для задач пиара. Они выкачивают несколько десятков тысяч интернет-СМИ, что даёт примерно миллион-два новостных сообщений в день. О них также – ниже.

Парсеры

Парсеры – это программы, которые выкачивают данные конкретного аккаунта или списка аккаунтов с определённой глубиной работы. С их помощью можно выкачать официальный профиль аккаунта, публикации аккаунта (посты, реакции, комментарии, фото) за выбранный период, социальный граф для заданного аккаунта: списки групп, друзей или подписчиков.

Прочая активность аккаунтов в «широком» Интернете за пределами собственно аккаунта – комментарии в «чужих» аккаунтах, репосты его публикаций, лайки – парсерам, как правило, недоступна, поэтому такие программы используются обычно для решения узких и сиюминутных задач. Типовыми примерами могут быть сбор аудитории сообществ конкурентов, анализ комментариев группы аккаунтов по ключевым словам или сбор постов и комментариев всех подписчиков из заданной группы.

Парсеры, как правило, не обладают большой вычислительной мощностью и могут обрабатывать лишь небольшие объёмы данных. Для выкачки данных миллионов аккаунтов они не подойдут – а именно такая задача будет стоять, как только речь зайдёт о крупной компании, в поисках упоминаний о которой придётся «перерыть» практически все социальные сети. Кроме того, в парсерах обычно нет лингвистического ИИ-модуля, то есть они не анализируют тональность и другие параметры выкачанных текстов.

Примерами популярных парсеров могут служить такие программные решения, как «Демон Лапласа»[11], Avalanche[12], «Церебро. Таргет»[13], Pepper. Ninja[14] и TargetHunter[15].

Системы мониторинга СМИ

Принято считать, что упоминания в СМИ отслеживать проще: статьи пишут правильным русским языком, придерживаются литературной нормы, поток сообщений (и, как следствие, количество упоминаний) значительно меньше, чем в соцсетях (интернет-СМИ в Рунете публикуют несколько сотен тысяч новостей в день – против десятков и сотен миллионов сообщений в соцсетях, на видеохостингах и в каналах мессенджеров).

Поэтому системы, выполняющие мониторинг онлайн-СМИ, существуют уже два десятка лет, хорошо развиты и представлены в довольно большом количестве (прежде всего стоит упомянуть популярные решения «Медиалогия»[16], «СКАН-Интерфакс», «ПрессИндекс» и «Интегрум»). Они проще в освоении, чем универсальные комплексные системы мониторинга, и могут применяться, когда требуется собрать и исследовать только публикации в прессе.

Системы мониторинга и анализа социальных медиа

Подобные системы стараются собирать, хранить и анализировать данные всех социальных сетей, СМИ и других площадок. Их главное преимущество – в объёме и скорости выкачки медийного пространства и в более широких аналитических возможностях.

По сути такие системы представляют собой многофункциональные автоматизированные комплексы, работающие на сотнях серверов, фактически – поисковые машины по медийному пространству.

В отличие от парсеров системы мониторинга выкачивают не только сами сообщения, но и все полученные пользовательские реакции, причём делают это в режиме, близком к «реальному времени».

Пожалуй, это самые дорогие в использовании системы мониторинга, потому что для корректной обработки собранных больших данных[17] и получения практически применимых результатов компаниям, управляющим мониторинговыми системами, необходимо сотрудничать с ведущими экспертами по изучаемой теме и постоянно совершенствовать модели и методики анализа. Не говоря уже о чисто технических задачах извлечения и хранения данных, решение которых также весьма затратно и требует больших вычислительных мощностей. Как уже говорилось, в отличие от парсеров, которые используются для выкачки сотен или тысяч заданных аккаунтов с тысячами или десятками тысяч сообщений в день, системы мониторинга выкачивают ежедневно сотни миллионов аккаунтов, сотни миллионов сообщений и хранят базы выкачанного размером в петабайты.

Стоимость подобных систем оправдывается разнообразием и сложностью решаемых задач. В их числе:

• анализ всего информационного потока;

• анализ поведения отдельного аккаунта;

• выявление связей между аккаунтами и построение графа связей;

• исследование и визуализация развития информационного повода;

• выявление и анализ аккаунтов – распространителей информации;

• расчёт медийной силы аккаунта (метрика возможности влияния аккаунта на инфополе в целом).

Системы этого уровня поддерживают ретроспективное хранение данных, часто за многие годы, что позволяет не просто исследовать текущее «мгновенное» состояние информационного поля, но и анализировать информацию в истории и динамике.

Таких систем мониторинга и анализа на российском рынке не очень много. Это прежде всего «Крибрум» и Brand Analytics.

Системами мониторинга пользуются не только коммерческие компании, но и государственные структуры – в том числе спецслужбы. Такие специализированные системы больше похожи на парсеры и используются для работы с ограниченным списком аккаунтов, групп или пабликов. Как правило, этим системам не требуется анализировать текстовые данные, скорее их задача – хранение максимально полных данных с учётом их связи с ЕСИА, базами МВД, ФСБ, Минздрава и др.

Иностранные решения практически не представлены в России – точно так же, как российские системы не работают на западном рынке, за редкими исключениями. Причина в том, что для анализа неструктурированного текстового потока социальных медиа на определённом языке нужен сложный лингвистический разбор этого языка, а также постоянная выкачка всех национальных социальных платформ.

Иногда, впрочем, в системы встроены автоматические переводчики. Такие системы позволяют найти уникальное наименование бренда в СМИ в небольшом потоке сообщений из социальных сетей. Более серьёзные задачи анализа текстов на чужом языке они обычно выполнять не могут. Таковы, например, американские системы Brandwatch и IBM Watson.

При выходе компании на зарубежные рынки стоит использовать специализированные иностранные системы. Искать упоминания, написанные латиницей и опубликованные на Западе, можно через Mention, Brandwatch, BuzzSumo, Brand24, Hootsuite. Для китайского рынка стоит попробовать систему Wisers, для арабского – Carma.

 

Ключевые возможности современных многофункциональных систем мониторинга

Давайте на примере системы «Крибрум» рассмотрим функционал современной системы мониторинга, которая способна обрабатывать огромный объём разнородных данных из социальных медиа с высокой детализацией и скоростью.

Приведем принципиальную схему работы программно-аппаратного комплекса «Крибрум».


Для мониторинга принципиальное значение имеет получение информации в так называемом «реальном времени». Особенно это важно, когда речь идёт о мониторинге социальных сетей. Общая скорость получения и обработки информации аналитиком, пиарщиком, маркетологом, использующим систему мониторинга, зависит прежде всего от скорости выкачки всего медийного пространства.

Сбор данных

Социальные сети не приветствуют сбор и анализ данных своих пользователей сторонними сервисами и регулярно добавляют новые технические ограничения. Поэтому для сбора актуальной информации разработчики любой системы мониторинга постоянно поддерживают, актуализируют и адаптируют её к новым регламентам (и способам противодействия) площадки. Например, внутри системы «Крибрум» реализовано несколько десятков независимых поисковых роботов, каждый из которых предназначен для получения определённого вида данных с конкретной платформы. Каждый робот по-своему обходит ограничения платформы и использует собственные методы приоритизации запросов.

Потоковый поиск

Чтобы находить новые данные, релевантные запросам клиентов системы, необходимо постоянно проверять выкачанный массив контента. При потоковом поиске каждая новая публикация сразу после выкачки проверяется на соответствие одновременно множеству запросов. Так обеспечивается полнота данных, которые к тому же проходят предварительную фильтрацию и анализ.

Потоковый поиск должен поддерживать расширенный язык поисковых запросов. Часто нужно задать сложные поисковые условия, без которых поток документов сильно зашумлён (в случаях многозначных понятий, омонимии). Поэтому каждый разработчик подобных систем создаёт собственный язык запросов, поддерживающий более сложный синтаксис поисковых запросов, чем общедоступные поисковые машины по «обычному» Интернету.

Специализированные хранилища

Данные из социальных сетей – изображения, видео и сведения о действиях пользователей – настолько объёмны, что требуют особой организации хранения. Хранилища должны позволять легко извлекать и анализировать данные и учитывать необходимость их постоянного индексирования по всё новым и новым пользовательским запросам, число которых может доходить до десятков миллионов.

Детектирование и подавление дублей

Система мониторинга социальных сетей должна определять источник (оригинал) сообщения и показывать прежде всего именно его. Репосты и перепечатки должны считаться дублями, иначе при развитых в соцсетях механизмах репостов выдача результатов будет зашумлена огромным количеством однотипных (и даже одинаковых) публикаций. Если даже при перепечатке в сообщение вносились незначительные изменения, система всё равно должна распознавать его нечёткие дубли и не выводить отдельно такие публикации.

Когда дублей десятки или сотни тысяч в сутки, их несложно определить вручную или автоматически. Но для больших потоков данных, особенно если они возникают одновременно (например, всплеск репостов в результате какого-либо происшествия или информационной атаки), требуются специализированные алгоритмы.

Анализ данных

Для полноценного анализа соцсетей недостаточно просто собрать исходные данные и построить по ним специализированную поисковую машину. Как правило, информации по интересующей теме слишком много, чтобы отфильтровать её из общего потока и рассмотреть вручную. Поэтому необходимо применять методы автоматического анализа – классификации, выделения объектов, распознавания (для изображений) и так далее.

Специалисты, разрабатывающие систему мониторинга, составляют специализированные словари для классификации текстов или обучающие выборки для любых методов анализа текстов и изображений с применением машинного обучения. Это медленный и трудоёмкий процесс. Чтобы достичь приемлемого качества, требуется постоянно квалифицированно настраивать систему: проверять результаты поисковых запросов и определять тематику и тональность сообщений.

Помимо полученных данных, важны методы и методики «извлечения смыслов» из собранной информации.

Языковые модули

Один из основных блоков системы мониторинга – специализированные лингвистические модули, которые позволяют:

• корректно разбивать текст на слова с учётом особенностей конкретного языка;

• корректно обрабатывать знаки препинания и неалфавитные символы и знаки;

• учитывать орфографию, например, слово «полёт» можно писать через «ё» и через «е» – «полет»; при этом система должна идентифицировать оба варианта как одно и то же слово;

• обрабатывать слова, написанные заглавными буквами;

• проводить морфологический анализ с учётом правил конкретного языка.

Система ищет и анализирует публикации и комментарии, то есть тексты, на тех языках, на которых общаются пользователи. Эти языки называют естественными.

В любом естественном языке предусмотрены различные средства записи и оформления текстов: набор алфавитных символов и символов пунктуации, варианты записи алфавитно-цифровых слов, заглавные буквы и пр. Для некоторой группы языков эти средства могут быть универсальными. Например, знаки препинания практически одинаково используются во всех языках стран бывшего СССР, но иначе – в европейских языках.

Важно также учитывать словоизменение: во многих языках одно и то же слово может присутствовать в текстах в различных морфологических формах. Например, в славянских языках существительные, местоимения и прилагательные изменяются по числам и падежам, глаголы – по временам, родам, числам, лицам и так далее. Количество различных форм одного слова в некоторых языках иногда доходит до нескольких сотен.

Чтобы обеспечить необходимую полноту поиска, важно, чтобы система идентифицировала одно и то же слово, представленное в разных формах, как одну лексическую единицу (лексему). Для этого используется модуль морфологического анализа. На входе он получает форму слова, а на выходе формирует обобщённый идентификатор слова – лексему, к которой данная форма относится.

Методы анализа

Данные соцсетей несут в себе явные и неявные признаки настроений своих авторов. Например, негативный комментарий о продукте компании – явный признак недовольства пользователя. А лайк такой публикации в закрытой тематической группе – признак уже неявный, хотя и может говорить о некоторой степени вовлечённости. Понятно, что такой пользователь настроен скорее негативно по отношению к компании, а значит, должен стать одним из объектов работы по повышению репутации.

Разнообразие данных требует разнообразия методов анализа, заложенных в систему:

• для текстов – тематическая и географическая классификация, анализ тональности высказывания и так далее;

• для изображений – классификация, распознавание и идентификация лиц, распознавание текста на картинке, выделение сцен и обнаружение различных объектов;

• для пользовательских связей – анализ графа реальных связей, на котором отображены не только друзья, но и различные действия (комментарии, лайки, репосты и тому подобное) и их авторы, кластеризация графа для обнаружения групп и так далее.

Если таких методов анализа нет, то система мониторинга соцсетей может выполнять только самые простые задачи и, по сути, мало чем отличается от парсера.

Пословная обработка публикаций – ключевая особенность базового поискового механизма, когда происходит индексация извлечённых из соцсетей постов и поиск в индексе текстов, соответствующих запросу. Сначала алгоритм разбивает исходный текст на отдельные слова. Затем заносит в индекс позицию каждого слова в тексте, чтобы вычислить расстояние между словами и оценить важность их совместного использования.

Определение тональности

Тональность высказывания – это отношение автора текста к объекту, о котором он высказывается в своём сообщении. Для того чтобы определить тональность (её также называют эмоциональной окраской), проводят автоматический лингвистический анализ текста, состоящий из следующих этапов.

1. Восстановление слов в грамматически правильной форме – исправление ошибок и опечаток, расшифровка сокращений и так далее.

2. Определение связей между словами (синтаксический анализ), восстановление пропусков и местоимений, заменяющих упоминания значимых слов.

3. Выявление целевых объектов, по отношению к которым систему интересует выражение тональности (это нужно, чтобы понять, что именно ругает или хвалит пользователь – скажем, не отель вообще, а его расположение, номера или питание).

4. Выявление эмоционально окрашенных эпитетов и терминов, относящихся к объектам мониторинга и их отдельным аспектам, а также отрицаний и усилений. Для выполнения этого этапа специально разрабатываются тематические словари по каждой предметной области. Это позволяет учитывать специфику отрасли при определении того, хвалит или ругает пользователь объект мониторинга[18].

5. Расчёт интегрального показателя тональности сообщения в целом и вынесения оценки тональности.

Глава 2.2
Существующие системы мониторинга

В этой главе мы расскажем о наиболее развитых системах мониторинга, в которых реализованы ключевые функции и возможности, описанные ранее.

Системы мониторинга начали развиваться в России сравнительно недавно – в 2010–2015 годах, и многие из них – как, например, Brand Analytics, «Медиалогия», «Крибрум» – появились ещё до того, как маркетологи выделили управление репутацией в отдельное направление интернет-маркетинга. Некоторые компании, занимавшиеся мониторингом, уже успели прекратить свою деятельность или уйти с российского рынка – как, например, YouScan.

Системы мониторинга можно использовать как для мониторинга всех доступных социальных сетей и интернет-площадок по ключевым словам, так и для отслеживания активности конкретных площадок и каналов.

• Мониторинг по ключевым словам. Позволяет увидеть все упоминания: комментарии, отзывы и любые другие текстовые сообщения, где есть ключевое слово. Инструмент, требующий чёткой и аккуратной настройки.

• Мониторинг отдельных площадок и каналов. Чаще всего применяется для отслеживания пользовательских комментариев в официальных социальных сетях, на отзовиках и картографических сервисах.

Вне зависимости от специфики задачи, решаемой компанией, полноценная система мониторинга и анализа должна обладать всеми возможностями, описанными в предыдущей главе. Перечислим их ещё раз:

• скорость сбора данных из СМИ и социальных сетей;

• потоковый и ретроспективный[19] поиск;

• специализированные хранилища;

• детектирование и подавление дублей сообщений;

• аналитические алгоритмы для распознавания тематики, тональности сообщений и тому подобного;

• языковые модули для разных языков.

Для того чтобы собранные и обработанные системой данные соответствовали реальному и актуальному положению дел в медийном пространстве, а представленная информационная картина была полной и актуальной, система мониторинга должна удовлетворять трём главным критериям.

1. Максимальное покрытие (то есть охватывать максимум источников, включая аккаунты и группы во всех социальных сетях).

 

2. Максимальная скорость сбора данных.

3. Достаточная глубина ретроспективы (то есть хранение сообщений за достаточно долгий срок для анализа длинных кампаний и других социальных явлений).

Далеко не все системы мониторинга раскрывают о себе такие технические данные. Если собрать имеющиеся в открытом доступе сведения о наиболее развитых системах и как-то попытаться их унифицировать, то получится такая таблица (в неё вошли активные, ныне работающие системы, предоставляющие наиболее полный инструментарий для управления репутацией).


* Включая 30 тыс. иноязычных СМИ.

** Указаны сообщения, получаемые из всех источников.


Перечисленные в таблице системы мониторят все платформы социальных медиа, однако, принимая решение об использовании системы, стоит выяснить, выполняется ли сейчас полноценный мониторинг платформ Фейсбук и Инстаграм, запрещённых и заблокированных в России.

Все эти системы также собирают данные из блогов, отзовиков, форумов, картографических сервисов, а также мониторят публичные чаты и каналы в Телеграме.

Несмотря на кажущееся сходство, у каждой из систем есть своя специфика, обусловленная историей развития.

«Медиалогия»

Изначально эта система создавалась как инструмент мониторинга СМИ и оценки эффективности деятельности PR-отделов. И по сей день у «Медиалогии» самая большая база отслеживаемых российских СМИ, в число которых входят федеральные, региональные и зарубежные источники, в том числе и закрытые, доступные по подписке. Представлены не только печатные издания, но и радио и телевидение.

Мониторинг СМИ и контроль эффективности пиара продолжают оставаться наиболее развитым направлением работы системы – предлагаемые «Медиалогией» продукты в большей степени ориентированы именно на этот вид деятельности. Компания разработала собственную систему оценки эффективности пиар-деятельности.

• Индекс цитируемости – показатель качества распространения контента СМИ, рассчитываемый с учётом количества ссылок на источник информации в других СМИ и влиятельности источника, опубликовавшего ссылку.

• СМ-индекс – индекс влиятельности бренда в социальных сетях, оценивающий все упоминания на всех платформах с учётом важности площадки и «вовлечённости» конкретного сообщения.

• Медиаиндекс – метрика эффективности работы PR-службы, рассчитываемая с учётом заметности, тональности и цитируемости упоминания.



Эти индексы компания позиционирует как средства для оценки качества работы служб PR и SMM, а «МедиаИндекс» даже зарегистрировала как торговую марку.

Как видно, все эти метрики имеют ярко выраженный перекос в сторону PR, и даже предлагаемое компанией решение для мониторинга и анализа упоминаний в социальных медиа ориентировано прежде всего на совершенствование системы коммуникации с клиентами, скорее решая практические задачи бизнеса, чем охватывая весь спектр задач управления репутацией.

11http://protestonline.ru/.
12https://avl.team/.
13https://церебро.рф/.
14https://pepper.ninja/.
15https://targethunter.ru/.
16Мониторит не только СМИ, но это одна из её ключевых функций, и со СМИ она справляется отлично.
17Большие данные (big data) – огромные объёмы информации, зачастую крайне нетривиально структурированной и взаимосвязанной. Собрать их и проанализировать можно только автоматически.
18Например, если тормозит машина или самокат, то это скорее хорошо, если смартфон – плохо.
19То есть мгновенный поиск клиентских запросов по актуальным, выкачиваемым в реальном времени сообщениям, а также поиск по всему хранилищу сообщений за многие годы.
Купите 3 книги одновременно и выберите четвёртую в подарок!

Чтобы воспользоваться акцией, добавьте нужные книги в корзину. Сделать это можно на странице каждой книги, либо в общем списке:

  1. Нажмите на многоточие
    рядом с книгой
  2. Выберите пункт
    «Добавить в корзину»