#Виды семантического анализа
#Классификция по теме
В результате этого вида анализа введенный текст (или тексты) будет отнесен к одной или нескольким сущностям темы, по которой проводится анализ.
Один текст может быть отнесен сразу к нескольким сущностям.
Пример.Имеется тема"Новостные категории", содержащая сущности"Экономика","Культура","Спорт","Hi-tech"и"Авто". Для расчета передано 5 коротких новостных заголовков:
- "Победителем чемпионата Италии по футболу стал Ювентус";
- "Названа самая выгодная компания мира";
- "Mercedes презентовал новую модель";
- "Обнаружена новая туманность в созведии тельца";
- "Команда формулы-1 McLaren заявила о притязаниях на чемпионство в 2021 году";
- "Представление оперы «Сказка о царе Салтане» состоится 4 января 2020 г.";
- "Нейросети помогли спрогнозировать уровень озона в городах";
Результатом классификации по теме"Новостные категории"будет следующая классификация:
- Экономика: 2;
- Культура: 6;
- Спорт: 1 и 5;
- Hi-tech: 7;
- Авто: тексты 3 и 5;
- Не распознано: 4.
#Анализ тональности
В результате этого вида анализа будет определено отношение авторов текстов — негативное, нейтральное или позитивное — к объектам высказывания.
Пример.Проведено исследование с 5 респондентами, в рамках которого был задан вопрос"Какой вопрос вы бы хотели задать директору вашей организации?"
Получено 5 ответов:
- никакой
- зарплата не повышалась 5 лет, когда будет индексация?
- все отлично, вопросов нет
- когда отменят штрафы за опоздание на работу?
- какая у вас цель в жизни?
Результатом анализа тональности ответов станет следующая классификация:
- ответы с негативным отношением — 2 (2 и 4);
- ответы с позитивным отношением — 1 (3);
- ответы с нейтральным отношением — 2 (1 и 5).
#Анализ эмоционального окраса
В результате этого вида анализа будут определены эмоции, выраженные автором в текстах, — печаль, радость, страх, отвращение или злость — к объектам высказывания.
Пример.Блоггер решил поинтересоваться мнением своих подписчиков по поводу публикуемого им контента и получил следующие ответы.
- ты уже никому не интересен
- твоя прическа очень бесит
- люблю смотреть каждое твое видео!
- ваше поведение касаемо меньшинств просто отвратительно!
- ужас, не могу уже за этим наблюдать
Результатом анализа эмоционального окраса станет следующая классфикация:
- печаль: 1;
- радость: 3;
- страх: 5;
- отвращение: 4;
- злость: 2.
#Анализ частотности слов
Результатом анализа частотности слов является список слов или словосочетаний, выделенных в тексте, которые встречаются чаще 1 раза. В результате каждое слово словосочетания приводится к словарной форме.
Пример.Внутри компании был проведен короткий опрос, в рамках которого был задан вопрос"Устраивает ли вас ваше рабочее место?"Получено 5 ответов:
- сломался кондиционер, стало очень душно
- очень нравятся новые мягкие кресла, стало комфортнее
- жарко, неделю назад сломался кондиционер, его нужно починить
- все устраивает
- с мягкими креслами стало гораздо лучше
В рамках данного анализа длина словосочетания равна 2, таким образом результатом станет следующий список:
- сломаться кондиционер: 2;
- мягкий кресло: 2;
#Представление результатов семантического анализа
Результаты семантического анализа представлены в виде таблицы, которая содержит название сущностей, а также количество, процент и актуальность текстов, отнесенных к каждой сущности.
Количество отражает число текстов, отнесенных к конкретной сущности.
Процент составляет численное отношение количества текстов, отнесенных к конкретной сущности, к общему количеству текстов.
Под актуальностью следует понимать численное отношение количества текстов, отнесенных к конкретной сущности, к числу непустых распознанных текстов.
Кнопка рядом с названием каждой сущности открывает список отнесенных к ней текстов.
Структура результатов семантического анализа при использовании API в целом повторяет табличное представление в личном кабинете и подробно описана в соответствующем разделе.