Содержание
5.1 Используемая система для экспериментов ………………………. 13
5.2 Предобработка текста………………………………………………. 13
5.3 Dummy-model……………………………………………………….. 14
5.4 TF-IDF + Logistic Regression ………………………………………. 14
5.5 BiDirectional LSTM ………………………………………………… 15
5.6 CNN …………………………………………………………………. 16
5.7 Сравнение…………………………………………………………… 18
5.8 Выводы……………………………………………………………… 19
7. Список литературы ………………………………………………… 22
В современном обществе всё более важную роль играют автоматизированные информационные технологии. Однако, их развитие происходит неравномерно. И если сейчас уровень вычислительной техники и средств связи уже довольно высокий, то успехи в области смысловой обработки информации гораздо более скромные. Как только встаёт вопрос создания перспективных технологий, на передний план почти наверняка выступают проблемы автоматической обработки естественного языка. И это логично, ведь мышление человека связано с языком напрямую. Язык является главным инструментом нашего мышления.
В то же время, широкое распространение получает машинное обучение. Задачи нахождения закономерностей в больших объёмах данных становятся неотъемлемой частью жизни человека, что ожидаемо пробуждает в голове идею попробовать использовать их для решения задач обработки естественного языка, в которых мы нередко работаем с большими объёмами текста. В настоящей работе проанализированы некоторые алгоритмы машинного обучения в задаче классификации для текстовой информации.
Цель данной работы – изучение целесообразности применения методов машинного обучения при решении задач компьютерной лингвистики. Для достижения данной цели поставлены следующие задачи:
В данной работе проводилось исследование различных методов классификации текста, в том числе и подходов, основанных на использовании нейронных сетей.
Нейронные сети зарекомендовали себя, как очень мощный алгоритм классификации изображений, но в последнее время стали активно применяться и в других областях, включая обработку естественного языка.
В этой работе были рассмотрены несколько подходов к решению задачи классификации текста на примере реального конкурса. Было реализовано две различных нейронных сети: свёрточная и рекуррентная, а также дважды реализована логистическая регрессия. Произведено сравнение качества данных методов на одной и той же выборке. Показано, что нейросетевой подход имеет место быть при решении задач компьютерной лингвистики. И даже более того, в некоторых ситуациях его использование будет гораздо целесообразней, чем использование традиционных методов