Новости

15 декабря, 2017 13:53

Пол человека научились определять по постам в интернете

Источник: Известия
Пол пользователя интернета по опубликованным им текстам научились определять математики национального исследовательского центра «Курчатовский институт». С помощью лингвистов Воронежского государственного педагогического университета (ВГПУ) они разработали методы машинного обучения и компьютерного моделирования, позволяющие решать эту нетривиальную задачу. Это удается сделать даже в случае, когда автор текста пытается представиться читателю не тем, кто он есть на самом деле.
Фото: ИЗВЕСТИЯ/Михаил Терещенко

— Давно назрела необходимость глубокого анализа информации, которая циркулирует в социальных сетях, — рассказал «Известиям» руководитель проекта, кандидат физико-математических наук Александр Сбоев. — Полученные нами результаты и методики будут использованы в том числе для защиты детей от вредной информации и борьбы с террористическими угрозами.

По словам руководителя проекта, при обнаружении источников вредоносной информации соответствующие службы проводят их комплексный анализ. Важный компонент этой работы — достоверная идентификация пола автора. То же касается и задачи установления личностей террористов по их переписке. Поэтому силовые структуры — один из потенциальных пользователей результатов исследования. Другое возможное применение связано с бизнесом: достоверное распознавание пола участника интернет-коммуникации поможет при проведении маркетинговых исследований и таргетировании рекламы.

Исследование проводится с использованием суперкомпьютеров. С помощью нейросетей и методов искусственного интеллекта компьютер анализирует авторские тексты по ряду грамматических и стилистических признаков. Определяются закономерности, позволяющие установить пол автора.

— Достоинство нейросетей и методов искусственного интеллекта в том, что они извлекают из текста не 1–2 признака, а работают с очень сложными комбинациями свойств, имеющими корреляцию с полом автора. По нашим оценкам, мы достигли 86% точности в определении пола по тексту, — утверждает Александр Сбоев. — В русском языке многие слова имеют родовую принадлежность, но мы специально не опираемся на такие вещи, как окончания мужского или женского рода. Их легко имитировать.

Следующая задача проекта, по словам Александра Сбоева, — научить машину определять по текстам возраст автора. Это куда более сложная задача: вариантов тут в отличие от пола куда больше.

Руководитель лаборатории корпусной социолингвистики и автороведения ВГПУ, кандидат филологических наук Татьяна Литвинова рассказала «Известиям», что лингвисты, работая над этим проектом, обнаружили ряд интереснейших закономерностей, позволяющих отличить мужской текст от женского. Для письменной речи мужчин характерно большее лексическое разнообразие — значительное число уникальных слов. Кроме того, мужчины используют большее количество предлогов. Для женщин же характерно употребление значительного числа местоимений, особенно личных. Подобные различия наблюдаются не только у носителей русского языка, но и у мужчин и женщин, разговаривающих на английском, греческом и других европейских языках. Психологи называют причину таких различий report/rapport: для мужчин важнее донести информацию (от англ. report — сообщать), для женщин же — передать отношения (rapport). Подобные признаки речи почти невозможно имитировать, считает Татьяна Литвинова.

Лингвисты изучают влияние и других характеристик личности на проявление пола в тексте. Например, в одном из экспериментов выяснилось, что тексты праворуких женщин и мужчин достаточно близки по своим характеристикам, тогда как у леворуких они разнятся очень сильно.

Совместное исследование математиков Курчатовского института и лингвистов ВГПУ поддержано Российским научным фондом (РНФ): на проект выделяется 4,2 млн рублей ежегодно. Работы начались в 2016 году, и до их завершения остается чуть больше года.

29 марта, 2024
Российские ученые обучили ИИ подбирать эффективную защиту для глаз от лазерного излучения
Российские ученые разработали нейросеть для быстрой оценки способности материалов блокировать опас...
29 марта, 2024
Ученые НГУ впервые провели радиоуглеродный анализ образцов из памятника андроновской культуры Вахрушево-1
Исследователи Института археологии и этнографии СО РАН совместно с коллегами из НГУ установили, чт...