КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-11-01294

НазваниеПредставление, обнаружение и обработка знаний: логический подход

РуководительКузнецов Сергей Олегович, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 2017 г. - 2019 г. 

Конкурс№18 - Конкурс 2017 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словапредставление знаний, обнаружение знаний, логические методы, доступ к данным посредством онтологий, вычислительная сложность, временные логики, дескриптивне логики, формальные языки, коллаборативное построение онтологий, анализ формальных понятий

Код ГРНТИ16.31.21, 20.53.19, 27.03.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Объем неполных, неструктурированных и разнородных данных растет невиданно быстрыми темпами. Пользователи в промышленности, науке, здравоохранении и многих других областях нуждаются в новых эффективных средствах доступа к таким данным, а также средствах их анализа, обработки и использования. Наш проект нацелен на создание эффективных формально-логических и алгоритмических средств для представления, обнаружения и обработки данных и знаний и внесет вклад в разработку нового поколения мощных и гибких информационных систем. Доступ к данным посредством онтологий (сокращенно ОДД) — это новая парадигма организации доступа к данным различного типа, которая разрабатывается примерно с середины 2000-х годов и объединяет специалистов в областях представления знаний, искусственного интеллекта, баз данных и семантических технологий. Специализированные (предметно-ориентированные) онтологии важны в самых разных прикладных областях: в программной инженерии, в медицине, промышленности и социологии. Многие исследователи и практики считают ОДД ключевой составляющей частью информационных систем нового поколения. Первой общей целью данного проекта является разработка и исследование достаточно выразительных и тем не менее вычислительно эффективных языков онтологий и запросов для доступа к данным, базирующегося на переписывании (сведении) онтологических запросов в стандартные запросы SQL или SPARQL над исходными данными. Главным отличием от существующего подхода к ОДД с помощью языка OWL 2 QL, предлагаемого W3C, является перенос фокуса с языка онтологий (который должен работать для всех мыслимых запросов и данных) на классы онтологических запросов, т.е. пар (онтология, запрос). Тем самым мы дадим возможность использовать онтологии в более выразительных языках, чем OWL 2 QL, вместе с практически полезными запросами. Мы также расширим область применения парадигмы ОДД на временные данные, в том числе потоковые данные с сенсоров, измеряющих всевозможные параметры, такие как температура, скорость, влажность и т. п. Наши исследования будут основаны на изучении примитивов, используемых в онтологиях и запросах конечных пользователей в нефтяных и газовых компаниях (таких как Статойл и Сименс). Мы получим как теоретические результаты о вычислительной сложности нахождения ответов на онтологические запросы, так и практически эффективные алгоритмы. Разработанные методы и технологии будут реализованы в рамках ОДД-платформы Ontop (http://ontop.inf.unibz.it), находящейся в открытом доступе. Наличие удобного и выразительного языка описания онтологий само по себе не делает процесс построения онтологии простым и очевидным, в том числе и потому, что онтологии должны быть основаны на знаниях экспертов предметной области, как правило, не являющихся специалистами в области формальных методов представления знаний. Необходимо развивать эффективные автоматизированные методы приобретения и обнаружения знаний, которые могли бы быть использованы при построении онтологий. Поэтому одной из целей нашего проекта является развитие методологии распределенного построения онтологий на основе (дополняющих друг друга, а, возможно, и конфликтующих) знаний группы экспертов и разработка эффективных алгоритмов, поддерживающих данную методологию. Отличительная черта предлагаемого подхода – использование формально-логических методов «понятийного исследования», разрабатываемых в рамках анализа формальных понятий, и методов машинного обучения с запросами («обучения по Англуин»), которые позволяют организовать процесс построения онтологий с помощью автоматического выявления аспектов предметной области, не охваченных онтологией в ее текущем состоянии. В рамках проекта будут исследованы теоретические, алгоритмические и практические задачи, решение которых необходимо для создания удобного инструментария на основе рассматриваемых методов в расчете на конкретные языки описания онтологий, используемые в проекте. Знания о предметной области, необходимые для построения онтологий, могут быть получены из прямого диалога с экспертами или же из текстовых источников: научных статей, патентов, аналитических отчетов и проч. Последнее требует наличия эффективных алгоритмических средств, позволяющих извлекать смысл из коллекций текстов в виде некоторой формализованной семантической интерпретации, представленной в человеко-читаемом и машинно-читаемом виде. В проекте предполагается исследовать некоторые формальные лингвистические модели синтаксического и семантического анализа текстов (в частности, исчисление Ламбека, соответствующую ему некоммутативную линейную логику, ее расширения и фрагменты) и их вычислительные свойства.

Ожидаемые результаты
1. Мы получим классификацию онтологических запросов, сформулированных на выразительных языках запросов и онтологий, согласно вычислительной сложности ответа на эти запросы относительно размера данных. Мы разработаем методологию доступа к временным данным посредством онтологий, изучим вычислительную сложность ответа на онтологические запросы в рамках этой методологии, разработаем эффективные алгоритмы поиска ответов на такие запросы и реализуем их в рамках платформы Ontop, находящейся в открытом доступе. 2. Будет разработана общая модель процедуры приобретения знаний — «понятийного исследования» — на основе анализа формальных понятий и обучения с запросами («обучения по Англуин») для построения онтологий предметных областей в распределенной многопользовательской среде. Будут исследованы алгоритмические вопросы, связанные с этой моделью, в применении к различным языкам описания онтологий. В частности, будет предложена вероятностная приближенная (probably approximately correct) версия метода «исследования признаков» из анализа формальных понятий, позволяющая построить приближение хорновской теории (фиксирующей отношение поглощения между понятиями онтологии) за время, полиномиальное от ее размера. Будут исследованы вопросы, связанные с комбинацией конфликтующих точек зрения экспертов на предметную область в рамках единой онтологии и методы разрешения подобных конфликтов. Будет разработана эффективная модель обучения по запросам для различных типов данных, для которых существует естественный порядок по общности описаний, позволяющий задавать соответствия Галуа и так называемые узорные структуры. Будут исследованы алгоритмические вопросы относительно различных типов данных, включающих числовые, графовые, многомерные. 3. Мы разработаем логический фреймворк на основе обогащения исчисления Ламбека, широко известного лингвистически-ориентированного формализма, с помощью разрывных операторов, специальных субэкспоненциальных модальностей, недетерминистского подхода и неопределенности, конструкций логики второго порядка и др. для извлечения информации и онтологий на основе обработки текста на естественном языке. Мы установим точные оценки сложности в общем случае, и ожидая, на основании предыдущих результатов, весь спектр результатов от NP-полноты до PSPACE-полноты и неразрешимости, найдем синтаксические ограничения, которые позволят разработать эффективные алгоритмы (работающие за полиномиальное время) для практической реализации. Проводимые исследования и ожидаемые результаты находятся на высоком международном уровне и будут представлены на ведущих международных конференциях и опубликованы в ведущих международных журналах. Гарантией этого является высокий международный статус основных исполнителей, их опыт работы в связанных областях и опубликованные труды. Разработанные технологии и инструменты применимы в самых разных областях экономики, промышленности и социальной сферы.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
М. Захарьящев: Мы работаем над разработкой и исследованием языков, подходящих для доступа к данным с учетом онтологий (OBDA). Основной целью OBDA является предоставить конечным пользователям - экспертам в своих областях (инженеры, геологи, метеорологи, историки и т. д.), но не ИТ-специалистам - удобный способ формулирования запросов к различным релевантным источникам данных. Ниже приводятся типичные сценарии, в которых требуется OBDA. (i) Для принятия решений о бурении скважин для добычи газа и нефти геолог должен исследовать имеющуюся информацию, которая была собрана компанией относительно структуры земной коры в регионе, измерений из предыдущих скважин, сейсмических данные и т. д. Запросы реляционных баз данных компании, разработанные в течение десятилетий, могут быть сложными даже для ИТ-специалиста знающего структуру баз данных, не говоря уже о геологах, которые не знакомы со структурой данных. В парадигме OBDA геологам предоставляется онтология, которая определяет классы и свойства, обычно используемые в их потребностях представления информации на естественном языке; теперь они могут сформулировать свои запросы в терминах этой онтологии, возможно, используя графический интерфейс. Онтология также дополняет данные с помощью фоновых геологических знаний. Задачей OBDA системы является преобразование пользовательских запросов в правильные SQL-запросы по исходным данным и делегирование их выполнение в стандартной системе управления базами данных. Однако это возможно только в том случае, если онтология и языки запросов тщательно отобраны. В настоящее время стандартным онтологическим языком OBDA стандарта W3C является OWL 2 QL, а языком запросов является SPARQL. К сожалению, онтологии, разработанные экспертами в прикладной области, часто содержат аксиомы, которые не выражаются в OWL 2 QL, например, аксиома покрытия, такая как "каждый человек является мужчиной или женщиной". Одна из общих проблем, над которыми мы работаем в этом проекте, заключается в том, чтобы понять, какие типы аксиом (не включенных в OWL 2 QL) требуются для практических применений онтологий и как справляться с ними в контексте OBDA. В частности, мы пытаемся классифицировать онтологические запросы с аксиомой покрытия в соответствии с вычислительной сложностью ответа на них (относительно входных данных) и в соответствии с их сводимостью (или переписываемостью) к SQL-запросам, (линейным) datalog программам и т. д. Мы нашли такие классификации - как синтаксические, так и семантические - для нескольких классов запросов, которые часто используются на практике, и работаем над обобщением конструкций на более общие классы. Результаты были представлены на двух международных конференциях DL-17 и KESW-17 (совместно с О.А. Герасимовой). (ii) Второй сценарий OBDA, над которым мы работаем, - это запрос данных от различных типов датчиков. Например, каждая современная газовая турбина оснащена датчиками, измеряющими температуру их лопастей, скоростью вращения, мощностью и других показателях. Сервисные инженеры заинтересованы в определении различных событий, которые важны для обнаружения, чтобы предотвратить неисправность, проанализировать эффективность услуг и т. д. В отличие от предыдущего сценария (i), рассмотренного выше, стандартный язык онтологии OWL 2 QL и язык запросов SPARQL не подходят в этой настройке, поскольку данные содержат временные и другие числовые параметры. Наша задача в этом проекте заключается в разработке новых онтологий и языков запросов, которые позволили бы формулировать предикаты, которые в значительной степени зависят от таких числовых параметров, как время, температура, скорость. До сих пор мы проанализировали большое количество конкретных запросов на естественном языке о поведении турбины, исторических и метеорологических данных. Мы также провели несколько экспериментов с нерекурсивными онтологическими запросами, расширенными различными типами временных операторов (а именно, стандартными операторами из линейной временной логики, временной логики Халперна-Шохама и метрической временной логикой). Результаты экспериментов выглядят очень многообещающими. В университете Больцано (Италия) внедряется прототип временной системы OBDA, основанной на нашей работе. С.О. Кузнецов Майнинг выпуклых многоугольных паттернов на основе Анализа Формальных Понятий. https://www.ijcai.org/proceedings/2017/ Задача выявления интересных обобщений описаний объектов (подмножеств, подпоследовательностей, подгруп) – одно из важных направлений в искусственном интеллекте (ИИ). В ситуации обучения с учителем (когда объекты обучающей выборки сопровождаются метками классов), дискриминационные шаблоны позволяют извлекать гипотезы из данных и строить понятные классификаторы. Анализ пространственно-временных данных по-прежнему является сложной задачей. Полное и неизбыточное перечисление конкретных форм до настоящего времени не привлекали особого исследовательского интереса. Числовые (в том числе пространственные) признаки обычно дискретизируются либо при предварительной обработке, либо в ходе выполнения алгоритма перечисления паттернов (узоров, шаблонов), вследствие чего признаки рассматриваются по отдельности и возникают паттерны прямоугольной формы. Тем не менее, такие модели были успешно использованы для майнинга числовых данных (например, пространственных городских данных и данных о мобильности). Интересная закономерность может быть, например, географическим районом, в котором есть достаточное количество исследуемых объектов, высокая плотность, и высокая доля объектов одного классов. Такой район может иметь любую форму, однако методы, применявшиеся ранее, были основаны на прямоугольниках со сторонами, параллельными осям координат, которые могут охватывать как плотные, так и разреженные области. Использование произвольных многоугольников в качестве паттернов может приводить к переобученности (то есть слишком точной подгонке к обучающей выборке), и такие паттерны подчас трудно интерпретировать. Выпуклые многоугольники дают хороший компромис между интересностью паттернов и сложностью их вычисления. В нашей работе был введен новый тип паттернов (узоров, шаблонов) - выпуклые многоугольники, которые анализировались с помощью инструментов Анализа Формальных Понятий (АФП). Компьютерные эксперименты, представленные в работе, показывают, что выпуклые многоугольники, с некоторыми дополнительными естественными ограничениями, дают лучшие приближения чем прямоугольники со сторонами, параллельными осям координат в смысле покрываемой площади, плотности и однородности областей. Предлагаемые нами средства дают базовые инструменты для произвольных алгоритмов майнинга пространственных паттернов. Основная трудность при этом – вычислительная сложность, поскольку паттернов может быть экспоненциально много, и исчерпывающий перебор захлебывается уже на 100 объектах. Поэтому мы используем известную технику семплирования (Monte Carlo Tree Search), которая позволяет масштабировать наш подход. Эффективный майнинг графовых паттернов, устойчивых к взятию подвыборок. http://www.ucs.louisiana.edu/~sxk6389/Program Идея майнинга интересных паттернов (узоров, шаблонов) лежит в основе методов открытия знаний. Меры интересности паттернов, позволяющие эффективно вычислять наиболее интересные графовые паттерны имеют большое значение. В нашей статье мы занимаемся майнингом интересных замкнутых графов, которые очень важны для поиска ассоциативных правил на графах (правилах типа «если есть паттерн А, то с высокой вероятностью есть паттерн В»). В предыдущих исследованиях было показано, что эффективный майнинг (т.е. алгоритмы с полиномиальной задержкой) возможен для антимонотонных мер, таких как поддержка и предикат «быть минимальным генератором», а также для локальных антимонотонных мер. Тем не менее, многие меры интересности не антимонотонны в обычном смысле, в том числе меры устойчивости и робастности, которые выражают инвариантность паттерна по отношению к взятию подвыборки. В нашей работе мы расширяем класс антимонотонных ограничений, вводя антимонотонность по отношению к цепочки проекций, то есть последовательности приближенных описаний графов. Предложенный нами эффективный алгоритм определяет, какие графы нужно строить и сохранять, чтобы в итоге отобрать фиксированное количество подграфов самых устойчивых к взятию подвыборки. Данный подход имеет приложения в анализе графовых данных в таких областях как химическая информатика и обработка текстов на естественном языке. А. Щедров, М. Канович Знания о предметной области, необходимые для построения онтологий, могут быть получены из прямого диалога с экспертами или же из текстовых источников в естественном языке: научных статей, патентов, аналитических отчетов и т.п. Последнее требует наличия эффективных алгоритмических средств, разработанных на основе логико-математических методов, позволяющих извлекать смысл из коллекций текстов в виде некоторой формализованной семантической интерпретации, представленной в человеко-читаемом и машинно-читаемом виде. В процессе извлечения знаний из текста мы следуем известной теории Мельчука «Смысл ⇔ Текст», согласно которой переход от текста к смыслу осуществляется на основе процесса построения синтактико-грамматической структуры текста. Эта структура впоследствии является основой для интерпретации данного текста в виде семантических сетей, ламбда-выражений, графов зависимостей и т.п. Формальные лингвистические модели синтаксического и семантического анализа текстов можно разбить на два основных класса: 1. Порождающие грамматики Хомского, где правильно построенные тексты порождается с помощью правил в виде продукций. Данный текст признается грамматически корректным в том и только в том случае, когда его можно сгенерировать по правилам данной грамматики Хомского. Для теории и практики компьютерных наук, самый важный класс составляют так называемые бесконтекстные языки, порождаемые бесконтекстными продукциями. 2. Логические исчисления (Бар-Хиллель, Айдукевич, Ламбек). Данный текст описывается на абстрактно-символическом уровне формулой в языке исчисления и признается грамматически корректным в том и только в том случае, когда соответствующая формула, представляющая синтаксическую структуру текста, выводима в данном исчислении. Например, рассмотрим предложение "John walks". На символическом уровне, пусть John имеет тип N (существительное), а непереходный глагол walks получает тип N\S: непереходный глагол принимает существительное (субъект) слева, выдавая предложение S. Это предложение считается грамматически корректным, потому что N, (N \ S) -> S является теоремой в исчислении Ламбека (и даже в исчислении, Бар-Хиллель, Айдукевич, для основных категориальных грамматик). Здесь N\S выступает в роли левой импликации. Перечислим основные "лингвистические особенности" исходных исчислений: 1) Некоммутативность: "John walks" не тоже самое что "walks John". 2) Правило сокращения недопустимо : "John walks walks" не тоже самое что "John walks". В дополнение поддерживается проективность синтаксической структуры – не допускается разрыв и перемещение составляющих с нарушениями зависимостей. Исчисление Ламбека является логической основой категориальной грамматики в рамках лингвистической парадигмы: грамматики как формально-логической системы, и синтаксического анализа как формального доказательства (вывода). Класс языков выразимых в этих системах составляют в точности бесконтекстные языки - то есть языки порождаемые бесконтекстными грамматиками Хомского (Пентус). Подавляющее большинство лингвистических проблем можно объяснить в рамках бесконтекстных грамматик. Например, в огромном тексте "Евгений Онегин" Пушкина можно найти только ДВА случая нарушения бесконтекстности: 1) "Он из Германии туманной Привез учености плоды." Правильная бесконтекстная структура: "Он из Германии привез туманной учености плоды." Германия никогда не была туманной - туманным был Альбион! 2) "Или разыгранный Фрейшиц Перстами робких учениц." Правильная бесконтекстная структура: "Или Фрейшиц разыгранный Перстами робких учениц." Хотя подавляющее большинство лингвистических проблем можно объяснить в рамках бесконтекстных грамматик, для ряда более тонких явлений естественных языков требуется более выразительный формализм. Например, для анализа выражения вида "the paper John signed yesterday without reading" требуется дополнительный логический механизм для пустых узлов известного типа для "the paper", которые неявно присутствуют после "signed" и после "reading". Чтобы обратиться к более тонким языковым вопросам, мы рассмотрели исчисление Ламбека, обогащенное субэкспоненциальными модальностями. С помощью экспоненциальной модальности мы обеспечиваем ограниченный вариант правила сокращения, что позволяет копирование необходимого контекста. Получены точные нижние границы сложностных оценок для исчисления Ламбека и его вариантов, обогащенных субэкспоненциальными модальностями. Установлено, что имеют место аналогичные сложностные оценки даже в предельном случае, когда используется только один синтаксический тип. В процессе было налажено сотрудничество с одним из ведущих компьютерных лингвистов, Моррилл. Его система CatLog3 - это пример эффективной практической системы. Однако некоторые примеры обрабатываются слишком долго. Нам удалось добиться ускорения его системы для некоторого класса интересных проблем. В частности, Моррилл и Валентин (2015) вводят расширение исчисления Ламбека посредством так называемых экспоненциальных и скобочных модальностей. Их расширение основано на нестандардном правилe сокращения, где обе модальности взаимодействуют весьма нетривиальным образом. Мы доказываем неразрешимость проблемы выводимости в их исчислении (открытая проблема). Мы также изучаем разрешимые фрагменты, рассмотренные Моррилом и Валентином, и мы показываем что эти фрагменты принадлежат классу NP. Для оригинального исчисления Ламбека, Pentus (2010) разработал алгоритм, работающий в полиномиальноe время, для определения доказуемости формул ограниченной глубины. Мы показали, что имеется алгоритм, работающий в полиномиальноe время, даже для исчисления Ламбека, обогащенного скобочными модальностями, когда глубина формулы и глубина вложения скобок ограничены некоторой константой. И.А. Макаров Получены новые способы решения классических задач обнаружения знаний в сложно структурированных данных: - предложен новый метод интерполяции и повышения разрешения карты глубины на основе глубокого обучения с перцептуальной функцией потерь; - проанализированы возможности прогнозирования победы команды в киберспортивных матчах на основе индивидуального вклада игроков и специальных рейтингов, учитывающих данный вклад (совместно с Д.И. Игнатовым); - разработана рекомендательная система по поиску соавторов, использующая скрытые зависимости и графовые признаки на основе анализа публикаций, написанных в соавторстве, а также выделения научных интересов ученых средствами текстового анализа; - получены новые результаты на применение алгоритмов обучения с подкреплением при обучении компьютера игре по видео-ряду с учетом алгоритма эпизодического контроля; - рассмотрены особенности применения квантовой логики при моделировании близости предложений с учетом грамматической структуры предложений. Д.И. Игнатов В работе "Behavior Mining in h-index Ranking Game" проводится исследование одной из самых больших библиографических баз по компьютерных наукам (DBLP). Предварительно были сформулированы теоретико-игровые гипотезы об типах авторов и их стратегии по числу публикаций и цитирования. По массиву 3,8 миллионов публикаций, проиндексированных в DBLP проведено исследование, позволившее не только кластеризовать авторов по типу публикационной активности (один из признаков – количество публикаций в год, приходящееся на всех соавторов), исследовать ее связь с h-индексом, но и благодаря анализу данных показать, что поведение авторов действительно близко к обсуждаемому теоретико-игровому равновесию. В работе "Predicting Winning Team and Probabilistic Ratings in "Dota 2" and "Counter-Strike: Global Offensive" Video Games" (совместно с И.А. Макаровым) изучается подход на основе алгоритмов машинного обучения к оценке вклада игроков в победу команды на примере двух видеоигр с возможностью командной игры. Экспериментально показано, что такая модель как TrueSkill, созданная для ранжирования игроков, но используемая для оценка вклада участников команды в ее победу, уступает место модели, предложенной авторами работы (0.92 точности против 0.72 у TrueSkill). Модель авторов основана на оценке вероятности вклада игрока в победу команды с помощью формулы полной вероятности по командам, игрокам и матчам. Для финальных вычислений используется оценка отдельных ее компонент на основе логистического преобразования и оценки параметров по данным. Подобная модель, по откликам опробовавших ее игроков, действительно способствует не только извлечению занимательных знаний по историческим данным игрового процесса, но и позволяет учесть слабые места команды и подготовиться (имеются в виду тренировки) к будущим матчам, что несомненно важно для киберспортсменов, стремящихся к победе. Д. Ильвовский Разработан чат-бот (демо-версия), ориентированный на общение и предоставление содержательных ответов пользователю, интересующемуся финансовой тематикой. Чат-бот анализирует информацию из интернета, принимая во внимание тематику и логическую структуру вопроса, и предлагает пользователю различные варианты ответов в интерактивном режиме. Т. Махалова Были рассмотрены подходы к вычислению замкнутых множеств признаков - объектов, позволяющих сжатым образом представлять импликативные зависимости. В рамках данного исследования был также предложен инкрементальный алгоритм вычисления замкнутых множеств признаков, который может использоваться как для нахождения импликативных зависимостей в одномерном пространстве признаков, так и в многомерных (то есть импликативные зависимости при дополнительных условиях). Полученный алгоритм может использоваться для обнаружения структур в данных, т.е. кластеризации. Для оценки результатов кластеризации были рассмотрены существующие индексы, исследованы особенности их поведения и предложен новый индекс, лишенный недостатков существующих индексов.

 

Публикации

1. Бузмаков А.В., Кузнецов С.О., Наполи А. Efficient Mining of Subsample-Stable Graph Patterns IEEE. New York, USA, Buzmakov A. V., Kuznetsov S. O., Napoli A. Efficient Mining of Subsample-Stable Graph Patterns, in: 2017 IEEE 17th International Conference on Data Mining (ICDM). New Orleans : IEEE, 2017. (год публикации - 2017)

2. Бэльфодил А., Кузнецов С.О., Робардэ С., Кайту М. Mining Convex Polygon Patterns with Formal Concept Analysis AAAI. Palo Alto, USA, Aimene Belfodil, Sergei O. Kuznetsov, et al. Mining Convex Polygon Patterns with Formal Concept Analysis, in Proceedings of the 26th International Joint Conference on Artificial Intelligence, Melbourne, Australia, August 19-25, 2017, pages 1425-1432 (год публикации - 2017) https://doi.org/10.24963/ijcai.2017/197

3. Галицкий Б., Ильвовский Д. On a Chat Bot Finding Answers with Optimal Rhetoric Representation Incoma. Shoumen, Bulgaria, Boris Galtsky and Dmitry Ilvovsky. On a Chat Bot Finding Answers with Optimal Rhetoric Representation, in Proceedings of RANLP 2017, Varna, Bulgaria, September 2-8, 2017, 6p. (год публикации - 2017) https://doi.org/10.26615/978-954-452-049-6_035

4. Герасимова О., Кикот С., Подольский В., Захарьящев М. On the Data Complexity of Ontology-Mediated Queries with a Covering Axiom CEUR Workshop Proceedings, Achen, Olga Gerasimova et al. On the Data Complexity of Ontology-Mediated Queries with a Covering Axiom, in: Proceedings of the 30th IW on DL, Montpellier, France, July 18-21, 2017. Aachen : CEUR Workshop Proceedings, 2017. Ch. 19. P. 1-12. (год публикации - 2017)

5. Герасимова О., Кикот С., Подольский В., Захарьящев М. More on the Data Complexity of Answering Ontology-Mediated Queries with a Covering Axiom Communications in Computer and Information Science, Springer, Cham, O. Gerasimova et al. (2017) More on the Data Complexity of Answering Ontology-Mediated Queries with a Covering Axiom. In: Knowledge Engineering and Semantic Web. KESW 2017. Communications in Computer and Information Science, vol XXX. Springer, Cham (год публикации - 2017) https://doi.org/10.1007/978-3-319-69548-8_11

6. Канович М., Кузнецов Ст., Морилл Г., Щедров А. A Polynomial-Time Algorithm for the Lambek Calculus with Brackets of Bounded Order LIPI, Leibnitz, Kanovich M., Kuznetsov S., Scedrov A., Morrill G. A Polynomial-Time Algorithm for the Lambek Calculus with Brackets of Bounded Order, in: Proceedings of the 2nd IC on FSCD, Oxford, UK, September 3-9, 2017, Vol. 84, 16p. (год публикации - 2017) https://doi.org/10.4230/LIPIcs.FSCD.2017.22

7. Канович М., Кузнецов Ст., Щедров А. Undecidability of the Lambek Calculus with Subexponential and Bracket Modalities Springer, Berlin, Kanovich M., Scedrov A., Kuznetsov S. Undecidability of the Lambek Calculus with Subexponential and Bracket Modalities, in: 21st International Symposium, Fundamentals of Computation Theory 2017, FCT 2017. Springer Berlin Heidelberg, 2017. (год публикации - 2017) https://doi.org/10.1007/978-3-662-55751-8

8. Макаров И., Алиев В., Герасимова О. Semi-Dense Depth Interpolation using Deep Convolutional Neural Networks ACM DL. New York, USA, Ilya Makarov, Vladimir Aliev, Olga Gerasimova. Semi-Dense Depth Interpolation using Deep Convolutional Neural Networks, in: Proceedings of the 25th ACM international conference on Multimedia (ACM MM'17), Mountain View, CA USA, 23-27 October, 2017. P. 1-9 (год публикации - 2017) https://doi.org/10.1145/3123266.3123360

9. Макаров И., Алиев В., Герасимова О., Поляков П. Depth Map Interpolation using Perceptual Loss IEEE. New York, USA, Makarov I., Vladimir Aliev, Gerasimova Olga, Pavel Polyakov. Depth Map Interpolation using Perceptual Loss, in: Adjunct Proceedings of 2017 IEEE International Symposium on Mixed and Augmented Reality. NY : IEEE, 2017. P. 1-2. (год публикации - 2017) https://doi.org/10.1109/ISMAR-Adjunct.2017.39

10. Макаров И., Буланов О., Герасимова О., Мещерякова Н., Жуков Л.Е., Карпов И. Scientific Matchmaker: Collaborator Recommender System Springer, Berlin, Makarov I. et al. Scientific Matchmaker: Collaborator Recommender System, in: Proceedings of 6th IC AIST, Moscow, Russia, July 27-79, 2017, Lecture Notes in Computer Science, Springer, 2017. P. 1-12. (год публикации - 2017) https://doi.org/10.1007/978-3-319-73013-4_37

11. Макаров И., Кашин А., Кориневская А. Learning to Play Pong Video Game via Deep Reinforcement Learning CEUR Worksop Proceedings, Achen, Ilya Makarov et al. Learning to Play Pong Video Game via Deep Reinforcement Learning: Tweaking Deep Q-Networks versus Episodic Control, in: Supplementary Proceedings of the 6th IC on AIST, Moscow, Russia, July 27-29, 2017. P. 1-6. (год публикации - 2017)

12. Макаров И., Савостьянов Д., Литвяков Б., Игнатов Д.И. Predicting Winning Team and Probabilistic Ratings in "Dota 2" and "Counter-Strike: Global Offensive" Video Games Springer, Berlin, Makarov I. et al. Predicting Winning Team and Probabilistic Ratings in Dota 2 and Counter-Strike: Global Offensive Video Games, in Proceedings of 6th IC AIST, Moscow, Russia, July 27-29, 2017, Lecture Notes in Computer Science. Springer, 2017. P. 1-12. (год публикации - 2018) https://doi.org/10.1007/978-3-319-73013-4_17

13. Макаров И., Фроленкова А., Белов И. Quantum Logic and Natural Language Processing CEUR Workshop Proceedings, Ilya Makarov, Anastasia Frolenkova, Ivan Belov. Quantum Logic and Natural Language Processing, in: Workshop "Computational linguistics and language science" / Ed. by E. L. Chernyak. Aachen : CEUR Workshop Proceedings, 2017. P. 1-4. (год публикации - 2017)

14. Махалова Т., Нурин Л. An Incremental Algorithm for Computing n-concepts CEUR Workshop Proceedings, Achen, - (год публикации - 2017)

15. Рихова Е., Махалова Т. On Evaluating of Fuzzy Clustering Results Online Conference Proceedings. Prague, Czech Republic, E. Rihova, T. Makhalova. On Evaluating of Fuzzy Clustering Results, in Proceedings of the 11th International Days of Statistics and Economics, Prague, September 14-16, 2017, Online Conference Proceedings, 2017, 12p. (год публикации - 2017)

16. Рыжова Д., Объедков С. Formal Concept Lattices as Semantic Maps CEUR workshop Proceedings, Achen, Darya Ryzhova and Sergei Obiedkov. Formal Concept Lattices as Semantic Maps, in: Workshop "Computational linguistics and language science" / Ed. by E. L. Chernyak. Aachen : CEUR Workshop Proceedings, 2017. P. 1-4. (год публикации - 2017)

17. Тагиев Р., Игнатов Д. Behavior Mining in h-index Ranking Game CEUR Workshop Proceedings, Achen, Rustam Tagiew and Dmitri Ignatov. Behavior Mining in h-index Ranking Game, in: Proceedings of the 3rd Workshop on EEML, Dresden, Germany, September 17-18, 2017. Aachen : CEUR Workshop Proceedings, 2017. P. 1-13. (год публикации - 2017)


Аннотация результатов, полученных в 2018 году
Онтологическое управление данными (ОУД) - это семантическая технология, которая разрабатывается в течение последнего десятилетия с целью облегчения доступа к различным типам данных. Он рассматривается как ключевой компонент информационных систем следующего поколения. Онтологии в ОУД важны втройне, а именно с точки зрения объединения распределенных и разнородных источников данных, дополнения неполных данных с помощью общих знаний и предоставления удобного для пользователя языка запросов. W3C стандартизовал языки онтологий и запросов для ОУД, которые обеспечивают сводимость ОУД к традиционной оценке запросов системами управления реляционными базами данных (СУБД) или datalog инструментами. Однако, эти языки имеют ряд серьезных ограничений для преодоления, что является одной из главных целей нашего проекта. Одна из наших конкретных задач - выявить случаи, когда покрывающие аксиомы, такие как «каждый человек является мужчиной или женщиной», которые не допускаются в стандарте W3C для онтологического языка OWL 2 QL ОУД, не разрушают ключевое свойство сводимости задачи поиска ответов на онтологические запросы к оценке запросов СУБД. Мы получили ряд сильных достаточных и необходимых условий с точки зрения структуры конъюнктивных запросов, которые гарантируют СУБД и datalog сводимость запросов с учетом одной аксиомы покрытия. Другая задача - расширить парадигму ОУД до числовых данных и онтологий. Опять же, текущий стандарт W3C для онтологического языка OWL 2 QL ОУД не разрешает этот сценарий. Мы предложили новый подход для временного ОУД, который обеспечивает доступ к различным типам временных данных, а также разработали соответствующие онтологии и языки запросов. В рамках исследования также изучаются существующие методы майнинга паттернов: был проведён сравнительных анализ с целью определения ключевых характеристик методов, а также анализ их теоретической сложности. На основе экспериментов на реальных наборах данных были выявлены методы, дающие схожие результаты. Данные о теоретической сложности, экспериментального и концептуального анализа методов позволили выявить группы эквивалентных методов и определить наиболее эффективные среди них. Применение принципа минимальной длины описания позволило разработать теоретически обоснованный подход к созданию ансамблевых классификаторов на основе замкнутых описаний (элемент пространства версий, однозначно его определяющий), обладающих хорошей обобщающей способностью (т.е., не склонных к переобучению). С точки зрения извлечения знаний из естественного языка, Ламбеком была предложена полная логическая система для анализа простых предложений. Мы расширяем исчисление Ламбека специальными "субэкспоненциальными модальностями", достаточными для извлечения смысла из сложноподчиненных и сложносочиненных (придаточных) предложений естественного языка, где некоторые языковые единицы появляются имплицитно в неявной форме. Например, в типичной придаточной фразе "отчет, который он послал вчера вечером", с помощью субэкспоненциальной модальности, мы получаем дополнительную копию "отчета", чтобы заполнить лакуну - восстановить "пропущенное" прямое дополнение ("отчет") к переходному глаголу "послал". Основная проблема, которую мы пытаемся решить, - это обеспечить разумный баланс между выразительными возможностями предлагаемой логической оболочки и сложностью алгоритмической реализации. Нами предпринята попытка изучить связь между двумя популярными и распространенными формализмами, позволяющими представлять семантику (т.е. смысл) текстов: теорией аргументации и теорией дискурса. Интуитивная близость этих теорий была известна уже давно, а в данном исследовании удалось экспериментальным путем показать, что анализ дискурсивных (логических) связей внутри текста позволяет судить о том, есть ли в конкретных предложениях или фрагментах аргументированная точка зрения. Кроме того, можно также определять, к каким приемам прибегал автор данного текста, чтобы донести свою точку зрения: был эмоционален, сдержан, использовал логические подтасовки и т.д. Предложен алгоритм обучения хорновской оболочки произвольной пропозициональной теории предметной области с использованием эксперта (или оракула), способного отвечать на вопросы определенных типов относительно этой предметной области. Для решения этой задачи ранее была разработана процедура исследования признаков из формального анализа понятий, однако число запросов к эксперту в этой процедуре в худшем случае экспоненциально от размера итоговой хорновской формулы. Модифицировав известный полиномиальный алгоритм обучения хорновским формулам с запросами на принадлежность и эквивалентность, мы разработали полиномиальный “вероятно приближенно корректный” алгоритм обучения хорновской оболочке произвольной пропозициональной теории. Для того чтобы пользователю информационной системы рекомендовать релевантные товары и услуги необходимо иметь информацию о его вкусовых предпочтениях. Часто такая информация неявно выражено в истории покупок или в виде явных оценок (например, для просмотренного фильма или книги). В нашей работе мы сосредоточились на способах поиска ближайших соседей c похожими вкусами на основе матриц просмотров или оценок. Предложены специальные алгебраические операторы поиска соседей и исследованы как теоретически, так и в экспериментах на данных рекомендательного сервиса MovieLens. Согласно экспериментам, оценивающим точность и полноту таких рекомендаций на отложенных данных, лучшим оказался подход, представляющий собой “золотую середину” между теми соседями, кто купил точно такие же товары и купившими хотя бы один товар, что и целевой пользователь. Вторая часть исследования по рекомендательным системам посвящена встраиванию дополнительной информации об изображениях товаров в качестве их описания для поиска сходства. На открытом наборе данных Амазон для категории товаров одежда (clothes) с помощью гибридной архитектуры на основе предобученной глубокой нейросети ResNet101 и неглубокой сверточной сети удалось добиться не только качества превышающего качества матричных разложений на основе чередующихся наименьших квадратов в терминах полноты и меры AUC, но высокого визуального сходства рекомендуемых товаров. Разработаны эффективные методы поиска т.н. квазибиклик на основе смешанного целочисленного программирования, что означает для практики возможность эффективного поиска максимальных сообществ в соцсетях, например, групп людей, которые почти все состоят друг с другом в отношении быть друзьями, что делает возможным его дальнейшее использование в маркетинговых задачах телекомунникационного сектора или социологических исследованиях. Методы трикластеризации успешно применены для порождения т.н. семантических фреймов по тройкам субъект-глагол-объект (subject-verb- object), извлеченных из больших текстовых коллекций, в частности набор данных DepCC. Получены новые результаты в области восстановления карты глубины на основе скрытого представления знаний о разреженной карты глубины, а также новые методы повышения разрешения карты глубины. Предложены новые модели извлечения признаков из сетей соавторства как на основе центральностей, так и на основе векторных моделей графов, что позволило научиться прогнозировать будущие коллаборации и рекомендовать их на основе имеющейся информации по публикационной активности исследователей. Представленные результаты предлагают качественно новые методы представления, обработки и обнаружения знаний, результаты исследований опубликованы в ведущих международных журналах и конференциях.

 

Публикации

1. Андреева Е.Е., Игнатов Д.И., Грачев А.М., Савченко А.В. Extraction of Visual Features for Recommendation of Products via Deep Learning Springer LNCS, Volume 11179, pages 1-10 (год публикации - 2019)

2. Борчманн Д., Ханика Т., Объедков С.А. Probably approximately correct learning of Horn envelopes from queries Journal of Discrete Applied Mathematics, - (год публикации - 2019)

3. Галицкий Б., Ильвовский Д.А., Кузнецов С.О. Detecting logical argumentation in text via communicative discourse tree Journal of Experimental and Theoretical Artificial Intelligence, Journal of Experimental & Theoretical Artificial Intelligence, 30:5, 637-663, Published online: 18 May 2018 (год публикации - 2018) https://doi.org/10.1080/0952813X.2018.1467492

4. Герасимова О.А., Кикот С.П., Захарьящев М.В. Towards a Data Complexity Classification of Ontology-Mediated Queries with Covering Ceur WP, CEUR WP, Volume 2211, 2018, Pages 1-13 (год публикации - 2018)

5. Игнатов Д.И., Курситыс В.Д. Understanding Collaborative Filtering with Galois Connections Ceur WP, CEUR WP, Volume 2149, 2018, Pages 127-143 (год публикации - 2018)

6. Калайци Е.Г., Брандт С., Кальванезе Д., Рыжиков В., Ксяо Г., Захарьящев М.В. Ontology-Based Access to Temporal Data With Ontop: A Framework Proposal International Journal of Applied Mathematics and Computer Science, International Journal of Applied Mathematics and Computer Science (AMCS), Vol. 29, No. 1, 2019 (год публикации - 2019)

7. Канович М.И., Кузнецов С.Л., Нигам В., Щедров А.О. A Logical Framework with Commutative and Non-commutative Subexponentials Springer, In: Galmiche D., Schulz S., Sebastiani R. (eds) Automated Reasoning. IJCAR 2018. Springer Lecture Notes in Computer Science, vol 10900, pp. 228-245, Springer, 2018 (год публикации - 2018) https://doi.org/10.1007/978-3-319-94205-6_16

8. Канович М.И., Кузнецов С.Л., Нигам В., Щедров А.О. Subexponentials in non-commutative linear logic Mathematical Structures in Computer Science, Published online: 02 May 2018 (год публикации - 2018) https://doi.org/10.1017/S0960129518000117

9. Кориневская А., Макаров И.А. Fast Depth Map Super-Resolution using Deep Neural Network IEEE Xplore, Adjunct Proceedings of the IEEE International Symposium for Mixed and Augmented Reality 2018 (To appear) (год публикации - 2018)

10. Краснов Ф.В., Макаров И.А. Predicting co-author relationship for science and technology center of Gazpromneft based on the graph modeling The Eurasian Scientific Journal, The Eurasian Scientific Journal, [online] 1(10). Available at: https://esj.today/PDF/08ITVN118.pdf (in Russian) (год публикации - 2018)

11. Кузнецов С.О., Махалова Т.П. On interestingness measures of formal concepts Information Sciences, Volumes 442–443, May 2018, Pages 202-219 (год публикации - 2018) https://doi.org/10.1016/j.ins.2018.02.032

12. Макаров И.А., Герасимова О.А., Сулимов П.А., Жуков Л.Е. Co-authorship Network Embedding and Recommending Collaborators via Network Embedding Springer LNCS, Volume 11179, pages 1-6 (год публикации - 2019)

13. Макаров И.А., Герасимова О.А., Сулимов П.А., Коровина К.А., Жуков Л.Е. Joint Node-Edge Network Embedding for Link Prediction Springer LNCS, Volume 11179, pages 1-12 (год публикации - 2019)

14. Махалова Т.П. What can Pareto optimality do for clustering? Пермский государственный национальный исследовательский университет, Искусственный интеллект в решении актуальных социальных и экономических проблем ХХI века: сб. ст. по материалам Третьей всерос. науч.-практ. конф. (г. Пермь, 14–18 мая 2018 г.) / Перм. гос. нац. исслед. ун-т. – Пермь, 2018 – с. 281-285 (год публикации - 2018)

15. Махалова Т.П., Кузнецов С.О., Наполи А. A First Study on What MDL Can Do for FCA Ceur WP, Volume 2123 (CLA2018), 2018, Pages 25-36 (год публикации - 2018)

16. Фейгина А.Г., Игнатов Д.И., Макаров И.А. Realistic Post-processing of Rendered 3D Scenes ACM Digital Library, In ACM SIGGRAPH 2018 Posters (SIGGRAPH '18). ACM, New York, NY, USA, Article 42, 2 pages. (год публикации - 2018) https://doi.org/10.1145/3230744.3230764


Аннотация результатов, полученных в 2019 году
В теоретическом представлении знаний и рассуждениях мы исследовали проблему идентификации сложности данных при ответе на запросы, связанные с онтологией с аксиомой покрытия и линейными конъюнктивными запросами. Более конкретно, мы исследовали связь этой проблемы с классическими проблемами удовлетворения ограничениям (CSP) для понимания дихотомии P / coNP и связь этой проблемы с линейным монадическим даталогом, чтобы понять структуру тех конъюнктивных запросов, которые приводят к запросам с учетом онтологии в классе сложности NL. Мы разработали и внедрили алгоритм для определения того, может ли ответ на заданный запрос с онтологией с аксиомой покрытия и линейным конъюнктивным запросом быть найден за полиномиальное время относительно сложности по данным или сложность составляет coNP. Алгоритм использует программное обеспечение Polyanna для поиска полиморфизмов для CSP, которое было разработано в Оксфордском университете. Для представления практических знаний мы разработали новый двумерный язык онтологий для доступа к данным, основанным на онтологиях к потоковым данных, полученным в результате измерений датчиков и сохраненных в реляционной базе данных. В языке представлены правила регистрации данных с метрическими временными операторами, интервальные операторы Аллена и широкий спектр функций агрегирования. Мы разработали и внедрили алгоритм, сводящий ответы на нерекурсивные запросы, связанные с онтологией на этом языке, к стандартным запросам SQL к данным. Язык и алгоритм были протестированы в двух реальных случаях использования, в которых мы обнаружили интересующие события на основе данных датчиков от газовых турбин Siemens и бурового оборудования. Результаты экспериментов показали, что наш новый подход хорошо масштабируется на больших реальных наборах данных. Был разработан новый подход (и алгоритм) к майнингу численных паттернов (без предварительной обработки, в том числе бинаризации). Подход может быть расширен для майнинга данных более сложной структуры, например, последовательностей, деревьев, графов, и пр. Также были предложены теоретическая модель LO-паттернов, позволяющая существенно сократить пространство поиска паттернов и повысить эффективность подходов к их майнингу на основе принципа минимальной длины описания (МДО), и новый МДО-подход к майнингу паттернов в контексте задачи факторизации булевых матриц. В рамках проекта исследуются алгоритмически эффективные средства, на основе логико-математических методов и техник, для извлечения из текстов их смысла, представленного в виде формализованной семантической интерпретации, как в человеко-читаемой, так и в машиночитаемой форме. Таким образом, из текстовых источников на естественном языке, таких как научные статьи, патенты, аналитические отчёты и проч., могут быть извлечены знания, необходимые для построения онтологии данной предметной области. В процессе извлечения знаний из текста, мы следуем широко известной модели “смысл ⇔ текст” Мельчука, согласно которой переход от текста к значению происходит, прежде всего, посредством получения синтаксически-грамматической структуры текста. Далее эта структура используется для построения интерпретаций текста в формах семантических сетей, лямбда-выражений, графов зависимостей и т.д. Формальные лингвистические модели синтаксического и семантического анализа текстов берут своё начало в работах Хомского о порождающих грамматиках, в которых “правильные” тексты порождаются с помощью системы правил-продукций. Текст принимается как грамматически правильный, если и только если он может быть порождён по правилам данной грамматики Хомского. Основополагающая работа Ламбека, в которой было введено синтаксическое исчисление Ламбека, дала возможность поставить исследование и разработку формальных грамматик на рельсы стандартов математической логики. Серия программ CatLog, разрабатываемая Морриллом, включает реализацию, на языке Prolog, систем автоматического вывода и синтаксического разбора для логической категориальной грамматики. Наиболее современная версия программы, CatLog3, разработанная Морриллом в 2018, частично основана на наших работах 2017-18 гг., выполненных в рамках данного проекта РНФ. В свою очередь, субструктурное исчисление, используемое в CatLog3, поднимает и мотивирует ряд важных алгоритмических и логико-математических проблем и вопросов. Эти проблемы решены в нашей более новых работах 2019 г., написанной в рамках данного проекта, и включают алгоритмическую неразрешимости фрагмента исчисления, содержащего субэкспоненциальную и скобочные модальности и нижнюю оценку PSPACE и семантическую неполноту для очень ограниченных фрагментов, таких как фрагмент, содержащий только одну мультипликативную операцию деления и аддитивную конъюнкцию (или дизъюнкцию). Мы также установили алгоритмическую неразрешимость для любого расширения исчисления Ламбека с аддитивной конъюнкцией и мультипликативной единицей, корректного относительно языковых моделей (L-моделей), при условии, что это расширение включает определённый набор правил для мультипликативной единицы, которые выражают естественные алгебраические свойства пустого слова. Предложен “концептуальный” фреймворк, реализующий модель диалогового агента (чат-бота). Чат-бот ориентирован на выполнение запросов человека и в процессе диалога использует базы знаний, представляемые в виде онтологий и формальных контекстов. Благодаря применению аппарата Анализа Формальных Понятий (АФП), диалоговый агент обеспечивает одновременно максимально быстрое и полное удовлетворение запросов пользователей (например, поиск товара, отвечающего нужным характеристикам). Выполнены исследования в области интеллектуального информационного поиска. Предложена поисковая модель, позволяющая избежать обращений к структурированным базам знаний в случае их отсутствия или неполноты. Вместо этого выполняется обычный текстовый поиск, "улучшенный” и дополненный благодаря использованию дискурсивного представления текстовых данных. Были рассмотрены вычислительные проблемы, связанные с поиском импликаций в явно заданном формальном контексте или с помощью запросов к оракулу. Они включали два типа проблем: перечисление импликаций (или ассоциативных правил) и поиск единственной импликации, удовлетворяющей определенным условиям. Результаты сложности для некоторых из этих проблем были представлены, в то время как другие были заявлены как открытые проблемы. Был предложен подход для приблизительного дополнения TBox относительно фиксированной модели. Задавая импликативные вопросы эксперту в предметной области, метод аппроксимирует отношения поглощения, которые содержатся в модели эксперта, и обогащает TBox недавно обнаруженными взаимосвязями между заданным набором понятий. Подход основан на точной системе обучения Angluin и на методе исследования атрибутов из формального анализа понятий. Он объединяет лучшее из обоих подходов, чтобы задать не более чем полиномиальное число вопросов эксперту в предметной области. Завершена разработка программного обеспечения Triclusteting Toolbox, реализующее несколько методов трикластеризации как для булевых, так и числовых тензоров. Модели на основе смешанного целочисленного программирования были разработаны для поиска квази-биклик и больших плотных трикластеров. Множественная классификация совместных временных рядов для предсказания продуктивности скважин (включая конкретное подмножество источников) была улучшена благодаря извлечению значимых признаков, каскадам классификатров и ансамблевому обучению. Разработан открытый фреймворк по реконструкции и повышению разрешения разреженной карты глубины в рамках Reproducibility Challenge. Разработаны и валидированы новые модели векторизации графа для неориентированных сетей с учетом весов, нескольких слоев, атрибутов вершин и ребер, и трансдуктивного и индуктивного подхода к обучению моделей. Разработана модель предсказания длительности перевозок на основе сетевого подхода, выделенный метод протестирован относительно справочника перевозок, используемого РЖД, показано улучшение в полтора раза относительно бейзлайна. Предложен новый метод генерации изображения людей в одежде на основе генеративных состязательных сетей и ограничениями, накладываемыми сегментацией и позой человека, таким образом добавляя обуславливающие конструкции в архитектуру нейронных сетей. Построены прототипы систем машинного перевода для дактиля жестовых языков с учетом логической агрегации покадрового перевода, и для генерации жестов на основе текстовой информации, обогащенной семантикой. Получены новые результаты в области глубокого обучения с подкреплением на основе комбинации различных подходов к обучению частично-наблюдаемого Марковского процесса. Сформулирована новая проблема в области применения глубокого обучения с подкреплением в классической задаче оценки сложности игровых уровней на примере игры “три в ряд”. Предложен метод, позволяющий заменить оценку классических логических решателей и человеческий труд на измерение метрик самообучаемого агента для тестирования игровых уровней.

 

Публикации

1. Аверченкова А., Акхметзянова А., Судариков К., Петров С., Макаров И., Пендюхов М., Жуков Л.Е. Collaborator Recommender System Springer: Proceedings in Mathematics & Statistics, In Book of "Network Algorithms, Data Mining, and Applications" in the series Springer Proceedings in Mathematics & Statistics, pages 1-19 (год публикации - 2019)

2. Акимов Д., Макаров И. Deep Reinforcement Learning in VizDoom First-Person Shooter for Health Gathering Scenario IARIA: ThinkMind, Dmitry Akimov, Makarov I. Deep Reinforcement Learning in VizDoom First-Person Shooter for Health Gathering Scenario, in: Proceedings of 11th International Conference on Advances in Multimedia (MMEDIA'19). Lansing : ThinkMind, 2019. P. 59-64. (год публикации - 2019)

3. Акимов Д., Макаров И. Deep Reinforcement Learning with VizDoom First-Person Shooter Ceur-WS, CEUR Workshop Proceedings,Volume 2479 (год публикации - 2019)

4. Ананьева А., Макаров И., Пендюхов М. GSM: Inductive Learning on Dynamic Graph Embeddings Springer: Proceedings in Mathematics & Statistics, In Book of "Network Algorithms, Data Mining, and Applications" in the series Springer Proceedings in Mathematics & Statistics, pages 1-15 (год публикации - 2019)

5. Брандт С., Калванезе Д., Калайци Э.Г., Кончаков Р., Мёрцингер Б., Рыжиков В., Сяо Г., Захарьящев М. Two-Dimensional Rule Language for Querying Sensor Log Data: A Framework and Use Cases DROPS: Leibniz International Proceedings in Informatics (LIPIcs), Two-Dimensional Rule Language for Querying Sensor Log Data: A Framework and Use Cases. In 26th International Symposium on Temporal Representation and Reasoning (TIME 2019). Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik. (год публикации - 2019) https://doi.org/10.4230/LIPIcs.TIME.2019.7

6. Галицкий Б., Ильвовский Д. Discourse-Based Approach to Involvement of Background Knowledge for Question Answering ACL Proceedings, Proceedings of Recent Advances in Natural Language Processing, pages 373–381, Varna, Bulgaria, Sep 2–4 2019, pages 373-381 (год публикации - 2019)

7. Галицкий Б., Ильвовский Д. Two Discourse Tree - Based Approaches to Indexing Answers ACL Proceedings, Proceedings of Recent Advances in Natural Language Processing, pages 373–381, Varna, Bulgaria, Sep 2–4 2019, pages 373-381 (год публикации - 2019)

8. Галицкий Б., Ильвовский Д., Писаревская Д. Argumentation in Text: Discourse Structure Matters NLPC, Proceedings of CICLing 2018, Natural Language Processing Center, paper 15, pages 1-13 (год публикации - 2019)

9. Герасимова О., Кикот С., Захарьящев М. Checking the Data Complexity of Ontology-Mediated Queries: A Case Study with Non-uniform CSPs and Polyanna Springer: LNCS, Gerasimova, O., Kikot, S., & Zakharyaschev, M. (2019). Checking the Data Complexity of Ontology-Mediated Queries: A Case Study with Non-uniform CSPs and Polyanna. In Description Logic, Theory Combination, and All That (pp. 329-351). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-22102-7_15

10. Егурнов Д., Игнатов Д.И. Triclustering Toolbox Ceur-WS, Supplementary Proceedings of ICFCA 2019 Conference and Workshops Frankfurt, Workshop "Applications and Tools of Formal Concept Analysis", Germany, June 25-28, 2019, http://ceur-ws.org/Vol-2378/, pages 65-69 (год публикации - 2019)

11. Зольников П., Зубов М., Никитинский Н., Макаров И. Efficient Algorithms for Constructing Multiplex Networks Embedding Ceur-WS, CEUR Workshop Proceedings,Volume 2479 (год публикации - 2019)

12. Игнатов Д.И., Спесивцев П., Курганский Д., Врабие И., Елизаров С., Зюзин В. Multilabel Classification for Inflow Profile Monitoring Ceur-WS, Multilabel classification for inflow profile monitoring. MACSPro’2019, Vienna, 21-23., CEUR Workshop Proceedings,Volume 2478, pages 1-8 (год публикации - 2019)

13. Игнатов Д.И., Точилкин Д., Егурнов Д. Multimodal Clustering of Boolean Tensors on MapReduce: Experiments Revisited Ceuw-WS, Supplementary Proceedings of ICFCA 2019 Conference and Workshops Frankfurt, Workshop "Formal Concept Analysis in the Big Data Era", Germany, June 25-28, 2019, http://ceur-ws.org/Vol-2378/, pages 137-151 (год публикации - 2019)

14. Камальдинов И., Макаров И. Deep Reinforcement Learning Methods in Match-3 Game Springer: LNCS, Springer: Lecture Notes in Computer Science, Volume 11832 (год публикации - 2019)

15. Камальдинов И., Макаров И. Deep Reinforcement Learning in Match-3 Game IEEE, Kamaldinov, I., & Makarov, I. (2019, August). Deep Reinforcement Learning in Match-3 Game. In 2019 IEEE Conference on Games (CoG) (pp. 1-4). IEEE. (год публикации - 2019) https://doi.org/10.1109/CIG.2019.8848003

16. Канович М., Кузнецов С., Щедров А. The Complexity of Multiplicative-Additive Lambek Calculus: 25 Years Later Springer: LNCS, Kanovich, M., Kuznetsov, S., & Scedrov, A. (2019, July). The complexity of multiplicative-additive Lambek calculus: 25 years later. In International Workshop on Logic, Language, Information, and Computation (pp. 356-372). Springer, Berlin, Heidelberg. (год публикации - 2019) https://doi.org/10.1007/978-3-662-59533-6_22

17. Канович М., Кузнецов С., Щедров А. L-models and R-models for Lambek Calculus Enriched with Additives and the Multiplicative Unit Springer: LNCS, L-Models and R-Models for Lambek Calculus Enriched with Additives and the Multiplicative Unit. In International Workshop on Logic, Language, Information, and Computation (pp. 373-391). Springer, Berlin, Heidelberg. (год публикации - 2019) https://doi.org/10.1007/978-3-662-59533-6_23

18. Канович М., Кузнецов С., Щедров А. Undecidability of a Newly Proposed Calculus for CatLog3 Springer: LNCS, Undecidability of a Newly Proposed Calculus for CatLog3. In International Conference on Formal Grammar (pp. 67-83). Springer, Berlin, Heidelberg. (год публикации - 2019) https://doi.org/10.1007/978-3-662-59648-7_5

19. Киселев Д., Макаров И. Prediction of New Itinerary Markets for Airlines via Network Embedding Springer: CCIS, Springer: Communications in Computer and Information Science, Volume 1086 (год публикации - 2019)

20. Ломов И., Макаров И. Generative Models for Fashion Industry using Deep Neural Networks IEEE, Lomov, I., & Makarov, I. (2019, May). Generative Models for Fashion Industry using Deep Neural Networks. In 2019 2nd International Conference on Computer Applications & Information Security (ICCAIS) (pp. 1-6). IEEE. (год публикации - 2019) https://doi.org/10.1109/CAIS.2019.8769486

21. Макаров И. Russian Freight Flights Time Prediction IEEE, Makarov, I. (2019, May). Russian Freight Flights Time Prediction. In 2019 2nd International Conference on Computer Applications & Information Security (ICCAIS) (pp. 1-5). IEEE. (год публикации - 2019) https://doi.org/10.1109/CAIS.2019.8769522

22. Макаров И., Вельдяйкин Н., Чертков М., Покоев А. American and Russian Sign Language Dactyl Recognition and Text2Sign Translation Springer: LNCS, Springer: Lecture Notes in Computer Science, Volume 11832 (год публикации - 2019)

23. Макаров И., Вельдяйкин Н., Чертков М., Покоев А. Russian Sign Language Dactyl Recognition IEEE, Makarov, I., Veldyaykin, N., Chertkov, M., & Pokoev, A. (2019, July). Russian Sign Language Dactyl Recognition. In 2019 42nd International Conference on Telecommunications and Signal Processing (TSP) (pp. 726-729). IEEE. (год публикации - 2019) https://doi.org/10.1109/TSP.2019.8768868

24. Макаров И., Вельдяйкин Н., Чертков М., Покоев А. American and Russian Sign Language Dactyl Recognition ACM, American and russian sign language dactyl recognition. In Proceedings of the 12th ACM International Conference on PErvasive Technologies Related to Assistive Environments (pp. 204-210). ACM. (год публикации - 2019) https://doi.org/10.1145/3316782.3316786

25. Макаров И., Герасимова О. Link Prediction Regression for Weighted Co-authorship Networks Springer: Advances in Computational Intelligence, Link Prediction Regression for Weighted Co-authorship Networks. In International Work-Conference on Artificial Neural Networks (pp. 667-677). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-20518-8_55

26. Макаров И., Герасимова О. Predicting Collaborations in Co-authorship Network IEEE, I. Makarov and O. Gerasimova, "Predicting Collaborations in Co-authorship Network," 2019 14th International Workshop on Semantic and Social Media Adaptation and Personalization (SMAP), Larnaca, Cyprus, 2019, pp. 1-6. (год публикации - 2019) https://doi.org/10.1109/SMAP.2019.8864887

27. Макаров И., Герасимова О., Сулимов П., Жуков Л.Е. Dual network embedding for representing research interests in the link prediction problem on co-authorship networks PeerJ Computer Science, Makarov, I., Gerasimova, O., Sulimov, P., & Zhukov, L. E. (2019). Dual network embedding for representing research interests in the link prediction problem on co-authorship networks. PeerJ Computer Science, 5, e172. (год публикации - 2019) https://doi.org/10.7717/peerj-cs.172

28. Макаров И., Маслов Д., Герасимова О., Алиев В., Кориневская А., Шарма У., Ванг Х. On Reproducing Semi-dense Depth Map Reconstruction using Deep Convolutional Neural Networks with Perceptual Loss ACM, On Reproducing Semi-dense Depth Map Reconstruction using Deep Convolutional Neural Networks with Perceptual Loss. In Proceedings of the 27th ACM International Conference on Multimedia (pp. 1080-1084). Core A* conference, main track (год публикации - 2019) https://doi.org/10.1145/3343031.3351167

29. Махалова Т., Ильвовский Д., Галицкий Б. Information Retrieval Chatbots Based on Conceptual Models Springer: LNCS, Makhalova, T., Ilvovsky, D., & Galitsky, B. (2019, July). Information Retrieval Chatbots Based on Conceptual Models. In International Conference on Conceptual Structures (pp. 230-238). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-23182-8_17

30. Махалова Т., Кузнецов С.О., Наполи А. On Coupling FCA and MDL in Pattern Mining Springer: LNCS, Makhalova, T., Kuznetsov, S. O., & Napoli, A. (2019, June). On Coupling FCA and MDL in Pattern Mining. In International Conference on Formal Concept Analysis (pp. 332-340). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-21462-3_23

31. Махалова Т., Кузнецов С.О., Наполи А. Numerical Pattern Mining Through Compression IEEE, Makhalova, T., Kuznetsov, S. O., & Napoli, A. (2019, March). Numerical Pattern Mining Through Compression. In 2019 Data Compression Conference (DCC) (pp. 112-121). Core A* conference (год публикации - 2019) https://doi.org/10.1109/DCC.2019.00019

32. Махалова Т., Трнека М. A Study of Boolean Matrix Factorization Under Supervised Settings Springer: LNCS, Makhalova, T., & Trnecka, M. (2019, June). A Study of Boolean Matrix Factorization Under Supervised Settings. In International Conference on Formal Concept Analysis (pp. 341-348). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-21462-3_24

33. Муратова А., Ислам Р., Митрофанова Е., Игнатов Д.И. Searching for Interpretable Demographic Patterns Ceur-WS, CEUR Workshop Proceedings,Volume 2479 (год публикации - 2019)

34. Объедков С. Learning Implications from Data and from Queries Springer: LNCS, Obiedkov, S. (2019, June). Learning Implications from Data and from Queries. In International Conference on Formal Concept Analysis (pp. 32-44). Springer, Cham. (год публикации - 2019) https://doi.org/10.1007/978-3-030-21462-3_3

35. Объедков С., Серткая Б., Золотухин Д. Probably Approximately Correct Completion of Description Logic Knowledge Bases Ceur-WS, CEUR Workshop Proceedings,Volume 2373 (год публикации - 2019)


Возможность практического использования результатов
Наша работа над тремя вариантами использования доступа к данным с учетом онтологий (в сотрудничестве с исследователями из Больцано, Осло, Мюнхена и Вены), которую мы провели в этом проекте, а также проект Optique из ЕС, показала, что доступ к данным, управление и интеграция на основе онтологий делают процесс сбора и анализа данных более эффективным, удобным для пользователя и сокращает требуемое время получения ответа на запросы с недель до минут. Это относится к компаниям с большими и распределенными базами данных, имеющими сложные схемы и / или хранимые в разных форматах, для чего обычно требуется команда ИТ-экспертов для оказания помощи конечным пользователям. Наша структура для доступа к данным на основе временной онтологии может быть использована для упрощения и повышения эффективности запросов и анализа различных типов данных датчиков для обнаружения нежелательных событий. Исследование по выявлению аргументации в текстах позволит улучшить качество российских информационных технологий, связанных с анализом, поиском, кластеризацией и классификацией документов. Быстрый алгоритм поиск устойчивых паттернах в графах позволит эффективно решать задачи синтеза лекарств и определения биологической активности химических соединений. Методы поиска выпуклых многоугольников позволят решать задачи анализа изображений, территориальных образований, логистических сценариев и геоданных различного типа. Знания о предметной области, необходимые для построения онтологий, могут быть получены из прямого диалога с экспертами или же из текстовых источников в естественном языке: научных статей, патентов, аналитических отчетов и т.п. Последнее требует наличия эффективных алгоритмических средств, разработанных на основе логико-математических методов, позволяющих извлекать смысл из коллекций текстов в виде некоторой формализованной семантической интерпретации, представленной в человеко-читаемом и машинно-читаемом виде. В процессе было налажено сотрудничество с одним из ведущих компьютерных лингвистов, Моррилл. Его система CatLog3 - это пример эффективной практической системы. Однако некоторые примеры обрабатываются слишком долго. Нам удалось добиться ускорения его системы для некоторого класса интересных проблем. Построенная открытая система интерполяции и повышения разрешения карты глубины на основе глубоких нейронных сетей с перцептуальной функцией потерь показывает улучшение относительно производительности и скорости работы для задач восприятия глубины для автономных автомобилей и оцифровки помещений в недвижимости. Прогнозирование команды-победителя в матчах по киберспорту может быть использовано для улучшения коэффициентов используемых для игры на ставках и повышения прибыли таких предприятий. Система рекомендаций для ученых, позволяющая знакомить ученых работающих в одной области с актуальными статьями, отбирать экспертов по заявке и подсказывать статьи для чтения и цитирования была апробирована на широком круге данных, включая данные одного из ведущих российских университетов. Новые методы векторизации графов и извлечения структурных признаков для ненаправленных сетей позволяют решать задачи машинного обучения на графах, в том числе но не ограничивая, построение рекомендательных систем и детектирование фрода, используемых в банковской сфере. Новая модель для прогнозирования продолжительности перевозки на основе сетевого подхода, выбранный метод проверен на основе руководства по транспорту, используемого ОАО "РЖД", и улучшение показано в 1,5 раза относительно базовой модели. Созданные прототипы систем машинного перевода для дактиля русского языка жестов решают социально-значимую задачу коммуникации с людьми, имеющими ограничения по слуху или речи. Новые результаты в области глубокого обучения с подкреплением позволяют моделировать трехмерные окружения и военные действия внутри на основе самообучающихся агентов. Также похожие методы были использованы для автоматизации тестирования игровых уровней на примере игры "Три в ряд" путем измерения метрик самообучающегося агента для тестирования сложности игровых уровней аналогично компании King. Исследования по изучению публикационных стратегий в области компьютерных наук помогают понять, где пролегает граница между продуктивными и приемлемыми в научном сообществе способами научного сотрудничества, и злоупотреблением цитирования, что полезно для развития научной коллаборация по компьютерным наукам как внутри Российской Федерации, так и с зарубежными партнерами. Система оценки вклада игроков в командных видеоиграх полезна для целенаправленной подготовки кибер-атлетов (например, в симуляторах по ликвидации последствий чрезвычайных ситуаций) с учетом слабых мест команды по результатам истории проведения предыдущих игр. Поиск квазибиклик и плотных трикластеров потенциально полезен для выявления вкусовых сообществ пользователей в рекомендательных системах (например, российский сервис "Кинопоиск") с целью улучшения релевантности рекомендаций, поиска сообществ по интересам в социальных сетях (например, Вконтакте и Одноклассники), анализа коммуникационных сетей в телекомунникационной отрасли и других системах совместного пользования ресурсами. Плотные трикластеры оказались полезными в задаче понимания смысла текста без учителя, что находит массу приложений, например, понимание оценочных суждений отзывов пользователей о товарах, автоматической категоризации текстов новостей, составление словарей семантически связанных слов полезных для автоматического анализа текстов на русском языке (потенциальные пользователи среди российских компаний – Abbyy, Сбербанк, Яндекс). Извлечение визуальных признаков из описаний товаров необходимо для улучшения качества услуг, предоставляемых электронными магазинами и сайтами объявлений (среди российских Интернет-сервисов – Юла и Авито). Исследование операторов поиска ближайших соседей для рекомендательных систем позволяет не только понять, как формируются похожие вкусовые предпочтения клиентов, но и найти среди всех пользователей с близкими вкусами потенциально полезных, что проявляется в улучшении точности поиска релевантных товаров на сайтах электронной коммерции (пример, Интернет-магазин Озон). Прогнозирование продуктивности скважин нефтегазовых месторождений и мониторинг их эффективности на основе методов машинного обучения несомненно востребованы Российской нефтегазовой отраслью как при планировании разработки месторождений, так и при их последующей эксплуатации. Разработан чат-бот (демо-версия), ориентированный на общение и предоставление содержательных ответов пользователю, интересующемуся финансовой тематикой, в том числе предложена поисковая модель, позволяющая избежать обращений к структурированным базам знаний в случае их отсутствия или неполноты, что может быть использовано финансовыми аналитиками и экономистами. В области определения аргументации, включая обоснованность заключений и проблему фейковых новостей, разработаны методы выделения аргументации внутри текста, определяющие к каким приемам прибегал автор данного текста, чтобы донести свою точку зрения: был эмоционален, сдержан, использовал логические подтасовки и т.д. Разработанный алгоритм пополнения баз знаний, основанных на дескриптивных логиках, может быть использован при построении онтологий предметных областей, использующихся в промышленных системах.