КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-72-20127

НазваниеПоиск новой физики в данных LHCb с применением методов глубокого обучения

РуководительДеркач Денис Александрович, кандидат наук (признаваемый в РФ PhD)

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 07.2020 - 06.2022 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 02 - Физика и науки о космосе, 02-101 - Физика элементарных частиц

Ключевые словамеждисциплинарное исследование, физика частиц, идентификация частиц, глубокое обучение, большой адронный коллайдер, машинное обучение, обнаружение аномалий

Код ГРНТИ29.05.37


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Устойчивость предсказаний Стандартной модели элементарных частиц (СМ) -- один из краеугольных камней современной науки. Теоретические предсказания, полученные в СМ, прекрасно описывают большое разнообразие экспериментальных данных, набранных на разных экспериментах. Тем не менее, некоторые аспекты современного знания плохо вписываются в предсказания СМ. Эти аспекты описываются семейством теорий, называемых Новой физикой (НФ). Ожидаемые отклонения предсказаний НФ от СМ при энергиях, получаемых в современных экспериментах, при этом становятся всё более и более незначительными. Для того, чтобы измерить эти отклонения необходимо набирать всё больше и больше данных, на повышенных светимостях ускорителей. Качество обработки этих данных напрямую влияет на чувствительность возможных отклонений. Данный проект посвящён разработке и применению методов машинного обучения, которые могут быть полезны для поиска эффектов НФ в данных, набранных на Большом адронном коллайдере в эксперименте LHCb. В частности, в ходе работы над проектом ожидается построение метода определения типа заряженных и нейтральных частиц, основанного на глубоких нейронных сетях. Кроме того, часть работы будет посвящена разработке методов быстрой симуляции с помощью новейших порождающих моделей, от генеративно-состязательных сетей до нормализующих потоков. Отдельной частью проекта будет выступать тестирование ранее предложенной метода поиска аномалий. Все наработки будут в первую очередь проверены при анализе данных LHCb.

Ожидаемые результаты
В ходе работы над проектом будут достигнуты следующие результаты: 1. Разработана инновационная методика тренировки быстрой нейросетевой модели для идентификации заряженных и нейтральных частиц. Методика протестирована на данных LHCb. Данная методика должна будет покрывать способы достижения робастности в предсказаниях, а также выбора наиболее быстрого решения с нужным качеством. В случае успеха исследований, проводимых в этом пункте, методику можно будет распространить на другие решения машинного обучения, работающие в фундаментальных науках. Ожидается, что это придаст дополнительный импульс применению продвинутых методов для анализа данных в фундаментальных науках. 2. Внедрён и протестирован метод быстрой симуляции отклика детекторов нейросетевыми подходами. Эти подходы набирают популярность во всём мире, как быстрая альтернатива физически-мотивированных симуляторов. В предыдущей части проекта был предложен подход, оказавшийся одним из самых успешных в этой области. В этом проекте предложено дальнейшее развитие метода, в котором будут проверены гипотезы об ускорении генеративных сетей, а также модифицированной функции потери для улучшения качества работы алгоритма. 3. Внедрён и протестирован метод сертификации данных с помощью нейросетевых моделей с использованием подхода анализа несбалансированных выборок. Этот метод был впервые предложен в 2019 году нашей группой, в ходе выполнения предыдущей части проекта. Ожидается, что этот метод покажет высокое качество в задаче сертификации данных. Все три части важны для развития методов применения глубокого обучения в фундаментальных науках. Также, в случае успешной реализации заявленных целей, их можно будет применять далеко за пределами физики частиц.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
В первый год работы над продлённым проектом исследования проводились по нескольким направлениям: повышение робастности решений машинного обучения в физике частиц, быстрая симуляция данных поддетекторов генеративными сетями и поиск аномалий в записываемых данных. Повышение устойчивости -- одна из главных проблем современных приложений машинного обучения в физике частиц и за её пределами. Наши эксперименты показали, что для того, чтобы получить надёжно устойчивые решения недостаточно просто использовать конкретный тип алгоритма машинного обучения. Данные исследования проводились на симуляциях экспериментов newsDM и JUNO, в связи с тем, что они легче поддаются изучению, из-за большей однородности детекторов. Статья по исследованию newsDM была опубликована (A. Ustyuzhanin et al J. Phys.: Conf. Ser. 1525 012108), публикация по исследованию симуляции JUNO проходит последнюю стадию ревью в журнале Journal of Instrumentation. Согласно результатам было предложено несколько вариантов повышения устойчивости решений. Среди них наиболее интересными оказались доменная генерализация, в которой полученное решение регуляризируется для описания дополнительных известных доменов. Также был предложен метод, основанный на ансамблировании готовых классификаторов. Показано, что в случае простых данных, этот подход даёт хорошие результаты. Кроме того, в рамках работы над проектом велась разработка реконструкции сигнала в электромагнитном калориметре LHCb в условиях высокой загрузки. Было получено решение, основанное на решающих деревьях, которое позволяет гибко реагировать на увеличение количества протон-протонных столкновений. Данный результат был опубликован в F. Ratnikov et al 2021 J. Phys.: Conf. Ser. 1740 012047 и будет использован для дальнейшей разработки калориметрических решений с использованием машинного обучения. В рамках работы над проектом, было также проведено предварительное тестирование переноса моделей быстрой симуляции с одного канала на другой. Полученные результаты позволяют утверждать, что систематические погрешности при применении быстрой симуляции находятся под контролем.

 

Публикации

1. Артём Головатюк, Джованни де Леллис, Андрей Устюжанин Deep learning for Directional Dark Matter search Journal of Physics: Conference Series, Volume 1525, page 012108 (год публикации - 2020) https://doi.org/10.1088/1742-6596/1525/1/012108

2. Болдырев А.С, Деркач Д. А., Ратников Ф. Д., Шевелев А. А. Machine Learning in Calorimeter optimization Journal of Physics: Conference Series, - (год публикации - 2021) https://doi.org/10.1088/1742-6596/1740/1/012047


Аннотация результатов, полученных в 2021 году
В последний год выполнения проекта работа была сосредоточена на проверке устойчивости стратегий дискриминативного и генеративного моделирования машинного обучения, которые используются для анализа физики частиц. Основные усилия были сосредоточены на переносе обученного алгоритма на реальный физический анализ и оценке связанной с ним неопределенности. Было достигнуто несколько целей исследования. Предложена новая робастная стратегия обучения модели идентификации частиц, основанная на идеях обобщения доменов. Стратегия эффективно учитывает вариации входных переменных для различных доменов (распадов частиц). Экспериментально показано, что метод помогает улучшить производительность алгоритма для тестовых распадов. Более широкий взгляд на наборы данных по физике частиц сделан на основе изучения будущих экспериментов JUNO и newsDM. Для этих экспериментов были разработаны новые методы, учитывающие структуру детекторов. В первом случае эти методы направлены на реконструкцию вершин и энергии, а во втором - на выделение направленного сигнала. Кроме того, было проведено моделирование детектора LHCb на основе генеративно-состязательных сетей (GAN). Исследование было сосредоточено на экспериментальной и феноменологической оценке неопределенности. Эффективность моделирования идентификации частиц (PID) была проверена с использованием реальных сценариев. Этот сценарий включал обучение с использованием калибровочных распадов (как было предложено в предыдущие годы исследования) и тестирование решения с использованием отдельного набора распадов. Было обнаружено, что систематическая ошибка, вызванная моделированием на основе машинного обучения, ограничена, и поэтому наборы данных, смоделированные с помощью GAN, могут быть использованы в дальнейших исследованиях физики. Для того чтобы получить оценку неопределенности, был разработан новый метод, основанный на ансамбле. Этот метод позволяет эффективно оценить неопределенность, связанную с реконструкцией PDF, которая может быть интерпретирована как систематическая ошибка исследования.

 

Публикации

1. А. Гавриков, Ф. Ратников The use of Boosted Decision Trees for Energy Reconstruction in JUNO experiment EPJ Web of Conferences, 251, 03014 (2021) (год публикации - 2021) https://doi.org/10.1051/epjconf/202125103014

2. А. Головатюк, А. Устюжанин, А. Александров, Дж. Де Леллис Deep Learning for direct Dark Matter search with nuclear emulsions Computer Physics Communications, Volume 275, 108312 (год публикации - 2022) https://doi.org/10.1016/j.cpc.2022.108312

3. А. Рыжиков, А. Темирханов, Д. Деркач, М. Гущин, Н. Казеев, С. Мохненко Robust Neural Particle Identification Models Journal of physics: Conference series, - (год публикации - 2022)

4. З. Тиан, В. Белавин, Л. Хатбуллина, Ф. Ратников, А. Устюжанин и др. Vertex and Energy Reconstruction in JUNO with Machine Learning Methods Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, Volume 1010, 11 September 2021, 165527 (год публикации - 2021) https://doi.org/10.1016/j.nima.2021.165527

5. Л. Андерлини, М. Барбетти, Д. Деркач, Н. Казеев, А. Маевский, С. Мохненко Towards Reliable Neural Generative Modeling of Detectors Journal of Physics: conference series, - (год публикации - 2022)


Возможность практического использования результатов
Исследования решений, предложенных в проекте, позволяет сделать общие выводы, которые могут применятся во многих приложениях в том числе в реальной экономике.