Сотрудники Исследовательского центра в сфере искусственного интеллекта МГУ имени М.В.Ломоносова создали метод, который позволяет объяснять решения графовых нейронных сетей при анализе молекул. Результаты исследования опубликованы в Journal of Chemical Information and Modeling.
Графовые нейронные сети сегодня активно используются для прогнозирования свойств молекул, поиска новых химических соединений, разработки материалов и лекарственных препаратов. Несмотря на высокую точность, такие модели часто остаются для исследователей «чёрным ящиком»: они позволяют получить результат, но не объясняют, какие именно особенности структуры молекулы повлияли на прогноз. Это затрудняет практическое использование подобных систем в химических исследованиях.
Особенно остро эта проблема проявляется при работе с симметричными молекулами. Многие существующие методы объяснения решений нейросетей анализируют отдельные атомы и связи независимо друг от друга и при этом не учитывают молекулярную симметрию. В результате одинаковые с химической точки зрения фрагменты могут получать разные оценки важности, что противоречит представлениям специалистов о строении молекул.
Для решения этой задачи исследователи разработали метод MolgraphX. Подход позволяет определять вклад отдельных атомов и молекулярных фрагментов в предсказания графовой нейронной сети с учётом симметрии молекулы. Это помогает получать объяснения, которые лучше соответствуют химической логике и позволяют связать результаты работы искусственного интеллекта с конкретными структурными особенностями вещества.
Авторы протестировали метод на нескольких наборах данных с органическими молекулами и сравнили его с распространёнными подходами к объяснению решений нейросетей. Результаты показали, что предложенный алгоритм позволяет точнее выделять химически значимые фрагменты молекул и сохраняет вычислительную эффективность даже при анализе более сложных структур.
Дополнительно исследователи провели слепую экспертную оценку результатов. Химикам предлагалось сравнить объяснения, полученные различными методами, без указания названий алгоритмов. В большинстве случаев эксперты отдавали предпочтение результатам метода MolgraphX, отмечая, что они лучше согласуются с химической интуицией и привычными представлениями о влиянии различных фрагментов молекулы на её свойства.
Отдельно была проанализирована вычислительная сложность алгоритма. Исследование показало, что по мере увеличения размера молекул MolgraphX сохраняет приемлемую скорость работы и масштабируется эффективнее ряда существующих методов объяснения решений нейросетей.
«Современные модели искусственного интеллекта способны достаточно точно предсказывать свойства молекул, однако для исследователей важно понимать причины таких предсказаний. В нашей работе мы предложили метод, который учитывает симметрию молекул и позволяет связывать предсказания нейросети с конкретными химическими фрагментами. Это делает результаты работы модели более понятными и приближает объяснение её решений к химической логике, которой пользуются специалисты», — отметил соавтор исследования, доцент кафедры радиохимии химического факультета Артём Митрофанов.
По словам авторов, разработанный подход может использоваться при исследовании молекулярных свойств, поиске новых химических соединений, разработке материалов и других задачах, где применяются графовые нейронные сети для анализа химических структур.