- Українська
- English
Застосування штучного інтелекту в хімії: огляд розвитку та розподілу публікацій
Застосування штучного інтелекту в хімії: огляд розвитку та розподілу публікацій
Анотація
Застосування штучного інтелекту (ШІ) в хімії надзвичайно зросло за останні роки. У цьому огляді ми дослідили зростання та розподіл публікацій, пов'язаних зі ШІ у хімії, за останні два десятиліття, використовуючи колекцію CAS Content Collection. Обсяг як журнальних, так і патентних публікацій суттєво збільшився, особливо з 2015 року. Аналіз розподілу публікацій за різними напрямками хімічних досліджень виявив, що аналітична хімія та біохімія найактивніше інтегрують ШІ та демонструють найвищі темпи зростання. Також були досліджені тенденції міждисциплінарних досліджень та виявлено поширені комбінації дослідницьких галузей у публікаціях. Крім того, було проведено тематичний аналіз журнальних і патентних публікацій для ілюстрації нових зв'язків ШІ з певними темами хімічних досліджень. Було оцінено та представлено визначні публікації в різних хімічних дисциплінах для висвітлення нових випадків застосування. Нарешті, було кількісно оцінено поширеність різних класів речовин та їхні ролі у дослідженнях, пов'язаних зі ШІ, що додатково деталізувало популярність впровадження ШІ у науках про життя та аналітичній хімії. Загалом, цей огляд пропонує широкий погляд на те, як ШІ розвивався в різних галузях хімії, і прагне надати розуміння його майбутніх напрямків.
Вступ
Штучний інтелект (ШІ) відноситься до здатності машин діяти в начебто інтелектуальний спосіб, приймаючи рішення у відповідь на нові вхідні дані без явного програмування на це. Тоді як типові комп'ютерні програми генерують вихідні дані відповідно до явних наборів інструкцій, системи ШІ розроблені для використання моделей, заснованих на даних, для передбачення результатів. Ці моделі ШІ зазвичай спочатку навчаються на репрезентативних наборах даних з відомими вихідними значеннями, тим самим "вивчаючи" відношення вхід-вихід. Потім отримані навчені моделі можуть використовуватися для передбачення вихідних значень даних, подібних до навчального набору, або для генерування нових даних. Багато проблем, що включають дані зі складними відношеннями вхід-вихід, важко або непрактично моделювати процедурно, що створює можливість для застосування ШІ.
ШІ може бути застосований до різноманітних завдань у галузі хімії, де складні відносини часто присутні в наборах даних. Наприклад, розчинність нової сполуки може бути передбачена або через рівняння, засновані на емпіричних даних, або шляхом використання теоретичних розрахунків. Альтернативно, передбачення розчинності може бути здійснено програмою ШІ, яка розробила відношення структура-розчинність після навчання на численних сполуках з відомою розчинністю. Використання ШІ для таких завдань, як передбачення властивостей, поширилося останніми роками через вибухове зростання обчислювальних потужностей, структур машинного навчання з відкритим кодом та підвищення рівня грамотності щодо даних серед хіміків. Впровадження ШІ доводить, що це драматично зменшує зусилля з проектування та експериментування шляхом забезпечення автоматизації лабораторій, передбачення біоактивності нових ліків, оптимізації умов реакцій та пропонування синтетичних шляхів до складних цільових молекул.
Хоча значна увага була приділена ШІ та його застосуванню в хімії, перспектива його використання та розвитку в хімії не очевидна з масивного обсягу доступної інформації. Цей огляд використовує CAS Content Collection для контекстуалізації поточного ландшафту ШІ, класифікуючи та кількісно оцінюючи публікації з хімії, пов'язані з ШІ, за 2000-2020 роки.
Зростання та розподіл обсягу публікацій зі ШІ у хімії
Обсяг публікацій за роками
Зі швидким зростанням глобальної дослідницької активності, обсяг наукових публікацій стабільно збільшувався протягом останніх 20 років. Кількісний аналіз допомагає зрозуміти, наскільки швидко зростають публікації з хімії, що використовують штучний інтелект, порівняно зі збільшенням загальної кількості публікацій з хімії. З цією метою було проведено пошук у CAS Content Collection для ідентифікації публікацій, пов'язаних зі ШІ, з 2000 по 2020 рік. У результаті цього пошуку було виявлено приблизно 70 000 журнальних публікацій та 17 500 патентів. Кількість як журнальних, так і патентних публікацій зростала з часом, демонструючи подібні швидко зростаючі тенденції після 2015 року. Це зростання частково випливає з гучних успіхів проектів глибокого навчання у публічних викликах даних, починаючи приблизно з 2012 року, таких як Merck Molecular Activity Challenge та змагання ImageNet, які все більше привертали дослідницький інтерес наукової спільноти. Крім того, впровадження структур машинного навчання з відкритим кодом, таких як TensorFlow (2015) та PyTorch (2016), та доступність все потужнішого обчислювального обладнання спричинили глобальний вибух досліджень ШІ, що дозволило подальше застосування ШІ у хімії. Фактично, станом на 2020 рік понад 50% документів про ШІ в хімії було опубліковано протягом останніх 4 років.
Розподіл публікацій, пов'язаних зі ШІ, за країною/регіоном та компанією
Китай та Сполучені Штати зробили найбільший внесок у публікації як журнальних статей, так і патентів. Розробники медичної діагностики та технологічні компанії складають значну частину комерційних патентовласників у хімічних дослідженнях зі ШІ. Ці компанії покладаються на ШІ для автоматизації, контролю та оптимізації різноманітних процесів, таких як виготовлення напівпровідникових пристроїв та скринінг біомаркерів.
Розподіл публікацій з хімії, пов'язаних зі ШІ, за дослідницькими галузями
Для детальнішого аналізу того, як ШІ залучений у різні дослідницькі галузі хімії, публікації були класифіковані на 12 категорій. Серед усіх цих конкретних галузей хімії документи з аналітичної хімії (як журнальні, так і патентні публікації) мають найвищий нормалізований обсяг за останні 10 років; вони також різко зросли за останні 5 років. Енергетична технологія та екологічна хімія, а також промислова хімія та хімічна інженерія є двома дослідницькими галузями, що посідають друге місце за пропорцією дослідницького обсягу та динамікою в журнальних публікаціях. Цікаво, що хоча біохімія є серед галузей, найбільш представлених у патентних публікаціях, пов'язаних зі ШІ, її частка в журнальних публікаціях відносно помірна порівняно з іншими дослідницькими галузями. Це вказує на сильне бажання або стимул патентувати технології ШІ в біохімії, можливо, через їх використання в дослідженнях та розробці ліків.
Відносна поширеність міждисциплінарних досліджень у конкретних галузях
Інновації в науці та технологіях часто виникають через знаходження зв'язків між кількома дослідницькими галузями для отримання нових ідей, методів та продуктів. Такі міждисциплінарні ефекти також присутні в хімічній літературі, пов'язаній зі ШІ. Найсильніші кореляції спостерігаються між первинними та вторинними дослідницькими галузями в аналітичній хімії та біохімії, в матеріалознавстві та фізичній хімії, а також у біохімії з застосуванням у фармакології, токсикології та фармацевтиці. Наприклад, журнальні документи, що використовують методи аналітичної хімії, такі як мас-спектрометрія, ядерний магнітний резонанс та спектроскопія, доповнюються машинним навчанням для використання в медичній діагностиці, дослідженнях метаболоміки та ідентифікації мікробів.
Еволюція дослідницьких тем у публікаціях з хімії, пов'язаних зі ШІ
Аналізуючи зв'язки індексованих понять CAS з часом, можна побачити, коли дослідницька тема стала потенційно вирішуваною за допомогою методів ШІ. У 2000-2004 роках ми бачимо лише кілька понять, пов'язаних з поняттями "Моделювання нейронних мереж" та "Алгоритми", включаючи білки, послідовності білків та конформацію білків.
У 2005-2009 роках Homo sapiens стає популярнішою темою через зростаючі зусилля, пов'язані зі ШІ в діагностиці та прогнозуванні захворювань. Поняття, пов'язані з білками, такі як мотиви білків, взаємодії білок-білок, вторинна структура та амінокислоти, стали більш поширеними.
У 2010-2014 роках поняття, пов'язані з геномом, частіше вивчалися за допомогою методів ШІ. Застосування ШІ у фармацевтичній та біомедичній галузях стало більш поширеним, оскільки часто використовувалися поняття відкриття ліків, дизайну ліків, аналізу крові, новоутворень та мікроРНК.
У 2015-2019 роках використання ШІ стає більш помітним у дослідницьких темах, таких як метилювання ДНК, мутація, нанорідини, теплообмін та біодизельне паливо. ШІ також часто з'являвся в публікаціях, пов'язаних з раком та хворобою Альцгеймера. З початку 2020 року, коли стала очевидною критична потреба в дослідженнях COVID-19, ШІ часто використовувався в галузях відкриття ліків, діагностики захворювань та відстеження захворювань.
Визначні публікації, пов'язані зі ШІ
Щоб висвітлити найвпливовіші публікації, що використовують ШІ в хімії, було проведено бібліометричний аналіз первинної літератури з нашого пошукового запиту з 2014 року. Були відібрані публікації з понад 100 цитуваннями та додатково класифіковані на групи пов'язаних дослідницьких галузей. США є провідною країною походження: 15 з 34 статей афілійовані з організаціями США. Інші країни з значною кількістю важливих документів про ШІ – це Німеччина (6) та Швейцарія (5). Серед організацій Массачусетський технологічний інститут (США) та Університет Базеля (Швейцарія) були двома найбільшими контрибуторами.
Серед цих 34 журнальних статей найчастіше індексованими поняттями є Машинне навчання, Нейронна мережа, Глибоке навчання, Теорія функціоналу густини та Випадковий ліс. У біохімії, фармакології, токсикології та фармацевтиці багато статей застосовують технологію ШІ до дослідницьких тем, що включають високопродуктивний скринінг ліків, аналіз послідовностей нуклеїнових кислот та передбачення структури білків. Публікації в дослідженнях матеріалознавства повідомляли про передбачення відношень структура-властивість, керовані ШІ, що дозволяють відкриття нових функціональних матеріалів, а також мемристорів із застосуваннями в нейроморфних обчисленнях. В аналітичній хімії, синтетичній хімії та фізичній хімії були розроблені нові методи зі ШІ для доповнення аналітичних даних, автоматизації проточної хімії, покращення ретросинтетичного планування та передбачення результатів реакцій.
Розподіл інформації про речовини в хімічній літературі, пов'язаній зі ШІ
Журнальні публікації за класом речовини
Розподіл дослідницької активності, пов'язаної зі ШІ, також можна дослідити, вивчаючи кількість документів, що включають різні типи речовин. Публікації, що містять речовини малих молекул, є найчисленнішими, за ними йдуть ті, що містять речовини елементів та ручної реєстрації, значно перевищуючи публікації, що містять речовини в решті класів. Великий обсяг досліджень та винаходів ШІ, що включають ці класи, ймовірно, полегшується їх відносною простотою та легкістю моделювання порівняно з речовинами в інших класах, таких як координаційна сполука та полімер.
Патентні публікації за класом речовини
Послідовності нуклеїнових кислот та послідовності пептидів є найчисленнішими, тоді як решта відносних кількостей документів та речовин подібні до тих, що виявлені в журнальних публікаціях. Патенти, що містять послідовності пептидів або послідовності нуклеїнових кислот, часто містять велику кількість послідовностей на документ, часто набагато більшу, ніж інші речовини на патент.
Висновки та перспективи
Застосування ШІ в хімії стало все популярнішим останніми роками, про що свідчить сильне зростання обсягу публікацій. Проте вражає, що зростання не було рівномірним. Для деяких галузей хімії ШІ знаходиться набагато далі по відомому циклу перспективних технологій, ніж для інших. У науках про життя та аналітичній хімії, наприклад, впровадження ШІ, ймовірно, вже пройшло так званий "пік надмірних очікувань" та "западину розчарування". Корисність ШІ в певній галузі внутрішньо пов'язана з кількістю та якістю її даних, а також можливостями отримати ідеї з їх аналізу. ШІ може допомогти отримати ідеї, які інакше не випливали б з усталених знань. ШІ також корисний для вилучення ідей з великих нетривіальних наборів даних, а також для допомоги в автоматизації повторюваних завдань. З огляду на це, не дивно бачити сплеск впровадження ШІ в аналітичній хімії, де легко отримати великі навчальні набори, або в біохімії, яка містить багатство даних для макромолекул, чиї відношення структура-властивість не очевидні для дослідників. Успіхи в цих більш традиційно інтенсивних до даних галузях тепер наслідуються в інших галузях хімії.
Великі кількості та швидке зростання публікацій з хімії, пов'язаних зі ШІ, що включають малі молекули, відображають популярність застосувань ШІ у відкритті ліків. Аналізи загальної кількості речовин для кожного класу в публікаціях, пов'язаних зі ШІ, виявили велику кількість послідовностей нуклеїнових кислот та послідовностей пептидів у патентах, що відповідає поширеності застосувань ШІ в біохімії.
Завдяки все більш міждисциплінарному дослідницькому ландшафту багато методів ШІ були успішно адаптовані до хімічних досліджень. Використання ШІ навіть стало рутинним у деяких галузях. Все ще існують галузі хімії, такі як органічна синтетична хімія, де ШІ ще не справив впливу. Можливо, це питання часу, перш ніж вдосконалення самого ШІ, уроки успішних застосувань ШІ та міждисциплінарні дослідження об'єднаються, щоб допомогти підняти ці галузі з "западини розчарування" на "плато продуктивності".
Джерело: https://pubs.acs.org/doi/10.1021/acs.jcim.1c00619?fig=tgr1&ref=pdf