Четвертая парадигма

© А. Л. Померанцев, д.ф.-м.н., Российское хемометрическое общество

Предмет хемометрики

Что такое хемометрика, и чем она занимается можно объяснять по-разному, используя более или менее ученые слова. Общепринятого определения до сих пор нет, и, по-видимому, его никогда и не будет. Наиболее популярное принадлежит Д. Массарту, который писал, что хемометрика — это химическая дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных. Это определение много критиковали, предлагали другие, более точные дефиниции. Так, например, С. Волд предложил такое. Хемометрика решает следующие задачи в области химии: как получить химически важную информацию из химических данных, как организовать и представить эту информацию, и как получить данные, содержащую такую информацию. Это тоже не понравилось, и все сошлись на том, что лучше всего объяснять науку старым методом, испытанным в других, не менее туманных областях, и заявить, что хемометрика — это то, что делают хемометрики. Вообще-то, это явный плагиат (смотри статью [1] под названием «Аналитическая химия — это то, что делают аналитические химики»), но ничего лучше так и не придумали.

А действительно, что же делают эти хемометрики? Вот маленькая подборка тем из научных журналов за последние пять лет. Итак, в основном, хемометрики делают вот что -

Что ж, теперь, после того, как всем стало совершенно ясно, что именно делают хемометрики, осталось объяснить, как они это делают. Но для этого придется сначала познакомиться с основными принципами их деятельности. Их немного, всего три, и они просты до примитивности. Первый гласит, что лишних данных не бывает — лучше, когда их много, чем мало. На практике это означает, что если вы сумели снять спектр какого-то образца, то нужно не выбрасывать все точки, кроме нескольких характерных длин волн, а использовать их все, или, по крайней мере, значительный кусок. С научной точки зрения это называется использованием многомерного подхода при конструировании экспериментов и анализе их результатов.

Любые данные содержат в себе нежелательную составляющую, называемую шумом. Природа этого шума может быть различной и, во многих случаях, шум — это просто та часть данных, которая не содержит искомой информации. Что считать шумом, а что — информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения. В этом и состоит второй принцип хемометрического подхода к анализу данных: шум — это то, что нам не нужно.

Однако шум и избыточность обязательно приводят к тому, что в данных появляются не систематические (т.е. причинные), а случайные (т.е. корреляционные) связи между переменными. Различие в понятиях причинности и корреляции забавно проиллюстрировано в книге [2]. Там приведен пример высокой положительной корреляции между числом жителей и количеством аистов в городе Ольденбург (Германия) за период 1930-36 годов. Радостная новость тех, кто считает аистов ключевым фактором увеличения рождаемости! Однако, причина того, что эти две переменные оказались связаны между собой корреляционной связью, состоит в том, что в системе присутствует какая-то третья, скрытая переменная, с которой они обе связаны причинными связями*). Поэтому, третий принцип хемометрики гласит: ищи скрытые переменные.

Исторический экскурс

Странно, когда про какую-нибудь науку кто-то может с уверенностью заявить, что, дескать, она появилась на свет такого-то числа, в таком-то месте, при таких-то обстоятельствах. Ну кто возьмется, например, утверждать, когда появилась химия? Ясно, что очень давно и, весьма вероятно, при не очень симпатичных обстоятельствах, связанных с насущной потребностью аккуратно и незаметно отправить в царство теней какого-нибудь шестого жреца храма Анубиса. А вот про хемометрику достоверно известно, что она появилась на свет вечером, 15 августа 1974 года, в небольшом МексТекс ресторанчике города Сиэтла, что на западном побережье США, в результате довольно таки шумного разгула, устроенного молодым шведским доцентом Сванте Волдом по случаю своего возвращения домой, в Умеа, после длительной стажировки у известных статистиков Бокса и Хантера. (Мы уже упоминали их знаменитую книгу [2]). Американскую сторону представлял химик Брюс Ковальски со своими учениками, которые тогда интенсивно разрабатывали пакет прикладных программ для анализа химической информации. Собственно слово «хемометрика» Сванте Волд и его группа из университета Умеа начали использовать еще в начале 70-х, для того, чтобы кратко обозначить то, чем они занимались. А занимались они интенсивной эксплуатацией идей отца Сванте, Германа Волда, известного математика, разработавшего много методов (в том числе и знаменитый теперь метод проекций на латентные структуры — ПЛС) для анализа данных в психологии. По-видимому, именно по аналогии с психометрикой, биометрикой, и другими аналогичными дисциплинами и появился термин хемометрика. Обстоятельство и место рождения наложили неизгладимый отпечаток, как на саму науку, так и на людей, которые ей занимались. Значительно позже, Сванте Волд, уже весьма маститый ученый, пошутил на одном из конгрессов, что хемометрики, это такие люди, «которые все время пьют пиво и воруют идеи у математиков». А, может быть, все дело в том, что первым хемометриком был Уилиам Госсет, более известный под псевдонимом Стьюдент, который работал аналитиком на пивоварне Гиннесса. Так или иначе, пиво и хемометрика идут рука об руку уже много лет. Вспоминается история, рассказанная другим знаменитым хемометриком, проф. Агнаром Хоскюлдсеном, на симпозиуме по хемометрике, состоявшемся под Москвой, в феврале 2005 г [3]. Обстановка была полуофициальная — вручение очередной награды издательства Elsevier, которая присуждается молодому российскому хемометрику, и, Агнар, вручавший приз, выступал с подобающей моменту речью (Рис. 1). Это замечательную историю, почти притчу, стоит рассказать дословно. Так говорил Агнар.
Агнар Хоскюлдсен вручает премию Сергею Жилину

Рис. 1. Агнар Хоскюлдсен (слева) вручает премию Сергею Жилину.

Хемометрики — это жизнерадостные люди, которые любят пить пиво и петь веселые песни. В середине 70-х, когда я (т.е. Агнар) познакомился со Сванте, у него было всего два ученика. И вот, мы, вчетвером, сидели вечером в пивной Умеа, пили пиво и пели веселые песни. Через два часа я спросил Сванте:

 — Может быть уже достаточно, и нам пора идти домой?

 — Нет, ответил Сванте, еще не достаточно, мы будем еще пить пиво и петь веселые песни.

Прошел еще час, и я опять спросил Сванте

 — Может быть достаточно, пора домой?

 — Нет, ответил он, мы еще должны выпить пива и спеть несколько веселых песен.

А в это время по улице, мимо пивной шли несколько студентов. Они услышали, как мы веселились, остановились и стали спрашивать прохожих:

 — Кто эти жизнерадостные люди, которые поют такие веселые песни?

Никто не мог им ответить, поэтому студенты зашли в пивную и спросили Сванте

 — Кто вы такие, и почему вы поете такие веселые песни?

И Сванте ответил им:

 — Мы хемометрики — жизнерадостные люди, которые любят пить пиво и петь веселые песни. Садитесь, пейте пиво и пойте вместе с нами

Таково было начало знаменитой скандинавской школы хемометрики, давшей много замечательных ученых и жизнерадостных людей.

Появление хемометрики в России также отмечено веселой историей. После создания в 1997 году Российского хемометрического общества, мы с коллегами решили, что настало время заявить urbi et orbi о нашем существовании. И тут, как раз, объявили о приеме докладов на всероссийскую конференцию «Математические методы в химии», которая должна была состояться в летом 1998 г., во Владимире. В то время это был очень популярный научный форум, организуемый с 1972 года Карповским институтом физической химии, на котором докладывались многие известные ученые, бурно обсуждались новейшие методы применения математики в химии. С этой высокой трибуны мы и надеялись поведать коллегам о том, какие замечательные методы разрабатывают наши друзья по всему миру, как это здорово, интересно и перспективно. Соответствующий доклад был написан и своевременно послан в оргкомитет от имени Российского хемометрического общества. Прошло время, но никакой реакции не последовало. Сроки приближались, уже была опубликована программа, списки докладчиков, но нас там не было. На наши недоуменные запросы никто не реагировал, и мы решили, что тут какое-то недоразумение, и, поскольку Владимир рядом с Москвой, то стоит рискнуть и поехать на конференцию без приглашения, чтобы разобраться во всем на месте. Так мы и сделали, явившись в первый день работы в оргкомитет, на регистрацию участников. Вышел грандиозный скандал, сопровождавшийся явным испугом, криками, громкими заявлениями о недопущении, появлением ответственных товарищей. Дело явно шло к выдворению с территории университета, жестким административным санкциям, аресту, тюремному заключению. К счастью, через час, стараниями наших старых знакомых по предыдущим конференциям, ситуация разрядилась. Дело оказалось в том, что простодушные владимирские ученые сочли, что хемометрика — это что-то вроде сайентологии, и наше общество — это зловредная секта, пытающаяся под прикрытием научной конференции смутить нестойкие умы владимирской общественности прелестными речами в духе Рона Хаббарда и отвратить их от постижения истинных научных ценностей. В конце концов, нас спасло то, что в библиотеке университета нашлась книга под названием «Хемометрика», изданная еще в 1987 году [4]. Окончательное примирение наступило в ходе заключительного банкета, но доклад нам, на всякий случай, делать не дали. Вполне возможно, что члены оргкомитета руководствовались здравым суждением Огюста Конта, который еще в 1825 году предупреждал. «Каждая попытка применить математические методы для исследования химических проблем должна рассматриваться как абсолютно абсурдная и противоречащая самому духу химии. Если математический анализ когда-либо займет сколько-нибудь значительное место в химии — извращение, которое по счастью почти невероятно — это повлечет за собой повсеместно быстрое вырождение этой науки». [5].

Метод главных компонент

Для того чтобы объяснить, как хемометрические принципы применяются на практике, рассмотрим один из старейших методов анализа данных, называемый методом главных компонент (МГК). Мы не будем отвлекаться на несущественные математические подробности, которые можно найти в специальной литературе [6], а постараемся передать суть этого подхода, используя интуитивно-понятную геометрическую интерпретацию. Начнем с простейшего случая, когда исследовано несколько образцов, для каждого из которых измерялись всего две переменные x1 и x2. Такие данные легко изобразить на плоскости (Рис. 2).
Метод главных компонент для двумерных данных

Рис. 2. Метод главных компонент для двумерных данных

Каждой строке исходной таблицы (т.е. образцу) соответствует точка на плоскости с соответствующими координатами. Они обозначены пустыми кружками на Рис. 2. Проведем через них прямую, так, чтобы вдоль нее происходило максимальное изменение данных. На рисунке эта прямая выделена голубым цветом; она называется первой главной компонентой — ГК1. Затем спроецируем все исходные точки на эту ось. Получившиеся точки закрашены красным цветом. Теперь мы можем предположить, что на самом деле все наши экспериментальные точки и должны были лежать на этой новой оси. Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место. Тогда все отклонения от новой оси можно считать шумом, т.е. ненужной нам информацией. Правда, мы должны быть в этом уверены. Проверить шум ли это, или все еще важная часть данных, можно поступив с этими остатками так же, как мы поступили с исходными данными — найти в них ось максимальных изменений. Она называется второй главной компонентой (ГК2). И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин.

В общем, многомерном случае, процесс выделения главных компонент происходит так:

В результате, мы переходим от большого количества переменных к новому представлению, размерность которого значительно меньше. Часто удается упростить данные на порядки: от 1000 переменных перейти всего к двум. При этом ничего не выбрасывается, все идет в дело. Так работает первый принцип — все переменные учитываются. В то же время несущественная для сути дела часть данных отделяется, превращается в шум. Так применяется второй принцип — долой шум. Найденные при этом главные компоненты и дают нам искомые скрытые переменные, тайные пружины, управляющие устройством данных. А это и есть третий принцип — найди скрытую причину.

Любимое занятие хемометриков — это разглядывание графиков. А как там выглядят наши образцы в новом пространстве ГК? Это называется анализом счетов. Мы так и не нашли достойного русского перевода этого емкого английского слова — scores. Ближе всего были бы понятия из любимой народной игры «преферанс» — что-то вроде «расписать данные», но мы не решились. А еще любопытно посмотреть, как преобразуются исходные переменные. Это называется анализом нагрузок (loadings). Медитация над этими рисунками часто приводит к интересным открытиям. Как это делается, мы покажем на примере, который уже упоминался выше. Итак, мы будем исследовать важную проблему: правда ли, что физиологические особенности, потребительские пристрастия влияют на умственные способности?

Люди и страны

Анализ базируется на данных европейского демографического исследования, опубликованных в [6]. По причинам дидактического характера используется лишь небольшой набор из 32 человек, из которых 16 представляют Северную Европу (Скандинавия) и столько же — Южную (Средиземноморье). Для баланса выбрано одинаковое количество мужчин и женщин — по 16 человек. Люди характеризуются двенадцатью переменными, перечисленными в Табл. 1.

Табл. 1 Переменные, использованные в демографическом анализе
Рост в сантиметрах
Вес в килограммах
Волосы короткие: -1, или длинные: +1
Обувьразмер по европейскому стандарту
Возраств годах
Доходв тысячах евро в год
Пивопотребление в литрах в год
Силаиндекс, основанный на проверке физических способностей
Регион север : -1, или юг: +1
IQ коэффициент интеллекта, измеряемый по стандартному тесту

Заметим, что такие переменные, как Пол, Волосы и Регион имеют дискретный характер с двумя возможными значениями: -1 или +1, тогда как остальные девять переменных могут принимать непрерывные числовые значения.

Прежде всего, любопытно посмотреть на графиках, как связаны между собой все эти переменные. Зависит ли Рост от Веса? Отличаются ли женщины от мужчин в потреблении Вина? Связан ли Доход с Возрастом? Зависит ли Вес от потребления Пива? Некоторые из этих зависимостей показаны на Рис. 3. Для наглядности на всех графиках использованы одни и те же обозначения: женщины (F) показаны кружками, мужчины (M) — квадратами, север (N) представлен голубым, а юг (S) — красным цветом.

Рис 3а Рис 3b
Рис 3c Рис 3d

Рис. 3. Связи между переменными в демографическом примере. Женщины (F) обозначены кружками и , а мужчины (M) — квадратами ? и ?. Север (N) представлен голубым ?, а юг (S) — красным цветом .

Связь между Весом и Ростом показана на Рис. 3a. Очевидна, прямая (положительная) пропорциональность. Учитывая маркировку точек, можно заметить также, что мужчины (M) в большинстве своем тяжелее и выше женщин (F). На Рис. 3b показана другая пара переменных: Вес и Пиво. Здесь, помимо очевидных фактов, что большие люди пьют больше, а женщины — меньше, чем мужчины, можно заметить еще две отдельные группы — южан и северян. Первые пьют меньше пива при том же весе. Эти же группы заметны и на Рис. 3c, где показана зависимость между потреблением Вина и Пива. Из него видно, что связь между этими переменными отрицательна — чем больше потребляется пива, тем меньше вина. На юге пьют больше вина, а на севере — пива. Интересно, что в обеих группах женщины располагаются слева, но не ниже по отношению к мужчинам. Это означает, что, потребляя меньше пива, прекрасный пол не уступает в вине. Последний график на Рис. 3d показывает, как связаны Возраст и Доход.

Легко видеть, что даже в этом сравнительно небольшом наборе данных есть переменные, как с положительной, так и с отрицательной корреляцией. А можно ли построить графики для всех пар переменных выборки? Почему нет? А дело в том, что для 12 переменных существует 12(12-1)/2=66 таких комбинаций. Многовато будет! А что даст нам метод главных компонент? Во-первых, для описания этих данных достаточно четырех ГК — они моделируют 94% данных, или, иными словами, шум, оставшийся после проекции на четырехмерное пространство ГК1-ГК4, оставляет всего 6% от исходных данных.

 График счетов (ГК1 - ГК2) с обозначениями, использованными ранее на Рис. 3  График счетов (ГК3 - ГК4) с новыми обозначениями: размер и цвет символов отражает доход - чем больше и светлее, тем больше доход. Числа представляют возраст
Рис. 4. График счетов (ГК1 — ГК2) с обозначениями, использованными ранее на Рис. 3
Рис. 5. График счетов (ГК3 — ГК4) с новыми обозначениями: размер и цвет символов отражает доход — чем больше и светлее, тем больше доход. Числа представляют возраст

Посмотрим на графики счетов, которые показывают, как расположены образцы в этом новом пространстве. На графике младших счетов ГК1-ГК2 (Рис. 4) мы видим четыре отдельные группы, разложенные по четырем квадрантам: слева — женщины (F), справа — мужчины (M), сверху — юг (S), а снизу — север (N). Из этого сразу становится ясен смысл первых двух направлений ГК1 и ГК2. Это просто: ГК1 — компонента разделения по полу, а ГК2 — по месту жительства. Именно эти факторы наиболее сильно влияют на разделение объектов в наших данных.

Продолжим изучение, рассмотрев график старших счетов ГК3- ГК4 (Рис. 5). Здесь уже не видно таких отчетливых групп. Тем не менее, внимательно исследовав этот график совместно с таблицей исходных данных, можно, после некоторых усилий, сделать вывод о том, что ГК3 отделяет старых/богатых людей от молодых/бедных. Чтобы сделать это более очевидным, мы изменили обозначения на Рис. 5. Теперь каждый человек показан кружком, цвет и размер которого меняется в зависимости от дохода — чем больше и светлее, тем больше доход. Рядом мы показали возраст каждого объекта. Как видно, возраст и доход уменьшается слева направо, т.е. вдоль ГК3. А вот смысл ГК4 нам по-прежнему не ясен.

Чтобы разобраться с этим, рассмотрим соответствующие графики нагрузок (Рис. 6). Они подскажут нам, какие переменные и как связаны между собой, что влияет на что.

Рис 6a  Рис 6b
Рис. 6. График нагрузок: a) ГК1 — ГК2 и b) ГК3 — ГК4

Из графика младших компонент мы сразу видим, что переменные Рост, Вес, Сила и Обувь образуют компактную группу в правой части графика. Они практически сливаются, что означает их тесную положительную корреляцию. Переменные Волосы и Пол находятся в другой кучке, лежащей точно по диагонали от первой группы. Это свидетельствует о высокой отрицательной корреляции между этими переменными, например, Силой и Полом. Наибольшие нагрузки на вторую компоненту имеют переменные Вино и Регион, также тесно связанные друг с другом. Переменная Доход лежит на первом графике напротив переменной Регион, что отражает дифференциацию состоятельности: Север-Юг. Можно заметить также и антитезу переменных Пиво-Регион (Вино). Из второго графика мы видим большие нагрузки переменных Возраст и Доход на ось ГК3, что соответствует графику счетов на Рис. 5.

Рассмотрим, наконец, переменные Пиво и IQ. Первая из них имеет большие нагрузки как на ГК1, так и на ГК2, фактически формируя диагональ взаимоотношений между объектами на графике счетов. Переменная IQ не обнаруживает связи с другими переменным, так как ее значения близки к нулю для нагрузок первых трех ГК, и проявляет она себя только в четвертой компоненте. Мы видим, что значения IQ не зависят от места жительства, физиологических характеристик и пристрастий к напиткам. Впервые МГК был применен еще в начале 20-го века в психологических исследованиях, когда верили, что такие показатели, как IQ или криминальное поведение можно объяснить с помощью индивидуальных физиологических и социальных характеристик.

Если сравнить результаты МГК анализа с графиками, построенными нами ранее для пар переменных, видно, что МГК сразу дает всеобъемлющее представление о структуре данных, которое можно «охватить одним взглядом» (точнее, с помощью четырех графиков). Поэтому, одна из наиболее сильных сторон МГК в исследовании структур данных — это переход от большого числа не связанных между собой графиков пар переменных к очень небольшому числу графиков счетов и нагрузок. Рассмотренный пример позволил взглянуть лишь на малую часть возможностей, предоставляемых МГК-моделированием. Другие его возможности будут изложены в следующем примере.

Фальшивые лекарства

Проблема фальсифицированных лекарственных средств является очень серьезным вызовом, угрожающим нашей безопасности. По информации Всемирной Организации Здравоохранения более 70% всех подделок продаются в развивающихся странах, к которым мы, по-видимому, и относимся. По некоторым данным, более 12% лекарств, обращающихся в России, являются подделками. Во многих случаях эти фальшивки представляют большую опасность. Так, известен случай, когда использование поддельного препарата, содержавшего диэтиленгликоль, повлекло смерть более 500 человек, в большинстве детей. Отличить фальшивку очень трудно. Визуальный контроль, тесты на растворимость могут определить только очень грубые подделки. Сложные химические методы, такие как тонкослойная хроматография, более эффективны, но они требуют большого времени, дорогих реактивов. Кроме того, даже они пасуют в тех случаях, когда подделка содержит нужное количество активного ингредиента, но отличается присутствием других, часто очень опасных добавок, как в случае с диэтиленгликолем. Очевидна и неэффективность всевозможных компаний по оклейке упаковок разнообразными марками, подделка которых, очевидно, даже проще, чем самих лекарств.

Как эффективно защититься от подделок? По нашему мнению, ключевым звеном является наличие быстрого, эффективного метода определения фальшивок. Задачу можно сформулировать так: разработать быстрый (не более 5 минут), мобильный (все оборудование должно умещаться в портфеле), не дорогой (не более 20 000 долларов начальных затрат и не более 30 рублей за один тест) метод, позволяющий определить подделку, даже в тех случаях, когда в ней присутствует нужное количество активного компонента. Именно так и была поставлена проблема перед небольшой группой хемометриков из России, Швеции, Дании и Финляндии, собравшихся в 2003 году в Пушкинских Горах попеть веселые песни и поговорить о науке. Собственно, говорить тут было не о чем. Такой метод уже давно существовал, и надо было только применить его именно к проблеме фальшивых лекарств. Этот метод называется БИК-анализ [7].

Сокращение БИК — это Ближняя ИнфраКрасная спектроскопия, а анализ — это метод главных компонент. Идея БИК спектроскопии очень проста. Образец (например, таблетка) помещается в прибор, где на него светят очень красным светом, который, попадая на таблетку, частично рассеивается, частично проходит насквозь. В прозрачности таблетки нет ничего удивительного, так как в ближнем ИК диапазоне свет состоит из тепловых лучей, которые легко преодолевают несколько миллиметров материала. Вы и сами можете в этом убедиться, поэкспериментировав (осторожно!) с горячей сковородкой. Свет, побывавший в образце, несет информацию о том, где он был, и что он там встретил. Его надо только аккуратно собрать и разложить по длинам волн. Для этого потребуются всякие хитрые устройства, вроде призм, диодных детекторов и прочего, в которых разбираются настоящие специалисты. А для нас важен только финальный результат — спектр, в котором интенсивность собранного света изображена в зависимости от длины волны, или от ее частоты. Такие спектры для 10 образцов истинных (N1) и 10 поддельных таблеток (N2) показаны на Рис. 7.
Спектры настоящих (голубые, N1) и фальшивых (красные, N2) таблеток

Рис. 7. Спектры настоящих (голубые, N1) и фальшивых (красные, N2) таблеток

Итак, у нас есть двадцать спектров. Они очень похожи, т.к. исследовался фальсификат очень «высокого качества», неразличимый традиционными химическими методами. Можно ли, используя метод главных компонент, различить их? Да, можно, и очень легко!

График счетов в примере с фальшивками
Рис. 8. График счетов в примере с фальшивками
На Рис. 8 показан график счетов ГК1-ГК2 для этих спектров. На нем четко видны две группы точек, соответствующих истинным и фальсифицированным таблеткам. Заметим, что разброс точек в группе N2 (контрафакт) существенно больше, чем в группе N1 (подлинник). Это объясняется лучшим контролем при легальном производстве. В этом примере достаточно использовать только две главные компоненты, которые объясняют 99% данных. Обмануть спектрофотометр невозможно. Где-то всегда найдется диапазон длин волн, в котором проявится отличие.

Итак, что мы имеем в итоге? Отличить подделку можно очень быстро, без специального приготовления образца. Забавно, но еще пять лет назад мы смогли бы сделать БИК анализ только в лабораторных условиях — обычный спектрофотометр с трудом умещался на столе. Но электроника творит чудеса — сейчас в коробку из-под обуви можно уложить парочку таких приборов и еще останется место. Стоимость одного устройства 15000 долларов, что вполне приемлемо. Сама процедура тестирования проста до изумления: положи таблетку в ячейку, нажми на кнопку и получи результат. Возбужденное воображение обывателя, испуганного проблемой фальшивых лекарств, уже рисует радужную картину, в которой летучие отряды борцов с подделками, вооруженные БИК-анализаторами, рыщут по стране в поисках злоумышленных фальшивотаблетчиков, которых постигает быстрое и неотвратимое наказание. Ни тут то было, сосед, для воплощения этой мечты еще очень далеко. Тут нужна хоть малая толика доброй воли чиновников и производителей лекарств, которые предпочтут не выносить сор из избы и скорее обклеят марками все лекарства, до каких дотянутся, чем потратят копеечку на приборы, с которыми так трудно договориться. А вдруг заграница нам поможет, ведь 30% подделок достается им, как вы думаете?

Познать — это значит анализировать

Что такое наука? Как появляется научное знание? Какими средствами можно решить насущную проблему? Какие проблемы являются насущными? Как сформулировать, как поставить задачу? Чего может и чего не может достичь научное исследование? Все это — вечные вопросы, ответы на которые образуют систему современных научных методов, концепций, идей, кратко называемую парадигмой. Энциклопедический словарь объясняет это красивое слово так. Парадигма — концептуальная схема, используемая для постановки проблем и их решения, господствующая в научном сообществе в течение длительного исторического периода.

Оглядываясь во тьму веков, мы увидим, что первой парадигмой, зародившейся в 5-3 вв. до РХ., была, без сомнения, геометрическая парадигма. Познать, значит нарисовать — такова была концепция научного знания, господствовавшая во времена Евклида, Пифагора и Архимеда. Трисекция угла, квадратура круга, удвоение куба — именно эти великие задачи будоражили умы ученых, начиная с античного времени и вплоть до конца 19-го века. И методы были подстать проблемам — начертить с помощью циркуля и линейки. Такое научное знание ценилось превыше всего. Недаром на могиле Архимеда был изображен цилиндр со вписанным в него шаром — он почитал это открытие своим величайшим достижением. Прошли столетия. На смену первой, геометрической парадигме пришли другие, но та, первая, жива и поныне. Все ученые уснащают свои работы схемами, графиками, диаграммами, и эта статья — не исключение. Считается, что только так можно правильно объяснить, проиллюстрировать свои идеи. Да что рядовые ученые, даже великий Гаусс, так много сделавший для науки в рамках совсем другой парадигмы, тоже завещал нарисовать на своем надгробии круг со вписанным в него 17-тиугольником — вот, что он превыше всего оценил из своих открытий.

Неотвратимый ход исторического прогресса привел к смене парадигмы. Перед наукой стали совсем другие задачи, для решения которых была выстроена новая, алгебраическая парадигма. Познать, значит посчитать, так стали считать ученые, заложившие в 10-15 вв. концепцию новых научных методов: папа Сильвестр II, Пачолли, Виет. На смену циркулю и линейке пришли таблица умножения, затем таблица логарифмов и методы решения алгебраических уравнений. Число заменило точку, уравнение — кривую. Завершил стройное здание алгебраической парадигмы Декарт, погрузивший геометрию в систему координат и показавший, что старая геометрическая парадигма — это частный случай новой, алгебраической. Но мы все еще любим числа. И в этой статье можно найти несколько примеров.

Третья, современная парадигма, которую можно назвать дифференциальной, появилась в 17 веке стараниями Ньютона и Лейбница. Они создали новый мощнейший метод — дифференциальное исчисление и, с тех пор, познать, значит составить и решить дифференциальное уравнение. Эта парадигма принесла фантастические, невероятные результаты. Впервые ученые смогли не только фиксировать и объяснять происходящее, но и предсказывать будущее. Расчет движения небесных тел, кинетики химических и биологических процессов, моделирование экономических и социальных явлений — везде применялись дифференциальные уравнения. Возникла система численных методов для их решения, были созданы мощнейшие компьютеры для воплощения задуманного. Все кажется прекрасно, но….

Сделаем небольшое отступление и поговорим о телевидении. За последние 10 лет мы стали свидетелями того, как на экране последовательно сменяли друг друга парадигмы в решении насущной проблемы — что будущее нам сулит. В начале 90-х господа астрологи с помощью необычайно убедительных чертежей объясняли, что позиция Сатурна в четвертом квадранте неотвратимо сулит нам скорое процветание. Вскоре на смену чертежникам пришел господин нумеролог из Афганистана, который с легкостью превращал слова в числа и обратно. Числа эти сулили нам то же самое, но слегка попозже. А на днях, в передаче г-на Гордона, появился доктор технических наук, академик Академии каких-то очень стратегических знаний, который показал всем дифференциальное уравнение первого порядка (Риккати), из которого вытекало все то же самое, но еще более убедительно. А некоторые говорят, что наше телевидение деградирует.

Горение водорода, т.е. известная со школьной скамьи реакция 2H2+O2 = 2H2O, наверное, менее сложная задача, чем прогноз будущего нашей несчастной страны, но проф. В. Димитров, в своей книге, остроумно названной «Простая кинетика» [8], насчитал 30 прямых и столько же обратных стадий этого процесса. Каждая из них описывается соответствующим дифференциальным уравнением, которые вместе дают систему из 60 уравнений. Заметим, что рассматривается самый простой изотермический случай, без учета граничных эффектов, переноса тепла и масс. Решение этой системы затрудняется тем, что большинство кинетических параметров нам неизвестны, и их нужно определять экспериментально, но многие стадии очень быстротечны, радикалы короткоживущие. И это еще только начало проблем — дальше нам предстоит интегрировать эту систему, которая является очень жесткой, пронизанной внутренними корреляционными связями. И все это еще нужно как-то связать с практикой. А что говорить о других задачах? Ну, как, например, применить дифференциальный подход к рассмотренной выше задаче дискриминации фальшивых лекарств? Какими уравнениями описать различия в физиологии и предпочтениях людей Северной и Южной Европы?

Все это свидетельствует о слабости дифференциальной парадигмы, в которой каждое явление должно быть описано содержательной (или белой) моделью, имеющей самостоятельный смысл, опирающейся на некоторые фундаментальные, априорные знания. Им на смену приходит новая, четвертая парадигма, в основе которой лежит формальное (черное) моделирование, основанное только на эксперименте. Именно из эксперимента, из данных, и только из них извлекается новое знание. Эта информация спрятана там как золото в руде и цель ученого — собрать данные, подвергнуть их анализу и найти эту информацию. Познать, это значит собрать и проанализировать данные. Таков, по-видимому, будет лозунг новой, четвертой парадигмы, при зарождении которой мы присутствуем. В отличие от третьей, дифференциальной, эта парадигма не ставит амбициозных целей предсказания поведения систем за пределами экспериментального опыта. Она сосредоточена на осмыслении и интерполяции уже имеющихся данных, на постижение скрытых причин изменения окружающей нас природы.

Ссылать на Маркса теперь не принято. Дескать, много недопонимал старик, абсолютизировал способ производства — одним словом исторический материалист. Но все же, все же… Ведь помимо парадигмы науки есть еще и парадигма производства, технологии. И так уж выходит, что накладываются они друг на друга замечательно, можно сказать коррелируют: аграрно-рабовладельческая с геометрической, мануфактурно-феодальная с алгебраической, конвейерно-капиталистическая с дифференциальной. Смысл этой скрытой переменной понятен — наука никогда не существовала отдельно от производства, так что их прогресс был общим — научно-техническим. Что же происходит сейчас, какая технологическая революция стоит за новой, четвертой парадигмой науки? Да, есть такая революция, она уже началась! Это произошло 10 сентября 2004 г. в США, стараниями группы бюрократов из федерального агентства США по контролю за едой и лекарствами (FDA).

Чтобы понять суть происходящего рассмотрим, как устроена нынешняя технология на примере производства автомобилей. Концептуально это выглядит так: в Воронеже делают болты, в Самаре — гайки, а в Тольятти их соединяют друг с другом. Благодаря стандартизации и унификации (ОТК не дремлет) воронежские гайки накручиваются на самарские болты, и получается много-много машин. Однако такая концепция совершенно не подходит для биологических, химических, фармацевтических и пищевых производств. Стандартизованные гамбургеры, идеально совмещающиеся с унифицированными булочками, всегда будут проигрывать в качестве домашним котлеткам, любовно приготовленными заботливой бабушкой. Все дело — в контроле над процессом приготовления, который осуществляется бабушкой не только в начале и конце процесса, как это предусмотрено технологическим регламентом, а непрерывно, на каждой стадии, в режиме on-line.

Поговорим о способах контроля процессов. Их всего четыре: off-, at-, on- и in-line. Это вот что такое. Допустим, вы варите суп и хотите узнать, достаточно ли в нем соли. Если отлить суп в баночку и послать образец в химическую лабораторию, то это — off-line, и результат будет известен через две недели. Если притащить лабораторию на кухню и проверять образец рядом с плитой — это at-line, и результат будет получен через час. А если у вас есть на кухне специализированный быстродействующий датчик (бабушка), в который помещается образец, то это уже on-line. Вариант in-line предусматривает вмонтирование этого датчика прямо в кастрюльку для непрерывного мониторинга ситуации. Как получить лекарство высокого качества? Совершенно ясно, что сложный биохимический процесс его производства надо контролировать непрерывно, по ходу, т.е. в режиме on- или in-line. Попытки применить здесь дифференциальную парадигму, т.е. описать все стадии системой дифференциальных уравнений, а потом следить только за легкодоступными показателями вроде температуры и давления, предпринимались неоднократно. Нет числа статьям и диссертациям на эту тему. Увы, пример с окислением водорода ясно демонстрирует всю тщетность этих попыток. Ну, не выходит и все, как бы тщательней мы не старались.

А что можно и нужно делать в такой сложной ситуации? Да, просто, уснастить реактор разнообразными датчиками, вроде того спектрофотометра, о котором шла речь выше, в примере с фальшивыми лекарствами. Пусть они непрерывно, по ходу процесса фиксируют все возможные показатели, характеризующие его ход. Собранные в реальном времени, эти косвенные данные будут нести в себе скрытую информацию о всех сторонах процесса. Надо только научиться извлекать ее оттуда и использовать для управления процессом. Для этого, сначала, необходимо накопить достаточный исторический опыт — собрать и систематизировать информацию об удачных, посредственных и совсем провальных попытках производства. А уже потом, по ходу процесса нужно все время сопоставлять данные о текущем процессе, с тем, что было раньше, проверяя на своем прошлом опыте, все ли идет как надо, нет ли отклонений. Тут самое время опять вспомнить бабушку, которая именно так и варит суп, пробуя и улучшая его в соответствии со своим богатым, накопленным опытом.

Именно эту, «бабушкину» технологию, основанную на непрерывном контроле качества по ходу процесса, сопоставлении текущих данных с историческим опытом, применении датчиков, дающих многомерную, косвенную информацию о состоянии системы, и предписано внедрять на фармацевтических и аналогичных им предприятиях. Для этого, в сентябре 2004 г. FDA выпустило документ [9], озаглавленный «Директива для промышленности. Аналитический контроль процессов — схема инноваций для разработки, производства и контроля качества в фармацевтике». В нем изложены основные принципы этого подхода, основным лозунгом которого является «сделать качество неотъемлемым свойством продукта». Нельзя сказать, что до этого ничего не происходило, и все только ждали этой директивы. На протяжении десяти последних лет, хемометрики активно сотрудничали с производственниками, на практике применяя эти методы в пищевой, фармацевтической, металлургической промышленности. Однако теперь это стало законом — без соответствующего контроля уже нельзя произвести препарат, предназначенный для продажи на американском рынке. Хемометрику признали!

Парадоксально, что первые ростки новой парадигмы мы находим в скромной, малоизвестной науке — хемометрике, рассматриваемой многими всего лишь как подраздел аналитической химии, призванный решать метрологические и методические задачи в обработке химического эксперимента. Кто знает, может быть через 100 лет эта парадигма так и будет называться — хемометрической. Поживем, увидим, так ли это.

Литература

1. R. W. Murray, «Analytical chemistry is what analytical chemists do.» Anal. Chem. , 66, 682A (1994).

2. G.E.P. Box, W. G. Hunter, J. S. Hunter. Statistics for Experimenters, John Wiley & Sons Inc., NY, 1978

3. 4-ый симпозиум по хемометрике, Черноголовка, 2005 www.chemometrics.ru/wsc4

4. М. А. Шараф, Д. Л. Иллмэн, Б. Р. Ковальски. Хемометрика, Пер. с англ. М. Мир: 1987

5. A. Comte. Cours de philosophie positive, 1830, Paris

6. К. Эсбенсен. Анализ многомерных данных, сокр. пер. с англ. под ред. О. Родионовой, Из-во ИПХФ РАН, 2005. rcs.chph.ras.ru/mdabook.htm

7. O. Ye. Rodionova, L. P. Houm?ller, A. L. Pomerantsev, P. Geladi, J. Burger, V. L. Dorofeyev, A. P. Arzamastsev. NIR Spectrometry for Counterfeit Drug Detection. A Feasibility Study Anal. Chim. Acta, 549, 151 (2005). DOI:10.1016/j.aca.2005.06.018

8. В. И. Димитров, Простая кинетика, Наука, Новосибирск, 1982

9. Guidance for Industry. PAT -A Framework for Innovative Pharmaceutical Development, Manufacturing, and Quality Assurance, FDA, 2004, www.fda.gov/cder/guidance/5815dft.pdf


*) Последующие исследования феномена выявили этот скрытый параметр. Им оказалась площадь полей, засаженных капустой в окрестностях г. Ольденбурга.