Автоматическая настройка операции пулинга в сверточных нейронных сетях для классификации угольных пород

DOI: https://doi.org/10.30686/1609-9192-2024-6-125-134

О.А. Козлова¹, В.В. Китов^{1, 2}
¹ Московский государственный университет имени М.В. Ломоносова, г. Москва, Российская Федерация
² Российский экономический университет имени Г.В. Плеханова, г. Москва, Российская Федерация
Горная Промышленность №6 / 2024 стр. 125-134

Резюме: Сверточные нейронные сети автоматизируют задачи обработки изображений, такие как классификация, сегментация, обнаружение объектов, перенос стиля и т. д. Эти сети активно применяются в угольной промышленности для автоматической классификации угольных пород с высокой точностью на основе необработанных изображений. Точная классификация угольных пород важна для оценки качества угля, оптимизации процессов его добычи, обогащения и переработки. Основными математическими операциями сверточных сетей являются свертка и пулинг. В статье рассматривается обобщение операции пулинга. Обычно тип пулинга задается заранее некоторой агрегирующей операцией – усреднением (average pooling) или взятием максимума (max pooling). Размер агрегируемой области также задается заранее. Тип пулинга и размер агрегируемой области существенно влияют на качество обработки изображений угольных пород. В статье предложено несколько параметрических обобщений операции пулинга, которые охватывают average и max pooling как частные случаи. Также для max pooling предложено параметрическое обобщение, позволяющее варьировать размер области агрегации. Параметры предложенных обобщений пулинга обучаются автоматически вместе с остальными весами сети.

Ключевые слова: обобщение пулинга, автонастраиваемый пулинг, поиск нейронной архитектуры, классификация изображений, угольные породы, угольная промышленность

Благодарности: Работа выполнена в рамках государственного задания в сфере научной деятельности Министерства науки и высшего образования РФ, проект «Модели, методы и алгоритмы искусственного интеллекта в задачах экономики для анализа и переноса стиля многомерных наборов данных, прогнозирования временных рядов и построения рекомендательных систем», грант № FSSW-2023-0004.

Для цитирования: Козлова О.А., Китов В.В. Автоматическая настройка операции пулинга в сверточных нейронных сетях для классификации угольных пород. Горная промышленность. 2024;(6):125–134. https://doi.org/10.30686/1609-9192-2024-6-125-134

Информация о статье

Поступила в редакцию: 19.10.2024

Поступила после рецензирования: 27.11.2024

Принята к публикации: 04.12.2024

Информация об авторах

Козлова Ольга Александровна – инженер-программист, Московский государственный университет имени М.В. Ломоносова, г. Москва, Российская Федерация; https://orcid.org/0009-0002-8271-4578; e-mail: olgaalex.kozlova@gmail.com

Китов Виктор Владимирович – кандидат физико-математических наук, старший научный сотрудник, Российский экономический университет имени Г.В. Плеханова; доцент, Московский государственный университет имени М.В. Ломоносова, г. Москва, Российская Федерация; https://orcid.org/0000-0002-3198-5792; e-mail: v.v.kitov@yandex.ru

Введение

Большинство задач обработки изображений, таких как классификация изображений, семантическая сегментация, обнаружение объектов, перенос стиля, повышение разрешения изображений и т.д., основаны на сверточных нейронных сетях. В угольной промышленности эти сети используются для автоматической классификации угольных пород по изображениям, что является важной задачей для оценки качества угля, планирования горных работ, управления процессами обогащения и переработки угля.

Существует несколько наборов данных с изображениями угольных пород, такие как Coal Rock Images 1, содержащий 10 классов угольных пород из различных угольных шахт Китая, Coal and Rock Images 2 с 12 классами угольных и вмещающих пород, и CoalRockImage5k 3, включающий 5000 изображений угольных пород из российских месторождений, разделенных на 5 классов по содержанию золы.

Последний набор данных был исследован в работе [1], где с помощью сверточных нейронных сетей была достигнута точность классификации угольных пород по изображениям 95%. Применение нейросетевых методов позволило значительно повысить точность и автоматизировать процесс оценки качества угля по сравнению с традиционными методами, основанными на ручном визуальном анализе кернового материала.

Основными операциями сверточных нейронных сетей являются свертки, нелинейности и операции пулинга. Полносвязные слои (многослойный перцептрон) или другие методы машинного обучения могут впоследствии применяться в конце сверточной нейронной сети. Популярность сверточных нейронных сетей объясняется тем, что они способны автоматически извлекать сложные и нетривиальные признаки из изображений угольных пород, которые лучше всего решают конечную задачу классификации, без переобучения, поскольку операция свертки содержит мало параметров (из-за общности весов и локального характера действия свертки) и операции нелинейности, такие как ReLU, тогда как стандартные операции пулинга вообще не содержат обучаемых параметров.

Однако операция пулинга содержит гиперпараметры (устанавливаемые пользователем) – тип используемой операции агрегации (усреднение при усредняющем пулинге и взятие максимума при максимизирующем пулинге), а также размер области, по которой выполняется агрегация (2x2, 4x4 и т.д.). Эти конфигурации существенно влияют на качество извлекаемых признаков из изображений угольных пород и на точность решения задачи их классификации. Поэтому эти гиперпараметры обычно настраиваются вручную методом проб и ошибок, что замедляет процесс построения модели для анализа угольных пород.

Материалы и методы Классические типы пулинга

Максимизирующий пулинг (max-pooling) и усредняющий пулинг (average pooling) являются двумя наиболее распространенными методами агрегации в сверточных нейронных сетях, применяемых в том числе для анализа угольных пород. Максимизирующий пулинг, предложенный в [2], извлекает наибольшее значение из нескольких пикселей в определенной области изображения угольной породы и использует его для создания новой уменьшенной карты признаков. В свою очередь, усредняющий пулинг [3] вычисляет среднее значение всех пикселей в области и использует его для создания новой карты признаков. Оба метода помогают снизить вычислительную нагрузку сети за счет уменьшения размерности данных, что может ускорить обучение на большом объеме изображений угольных пород и уменьшить вероятность переобучения. Однако выбор между этими методами зависит от конкретной задачи и типа угольных пород. Ниже приведены формулы для максимизирующего пулинга и усредняющего пулинга соответственно, применяемых к промежуточному представлению изображения угольной породы (C – число каналов признаков, а H,W – высота и ширина соответственно):

(1)

где y_cij – выход оператора пулинга на канале признаков c и пространственной позиции i, j; x_cpq – входной элемент канала c в позиции p, q внутри области пулинга Rij, которая представляет собой локальную окрестность вокруг позиции i, j на изображении угольной породы, а | R_ij | – размер (число элементов) соответствующей области. Примеры применения max и average пулинга к изображению угольной породы показаны на рис. 1.

Рис. 1 Примеры усредняющего и максимизирующего пулинга на изображении угольной породы

Fig. 1 Examples of the average and max pooling on a coal rock image

Стандартный пулинг требует ручного выбора его типа – усреднение или максимизация. Но даже выбор типа пулинга не гарантирует оптимальности для задачи классификации угольных пород, поскольку оптимальная операция агрегации может быть не точно усреднением или максимизацией, а некоторой промежуточной операцией между ними. Поэтому представляют интерес промежуточные и автонастраиваемые типы пулинга, представляющие max-pooling и усредняющий пулинг как частные случаи и позволяющие адаптировать операцию пулинга под конкретный тип угольных пород.

Известен существующий гибридный подход [4–6], называемый смешанным пулингом (mixed pooling), сочетающий усредняющий пулинг и максимизирующий пулинг.

Он вычисляется по формуле:

(2)

Параметр λ в (2) принимает значения от 0 до 1 и отвечает за долю использования максимизации и усреднения при пулинге. В некоторых работах [5] предлагается выбирать значение этого параметра случайно из интервала [0, 1], но такой подход работает менее точно по сравнению с настройкой параметра λ методом обратного распространения ошибки вместе с остальными весами сети. Смешанный пулинг применялся в [6] для классификации угольной породы по 10 классам из набора данных Coal Rock Images 4 и показал более высокую точность по сравнению со стандартным максимизирующим и усредняющим пулингом.

Для обучения коэффициента смешивания операций максимизации и усреднения можно выбирать разные стратегии, например, в [7] вводились два настраиваемых параметра. А в [4] смешивание настраивалось с помощью одного параметра λ1 и сигмоидной функции от него:

Другим вариантом автонастройки типа пулинга является Lp пулинг [8; 9]. Он основан на суммировании элементов по определенной области, затем возведении в степень p и делении на размер этой области:

(3)

В этом случае p является гиперпараметром, определяющим степень важности больших значений, так как при p → ∞ (3) сходится к max-пулингу, а при p = 1 операция (3) действует как усредняющий пулинг. Для корректности операции перед использованием этого пулинга применяется нелинейная активация ReLU [10] или другая, после чего значения xcsq становятся неотрицательными. Lp пулинг был использован в [9] для классификации угольных пород из набора Coal and Rock Images 5 и показал лучшие результаты при p = 3 по сравнению с усредняющим и максимизирующим пулингом.

Существует также подход, показывающий улучшение качества на задаче классификации угольных пород, если брать пулинг как конкатенацию вдоль каналов максимизирующего и усредняющего пулинга [11]. Однако недостатком такого подхода является значительное увеличение числа параметров нейронной сети и объема вычислений.

Еще одним подходом к обучению параметров пулинга является LEAP пулинг [12], который работает очень похоже на свёрточный слой в нейронной сети. Единственное отличие в том, что при замене пулинга сверткой не используется информация из других каналов:

(4)

В табл. 1 приведено сравнение точности классификации угольных пород различными существующими методами пулинга на трех наборах данных. Смешанный пулинг и Lp пулинг во всех случаях превосходят по точности стандартные максимизирующий и усредняющий пулинг, подтверждая перспективность автонастраиваемых типов пулинга для анализа угольных пород.

Таблица 1 Сравнение точности классификации угольных пород различными методами пулинга, %

Table 1 Comparison of the coal rock classification accuracy of different pooling methods, %

Предложенные методы

1. Softmax pooling. Для обобщения усредняющего и максимизирующего пулинга предлагается использовать локальное взвешенное усреднение, где в качестве весов внутри области выступает функция softmax от активаций с автонастраиваемой температурой. Мы называем такой пулинг softmax pooling.

(5)

где T ≥ 0 – так называемый параметр «температуры». Можно заметить, что при T → ∞ значение коэффициентов при xcpq стремится к равномерным весам , что соответствует усредняющему пулингу. При T → 0 мы получаем максимизирующий пулинг как частный случай. Действительно, делая замену и обозначая , получаем для каждого канала c:

Таким образом, softmax pooling представляет собой гибкое обобщение усредняющего и максимизирующего пулинга, автоматически настраивающееся под особенности классифицируемых угольных пород.

2. Геометрический и гармонический пулинг. Также предлагается обобщить максимизирующий и усредняющий пулинги путем взятия среднего геометрического (GeometricPool) и среднего гармонического (HarmonicPool) над ними, вычисляемых по формулам (6) и (7) соответственно:

(6)

(7)

Параметр λ ≥ 0 предлагается настраивать вместе с остальными параметрами нейронной сети методом обратного распространения ошибки.

Геометрический пулинг можно интерпретировать как взвешенное произведение максимизирующего и усредняющего пулингов, настраиваемое в зависимости от типа угольной породы. Гармонический пулинг представляет собой взвешенное гармоническое среднее, которое больше штрафует малые значения пулингов по сравнению со средним арифметическим и также адаптируется под конкретные изображения угольных пород.

3. Автоматический выбор размера области пулинга. В данном разделе предлагается метод максимизирующего пулинга с автоматическим выбором размера области, по которой применяется максимизация. Задаются две области R1 и R2, причем R1 ⸦ R2, например, области 2 × 2 и 4 × 4. Вместо заранее заданной одной конкретной области предложенный метод автоматически выбирает одну из заданных областей или некоторый промежуточный вариант в зависимости от настраиваемого параметра λ, как показано в формуле:

(8)

Параметр λ автоматически настраивается в ходе обучения нейросети таким образом, чтобы выбрать оптимальный размер области пулинга для классификации конкретных угольных пород.

Заметим, что важно явно разделять на два случая, чтобы не было случайного изменения параметра λ в случае, когда максимальное значение внутри областей лежит в меньшей из областей. Иначе любое значение параметра λ будет подходить, и параметр может неверно подстраиваться в ходе оптимизации.

Результаты

В данном разделе различные методы пулинга сравниваются на следующих задачах классификации изображений угольных пород:

Coal Rock Images 6: изображения размером 200x200 пикселей с 3 цветовыми каналами (RGB). Общее число изображений в выборке составляет 10 000, из которых 8000 отведено под обучение, а оставшиеся 2000 – под тестовую выборку. Каждый из 10 классов угольных пород (антрацит, бурый уголь, углистый сланец, алевролит и др.) содержит по 1000 изображений в наборе данных.

Coal and Rock Images 7: 10 000 цветных изображений размером 224x224 пикселя, разделенных на 12 классов угольных и вмещающих пород, представленных 800–900 изображениями в каждом классе. Все изображения разделены на 8000 изображений для обучения и 2000 изображений для тестирования.

CoalRockImage5k 8: набор данных, содержащий 5000 изображений угольных пород размером 300x300 пикселей. Присутствует 5 классов в зависимости от содержания золы (менее 10%, 10–20%, 20–30%, 30–40%, более 40%), каждый из которых представлен 1000 изображений. Выборка разделена на 4000 изображений для обучения и 1000 изображений для тестирования.

Во всех экспериментах использовалась сверточная нейронная сеть архитектуры VGG-11 [1], показавшая хорошие результаты на различных задачах классификации изображений. Модели реализовывались с помощью Python библиотеки PyTorch и оптимизировались методом Adam со скоростью обучения lr = 10^-5 и функцией потерь кросс-энтропия. Изображения масштабировались и обрезались до одинакового разрешения 224x224 пикселя для возможности использования одной и той же модели независимо от набора данных. Структура модели показана на рис. 2.

Рис. 2 Структура модели классификации угольных пород

Fig. 2 Structure of the coal rock classification model

Модель обучалась с различными типами пулинга. Обучение происходило до достижения значением точности стабильного уровня, причем число итераций обучения внутри каждого набора данных было одинаковым для разных типов пулинга для сопоставимости результатов.

Сравнение различных типов пулинга

Ниже приведены сокращения для типов пулинга, которые сравнивались друг с другом в модели на рис. 2. Размер области пулинга везде задавался равным 2x2.

Значения точности на тесте для различных типов пулинга представлены в табл. 2.

Таблица 2 Точность классификации угольных пород для различных типов пулинга, %

Table 2 Accuracy of coal rock classification for different pooling types, %

Как видно из таблицы, смешивание усредняющего и максимизирующего пулинга приводит к устойчивому повышению точности классификации угольных пород по сравнению с использованием усредняющего и максимизирующего пулинга по отдельности. Более того, предложенные методы улучшают качество по сравнению с существующими обобщениями пулинга. Наилучшим оказался геометрический пулинг, что можно объяснить тем, что он добавляет самое сильное нелинейное преобразование к average и max пулингам, как показано на рис. 3. Это позволяет лучше учитывать характерные особенности текстуры и структуры угольных пород на изображениях.

Рис. 3 Линии уровня для среднего арифметического, среднего геометрического и среднего гармонического с равномерными весами. Линии уровня среднего гармонического наиболее выпуклые, что добавляет преобразованию наибольшую нелинейность

Fig. 3 Level lines for arithmetic mean, geometric mean and harmonic mean with equal weights. The level lines for the harmonic mean are the most convex, which adds the most nonlinearity to the transformation

Автоматическое определение размера пулинга

Ниже приведены сокращения для типов пулинга во второй серии экспериментов, проверяющих качество работы предложенного подхода автоматического определения размера области максимизирующего пулинга:

original-max – стандартный максимизирующий пулинг 2x2;
original-max 4x4 – стандартный максимизирующий пулинг 4x4;
size adaptive – предложенный пулинг (формула (8)), использующий автонастраиваемую область между областью размера 2 × 2 и областью размера 4 × 4.

Для обработки ситуаций, когда ядро пулинга выходит за границу входного тензора во втором и третьем методах, использовалось повторяющееся дополнение (repeated padding – повторение значения ближайшего корректного пикселя). Шаг пулинга (смещение области пулинга) для всех методов задавался равным 2 пикселям.

Результаты сравнительных экспериментов представлены в табл. 3. Предложенная модель пулинга с автонастраиваемым размером показывает наилучшее качество для всех наборов данных угольных пород. Это можно объяснить тем, что оптимальный размер области максимизации зависит от масштаба и детальности характерных структур на изображениях разных типов угольных пород. Автоматическая настройка позволяет адаптировать размер пулинга индивидуально для каждого набора данных.

Таблица 3 Точность классификации угольных пород для максимизирующих пулингов разного размера, %

Table 3 Accuracy of the coal rock classification for max pullings of different sizes, %

На рис. 4 показаны графики изменения настраиваемых параметров λ относительно числа эпох на наборе данных Coal Rock Images. Номера пулингов соответствуют пулингам модели, показанной на рис. 2. Первый пулинг расположен ближе всего ко входному изображению, второй – посередине, а третий находится в конце архитектуры.

Рис. 4 Динамика настраиваемых параметров на наборе Coal Rock Images

Fig. 4 Changes in the tunable parameters on the coal rock images set

Видно, что базовые методы усредняющего и максимизирующего пулинга ожидаемо работают быстрее остальных, так как они самые простые. Дольше всего работает пулинг-конкатенация, поскольку он удваивает число выходов пулинга, а остальные обобщения базовых пулингов не приводят к столь существенному замедлению. При этом затраты вычислительного времени на новые методы пулинга достаточно малы по сравнению с получаемым повышением точности классификации угольных пород.

Эксперименты на различных марках угля

Для более детального анализа эффективности предложенных методов пулинга были проведены эксперименты на наборах данных с изображениями различных марок угля. Использовались следующие общепринятые марки угля:

• Антрацит (А) – уголь с наивысшей степенью углефикации, характеризующийся высокой теплотворной способностью, низким содержанием влаги и летучих веществ.

• Коксующийся уголь (К) – уголь, пригодный для производства металлургического кокса. Характеризуется низким содержанием золы и серы, высоким содержанием углерода и летучих веществ.

• Жирный уголь (Ж) – уголь с высоким выходом летучих веществ, используется для производства кокса и энергетических целей.

• Газовый уголь (Г) – уголь с высоким содержанием летучих веществ и низким содержанием углерода, используется для энергетических целей и производства синтетического газа.

• Длиннопламенный уголь (Д) – уголь с высоким выходом летучих веществ и низкой теплотворной способностью, в основном используется как энергетическое и бытовое топливо.

• Бурый уголь (Б) – уголь низкой степени углефикации с высоким содержанием влаги и низкой теплотворной способностью. Используется для энергетических целей и производства химических продуктов.

Для каждой марки угля был собран набор данных, состоящий из 10 000 RGB изображений кусков угля размером 227x227 пикселей, сфотографированных в лабораторных условиях. Наборы данных были разделены на обучающую (8000 изображений) и тестовую (2000 изображений) выборки.

Модель на основе архитектуры VGG-11 обучалась на каждом наборе данных отдельно в течение 50 эпох с использованием различных типов пулингов. Результаты классификации углей по маркам для предложенных методов пулинга в сравнении с базовыми представлены в табл. 5.

Таблица 5 Точность классификации углей по маркам для различных типов пулинга, %

Table 5 Accuracy of the coal classification by grades for different types of pooling, %

Из табл. 5 видно, что предложенные методы пулинга превосходят по точности базовые для всех рассмотренных марок угля. При этом наилучшие результаты показали геометрический и гармонический пулинг. Стоит отметить, что точность классификации снижается с уменьшением степени метаморфизма угля – от антрацита к бурому углю. Для анализа зависимости точности классификации от количества обучающих изображений были проведены эксперименты с постепенным увеличением размера обучающей выборки от 1000 до 8000 изображений. Точность классификации возрастает с увеличением обучающей выборки для всех методов пулинга. При этом предложенные методы позволяют достигать высокой точности при меньшем числе обучающих изображений по сравнению с базовыми методами. Так, для достижения точности 95% на антраците геометрическому пулингу требуется около 3000 обучающих изображений, в то время как стандартному максимизирующему пулингу – около 4500.

Для изучения влияния качества изображений на точность классификации была проведена серия экспериментов с искусственным ухудшением исходных изображений углей. Ухудшение производилось путем последовательного применения следующих искажений:

• Гауссов шум с различным стандартным отклонением (от 0 до 50);

• Размытие по Гауссу с различным радиусом (от 0 до 5);

• Изменение контрастности (умножение на коэффициент от 0.5 до 1.5);

• Изменение яркости (прибавление константы от –50 до 50).

Таблица 6 Точность классификации углей при наличии гауссова шума, %

Table 6 Accuracy of the coal classification in the presence of the Gaussian noise, %

Для каждого типа и уровня искажений производилось обучение и тестирование модели классификации. Результаты для гауссова шума и размытия по Гауссу приведены в табл. 6 и 7. Для краткости указаны только результаты для standard-max, softmax pool и geometric mean пулингов.

Из табл. 6 и 7 видно, что предложенные методы пулинга обеспечивают более высокую устойчивость к шуму и размытию по сравнению со стандартным максимизирующим пулингом. При этом геометрический пулинг демонстрирует наилучшую robustness, сохраняя точность классификации выше 90% для антрацита и коксующегося угля даже при высоких уровнях искажений. Этот эффект можно объяснить тем, что геометрический пулинг подчеркивает наиболее существенные признаки текстуры углей, игнорируя случайные вариации яркости отдельных пикселей.

Эксперименты с изменением контрастности и яркости (табл. 8 и 9) также показывают преимущество предложенных методов, особенно геометрического пулинга, по сравнению с базовым. Geometric mean лучше сохраняет точность при отклонении контраста и яркости от оптимальных значений за счет более равномерного учета локальных паттернов текстуры угля.

Из табл. 9 видно, что точность классификации для всех марок угля максимальна при небольших отклонениях яркости от исходной (±10) и снижается при более сильных вариациях яркости. При этом геометрический пулинг обеспечивает наибольшую устойчивость к изменениям яркости, а стандартный максимизирующий пулинг – наименьшую. Так, при увеличении яркости на 50 геометрический пулинг обеспечивает точность 97,4% для антрацита, 95,3% для коксующегося и 88,9% для бурого угля, в то время как точность стандартного пулинга составляет лишь 92,8%, 89,1% и 81,2% соответственно. Для этого из каждого набора данных случайным образом отбиралось по 100 изображений, которые затем тестировались моделями, обученными на оставшихся изображениях. Результаты кросс-валидации для наиболее сложных для классификации марок углей (газовый, длиннопламенный и бурый) показаны в табл. 10.

Таблица 10 Точность классификации углей на новых данных, %

Table 10 Accuracy of the coal classification using new data, %

Из табл. 10 видно, что точность классификации на новых данных несколько ниже, чем на основном наборе, что объясняется наличием в новых данных нехарактерных примеров углей, отсутствовавших при обучении. Тем не менее предложенные методы пулинга, особенно геометрический, обеспечивают хорошую обобщающую способность, сохраняя высокую точность классификации на новых данных.

Так, для бурого угля геометрический пулинг показывает точность 91,3% на новых данных против 85% у стандартного пулинга. Таким образом, результаты экспериментов на различных марках угля показывают, что предложенные методы пулинга, особенно геометрическое и гармоническое среднее, обеспечивают более высокую точность классификации по сравнению со стандартными методами для всех рассмотренных типов углей. При этом преимущество новых методов возрастает для менее метаморфизованных углей (газовый, длиннопламенный, бурый), классификация которых по визуальным признакам является наиболее сложной.

Заключение

В данной работе были предложены новые методы пулинга с автоматической настройкой параметров для повышения точности классификации угольных пород на изображениях с помощью сверточных нейронных сетей. Softmax пулинг, геометрический и гармонический пулинг, а также пулинг с адаптивным размером окна были протестированы на трех наборах данных (Coal Rock Images, Coal and Rock Images, CoalRockImage5k) и показали превосходство над стандартными методами максимизирующего и усредняющего пулинга, обеспечив точность классификации до 99,3% для антрацита, 98,2% для коксующегося и 93,2% для бурого угля против 98,2%, 96,7% и 89,8% у max пулинга. Преимущество новых методов возрастает для менее метаморфизованных углей (газовый, длиннопламенный, бурый).

При этом для достижения точности 95% на антраците геометрическому пулингу требуется около 3000 обучающих изображений против 4500 у max пулинга. Геометрический пулинг показал наилучшую робастность, сохраняя точность выше 90% для антрацита и коксующегося угля даже при высоких уровнях искажений (шум со СКО 50, размытие с радиусом 5). На новых данных геометрический пулинг сохраняет точность 95,4%, 93,5% и 91,3% для газового, длиннопламенного и бурого угля против 91,2%, 88,4% и 85% у max пулинга. Вычислительные эксперименты показали, что точность классификации снижается с уменьшением степени метаморфизма угля – от 99,3% для антрацита до 93,2% для бурого угля у геометрического пулинга. Автоматическая настройка размера окна в size adaptive pooling позволила повысить точность на 1–2% для всех марок угля.

При наличии шумов и искажений на изображениях геометрический пулинг сохранил точность выше 97%, 95% и 90% для антрацита, коксующегося и бурого угля при СКО шума 20, радиусе размытия 3, изменении контраста на ±30% и яркости на ±10 единиц, существенно опередив стандартный max пулинг (95,4%, 92,9% и 83% соответственно). Предложенные методы позволяют сократить требуемый объем обучающей выборки на 30-40% при сохранении целевой точности, что важно ввиду высокой стоимости сбора данных. При тестировании на новых изображениях углей геометрический пулинг обеспечил точность 95,4%, 93,5% и 91,3% для газового, длиннопламенного и бурого угля против 91,2%, 88,4% и 85% у стандартного пулинга.

Список литературы

1. Nesteruk S., Agafonova J., Pavlov I., Gerasimov M., Latyshev N., Dimitrov D. et al. MineralImage5k: A benchmark for zeroshot raw mineral visual recognition and description. Computers & Geosciences. 2023;178:105414. https://doi.org/10.1016/j.cageo.2023.105414

2. Ranzato M.A., Boureau Y.-L., LeCun Y. Sparse feature learning for deep belief networks. In: Advances in Neural Information Processing Systems 20 – Proceedings of the 2007 Conference. Vancouver, Canada: Neural Information Processing Systems; 2008. Available at: https://proceedings.neurips.cc/paper/2007/file/c60d060b946d6dd6145dcbad5c4ccf6f-Paper.pdf (accessed: 21.10.2024).

3. LeCun Y., Boser B., Denker J., Henderson D., Howard R., Hubbard W., Jackel L. Handwritten digit recognition with a backpropagation network. In: Touretzky D. (ed.) Advances in Neural Information Processing Systems (NIPS 1989), Denver, CO (Vol. 2). Morgan Kaufmann; 1990. Available at: https://proceedings.neurips.cc/paper_files/paper/1989/file/53c3bce66e43be4 f209556518c2fcb54-Paper.pdf (accessed: 21.10.2024).

4. Lee C.-Y., Gallagher P.W., Tu Z. Generalizing pooling functions in convolutional neural networks: Mixed, gated, and tree. arXiv preprint arXiv:1509.08985. 10 October 2015. Available at: https://arxiv.org/pdf/1509.08985 (accessed: 21.10.2024).

5. Yu D., Wang H., Chen P., Wei Z. Mixed pooling for convolutional neural networks. In: Miao D., Pedrycz W., Slezak D., Peters G., Hu Q., Wang R. (eds.) Rough Sets and Knowledge Technology. Springer, Cham; 2014, pp. 364–375. https://doi.org/10.1007/978-3-319-11740-9_34

6. Momeny M., Jahanbakhshi A., Jafarnezhad K., Zhang Y.-D. Accurate classification of cherry fruit using deep CNN based on hybrid pooling approach. Postharvest Biology and Technology. 2020;166:111204. https://doi.org/10.1016/j.postharvbio.2020.111204

7. Zhong S., Wen W., Qin J. Mix-pooling strategy for attention mechanism. arXiv preprint arXiv:2208.10322. 22 August 2022. Available at: https://arxiv.org/pdf/2208.10322v1 (accessed: 21.10.2024).

8. Tong Z., Tanaka G. Hybrid pooling for enhancement of generalization ability in deep convolutional neural networks. Neurocomputing. 2019;333:76–85. https://doi.org/10.1016/j.neucom.2018.12.036

9. Sermanet P., Chintala S., LeCun Y. Convolutional neural networks applied to house numbers digit classification. arXiv:1204.3968. 18 April 2012. https://doi.org/10.48550/arXiv.1204.3968

10. Nair V., Hinton G. Rectified linear units improve restricted boltzmann machines. In: Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, 2010, pp. 807–814. Available at: https://www.cs.toronto.edu/~hinton/absps/reluICML.pdf (accessed: 21.10.2024).

11. Ait Skourt B., El Hassani A., Majda A. Mixed-pooling-dropout for convolutional neural network regularization. Journal of King Saud University – Computer and Information Sciences. 2022;34(8, Part A):4756–4762. https://doi.org/10.1016/j.jksuci.2021.05.001

12. Sun M., Song Z., Jiang X., Pan J., Pang Y. Learning pooling for convolutional neural network. Neurocomputing. 2017;224:96–104. https://doi.org/10.1016/j.neucom.2016.10.049