Проблемы информационного обеспечения использования отходов горнодобывающей промышленности в производстве сырья для высокотехнологичных материалов

Ю.Н. Малышев, академик РАН, директор ГГМ РАН

А.В. Титова, д.т.н., зам. директора ГГМ РАН

С.В. Черкасов, к.г.-м.н., зам. директора ГГМ РАН,

Б.В. Стерлигов, к.г-м.н., зав.отделом ГГМ РАН

Одной из ведущих проблем технологической платформы «Твердые полезные ископаемые», утвержденной Правительством РФ, является комплексное изучение техногенных отходов горно-промышленных производств. К ним относятся отходы горно-обогатительных комбинатов, металлургического, энергетического, химического и других производств, которые можно рассматривать как ценное сырье для дополнительного получения полезных компонентов, в том числе – высокотехнологичных материалов.

В связи с актуальностью проблемы техногенных отходов требуется оперативный и инновационно привлекательный подход, в основу которого ложится каталогизация существующих отходов с описанием их полезности и (или) токсичности. Для экологической и экономической оценки накопленного техногенного сырья, а также дальнейшего вовлечения его в переработку и утилизацию необходимо создание единой информационной базы данных, предусматривающей обоснование возможности использования техногенного сырья предприятий горно-обогатительного комплекса РФ наряду с сырьем месторождений полезных ископаемых природного происхождения.

Для решения этой многофункциональной задачи при оценке потенциала техногенных отходов и целесообразности их переработки с извлечением полезного компонента по основным видам производств может служить онтологическая классификация источников техногенных отходов и природных месторождений, прообраз которой реализован в виде программного модуля «ОНТОС 1.0» (Свидетельство о государственной регистрации программы «Онтос» № 2014614567 от 30 января 2014 г.) и многоцелевой автоматизированной системы представления геологических знаний (МАС).

В области минерального сырья XXI век стал веком синтеза информации, в отличие от предшествующего периода узкой специализации и анализа. По сравнению с тематическими реляционными базами данных, онтологические системы управления данными, включающие сбор, анализ, хранение и представление, представляют собой универсальные базы знаний, являющиеся гораздо более совершенными инструментами синтеза. В сфере минерального сырья, а тем более – техногенного минерального сырья, практически отсутствуют примеры внедрения онтологии или семантических технологий, несмотря на то, что имеющаяся информация в этой области чрезвычайно объемна, а практически все термины и понятия имеют множество логических, физических, химических, геологических, пространственных и иных связей друг с другом. В то же время информация о природных и техногенных источниках сырья для производства высокотехнологичных материалов в настоящее время разобщена как организационно (разные ведомства), так и технически (разные базы данных), что затрудняет принятие решений и создает предпосылки для необъективного выбора источника.

Совместный анализ природных и техногенных источников сырья ставит своей задачей обеспечение повышения эффективности принимаемых в рамках этих направлений решений как на государственном и региональном уровнях, так и на уровнях профильных научно-исследовательских и коммерческих организаций. Для реализации поставленной задачи необходима разработка информационной системы организации, хранения и представления информации об источниках высокотехнологичных материалов. Поскольку такая информация является разнородной, многопризнаковой и характеризуется большим количеством логических, иерархических и других связей как между объектами информации, так и между их признаками,– для решения задачи выбран и предложен оригинальный метод контекстно-статистического анализа вводимой информации, который в области минерального сырья не имеет аналогов в мировой практике.

Создание алгоритма онтологической базы знаний по источникам сырья для производства высокотехнологичных материалов в данной работе рассматривается как основа онтологической классификации таких источников. Уже много лет решение аналогичных задач основывается на традиционных способах – технологиях реляционных баз данных (БД), позволяющих обрабатывать и анализировать формализованные данные [2]. В то же время, начиная с 90-х годов ХХ века, наблюдается значительный рост интереса к распределенным БД, в которых хранение информации осуществляется на разных компьютерах, а системы управления БД (СУБД) разной архитектуры осуществляют управление информацией. Несмотря на высокий уровень развития технологий БД, для решения задач создания системы хранения, анализа и представления информации об источниках высокотехнологичных производств обозначился круг проблем, связанных с самой традиционной архитектурой БД. Одной из существенных проблем является специализация пользовательского интерфейса, который разрабатывается в тесной связи с эмпирической структурной моделью данных. Отсюда возникает проблема сохранения информации – жесткая структура данных не позволяет вводить информацию, которая не была предусмотрена при создании каркаса БД. Традиционная сложность изменения концепции системы требует работы квалифицированных специалистов по изменению структуры таблиц и пользовательского интерфейса. Решением поставленных задач – реализации подходов по систематизации информации, способов описания и анализа связей между различными данными в области наук о земле, а в частности, об источниках сырья для высокотехнологичных производств, может служить онтология предметной области.

В качестве предметной области в рамках данной работы выбрано сырьевое обеспечение высокотехнологичных производств. Природные и техногенные источники сырья существенно различаются по своим характеристикам, методам исследования и технологиям переработки, а также - по нормативному обеспечению их использования. Создание онтологической системы в данном случае обеспечит управление разнородной информацией, что в свою очередь будет способствовать эффективному принятию решений.

Онтологический подход к управлению знаниями

В последние десятилетия онтологический подход активно применяется к управлению информацией, созданию систем управления знаниями, позволяя более полно использовать возможности разных реализаций искусственного интеллекта (нейронные, семантические сети и др.).

Специализированные онтологии – это представление какой- либо области знаний или части реального мира. В такой онтологии содержатся специальные для этой области значения терминов. К примеру, слово «поле» в сельском хозяйстве означает участок земли, в физике – один из видов материи, в математике – особую структуру. Соответственно, специализированные онтологии создаются в некоторой предметной области, то есть – в той части знаний, относительно которой предполагается ее неизменность [1, 7].

При создании онтологии предметной области традиционно сначала выстраивается тезаурус как для объектов, так и для свойств и взаимоотношений, которые могут быть применимы к объектам. Например, тезаурус содержит термины: «магматические породы», «гранит», «базальт». При этом поле «наследники» записи «магматические породы» имеет значение «гранит, базальт» и наоборот, для записи «гранит» поле «родитель» имеет значение «магматические породы». Таким образом, формируется онтологическая сеть, хранящая взаимные отношения объектов и их свойств. Преимущество онтологической сети в том, что например запись «гранит» можно найти не только по названию, но и задав критерий поиска «магматические породы» или «интрузивные породы».

Однако само определение термина «онтология» формулируется как попытка всеобъемлющей и детальной формализации конкретной области знаний [1], и, анализируя существующий опыт создания онтологий в области наук о Земле, легко увидеть, что, как правило, более или менее завершенные работы посвящаются крайне узкоспециализированным вопросам геологии.

Традиционные онтологические системы основаны на иерархических связях между объектами, которые могут строиться как вниз и вверх, так и по горизонтали (поиск «братьев »). Например, находя «гранит» по запросу «базальт», так как оба имеют одного родителя – «магматические породы». Могут быть установлены причинно-следственные и другие логические связи, как качественные, так и количественные. Те же гранит и базальт с точки зрения геохимии отличаются процентным содержанием кремнезема, с точки зрения магмообразования – разными глубинами источников, минералогии – особенностями композиции минералов. При создании традиционной онтологии применительно к источникам сырья для производства высокотехнологичных материалов неизбежно возникает проблема объединения двух различных предметных областей – месторождений полезных ископаемых и техногенных источников.

Существует множество стандартов применения и описания онтологий предметных областей. Основные языки описания онтологий [3]:

1) KIF (Knowledge Interchange Format) – основанный на S-выражениях синтаксис для логики;

2) RDF (Resource Description Framework) – представляет утверждения о ресурсах в виде, пригодном для машинной обработки, является частью концепции семантической паутины;

3) OWL (Web Ontology Language) – стандарт консорциума всемирной паутины (World Wide Web Consortium – W3C), язык для семантических утверждений.

Несмотря на существование множества языков онтологий, выбор одного из них во многом предопределяет дальнейшее развитие всей системы и, в частности, накладывает ряд ограничений.

Диаграмма, демонстрирующая процесс создания традиционной онтологической системы, свидетельствует о том, что решаются проблемы сохранения дополнительных данных, упрощаются задачи смены концепции БД (рис. 1).

Разработка онтологической БД

При расширении узкоспециальной тематики онтологический тезаурус, который создается «вручную», усложняется непропорционально по отношению к увеличению количества терминов. Так, если к онтологии по рудным месторождениям добавить информацию о техногенных источниках, в онтологическом тезаурусе добавляются не только техногенные термины и связи между ними, но и связи между терминами металлогенической и техногенной частей. А в случае разработки онтологической энциклопедии геологических знаний в широком смысле подготовка соответствующего тезауруса становится совершенно невозможной из-за не поддающихся оценке трудозатрат. Возможно, именно поэтому примеры практического использования онтологических баз данных в науках о Земле фактически отсутствуют, несмотря на то, что концептуальные описания таких баз в литературе встречаются достаточно часто.

С целью преодоления указанных проблем ввода информации концепция разрабатываемой онтологической системы предполагает полное отсутствие вводимых оператором иерархических связей. Любые термины создаваемой онтологической системы должны быть вне любых иерархических структур. Любая вводимая информация раскладывается на элементарные составляющие – термины, таксоны формируются из самих терминов, путем установления связей между как самими, так и другими терминами. Однако в полной мере удобство представления информации в виде иерархических списков (шаблонов) раскрывается на этапе поиска информации.

Пользователь задает интересующую его иерархию, состоящую из одного и более последовательно связанных терминов, а система сама организует информацию в соответствии с запросом (рис. 2).

Концептуальная схема организации ввода и поиска данных в онтологической системе

Онтологическая система разрабатывается для обеспечения возможности решения следующих базовых задач:

– систематизации информации об источниках сырья для высокотехнологичных материалов;

– анализа информации;

– поиска информации.

Систематизация информации

Из вводимой текстовой информации выделяются отдельные текстовые элементы – параграфы, абзацы, предложе- ния. Далее каждый элемент текста разделяется до тех пор, пока не получен набор терминов – слов. Для каждого термина формируется связь с элементом текста, которая кодируется, используя другой термин – обозначающий собственно структурную единицу текста. Устанавливается связь с каждым из предыдущих элементов разбиения вплоть до ссылки на первоначально введенную информацию – источник, который может быть сохранен в системе, что, однако, приведет к избыточности информации и к увеличению занимаемого дискового пространства. Таким образом, каждый конечный термин получает ссылку с источником и содержит связь с каждым отдельным элементом (параграф, абзац, предложение, определение и т.д.). Отметим, что собственно определение (тип) связи тоже является термином системы.

В результате получаем замкнутое самодостаточное описание всех терминов. Для восстановления связей в дальнейшем нет надобности в специальных алгоритмах, предназначенных для узкоспециализированной области знаний. Поскольку связи записываются через термины, то нет надобности задания программой жестко увязанных «тегов», что, в конечном счете, обеспечивает удобное чтение и восстановление связей как программным, так и «ручным» способом. Поскольку нет первоначальной иерархии, то возможно, например, источник: «РЗЭ (редкоземельные элементы) – 82% балансовых запасов редкоземельных металлов России приходится на содержащие РЗМ апатитовые руды, в том числе более 70% запасов связано с апатит-нефелиновыми рудами. РЗЭ не извлекаются и остаются в хвостах месторождения Хибинской группы в Мурманской области. Добыто в 2007 г. 35,2 тыс.т. Мурманская область. Юкспорское и Коашвинское месторождения.

Недропользователь ОАО «Апатит»

В результате работы алгоритма с указанным выше источником, в общем случае будет выделено 48 уникальных терминов, которые имеют базовые связи: предложения (всего 6), абзац (один), источник (один) (табл. 1).

Частота встречаемости и связи терминов

Для каждого термина создается отдельный файл, в который записываются связи, ссылки на структурные элементы, также сохраненные в отдельные файлы, записанные в папке с названием связи. Подобная систематизация данных позволит выполнять быструю навигацию по терминам и связям, скоростной поиск в системе и анализ данных, основанный на методах математической статистики.

Потенциальная емкость системы не ограничена, единственное ограничение связано с физическими размерами выделяемого дискового пространства. Для расчета максимальной теоретической емкости системы предположим, что будет введена информация, содержащая 5 тысяч уникальных слов, на которые согласно различным исследованиям приходится 85% употреблений в различных текстах [4].

Согласно тем же исследованиям средняя длина предложения составляет 10 слов. Для оценки полноты системы и числа возможных связей удобно использовать методы комбинаторики. Если рассчитать потенциально возможное количество различных вариантов предложений из k = 1 - 10 слов по формуле сочетаний, при n = 5000:

024 f1

 

то получается примерно 3*1030 вариантов. Однако следует понимать, что в изучаемой области недропользования – источниках сырья для высокотехнологичных материалов – данное число значительно меньше. В дальнейшем, при отсутствии априорных ограничений, возможно установление практически любых новых связей, как, например – логических, смысловых, пространственных и пр.

Анализ информации

Одним из принципов системы является автоматическое объективное принятие решений о надежности связей между терминами. Естественно, что в начале заполнения любые связи между терминами будут единичными, и с точки зрения алгоритма – ненадежными. Однако по мере пополнения все преимущества предложенного подхода проявятся в полную силу. С одной стороны, введение больших объемов «похожей» информации (например, тиражирования одного и того же утверждения как путем изменения порядка слов, так и с заменой синонимами) не приведет к увеличению надежности связей. С другой стороны, разнородная информация позволит судить о противоречивости каких-либо утверждений в случае возникновения большого количества единичных связей, которые будут подвергаться сомнению, и для доказательства их состоятельности будет необходим ввод новой информации. В будущем созданный алгоритм позволит реализовать процедуру «стирания» или намеренного «разрушения» слабых связей в случае, если они не подтверждаются в течение заданного периода времени.

Для оценки терминов используется методика создания частотных словарей. Данная методика не требует разработки дополнительных алгоритмов, поскольку уже на этапе ввода информации устанавливается количество связей с различными элементами текста, или, другими словами, – частота употреблений термина. Частотная зависимость для разных типов связей позволит всесторонне оценивать термины.

Так, например, часто встречающийся термин в предложениях может встречаться только в одном тексте, что автоматически сделает его «редкоупотребимым». Для общеупотребимых слов частота использования будет относительно постоянна для различных текстов.

Для оценки всей системы предлагается использовать понятие информационной энтропии H – как меры неопределенности информации [6]:

024 f2

где pi – вероятность i-го термина (определяется как отношение частоты связей термина к общему числу связей всех терминов), а выражение:

024 f3

есть собственная информация i-го термина.

При добавлении новой информации этот подход позволит оценивать как изменение состояния системы, так и значимость добавляемой информации. Энтропия всей системы будет всегда увеличиваться, однако для каждой предметной области будет вести себя по-разному. В частности, это позволит судить о степени разнородности вводимых данных, и если энтропия при вводе новых данных практически не изменяется, значит новая информация несущественна для системы. Однако следует отметить и недостаток данного подхода – информация, вводимая в первую очередь, будет априори более информативной с точки зрения системы, чем вводимая впоследствии. Данный недостаток будет компенсироваться мерой надежности связей, которые, как уже говорилось выше, на начальном этапе пополнения информацией будут ненадежными. Таким образом, оценку изменения системы W при добавлении новой информации можно проводить, используя выражение:

024 f4

где H0 – значение энтропии до ввода информации, H1 – после ввода; n0i , n1i – частоты термина до и после добавления данных соответственно.

Другим важным показателем может служить индекс удобочитаемости как мера определения сложности восприятия текста читателем. Вычисляется, как правило, на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и пр.

Одним из наиболее распространенных является индекс удобочитаемости Флеша (ИУФ), для английского языка [8]:

ИУФ = 206.835 - 1.015 * СДП - 84.6 * СДС, (5)

где СДП – средняя длина предложения; СДС – средняя длина слова, или адаптированная формула для русского языка [5]:

ИУФ = 206.835 - 1.3 * СДП - 60.1 * СДС, (6)

Данная статистика (6) вместе с частотными и энтропийными (2) характеристиками позволит системе выделять как наиболее общие, так и узкоспециализированные тексты и относить термины к различным предметным областям.

Поиск информации

Наиболее важной составляющей системы является поиск данных. Поскольку уже на этапе ввода информации осуществляется систематизация и анализ данных, то собственно процедура поиска заключается в обращении к искомому термину и построению для него различных вариантов БД.

Причем поля выходной БД могут быть заданы как пользователем (например, местоположения, тип месторождения, количественные признаки), так и на основе проведенного ранее анализа – автоматического построения структуры предметной области, к которой принадлежит термин. Важной особенностью является возможность построения нескольких независимых иерархий для терминов, пересекающихся в различных предметных областях знаний.

Если рассматривать работу поиска на примере информации об источниках сырья для высокотехнологичных материалов, то на запрос «материалы» первично будут получены связи практически со всеми терминами, которые употребляются в одном контексте с искомым. Далее на основе статистического анализа строится иерархия – находятся как обобщающие термины (верхних уровней – поля БД), так и детализирующие (нижних уровней – строки БД) для искомого.

Поскольку в системе нет ограничений на количество и качество связей между терминами, то в дальнейшем возможно делать не только смысловую, но и пространственную привязку как по географическим названиям, в данном случае - Мурманская область, так и к конкретным географическим координатам, если дополнительно задать конкретные географические координаты, например центра области (или областного центра – Мурманска). В таком случае появляется возможность использовать любые пространственные векторные данные из любых геоинформационных систем.

Таким образом, разработанный онтологический подход обеспечивает надежное хранение, предоставляет широкие возможности для анализа и дальнейшего представления вводимой информации об источниках сырья для высокотехнологичных материалов. Необходимо отметить универсальность разработанного алгоритма, что позволит в будущем использовать его не только в области природопользования, но и в других областях знаний.

Особенностью разрабатываемой онтологической системы стало то, что собственно связь сама по себе тоже является термином, например, пространственная связь соотносится с термином – пространственный, который в свою очередь связан с целым классом терминов, таких, как местоположение и пр.

То есть на выходе получается достаточно простая и самодостаточная структура без центральных понятий, доменов и пр. Для предоставления результатов поиска данных используется традиционное представление в виде структурированной БД, созданной исходя из запроса пользователя.

Предложенный подход позволяет впервые объединить в одной онтологической системе природные и техногенные источники сырья для высокотехнологичных материалов без создания специализированного интерфейса, и учитывающего пополнение системы новыми знаниями. Быстрый поиск позволит оперировать большими объемами разнородной информации, и формировать представления о предметной области, интересующей пользователя.

Работа выполнена в рамках проведения работ по государственному контракту № 2013-1.4-14-514-0137 с Министерством образования и науки Российской Федерации.

ИНФОРМАЦИОННЫЕ ИСТОЧНИКИ:

  1. Квятковская И.Ю. Использование онтологий для создания баз общих знаний при классификации информации о предметной области//Вестник Астраханского государственного технического университета – 2007. – №4 – С. 225-227.
  2. Когаловский М.Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. — 800 с.
  3. Лапшин В. А. Онтологии в компьютерных системах. — М.: Научный мир, 2010. – 222 с.
  4. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). — М.: Азбуковник, 2009. — 1087 с.
  5. Оборнева И. В. Автоматизация оценки качества восприятия текста // Вестник Московского городского педагогического университета. – 2005. – № 2 (5). – С. 86–92.
  6. Шеннон К. Работы по теории информации и кибернетике. — М.: Изд. иностр. лит., 2002. – 824 с.
  7. Giaretta P. Ontologies and knowledge bases, towards a terminological clarification / Towards very large knowledge bases: knowledge building and knowledge sharing // IOS Presse. – 1995. – P. 25-32.
  8. Flesch R. A new readability yardstick // Journal of Applied Psychology – 1948. Vol. 32. P. 221-233.
Ключевые слова: минеральное сырье, онтология, науки о земле, статистический анализ, техногенные источники сырья, месторождения полезных ископаемых (МПИ), высокотехнологичные материалы

Журнал "Горная Промышленность"№5 (123) 2015, стр.24