Почему при разработке ИИ главное — это данные
Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.
Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
Совершенствование набора данных может значительно повысить точность ИИ
В своём недавнем докладе Эндрю Ын рассказал историю о проекте, над которым он работал в Landing AI, создавая систему компьютерного зрения для поиска дефектов в стали. Их первая попытка реализации системы имела точность 76%. Люди способны обнаруживать дефекты с точностью 90%, поэтому система была недостаточно хороша для запуска в продакшен. После этого работавшая над проектом команда разделилась на две части. Одна команда работала над проверкой различных типов моделей, гиперпараметров и изменений архитектуры. Вторая стремилась повысить качество набора данных. Спустя несколько недель итераций появились результаты. Несмотря на огромные усилия, занимавшаяся моделями команда никак не смогла повысить точность. С другой стороны, улучшавшая данные команда смогла получить рост точности на 16%. Улучшение набора данных для этой задачи позволило превысить результаты человека.
И эта история не уникальна. У меня был подобный опыт в Humanloop. Мы работали с командой юристов из крупной бухгалтерской фирмы над обучением классификатора документов по юридическим договорам. Как и поиск дефектов в стали, эта задача требовала опыта в данной сфере. После завершения первого раунда разметки и обучения модель всё ещё не дотягивала до уровня показателей человека. У Humanloop есть инструмент для изучения примеров данных, в которых расходятся мнения модели ИИ и живых аннотаторов. Благодаря этому инструменту команде удалось найти примерно 30 случаев ошибочной классификации в наборе данных из 1000 документов. Устранения этих 30 ошибок было достаточно для того, чтобы система ИИ достигла уровня человека.
Как выглядят «баги в данных»?
Сейчас активно обсуждают «подготовку данных» и «очистку данных», но что отличает высококачественные данные от низкокачественных?
В большинстве систем машинного обучения сегодня применяется контролируемое обучение. Это значит, что данные обучения состоят их пар (input, output), и мы хотим, чтобы система могла получать входные данные и сопоставлять их с выходными. Например, входными данными может быть аудиоклип, а выходными — транскрипция речи. Или входными данными может быть фотография повреждённого автомобиля, а выходными — места всех царапин. Humanloop в основном занимается NLP, поэтому примером входных данных для нас может быть сообщение в службу поддержки клиентов, а выходными — шаблон ответа. Для создания таких наборов данных обучения обычно требуется, чтобы человек вручную размечал входные данные, по которым должен обучаться компьютер.
Если в разметке данных присутствует неопределённость, то для достижения высокой точности модели машинного обучения может понадобиться больше данных. Сбор и аннотирование данных могут оказаться неправильными по многим причинам:
- Простые ошибки аннотирования. Простейший тип ошибки — это неправильное аннотирование. Аннотатор, уставший от большого количества разметки, случайно помещает пример данных не в тот класс. Хоть это и простая ошибка, она встречается на удивление часто, и может иметь огромное отрицательное влияние на производительность системы ИИ. Недавнее изучение наборов данных для бенчмарков в исследованиях компьютерного зрения выявило, что более 3% от всех данных было размечено ошибочно. Более 6% проверочного набора данных Imagenet размечено ошибочно. Как можно ожидать высокой производительности, если данные в бенчмарках неверны?
Например, система распознавания лиц ИИ Google была печально известна тем, что плохо распознавала лица цветных людей, что в большой степени было результатом использования набора данных с недостаточно разнообразными примерами (среди множества прочих проблем).
Ещё важнее качество данных для небольших наборов данных
У большинства компаний и исследовательских групп нет доступа к масштабным наборам данных, которые имеются у Google, Facebook и других технологических гигантов. Когда набор данных настолько велик, можно закрыть глаза на небольшой шум в данных. Однако большинство команд работает в областях, где существуют только сотни или тысячи размеченных примеров. В этой сфере с малым объёмом данных качество этих данных становится ещё более важным.
Чтобы получить некоторое понимание того, почему качество данных настолько важно, рассмотрим описанную выше очень простую одномерную задачу контролируемого обучения. В этом случае мы пытаемся подстроить кривую под некие измеренные точки данных. Слева мы видим большой шумный набор данных, а справа — небольшой чистый набор. Вполне очевидно, что небольшое число точек данных с очень низким шумом демонстрирует ту же кривую, что и большой, но шумный набор данных. Из этого можно сделать вывод о том, что шум в небольших наборах данных особенно вреден. Хотя большинство задач машинного обучения имеют высокую размерность, они работают на тех же принципах, что и приближение кривой, и подвержены аналогичным проблемам.
Разумный подбор инструментов может сильно влиять на повышение качества данных
Существует множество инструментов для улучшения моделей машинного обучения, но как можно систематически совершенствовать наборы данных для машинного обучения?
Инструменты очистки данных
В некоторых командах начинают применять следующий рабочий процесс: итерации между обучением моделей и исправлением «багов данных». Появляются инструменты, упрощающие этот процесс, например, шум меток в контексте и аквариумное обучение, или отладчик данных Humanloop.
Эти инструменты работают следующим образом: они используют обучаемую модель, чтобы находить «баги данных». Это можно реализовать изучением областей, в которых возникают сильные противоречия между моделью и человеком, или классов, где есть сильные противоречия между разными аннотаторами. Различные способы визуализации помогают находить кластеры ошибок и устранять их одновременно.
Частичная разметка
Ещё один подход к улучшению наборов данных заключается в том, чтобы учитывать наличие шума, но использовать эвристические правила для увеличения масштабов аннотирования.
Как мы видим из показанного выше примера, можно получить хорошие результаты или на очень маленьких, но чистых наборах данных, или на очень больших, но шумных наборах. Идея частичной разметки заключается в автоматической генерации очень большого количества шумных меток. Эти метки генерируются благодаря тому, что специалисты в соответствующей области создают эвристические правила.
Например, может существовать такое правило для классификатора электронных писем: «пометить письмо как резюме по работе, если в нём содержится слово „cv“. Это правило будет не очень надёжным, но его можно автоматически применить к тысячам или миллионам примеров.
Если таких правил много, то их метки можно скомбинировать и очистить от шума, чтобы создать высококачественные данные.
Активное обучение
Инструменты очистки данных всё равно используют труд человека по ручному поиску ошибок в наборах данных и не помогают справляться с описанными выше проблемами дисбаланса классов. Активное обучение — это методика, обучающая модель в процессе того, как команда аннотирует данные и использует эту модель для поиска самых ценных данных. Активное обучение может автоматически улучшать баланс наборов данных и помогать командам создавать модели с высокой производительностью при значительно меньшем количестве данных.
Использование принципа „главное — это данные“ повышает степень взаимодействия команд
Как мы писали недавно, одним из серьёзных преимуществ использования принципа „главное — это данные“ в машинном обучении является то, что он обеспечивает гораздо более тесное взаимодействие различных команд. Улучшение наборов данных усиливает взаимодействие между аннотирующими данные специалистами в области и дата-саентистами, которые думают о том, как обучать модели.
Системы искусственного интеллекта. Базы знаний
Искусственный интеллект – программная система, имитирующая на компьютере мышление человека.
Для создания необходимо изучить процесс мышления человека, решающего задачи в какой-то области, разбить этот процесс на этапы и разработать программы, воспроизводящие эти этапы на компьютере. Главное – заложить в эти программы способность к самообучению и накоплению полезной информации. Измерение любой части информации не должно изменять структуру всей программы.
Любая система искусственного интеллекта (экспертная система), основанная на базах знаний должна уметь объяснять свои решения и рассуждения, на основе которых эти решения были приняты, пополнять поступающие знания с помощью логического вывода, работать с неполной и неточной информацией (неформальными знаниями)
и общаться с человеком на языке понятном пользователю.
База знаний – совокупность данных (фактов) и правил вывода (эвристик), хранящихся в памяти ЭВМ. В простейшем случае базы знаний функционируют в форме диалога, задавая вопросы и выдаче ответов «да» или «нет». Знания в базе могут быть: структурированными статическими (неизменными); структурированными динамическими (со временем могут изменяться); рабочими (для решения конкретных задач и проведения консультаций).
Основные возможности БЗ
— поиск ответов на сложные вопросы
— логическая обработка данных
— моделирование процедур принятия решений
— обновление и ввод дополнительных данных
— вывод информации в естественно-языковой форме
— создание новых (разделов) баз знаний
Для создания интеллектуальной системы (базы знаний) необходимо опросить специалистов-экспертов, анализируют ситуацию, выбирают наиболее полезную информацию, оптимизирует принятие решений, отбрасывает тупиковые ситуации в конкретной предметной области. Затем изучить процесс мышления человека, решающего задачи в какой-то области, разбить этот процесс на этапы и разработать программы, воспроизводящие эти этапы на компьютере. Главное – заложить в эти программы способность к самообучению и накоплению новой полезной информации. Изменение любой части информации не должно нарушать структуру всей программы. Технологию построения экспертных систем называют инженерией знаний.
Компетентность экспертной системы определяется институциональной памятью.
Экспертные системы развиваются в первую очередь не в точных математических науках, а в науках, требующих накопления знаний, таких как медицина, геология, биология и т.д. ЭС используют знания эксперта и процедуры логического вывода для решения проблем, проводят экспертизы и дают объяснения полученным результатам. В настоящее время основные сферы применения ЭС – это диагностика, планирование, прогнозирование, имитационное моделирование, офисная деятельность, контроль и управление.
От систем поддержки принятия решений (СППР) (которые не используют экспертных методов) экспертные системы отличаются тем, что первые опираются больше на математические методы и модели, а экспертные системы в основном базируются на эвристических, эмпирических знаниях, оценках, методах, которые получены от экспертов, и кроме того, способны анализировать и объяснять пользователю свои действия и знания.
Основная их цель СППР – выработка решения, где участвуют система поддержки принятия решения (в роли вычислительного звена и объекта управления) и человек, лицо, принимающее решение (ЛПР) (как управляющее звено, задаёт входные данные и оценивает результат вычислений на компьютере)
В основе экспертных систем лежит логический язык программирования, в котором программа вообще не описывает действий. Она задает данные и соотношения между ними. После этого системе можно задавать вопросы. Машина перебирает известные и заданные в программе данные и находит ответ на вопрос. Порядок перебора не описывается в программе, а неявно задается самим языком. Классическим языком логического программирования считается Пролог. Построение логической программы вообще не требует алгоритмического мышления, программа описывает статические отношения объектов, а динамика находится в механизме перебора и скрыта от программиста.
ЭС должна достигать в конкретной предметной области того же уровня, что и специалисты-эксперты. Системы должны уметь находить решения проблем в случае некорректных данных или неполных наборов правил.
Экспертные системы как инструмент в работе пользователя совершенствуют свои возможности решать трудные задачи в ходе практической работы.
В области творческой деятельности, люди обладают намного большими возможностями и способностями по сравнению с самыми умными системами. Эксперты могут воспринимать весь комплекс входной информации: символьной, графической, визуальной, звуковой, осязательной, обонятельной. У ЭС имеются только символы, с помощью которых представлены базы знаний. Преобразование любой сенсорной информации в символьную сопровождается потерей части информации.
Искусственная компетентность ЭС не может полностью заменить человека, но во многом помогает решать сложные задачи.
ЭС не могут применяться в больших предметных областях.
Локальные и глобальные сети ЭВМ
Сеть – система, в которой множество независимых компьютеров осуществляющих информационное взаимодействие друг с другом с помощью коммуникационного оборудования и программного обеспечения, связано вместе с целью совместного использования данных и периферийных устройств (типа жестких дисков и принтеров). Компьютеры объединяются в сеть при помощи специальных устройств и используют протоколы и приложения для взаимодействия между собой.
Для передачи данных компьютеры используют самые разнообразные физические каналы (способ передчи), которые обычно называются средой передачи.
Скорость передачи данных измеряется в битах в секунду.
Метод передачи данных в одном направлении – это симплексный метод. Метод одновременного приёма и передачи данных – это дуплексный метод. Метод передачи информации, при котором передатчик и приёмник последовательно меняются местами – полудуплексный.
Телекоммуникации — это передача и прием такой информации как звук, изображение, данные и текст на большие расстояния по электромагнитным системам: кабельным каналами; оптоволоконным каналам; радиоканалам и другим каналам связи.
Телекоммуникационная сеть — это совокупность технических и программных средств, посредством которых осуществляются телекоммуникации.
К телекоммуникационным сетям относятся:
1. Компьютерные сети (для передачи данных)
2. Телефонные сети (передача голосовой информации)
3. Радиосети (передача голосовой информации — широковещательные услуги)
4. Телевизионные сети (передача голоса и изображения — широковещательные услуги)
Компьютерную сеть можно представить многослойной моделью, состоящей из слоев:
Назначение всех видов компьютерных сетей определяется двумя функциями:
— обеспечение совместного использования аппаратных и программных ресурсов сети;
— обеспечение совместного доступа к ресурсам данных.
. Если в сети имеется специальный компьютер, выделенный для совместного использования участниками сети, он называется файловым сервером.
Группы сотрудников, работающих над одним проектом в рамках локальной сети, называются рабочими группами. В рамках одной локальной сети могут работать несколько рабочих групп. У участников рабочих групп могут быть разные права для доступа к общим ресурсам сети. Совокупность приемов разделения и ограничения прав участников компьютерной сети называется политикой сети. Управление сетевыми политиками называется администрированием сети. Лицо, управляющее организацией работы участников локальной компьютерной сети, называется системным администратором.
БАЗЫ ДАННЫХ, ОРИЕНТИРОВАННЫЕ НА ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
Термин «искусственный интеллект», безусловно, привлекает внимание каждого, хотя бы поверхностно интересующегося вычислительной техникой. Пока самым большим достижением в области ИИ можно считать «экспертные системы». В этой главе мы остановимся на некоторых особенностях их разработки.
В России исследования и разработки в области ЭС включены в ряд государственных и отраслевых научно-технических программ. Системы с базами знаний не только стали находить практическое применение в бизнесе и в решении серьезных информационных задач, но и продемонстрировали ощутимый эффект от их использования. Например, чрезвычайно эффективными с точки зрения применения ЭС оказались системы поддержки организационного управления и планирования распределения ресурсов. Основными областями их применения являются: медицина, электроника, вычислительная техника, геология, математика, космос, сельское хозяйство, управление, финансы, юриспруденция и т.д.
Экспертные системы и их особенности
Эксперты на основе собственного опыта или глубокого изучения проблемы осмысливают большое число факторов и устанавливают правила, их объясняющие. Выработанные ими правила упорядочиваются и хранятся в памяти ЭВМ. К ЭВМ обращаются за консультацией другие специалисты.
Но возможности экспертной системы шире. Подобно базе данных, она позволяет проводить поиск по ряду признаков одновременно и дает возможность оценить вероятность событий, которые могут использоваться в качестве условий поиска. Такие системы применяются на практике; например, ЭС MYCIN (середина 1970-х гг., Стэнфордский университет) ставила диагноз при инфекционных заболеваниях крови.
Приведем примеры других известных прикладных ЭС, ставших сегодня классическими:
- • DENDRAL (середина 1960-х гг., Стэнфордский университет) — ЭС расшифровки данных масс-спектрографического анализа;
- • PROSPECTOR (1974—1983 гг., Стэнфордский университет) — ЭС обнаружения полезных ископаемых;
- • SOPHIE — ЭС обучения диагностированию электрических цепей;
- • XCON — ЭС конфигурирования оборудования системы VAX;
- • PALLADIO — ЭС проектирования и тестирования СБИС;
- • JUDITH — ЭС оказания помощи специалистам по гражданским делам и юристам, предлагающая различные варианты подходов к разрешению дела на основе его фактических и юридических предпосылок;
- • LRS — ЭС оказания помощи в подборе и анализе информации о судебных решениях и правовых актах в области кредитно- денежного законодательства, связанного с использованием векселей и чеков;
- • «Ущерб» — созданная на основе российского трудового законодательства ЭС, обеспечивающая юридический анализ ситуации привлечения рабочих и служащих к материальной ответственности при нанесении предприятию материального ущерба.
Многие из систем сегодня получили развитие, например HEARSAY, HEARSAY-2, HEARSAY-3, AGE [18]. Первые две системы этого ряда являются развитием интеллектуальной системы распознавания слитной человеческой речи, слова которой берутся из заданного словаря. Они отличаются оригинальной структурой, основанной на использовании доски объявлений — глобальной базы данных, содержащей текущие результаты работы системы. В дальнейшем на основе этих систем были созданы инструментальные системы HEARSAY-3 и AGE (Attempt to Generalize — попытка общения) для построения ЭС.
Экспертная система XCON, созданная фирмой DEC, служит для определения или изменения конфигурации компьютерных систем типа VAX в соответствии с требованиями покупателя. В настоящее время фирма DEC разрабатывает более мощную систему XSEL, включающую базу знаний системы XCON, в целях оказания помощи покупателям при выборе вычислительных систем с нужной конфигурацией. В отличие от XCON система XSEL является интерактивной.
Среди современных коммерческих систем хочется выделить экспертную систему-оболочку G2 американской фирмы Gensym (США) [16] как непревзойденную экспертную коммерческую систему для работы с динамическими объектами. Работа в реальном масштабе времени с малыми интервалами ответа необходима при анализе критических ситуаций, возникающих в корпоративных информационных сетях, на атомных реакторах, в космических полетах и других задачах, требующих принятия решения в течение миллисекунд с момента их возникновения.
Многие предприятия используют ЭС для принятия решений в таких областях, как торги на фондовой бирже, автоматическое понимание новостей, кредитный анализ, управление рисками, построение портфелей кредитов и инвестиций, оценка рейтинга банков, автоматизация аудита, предсказание изменений на финансовом рынке и др.
Приложением теории экспертных систем в экономике является использование их для организации бизнес-процесса реинжиниринга (БПР).
БПР — это анализ деятельности компании в целях выявления ее слабых мест и создание на основе его результатов максимально эффективной модели функционирования предприятия.
В практике построения экспертных систем используются следующие технологии искусственного интеллекта:
- • набор инструментов программирования для представления знаний;
- • стратегии обработки знаний, т.е. их преобразования, представления и управления их применением в процессе решения задач в рамках проблемной области;
- • методологии проектирования, обеспечивающие создание экспертных систем, «прозрачных» как для пользователя, так и для инженеров по знаниям, сопровождающих систему в процессе эксплуатации.
Эти технологии оформлены в виде блоков-компонентов, из которых формируется архитектура экспертной системы (рис. 1.1).
Если данные существуют на жестком носителе в БД, то знания существуют только в рабочей области памяти в момент функционирования системы. В базе знаний представлены описания знаний (каркасы знаний) — модели, которые, попав в рабочую область памяти, заполняются текущими данными из БД прикладной системы или информационного приложения (ИП). Таким образом осуществляется наполнение блока логического вывода для формирования рекомендаций и комментариев пользователю.
Современные экспертные системы основываются на знаниях экспертов, специалистов в заданной проблемной области. Программа работает с базой данных, где собраны различные факты, статистические
Рис. 1.1. Архитектура экспертной системы
данные, и извлекает из информации, хранимой в базе знаний, набор правил. Правила могут быть сформулированы в виде суждений на языке, близком к естественному, на основе которых можно принять решение или выработать его автоматически.
Например, можно ожидать, что база знаний, в которой хранятся сведения о торговых операциях фирмы, просмотрит записи о клиентах и попытается выявить характеристики потенциальных задолжников. А с помощью базы знаний, ориентированной на медицинские исследования, можно попытаться прогнозировать исход сердечных приступов или причины острых инфекционных заболеваний.
Во многих случаях базы знаний основываются на информации, собираемой для решения обычных задач. Вывод правил на основе этой информации проводится параллельно обработке данных. В других случаях данные будут собираться в процессе научного исследования. Подходы к проектированию БЗ и ЭС включают ряд альтернатив: от классического статистического анализа, байесовского логического анализа, в котором используются не только ответы типа «да» и «нет», «истинно» или «ложно», до теории вероятности с генерацией правил вывода; нечеткая логика; нейросетевые и эволюционные технологии.
Таким образом, экспертные системы, или системы, основанные на знаниях, предназначены для решения плохо или слабо формализованных задач. Трудно формализуемые задачи обладают ошибочностью, неполнотой, неоднозначностью и противоречивостью как исходных данных, так и знаний о решаемой задаче.
ЭС используются там, где существует враждебная человеку среда, отсутствует алгоритм решения задачи или для решения задачи требуется достаточно много времени (машинного) и трудоемкий алгоритм либо имеется недостаток в числе экспертов для решения поставленной задачи.
Эксперт — это человек, являющийся профессионалом высокой квалификации в проблемной области, для которой предназначена разработка экспертной системы. Его знания лежат в основе системы.
ЭС разрабатывается в том случае, если ее разработка, во-первых, необходима, во-вторых, оправдана и задача, которую предполагается решать с ее помощью, вполне под силу эксперту-человеку.
Чаше всего экспертные системы используются, как правило, для решения так называемых NP-задач [15]. NP-задачи — это недетерминированные полиномиальные задачи, которые могут не сойтись при конечном количестве итераций. К ним относятся слабо формализованные или плохо структурированные задачи, а также задачи, для которых может не существовать точного решения. Подобные задачи призваны решать проблемы в условиях неполной, нечеткой или недостоверной информации, а также при достаточно большом объеме обрабатываемых данных, т.е. при угрозе комбинаторного взрыва.
Работающий совместно с экспертом специалист по инженерии знаний, выявляющий и формализующий экспертные знания, называется когнитологом. Часто когнитолога называют также инженером по знаниям.
Экспертная система — это система, основанная на знаниях о заданной проблемной области, в которой знания слабо структурированы, решаются сложные NP-задачи, осуществляется взаимодействие с естественным языком на основе рассуждений и комментирования своих действий с целью обучения пользователя при самообучении системы.
Структура экспертной системы должна быть «прозрачна» для конечного пользователя. Конечными пользователями экспертной системы могут являться и необученный пользователь, и эксперт в заданной предметной области, и прикладной программист, и когни- толог.
Отличительными особенностями разработки экспертных систем в настоящее время являются использование естественного языка и объектно-ориентированное представление информации.
БАЗЫ ЗНАНИЙ В ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ
Ни для кого не секрет, что информационные технологии прочно вошли в современную жизнь. На сегодняшний день почти у каждого есть смартфон, ноутбук, планшетный компьютер и ещѐ множество других гаджетов, способных принести в нашу жизнь что-то новое или каким-то способом облегчить ее.
Сейчас в каждой отрасли нашей жизни используются современные технологии, которые основаны на информационных технологиях или в них есть подобие искусственного интеллекта.
Иску́ сственный инте лле́кт (ИИ, англ. Artificial intelligence, AI) — 1) наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ; 2) свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека.[1]
В современном мире многие считают, что искусственный интеллект – это робот, но это не так. Несомненно робот, в представлении человека, — это механическое устройство, созданное человеком для облегчения собственной жизни. Например, современное популярное устройство –« робот-пылесос», позволяет пропылесосить полы в квартире почти без помощи человека. Ему достаточно только включить устройство и оно начнет работать, при помощи колесиков передвигаться по квартире, а при помощи определенных датчиков определяет необходимость повернуть или остановиться совсем.
Но все современные устройства далеки от идеала, все они в какой – то степени используют искусственный интеллект. Но в мечтах ученых создать полноценный искусственный интеллект. Под эти ученые подразумевают искусственно созданное устройство, которое сможет не только запоминать какие-то факты, но и распознавать эмоции и чувства, а в идеале еще и проявлять их самому.
Любое искусственное существо с интеллектом должно обладать памятью. Процесс обучения точно такой же как с маленькими детьми, если ребенок один раз обжегся о горячую плиту, то у него в памяти отложилось, что плита горячая и подходить к ней, а тем более трогать ее опасно. Точно так должен обучаться искусственный мозг, один раз запомнив, например, ход в шахматах он должен в следующий раз его повторить не задумываясь.
У человека для этого существует память и нейронный связи, для искусственного интеллекта существует База знаний.
База знаний – это особого рода база данных, разработанная для оперирования знаниями (метаданными). База знаний содержит структурированную информацию, покрывающую некоторую область знаний, для использования кибернетическим устройством (или человеком) с конкретной целью. Современные базы знаний работают совместно с системами поиска информации, имеют классификационную структуру и формат представления знаний.
Полноценные базы знаний содержат в себе не только фактическую информацию, но и правила вывода, допускающие автоматические умозаключения о вновь вводимых фактах и, как следствие, осмысленную обработку информации. Область наук об искусственном интеллекте, изучающая базы знаний и методы работы со знаниями, называется инженерией знаний.[3]
Иерархический способ представления в базе знаний набора понятий и их отношений называется онтологией. Онтологию некоторой области знаний вместе со сведениями о свойствах конкретных объектов также можно назвать базой знаний.[2]
Системы искусственного интеллекта работают на основе заложенных в них баз знаний. Это та модель которая заложена программистом или создателем в компьютер.
Для человека характерно не только запоминание некоторых фактов, но и рассуждение о них, а также анализирование, на основе чего создавать логические рассуждения.
В системах с искусственны интеллектом на данный момент реализована модель рассуждений (человеческой логики). На основе базы знаний и модели рассуждений система искусственного интеллекта сама программирует свою работу при решении любой задачи.
Существуют два типа методов представления знаний:
1. Формальные модели представления знаний;
2. Неформальные (семантические, реляционные) модели представления знаний.
Очевидно, все методы представления знаний, которые приведены выше, включая продукции (это система правил, на которых основана продукционная модель представления знаний), относятся к неформальным моделям. В отличие от формальных моделей, в основе которых лежит строгая математическая теория, неформальные модели такой теории не придерживаются. Каждая неформальная модель годится только для конкретной предметной области и поэтому не обладает универсальностью, которая присуща моделям формальным. Логический вывод — основная операция в СИИ — в формальных системах строг и корректен, поскольку подчинен жестким аксиоматическим правилам. Вывод в неформальных системах во многом определяется самим исследователем, который и отвечает за его корректность.[2]
Каждому из методов представления знаний соответствует свой способ описания знаний.
1. Логические модели Основная идея подхода при построении логических моделей представления знаний — вся информация, необходимая для решения прикладных задач, рассматривается как совокупность фактов и утверждений, которые представляются как формулы в некоторой логике. Знания отображаются совокупностью таких формул, а получение новых знаний сводится к реализации процедур логического вывода. В основе логических моделей представления знаний лежит понятие формальной теории, задаваемое кортежем:
1. Бахтин М. М., 1975. Вопросы литературы и эстетики: Исследования разных лет. М.: Художественная литература.
2. Гаврилова Т.А., Хорошевский В.Ф., 2000. Бзы знаний интеллектуальных систем. Издательство: Питер