Аналитическая обработка информации. Способы аналитической обработки данных для поддержки принятия решений. Оперативная аналитическая обработка данных (OLAP) Технология аналитической обработки данных

Тема 6

КОРПОРАТИВНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ ОБРАБОТКИ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ

Понятие корпоративной информационной технологии

Сущность и значение корпоративных информационных технологий

Среди многообразия программ для бизнеса под термином "информационные технологии в корпоративном управлении" традиционно понимают "комплексные системы автоматизации управления". Известны и другие их названия – системы масштаба предприятия, корпоративные информационные системы (КИС), корпоративные (или комплексные) системы управления (КСУ), автоматизированные системы управления (АСУ).

Как правило, комплексные системы автоматизации управления представляют собой "базовые” универсальные решения, пригодные для различных типов предприятий. В первую очередь это касается финансового управления, управления складскими запасами, управления покупками и продажами. Но эти же системы часто имеют отраслевые решения, отражающие ту или иную специфику и содержащие соответствующую нормативно-справочную базу.

Например, решение системы SAP R/3 для авиационной промышленности поддерживает учет и контроль серийных заводских номеров всех деталей самолета, сроков их эксплуатации, плановой замены или ремонта, что обеспечивает не только надежность производства, но и безопасность пассажиров.

Так как комплексные системы управления ориентированы, в первую очередь, на крупные, содержащие многопрофильные структуры, предприятия, то они не просто предлагают развитой набор функций, но и обеспечивают надежное хранение и обработку больших объемов информации, используя для этого мощные платформы и системные средства многопользовательской работы.

Современные информационные технологии, коммуникации и Интернет позволяют решать задачи удаленного доступа к единой базе данных, что также актуально для корпоративного управления.

Концепция построения

Хотя большинство разработчиков называет свои программные продукты управленческими (управление предприятием, складом, финансами и т.д.), в сущности, практически все программные средства, используемые в корпоративном управлении, представляют собой регистрирующие факты и документы финансово-хозяйственной деятельности, учетные системы с возможностью построения отчетов и справок в разрезах, допустимых аналитическими признаками. То есть, в базу данных вносится структурированная информация. Эта структурность закладывается в той или иной степени связанными между собой справочниками, классификаторами, параметрами и формами типовых документов. По имеющейся в базе данных информации "строится", "вытягивается", "собирается" инструментальными средствами так называемый "разрез". Получив на основе таких данных отчеты и справки, часто называемые аналитическими, руководство может принимать решения. Такова типовая концепция и типовая технология работы с системами рассматриваемого класса.

Не случайно такое различное по функциональному наполнению, системным решениям, назначению и использованию "управленческое" программное обеспечение, как "Галактика", "БЭСТ" и "1С: Предприятие", аналогично по принципам организации информации, технологии ее формирования и обработки, а также по методам взаимодействия с системами.

И все же предприятия, например, ОАО “Уралэлектромедь”, выдвигают такие жесткие и разнообразные требования к средствам корпоративного управления, что появляется необходимость многоуровневого их построения. Обычно центральным является ядро системы, содержащее только программные коды. Следующим концептуально важным элементом является встроенный инструментарий системы, позволяющий, не меняя коды программы, как минимум проводить ее настройку на рабочих местах, выполнение конкретных операций, вводить новые и изменять имеющиеся формы первичных и отчетных документов и задействовать прочие средства параметрической настройки. Более развитые системы имеют встроенные средства для создания различных моделей предприятия: информационной, организационной, функциональной и пр. И, наконец, сама база данных.

Аналитическая обработка информации

Планирование деятельности предприятия, получение оперативной информации и принятие на основе ее анализа правильного решения связано с обработкой больших объемов данных. Отчеты, формируемые в учетных корпоративных системах управления, обычно лишены гибкости. Их нельзя “покрутить”, “развернуть” или “свернуть”, чтобы получить желаемое представление данных, в том числе и графическое. Чем больше “срезов” и “разрезов ” можно сделать, тем реальнее можно представить картину деятельности предприятия и принять оптимальное решение по управлению бизнес-процессами. Для такого рода задач необходимо математическое и экономическое моделирование, а также высокое быстродействие. Аналитический модуль имеется в системе “РепКо”, более известна система “Триумф-Аналитика” (Корпорация “ПАРУС” – “Тора центр”). Казалось бы, учетные системы строят справки в различных “разрезах” по информации, хранящейся в базе данных, просто представляют то, что есть. А аналитические системы строят новую информацию по заданным параметрам или критериям, оптимизируя ее для конкретных целей. Поэтому чаще необходим специальный инструмент для просмотра и визуализации информации, которым является “оперативный анализ данных” (OLAP - online analytical processing). Он предоставляет собой совокупность удобных и быстродействующих средств доступа, просмотра и многомерного анализа информации, накопленной в хранилище.

OLAP-технологии используются для моделирования ситуации по схеме “что будет, если…”, составления разнообразных аналитических отчетов. Существуют специализированные западные программные продукты.

Обычно из корпоративных систем управления информация передается в специализированные программы аналитической обработки данных. Многие отечественные разработчики пытаются решать эти задачи самостоятельно, например, компании “Никос-Софт” (система NS-2000), “Цефей” (корпоративная система управления “Эталон”), "КОМСОФТ" (программно-методологический и инструментальный комплекс "КОМСОФТ-СТАНДАРТ" 2.0) и др.

6.4. Перспективы развития и использования корпоративных информационных технологий

Кроме развития и использования современного инструментария и платформ, а также системных средств, развитие отечественных корпоративных систем предполагает их функциональное насыщение, особенно в части производства.

Несмотря на повсеместное увлечение реализацией стандартов управления, ведущие игроки отечественного рынка программного обеспечения, занимаются разработкой отраслевых решений для различных типов производств.

Уменьшаются опасения фирм открыть "конфиденциальность" своих разработок, что способствует консолидации их усилий интегрировать свои продукты, а не разрабатывать самостоятельно все, от "а" до "я". Сегодня ни у кого не хватает ресурсов. На осмысление новой концепции, разработку проекта и системы, именно системы, которая изменяет свое качество в зависимости от того, что в ней есть, уходят годы. Кроме того, требование интеграции программных продуктов выдвигают и предприятия, желающие сохранить "работающие", как правило, специализированные, системы и информационно объединить их с вновь приобретаемыми.

Интеграция требуется и продуктам различных производителей – во имя объединения комплексных решений со специализированными:

– бюджетированием, финансово-экономическим анализом, обслуживанием клиентов, аналитической обработкой данных и пр.

Следует отметить, что более перспективны не сами системы управления, а простой и универсальный инструмент их создания, предназначенный для квалифицированных посредников между разработчиком и конечным пользователем. Сейчас эти функции пытаются выполнять системные администраторы и аналитики.

При наличии такого инструмента будут востребованы "готовые" типовые решения для всех предприятий всех отраслей.

Интернет как дополнительный инструмент развития бизнеса может эффективно использоваться только при наличии комплексной системы управления.

Хотя современные информационные и коммуникационные технологии, в том числе Интернет, и позволяют организовать сдачу в аренду программного обеспечения, говорить о ближайшей перспективе использования таких возможностей преждевременно, особенно в нашей стране. И не столько из соображений конфиденциальности, сколько из-за отсутствия порядка и надежных средств связи.

Попытки внедрения и опыт использования, даже не в полном объеме, информационных технологий на отечественных предприятиях на практике доказали, что "нельзя автоматизировать хаос". Необходима предварительная реорганизация бизнеса и самого предприятия, а также построение регламентов (инструкций) управления. Справиться самостоятельно с такой работой сотрудникам предприятия сложно. Особенно учитывая фактор времени в рыночных условиях. Поэтому повсеместно развивается практика взаимодействия с консалтинговыми компаниями, которые помогают предприятиям и учат их сотрудников "расширять узкие места", налаживать основной бизнес-процесс, отрабатывать технологию, строить информационные потоки и т.д. Автоматизировать налаженный процесс легче, проще, дешевле, быстрее.

Каждый должен заниматься своим делом. Бухгалтер, кладовщик, менеджер по продажам и другие "предметные" специалисты не должны совершенствовать форму бланков документов, раздвигать колонки или менять их местами в связи с изменением законодательства или схем ведения бизнеса. Поэтому рынок программного обеспечения постепенно из "продуктового" превращается в "обслуживающий". Начинает развиваться аутсорсинг - передача некоторых функций предприятия специалистам привлеченных компаний. Они занимаются обслуживанием техники, системного ПО, модификацией прикладной (функциональной) части систем и пр.

Наиболее важным и актуальным в использовании корпоративных систем управления становится информационно-технологическое и методическое обслуживание их пользователей и потребителей.

УДК 621. 37/39. 061. 2/4

МЕТОДЫ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ

ГВОЗДИНСКИЙА.Н., КЛИМКО Е.Г., СОРОКОВОЙ А.И.

Проводится аналитический обзор методов интеллектуального анализа данных (также называют: ИАД, data mining, обнаружение знаний в базах данных) с учетом использования определенного метода для условий Украины. Обзор методов аналитической обработки информации в сложных информационных системах рассматривается с точки зрения скорости извлечения данных, сбора обобщенной информации и повышения достоверности процесса.

Процесс интеллектуального анализа данных - это аналитическое исследование больших обьемов информации в целях определения закономерностей и взаимосвязей между переменными, которые можно в дальнейшем применить к новым данным. Полученные сведения преобразуются до уровня информации, которая характеризуется как знание. Этот процесс состоит из трех основных этапов :

Исследование (выявление закономерностей);

Использование выявленных закономерностей для построения модели;

Анализ исключений для обнаружения и объяснения отклонений в найденных закономерностях.

Нахождение нового знания средствами ИАД - новое и быстро развивающееся направление, использующее методы искусственного интеллекта, математики, статистики. Этот процесс включает в себя следующие шаги :

Определение проблемы (постановка задачи);

Подготовка данных;

Сбор данных: оценка их, объединение и очистка, отбор и преобразование;

Построение модели: оценка и интерпретация, внешняя проверка;

Использование модели;

Наблюдение за моделью.

Построить модель и улучшить ее качество помогает формальная проверка данных с помощью последовательности запросов или предварительного интеллектуального анализа данных. Средства такого анализа включают следующие основные методы: нейронные сети, деревья решений, генетические алгоритмы, а также их комбинации .

Нейронные сети относят к классу нелинейных адаптивных систем, строением они условно напоминают нервную ткань из нейронов.

Это набор связанных друг с другом узлов, получающих входные данные, осуществляющих их обработку и вырабатывающих на выходе некоторый результат. На узлы нижнего слоя подаются значения входных параметров, на их основе производятся вычисления, необходимые для принятия решений, прогнозирования развития ситуации и т.д.

Эти значения рассматривают как сигналы, которые передаются в вышележащий слой, усиливаясь или ослабляясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. На выходе нейрона самого верхнего слоя вырабатывается значение, которое рассматривается как ответ, реакция всей сети на введенные начальные значения. Так как каждый элемент нейронной сети частично изолирован от своих соседей, у таких алгоритмов имеется возможность для распараллеливания вычислений. На рис. 1 показано условное

Рис.1. Нейронная сеть

Размер и строение сети должны соответствовать существу исследуемого явления. Построенная сеть подвергается процессу так называемого “обучения” . Нейроны сети обрабатывают входные данные, для которых известны и значения входных параметров, и правильные ответы на них. Обучение состоит в подборе весов межнейронных связей, которые обеспечивают наибольшую близость ответов сети к известным правильным ответам. После обучения на имеющихся данных сеть готова к работе и может быть использована для построения прогнозов поведения объекта в будущем, опираясь на данные его развития в прошлом, производить анализ, выявлять отклонения и сходства. Достоверные прогнозы могут формироваться, не уточняя вид зависимостей, на базе которых он основан.

Нейронные сети используются для решения задач прогнозирования, классификации или управления.

Достоинство - сети могут аппроксимировать любую непрерывную функцию, нет необходимости заранее принимать какие-либо предположения относительно модели. Исследуемые данные могут быть неполными или зашумленными.

Недостаток-необходимость иметь большой объем обучающей выборки. Окончательное решение зависит от начальных установок сети. Данные должны быть обязательно преобразованы к числовому виду. Полученная модель не объясняет обнаруженные знания (так называемый “черный ящик”).

Деревья решений используют разбиение данных на группы на основе значений переменных. В результате получается иерархическая структура операторов “Если... То...”, которая имеет вид дерева. Для классификации объекта или ситуации нужно ответить на вопросы, стоящие в узлах этого дерева, начиная от его корня. Если ответ положительный, переходят к правому узлу следующего уровня, если отрицательный - к левому узлу и т.д. Заканчивая ответы, доходят до одного из конечных узлов, где

РИ, 2000, № 4

указывается, к какому классу надо отнести рассматриваемый объект.

Деревья решений предназначены для решения задач классификации и поэтому весьма ограничено применяются в области финансов и бизнеса.

Достоинство метода - простое и понятное представление признаков для пользователей. В качестве целевой переменной используются как измеряемые, так и не измеряемые признаки - это расширяет область применения метода.

Недостаток-проблема значимости. Данные могут разбиваться на множество частных случаев, возникает “кустистость “ дерева, которое не может давать статистически обоснованных ответов. Полезные результаты получают только в случае независимых признаков.

Генетические алгоритмы имитируют процесс естественного отбора в природе. Для решения задачи, более оптимального с точки зрения некоторого критерия, все решения описываются набором чисел или величин нечисловой природы. Поиск оптимального решения похож на эволюцию популяции индивидов, которые представлены их наборами хромосом. В этой эволюции действуют три механизма, представленных на рис. 2.

Можно выделить следующие механизмы:

Отбор сильнейших наборов хромосом, которым соответствуют наиболее оптимальные решения;

Скрещивание - получение новых индивидов при помощи смешивания хромосомных наборов отобранных индивидов;

Мутации - случайные изменения генов у некоторых ицдивидов популяции.

В результате смены поколений вырабатывается такое решение поставленной задачи, которое уже нельзя дальше улучшить.

Достоинство - метод удобен для решения различ -ных задач комбинаторики и оптимизации, предпочтителен больше как инструмент научного исследования.

Недостаток - возможность эффективно сформулировать задачу, определить критерий отбора хро -мосом и сама процедура отбора являются эвристическими и под силу только специалисту. Постановка задачи в терминах не дает возможности проанализировать статистическую значимость получаемого с их помощью решения.

Компьютерные технологии интеллектуальной аналитической обработки данных позволяют использовать методы искусственного интеллекта, статистики, теории баз данных и дают возможность создавать современные интеллектуальные системы.

В настоящее время остро стоит вопрос о создании информационных хранилищ (хранилище данных, data warehouse) - оптимально организованных баз данных, которые обеспечивают наиболее быстрый и удобный доступ к информации, необходимой для принятия решений. Хранилище накапливает достоверную информацию из различных источников за большой промежуток времени, которая остается неизменной. Данные объединены и хранятся в соответствии с теми областями, которые они описывают (предметно-ориентированы) и удовлетворяют требованиям всего предприятия (интегрированы).

Учитывая сравнительно небольшой срок существования большинства отечественных предприятий, немногочисленность анализируемых данных, нестабильность предприятий, которые подвержены переменам в связи с изменением законодательной базы, возникает трудность в выработке эффективной стратегии принятия решений с помощью систем интеллектуального анализа данных. Поэтому наиболее приемлемым методом исследования данных в области финансов и бизнеса прогнозируются генетические алгоритмы, а для задач классификации образов и фактов лучше использовать методы деревьев решений или нейронные сети.

Литература: 1. Щавелев Л.В. Интеллектуальный анализ данных. http://www.citforum.ru/seminars/cis99/ sch_04.shtml, 2. Буров К. Обнаружение знаний в хранилищах данных / / Открытые системы. 1999. №5-6., http: / /www.osp.ru/os/l999/05-06/14.htm. 3. КиселевМ, Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. №4. С. 41-44. 4. Кречетов Н, Иванов П. Продукты для интеллектуального анализа данных // Computer Week - Москва. 1997. №14-15. С. 32-39. 5. Edelstein H. Интеллектуальные средства анализа и представления данных в информационных хранилищах // Computer Week - Москва. 1996. №16. С. 32-35.

Поступила в редколлегию 22.06.2000

Рецензент: д-р техн. наук, проф. Путятин В.П.

Гвоздинский Анатолий Николаевич, канд. техн. наук, профессор кафедры искусственного интеллекта ХТУРЭ. Научные интересы: оценка эффективности сложных информационных систем управления. Увлечения и хобби: классическая музыка, туризм. Адрес: Украина, 61166, Харьков, ул. акад. Ляпунова, 7, кв. 9, тел. 32-69-08.

Климко Елена Генриховна, ассистент кафедры компьютерных технологий и информационных систем Полтавского государственного технического университета имени Юрия Кондратюка. Аспирантка (без отрыва от производства) кафедры искусственного интеллекта ХТУРЭ. Научные интересы: аналитический анализ данных. Увлечения и хобби: чтение, вязание на спицах. Адрес: Украина, 36021, Полтава, ул. Алмазная, 1-А, кв. 34, тел. (053-22) 3-43-12.

Сороковой Александр Иванович, канд. техн. наук, доцент кафедры компьютерных технологий и информационных систем Полтавского государственного технического университета имени Юрия Кондратюка. Научные интересы: KDD (обнаружение знаний). Увлечения и хобби: собаки. Адрес: Украина, 36022, Полтава, пер. Ломаный, 37А, тел.(053-2) 18-60-87, e-mail: [email protected]

После проверки полноты и достоверности информации проводится ее аналитическая обработка. Она включает определение системы показателей, изучение которых требуется для достижения целей проводимого анализа. Эти показатели либо уже содержатся в подобранной информации, либо исчисляются в процессе ее аналитической обработки.

Под системой показателей подразумевается такое упорядоченное их множество, в котором каждый показатель дает качественную и количественную характеристику определенной стороны деятельности хозяйствующего субъекта, взаимосвязан с другими показателями, но не дублирует их, обладает свойствами сводимости и делимости.

Количество показателей в процессе аналитической обработки информации может увеличиваться практически безгранично путем их дифференциации или интеграции в зависимости от программы анализа, глубины изучения результатов деятельности и влияющих на них факторов.

Поскольку деятельность хозяйствующих субъектов, их структурных подразделений, а также различных их объединений в основном носит достаточно устойчивый характер, система показателей, с помощью которых она анализируется, обладает известной устойчивостью, но постепенно обогащается новыми показателями по мере возникновения новых задач, изменения общей экономической ситуации, внешних и внутренних условий деятельности хозяйствующих субъектов.

Необходимой предпосылкой для разработки системы аналитических показателей и правильного ее применения является группировка этих показателей по разным признакам (см. рис. 4.1).

Подразделение показателей на абсолютные и относительные имеет существенное значение для определения масштабов и трудоемкости аналитической обработки информации.

В собираемой из разных источников информации содержатся преимущественно абсолютные показатели, характеризующие объемы деятельности анализируемого хозяйствующего субъекта (например, объем реализации товаров, сумма затрат на производство товаров или услуг, объем оптового или розничного товарооборота, сумма авансированного

Рис. 4.1. Классификация аналитических показателей по разным

группировочным признакам

капитала, величина прибыли или убытка, численность персонала, стоимость основных средств, размеры запасов).

Относительные показатели, имеющие первостепенное значение для оценки эффективности работы анализируемой организации в целом или ее внутренних структурных подразделений, рассчитываются уже путем различных математических действий в процессе аналитической обработки информации. Такая аналитическая обработка может быть частично предусмотрена соответствующими нормативными актами в качестве обязанностей бухгалтерии и других внутренних структурных подразделений хозяйствующего субъекта (например, определение себестоимости отдельных изделий, уровня прибыли по отношению к капиталу, расчет экономических нормативов в составе отчетности коммерческих банков).

Расчет относительных показателей усиливает сопоставимость данных за разные хронологические периоды, так как все используемые с этой целью в математических формулах абсолютные показатели исчисляются в валюте, имеющей одну и ту же покупательную силу, т.е. элиминируется влияние инфляции. К тому же все относящиеся к данному периоду абсолютные показатели формируются под воздействием одной и той же внутренней и внешней ситуации. Вот почему в анализе динамические и пространственные сопоставления проводятся преимущественно с использованием относительных, а не абсолютных показателей.

Для усиления сопоставимости данных применяются там, где это возможно, натуральные и переводимые в натуральные с помощью специально устанавливаемых коэффициентов так называемые условно-натуральные измерители. С этой же целью предпочтение в ряде случаев отдается трудовым и элементно-стоимостным измерителям, что позволяет устранить в необходимых случаях влияние на абсолютные показатели изменения в стоимости товаров и в производных от этой стоимости относительных показателях, различий в стоимости товаров, вызванных колебаниями в соотношении перенесенной стоимости основных средств, оплаты живого труда и прибыли в цене продукции. Необходимо учитывать, что даже при применении твердой иностранной валюты для стоимостного измерения абсолютных показателей влияние структурных сдвигов на оценку объема деятельности хозяйствующего субъекта и ее качественные характеристики не устраняется. Поэтому в дальнейшем изложении вопросы и использования различных натуральных, условно-натуральных, трудовых и неполностоимостных измерителей для достижения некоторых целей анализа будут специально рассмотрены.

Группировка аналитических показателей на количественные и качественные очень близка к их подразделению на абсолютные и относительные, но полностью с ней не совпадает. Например, общая сумма прибыли является количественным показателем, но по своему экономическому содержанию относится к качественным характеристикам деятельности объекта, так как сам факт получения прибыли, а не убытка, даже без выведения относительных показателей рентабельности, уже представляется положительным результатом деятельности.

Чрезвычайно существенную роль в экономическом анализе играет подразделение показателей по обобщающие и частные.

Обобщающими считаются показатели, с помощью которых даются сводные характеристики состояния анализируемого хозяйствующего субъекта, степени использования им находящихся в его распоряжении ресурсов и эффективности хозяйствования, выражающейся в достижении преследуемых целей. В качестве первоочередных целей могут выступать получение более высокой прибыли по сравнению со ставкой рефинансирования либо с другими альтернативными способами использования имеющегося у субъекта капитала; достижение более высокого, чем у конкурентов, качества товаров и услуг при таком же или более низком уровне затрат на их производство и обращение; завоевание на этой основе новых рынков и повышение цены фирмы. К числу обобщающих относятся также показатели, характеризующие в целом определенную сторону или направление работы предприятия или же отдельных его структурных подразделений, размеры используемых ими ресурсов и их оборота. Любой обобщающий показатель может быть разложен на ряд частных показателей, играющих по отношению к нему подчиненную роль. Эти частные показатели способствуют выявлению и измерению влияния отдельных внутренних и внешних факторов, определяющих размеры и динамику обобщающего показателя. С помощью частных показателей достигается подчинение локальных целей отдельных подразделений и направлений деятельности хозяйствующего субъекта общим целям его функционирования. Общая цель функционирования экономического субъекта не однозначна, она предполагает одновременное и взаимоувязанное достижение им ряда целей, и поэтому степень ее достижения отражается не одним, а целой системой обобщающих и частных показателей.

Для управления деятельность хозяйствующего субъекта в целом, отдельными ее направлениями и действиями каждого исполнителя сначала разрабатывается модель этой деятельности. Она описывается системой обобщающих и частных показателей, фиксируемых в бизнес-плане, уровень и взаимоувязка которых должны обеспечить достижение планируемых результатов деятельности.

Система плановых показателей, как правило, беднее системы показателей учета, поскольку учет отражает воздействие не только факторов, которые можно заранее предвидеть, но и множество непредсказуемых факторов – объективных и субъективных, например, стихийных бедствий, недобросовестности исполнителей, мошенничества и хищений. Следовательно, в учете отражается влияние на обобщающие и частные показатели всего многообразия действительности.

Система аналитических показателей еще шире, чем в плане и учете, потому что она должна обеспечить отражение результатов хозяйствования и оценку уровня его эффективности по всем планируемым направлениям и многочисленным целям, причем не только в целом по изучаемой относительно самостоятельной экономической системе (предприятию, коммерческому банку), но и по входящим в нее крупным и мелким подразделениям; выявить роль отдельных подразделений в конечных результатах деятельности и влияние разных факторов на хозяйственное развитие. Поэтому система аналитических показателей включает как дифференцированные по участкам деятельности обобщающие показатели (результатные), так и частные (факторные).

Частные показатели, образуемые путем разложения обобщающего либо агрегируемые в обобщающем показателе, в анализе хозяйственной деятельности принято называть также факторными, поскольку их использование позволяет раскрыть и измерить влияние определенных хозяйственных факторов на обобщающие показатели. Как известно, изменения в состоянии анализируемого объекта происходят под воздействием экономических и социальных факторов. Обычно к группе факторов, воздействие которых можно установить непосредственно по данным учета и отчетности, применяется термин «причина». При дальнейшем разложении группы на ее составляющие полученные частные факторные показатели также именуются причинами, если их связь с анализируемым показателем функциональная и их можно исчислить, произведя разные математические действия над показателями отчетности.

В тех случаях, когда выявляется и измеряется влияние на анализируемый показатель других, связанных с ним корреляционно, и сила их влияния измеряется с помощью применения статистико-математических методов, получаемые для детализации анализа частные показатели обычно называют уже не причинами, а факторами.

Следовательно, разграничение терминов «причина» и «фактор» очень условно. Преимущественно оно основано на возможностях непосредственного или опосредованного измерения их влияния с учетом характера связи с анализируемым обобщающим показателем.

Например, отклонения от плана объема производства продукции могут быть вызваны несоответствием плана численности и состава персонала и в то же время средней выработки на одного работающего за анализируемый период. Величины названных выше укрупненных групп факторов и их отклонений от плана непосредственно отражаются в отчетности и называются в анализе причинами отклонений . Однако каждую из этих причин далее можно рассматривать как функцию многих переменных. Так, изменение численности работников детализируют по категориям персонала, выработку на одного работника представляют как произведение выработки на одного рабочего и на удельный вес рабочих в общей численности персонала. Эти аналитические показатели можно исчислить путем непосредственного использования данных отчетности и поэтому их также называют более дифференцированными причинами изменения обобщающего показателя.

Предположим, что далее анализ углубляется с целью выяснения влияния на изменение обобщающего показателя – объема продукции факторов, в свою очередь влияющих на выполнение плана по выработке на одного рабочего, связь которых с этим показателем не может быть непосредственно установлена. Например, ставится задача определить влияние на средний уровень выработки рабочего организационно-технического уровня производства (степени механизации и автоматизации основных технологических процессов и вспомогательных работ, внедрения методов научной организации труда, внешней кооперации и т.д.) и личностных факторов (общего и специального образования, стажа работы, пола, возраста).

По обобщенным данным бухгалтерского и статистического учета измерить влияние перечисленных факторов на выработку, а через нее на объем продукции или же на темпы ее роста нельзя. С этой целью собираются и обрабатываются специальными экономико-математическими методами (преимущественно корреляционными) данные первичного учета и документации технических служб, отделов кадров, труда и заработной платы, а также специально собираемой дополнительно внеучетной информации (анкетного опроса, фотографий и самофотографий рабочего дня, протоколов производственных совещаний и др.). При такой дальнейшей детализации причин их характеристики называются уже факторами.

Измерение влияния отдельных факторов на динамику хозяйственного развития, результаты выполнения плана и эффективность хозяйствования помогают установить их относительное значение в работе предприятия, сосредоточить внимание на основных и решающих, усилить действенность анализа в выявлении резервов.

Единство системы показателей и методологии их расчета должно быть обеспечено для предприятий одного профиля. Попытки применять одинаковые оценочные показатели в хозяйствующих субъектах разных отраслей народного хозяйства не оправдались, так как требуется не тождество применяемых показателей, а их соответствие принципиальному подходу к оценке результатов, достигнутых анализируемым субъектом, с позиций целей его деятельности, локальных и глобального критериев их достижения.

Предприятию не всегда удается достигнуть всех своих целей и решить все поставленные перед ним задачи. Более того, наряду с выполнением плана по одним показателям может быть получен отрицательный результат по другим. В связи с этим при определении рейтинга хозяйствующего субъекта, его структурных подразделений, целесообразно исчислять условный интегральный показатель, в уровне которого нашли бы отражение как степень выполнения плановых заданий по каждому из показателей, так и относительное их значение.

Интегральный показатель, выводимый на базе ряда других весьма различных по своему экономическому содержанию и практическому назначению, не характеризует конкретных результатов работы анализируемого субъекта и степень достижения поставленных перед ним многочисленных целей. Такой показатель можно применять для определения рейтинга. Во всех других случаях его использование не соответствует многоцелевому характеру функционирования хозяйствующих субъектов.

Для оценки выполнения плана и, тем более, уровня эффективности хозяйствования требуется учет всех показателей, входящих в систему, ибо перевыполнение плана по одному из них не освобождает анализируемое хозяйственное звено от обязанности обеспечить достижение запланированного уровня по другим показателям. Сверхплановое улучшение одного из показателей обычно не компенсирует вред, наносимый отставанием по другому показателю, отражающему невыполнение, быть может, еще более важной задачи, поставленной перед данным хозяйствующим субъектом. Например, значительное превышение запланированного уровня производства товаров (работ, услуг) не исключает необходимости обеспечить заданный уровень себестоимости единицы продукции; перевыполнение плана по объему производства и прибыли не может компенсировать невыполнение плана по вводу в действие очистных сооружений и другим мероприятиям по охране окружающей среды.

Наиболее приемлемым способом конструирования интегрального показателя является решение математической задачи исчисления расстояний между точками, характеризующими величины одних и тех же показателей на сравниваемых хозяйствующих субъектах и на условном наилучшем по всем этим показателям предприятии, так называемом эталоне развития, и определение таким путем показателя «уровня развития» каждого из них. Его преимуществом перед другими приемами исчисления интегрального показателя является объективность оценок, поскольку он базируется на математических расчетах.

Другие способы агрегирования показателей недостаточно объективны. Например, при исчислении интегрального показателя значимость того или иного показателя в общей их системе может быть также определена с помощью балльной оценки. Так, если вследствие дефицитности применяемых редких металлов особо важным является их наиболее экономное использование, то наибольший балл присваивается показателю снижения материалоемкости производства по этим металлам. Если в первую очередь необходимо обеспечить дальнейшее расширение ассортимента, то с помощью присвоения этому показателю более высокого балла он выдвигается на первое место в ряду оценочных показателей. Таким образом, несмотря на то, что оценка эффективности производства в отдельных отраслях народного хозяйства и на их предприятиях основана на одинаковой системе показателей, каждому из них может быть присвоен различный балл даже в одной и той же отрасли либо на предприятии в разные периоды времени. Балльная оценка каждого показателя должна отражать его значение в достижении целей функционирования анализируемых хозяйствующих субъектов. Вместе с тем как всякая субъективная оценка эти баллы могут быть установлены произвольно.

По охватываемому периоду различаются показатели, фиксирующие состояние анализируемого хозяйствующего субъекта и результаты его деятельности, либо действия его работников в конкретной области на определенное число, т.е. в статике , либо за анализируемый период, т.е. в динамике . Например, бухгалтерский баланс отражает финансовое состояние, распределение имущества, источники его образования на дату составления, а отчет о движении денежных средств охватывает их остатки, поступление и выбытие, т.е. их динамику за весь анализируемый период.

По отношению к деятельности анализируемого хозяйствующего субъекта и возможностям воздействия на ее результаты различаются показатели, отражающие объективные независящие причины и субъективные , зависящие от него.

В процессе анализа очень существенное значение имеет элиминирования влияния факторов объективного порядка, которые нельзя отнести к полезным результатам или же, наоборот, к недостаткам деятельности самого хозяйствующего субъекта.

Наряду с подбором системы показателей для анализа по намеченной программе большое значение имеет обобщение информации в аналитических таблицах и рисунках. Аналитические таблицы используются для сопоставления аналитически обработанных данных по хронологическим периодам и определения на этой основе динамики изучаемых показателей, сравнения достигнутой или прогнозируемых их величины с базовыми данными, которыми могут быть соответствующие показатели плана предшествующих и прогнозируемых будущих периодов, обязательные нормы, показатели других хозяйствующих субъектов, средние по отрасли или же какие-либо иные, отобранные аналитиком исходя из цели проводимого изучения.

Для таких сопоставлений обычно используются горизонтальные строки аналитической таблицы, в которых проставляются названия сравниваемых данных и их абсолютные и относительные значения. Такие сопоставления по строкам таблицы называются горизонтальным анализом.

По графам аналитической таблицы проводится сопоставление обобщающих показателей с их составляющими – частными показателями – с целью выявления относительного значения этих частных показателей в формировании обобщающих, в частности определяется структура обобщающих показателей. Такой способ отражения аналитически обработанной информации называется вертикальным или структурным анализом.

В аналитической таблице имеются текстовая (слева) и цифровая (справа) части. Для компьютерной обработки информации текстовая часть таблицы может быть зашифрована путем буквенных или цифровых обозначений. Цифры помещаются в графах таблицы на пересекающих их отдельных строках.

Левая часть таблицы, в которой помещаются наименования ее строк, называется «подлежащим», а правая, состоящая из граф, над которыми также указываются их наименования, - «сказуемым».

Обобщение собранной информации во взаимосвязанных, дополняющих или детализирующих одна другую аналитических таблицах позволяет проводить так называемый бестекстовый анализ; тщательно аналитически обработанная информация, размещенная в таблицах, дает возможность сделать необходимые выводы и разработать обоснованные управленческие решения. В этих случаях отпадает необходимость оформлять результаты проведенного анализа в виде текста или же такой же текст излагается предельно лаконично.

Подготовка комплекта аналитических таблиц, которые с достаточной объективностью и полнотой отражали бы все вопросы программы проводимого анализа и его результаты, требует от разработчиков макетов этих таблиц и указаний по их заполнению высокого профессионализма.

Поэтому на практике с этой целью используют типовые методики и в рекомендуемые в них таблицы вносят лишь изменения, вытекающие из индивидуальных особенностей анализируемого хозяйствующего субъекта или сложившейся на нем ситуации.

Используя аналитические таблицы и, особенно, внося в них изменения, необходимо соблюдать общие правила их оформления:

1) над таблицей должно быть помещено ее название и порядковый номер;

2) если во всех строках и графах таблицы применяются одинаковые единицы измерения, то в скобках под названием таблицы в правом углу надо поместить стандартное обозначение единицы измерения, например (тыс. руб.) или ($). Если в строках таблицы используются разные единицы измерения, то их обозначения выносят в заголовки строк, через запятую после его наименования. Если в графах используются разные единицы измерения, то они также должны быть указаны в заголовках столбцов;

3) графы таблицы нумеруются последовательно, начиная с первой, в которых указываются номера строк. В тех случаях, когда показатели разных граф рассчитываются на основе величин, показанных в предыдущих графах, кроме наименования и порядкового номера данной графы должен быть приведен алгоритм расчета с указанием номеров граф, содержащих исходные данные, а также математических действий, которые следует произвести с ними для получения величин, указанных в данной графе, например: [(графа 4 – графа 3) ∙ 100: 3];

4) заголовки в «сказуемом» бывают простыми в тех случаях, когда его графы не имеют общего содержания, либо сложными – тогда, когда общее для нескольких граф содержание детализируется в каждой из них. Тогда заголовок обозначают в виде нескольких ярусов, например:

Для усиления наглядности материалов проведенного анализа нередко применяются графические методы. Например, таблицы, фиксирующие динамику показателей, сопровождаются рисунками, на которых эта динамика представлена в виде кривых или столбиков. Структуру обобщающих показателей в графах аналитических таблиц иллюстрируют в виде круговых диаграмм. Применяются и другие формы диаграмм.

Анна Иванова

Сегодня практически любая компания, будь то крупная или совсем небольшая, частная или государственная, использует в своей деятельности информационные системы и, как правило, - уже не первый год. Это означает, что большинство предприятий уже владеет определенным объемом накопленных данных, и этот объем нередко представляет собой немалую ценность - ее, как минимум, подтверждает тот факт, что в последние годы довольно много внимания в прессе уделяется утечкам корпоративных данных, рассматривающихся в качестве выгодного товара для криминального рынка.

Отметим, что ценность корпоративных данных заключается не только в совокупной стоимости отдельных записей, но и в зачастую намного превышающей ее стоимости набора данных как источника дополнительной информации, которую невозможно получить на основании одной или нескольких записей, - такой, как сведения о закономерностях, тенденциях или взаимозависимостях между какими-либо данными, позволяющие принимать определенные бизнес-решения. Именно поэтому в состав современных средств управления предприятиями и цепочками поставок, банковских информационных систем, других бизнес-приложений обычно включаются не только средства ввода и редактирования данных, но и средства их аналитической обработки, позволяющие тем или иным способом выявлять и представлять закономерности и тенденции в данных. Средства эти сегодня весьма разнообразны. Они включают инструменты для построения реляционных хранилищ данных - специальным образом спроектированных баз данных, позволяющих с высокой скоростью выполнять запросы на выбор данных; серверные и клиентские средства построения многомерных хранилищ данных, содержащих в нереляционной структуре агрегатные данные (суммы, средние значения); клиентские приложения для предоставления пользовательских интерфейсов к реляционным и многомерным хранилищам данных; средства создания решений на основе подобных хранилищ, анализа многомерных и реляционных данных, генерации отчетов по многомерным и реляционным данным. Ниже мы обсудим, что представляют собой продукты каждой из указанных категорий.

Хранилища данных

Хранилищем данных (Data Warehouse) обычно называют базу данных, основное назначение которой - выполнение аналитических запросов на выбор данных. Хранилища данных могут быть и реляционными, и многомерными.

Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как "место, где люди могут получить доступ к своим данным" (см., например, Ralph Kimball, The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses , John Wiley & Sons, 1996 и The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse , John Wiley & Sons, 2000). Он же сформулировал и основные требования к хранилищам данных:

поддержка высокой скорости получения данных из хранилища;
поддержка внутренней непротиворечивости данных;
возможность получения и сравнения так называемых срезов данных (slice and dice);
наличие удобных утилит просмотра данных в хранилище;
полнота и достоверность хранимых данных;
поддержка качественного процесса пополнения данных.

Выполнить все перечисленные требования в рамках одного и того же продукта зачастую не удается. Поэтому для реализации хранилищ данных обычно используется несколько продуктов, одни их которых представляют собой собственно средства хранения данных, другие - средства их извлечения и просмотра, третьи - средства их пополнения и т. д.

Отметим, что при проектировании хранилищ всегда делаются априорные предположения о характере взаимозависимостей размещаемых в них данных, и польза от применения хранилища данных при принятии управленческих решений во многом зависит от правильности этих предположений.

Реляционные хранилища данных

В отличие от так называемых оперативных баз данных, с которыми работают приложения, изменяющие данные, реляционные хранилища данных проектируются таким образом, чтобы добиться минимального времени выполнения запросов на чтение (у оперативных же баз данных чаще всего минимизируется время выполнения запросов на изменение данных). Обычно данные копируются в хранилище из оперативных баз данных согласно определенному расписанию.

Типичная структура хранилища данных существенно отличается от структуры обычной реляционной СУБД. Как правило, эта структура денормализована (это повышает скорость выполнения запросов) и может допускать избыточность данных. Типичная структура хранилища данных приведена на рис. 1. Основные составляющие этой структуры - таблица фактов (fact table) и таблицы измерений (dimension tables).

Таблица фактов (в примере на рис. 1 она называется Sales_Fact) - это основная таблица хранилища данных. Как правило, в нее входят сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно такая таблица содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа "дата/время" - ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в процессе выполнения аналитических запросов получаются агрегатные данные.

Отметим, что в таблице фактов нет никаких сведений о том, как группировать записи при вычислении агрегатных данных. Эти сведения содержатся в таблицах измерений.

Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В них имеется как минимум одно описательное поле и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ). Нередко (но не всегда) таблица измерений может содержать и поля, указывающие на дополнительные атрибуты, имевшиеся в исходной оперативной базе данных, или на атрибуты, ответственные за группировку ее собственных данных. Каждая таблица измерений должна находиться в отношении "один ко многим" с таблицей фактов.

Отметим, что скорость роста таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов; например, новая запись в таблицу измерений, характеризующую товары, добавляется только при появлении нового, не продававшегося ранее товара.

В состав современных средств проектирования данных, таких, как CA AllFusion Modelling Suite, обычно входят шаблоны для проектирования хранилищ данных. Следует сказать, что для создания реляционных хранилищ данных иногда применяются специализированные СУБД, хранение данных в которых оптимизировано с точки зрения скорости выполнения запросов. Пример такого продукта - Sybase Adaptive Server IQ, реализующий нетрадиционный способ хранения данных в таблицах. Однако создавать хранилища можно и в обычных реляционных СУБД.

OLAP и многомерные хранилища данных

Многомерные хранилища данных составляют основу OLAP-средств (On-Line Analytical Processing), предназначенных для комплексного многомерного анализа данных. Концепция OLAP была описана в 1993 г. Э. Ф. Коддом, автором реляционной модели данных, и в настоящее время поддержка OLAP реализована во многих СУБД и средствах анализа данных.

Многомерные хранилища обычно содержат агрегатные данные (например, суммы, средние значения, количество значений) для различных выборок. Чаще всего такие агрегатные функции образуют многомерный набор данных, называемый кубом, оси которого (называемые измерениями) содержат параметры, а ячейки - зависящие от них агрегатные данные (иногда их называют мерами). Вдоль каждой оси данные могут быть организованы в иерархии, отражающие различные уровни их детализации. Как правило, агрегатные данные получаются путем выполнения серии запросов на группировку данных типа:

Отметим, что довольно часто в качестве источника данных для подобных запросов выступают реляционные хранилища данных. В этом случае таблицы измерений, как правило, содержат исходные данные для формирования измерений куба, а таблица фактов - исходные данные для вычисления мер куба.

В многомерных хранилищах данных содержатся агрегатные данные различной степени подробности, например, объемы продаж по дням, месяцам, годам, по категориям товаров и т. п. Цель хранения агрегатных данных - сократить время выполнения запросов, поскольку в большинстве случаев для анализа и прогнозов интересны не детальные, а суммарные данные. Однако сохранение всех агрегатных данных не всегда оправданно - ведь при добавлении новых измерений объем данных, составляющих куб, растет экспоненциально (иногда говорят о "взрывном росте" объема данных). Для решения проблемы "взрывного роста" применяются разнообразные схемы, позволяющие при вычислении далеко не всех возможных агрегатных данных достичь приемлемой скорости выполнения запросов.

Как исходные, так и агрегатные данные могут храниться либо в реляционных, либо в многомерных структурах. Поэтому в настоящее время применяются три способа хранения данных:

MOLAP (Multidimensional OLAP) - исходные и агрегатные данные хранятся в многомерной базе данных;
ROLAP (Relational OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально находились, агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных;
HOLAP (Hybrid OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные хранятся в многомерной базе данных.

Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые - только в многомерных. Однако большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.

Выпущенные в течение последних лет СУБД ведущих производителей - IBM, Microsoft, Oracle, содержат средства для создания многомерных хранилищ данных (эта традиция была начата несколько лет назад корпорацией Microsoft, включившей OLAP-сервер в состав SQL Server 7.0). Существуют и отдельные продукты для создания OLAP-хранилищ - их выпускают компании Hyperion, Sybase, Business Objects и некоторые другие.

Data Mining

Термином Data Mining (mining в переводе с английского означает "добыча полезных ископаемых") обозначают процесс поиска корреляций, тенденций, взаимосвязей и закономерностей между данными посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Примерами искомой информации могут служить сведения о том, какие категории покупателей чаще всего приобретают тот или иной товар, какая часть покупателей одного конкретного товара приобретает другой конкретный товар, какая категория клиентов чаще всего вовремя не выплачивает предоставленный кредит. Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока.

Отметим, что традиционная математическая статистика и OLAP-средства не всегда годятся для решения таких задач. Обычно статистические методы и OLAP используют для проверки заранее сформулированных гипотез, но нередко именно формулирование гипотезы оказывается самой сложной задачей при проведении бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов выполняется методами, не использующими никаких исходных предположений об этих подвыборках. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа "Каково среднее число клиентов банка, не вернувших вовремя кредит, среди неженатых мужчин от 40 до 50 лет?", то применение Data Mining, как правило, подразумевает ответы на вопросы типа "Существует ли типичная категория клиентов, не возвращающих вовремя кредиты?". При этом именно ответ на второй вопрос нередко обеспечивает принятие успешного бизнес-решения.

Важная особенность Data Mining - нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере. Однако применение средств Data Mining не исключает использования статистических инструментов и OLAP-средств, поскольку результаты обработки данных с помощью последних, как правило, способствуют лучшему пониманию характера закономерностей, которые следует искать. Поэтому существуют средства Data Mining, способные выполнять поиск закономерностей, корреляций и тенденций и в реляционных, и в многомерных хранилищах данных.

Обычно выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

ассоциация - высокая вероятность связи событий друг с другом (например, горные лыжи часто приобретаются вместе с горнолыжными ботинками);
последовательность - высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения принтера с высокой вероятностью будут приобретены расходные материалы к нему);
классификация - имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация - закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы - они выявляются автоматически в процессе обработки данных;
временные закономерности - наличие шаблонов в динамике поведения тех или иных данных (типичный пример - сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Сегодня существует довольно большое количество разнообразных методов исследования данных, среди которых можно выделить следующие.

Регрессионный, дисперсионный и корреляционный анализ - реализован в большинстве современных статистических пакетов, в частности, в продуктах компаний SAS Institute, StatSoft и т. д.

Методы анализа в конкретной предметной области , базирующиеся на эмпирических моделях. Часто применяются, например, в недорогих средствах финансового анализа.

Нейросетевые алгоритмы , идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между "нейронами", а в качестве ответа (результата анализа) рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы.

Метод "ближайшего соседа" - выбор близкого аналога исходных данных из уже имеющихся накопленных данных.

Деревья решений - иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ "да" или "нет"; хотя этот способ обработки данных далеко не всегда идеально находит существующие закономерности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа (рис. 3).

Алгоритмы ограниченного перебора - вычисляют частоты комбинаций простых логических событий в подгруппах данных.

Эволюционное программирование - поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей проводится среди каких-либо определенных видов функций (например, полиномов).

Средства Data Mining традиционно относятся к дорогостоящим программным инструментам - цена некоторых из них доходит до нескольких десятков тысяч долларов. Поэтому до недавнего времени основными потребителями этой технологии были банки, финансовые и страховые компании, крупные торговые предприятия, а основными задачами, требующими применения Data Mining, считались оценка кредитных и страховых рисков и выработка маркетинговой политики, тарифных планов и иных принципов работы с клиентами. В последние годы ситуация несколько изменилась: на рынке ПО появились относительно недорогие инструменты Data Mining от нескольких производителей (в том числе от Microsoft), что сделало эту технологию доступной для предприятий малого и среднего бизнеса, ранее о ней и не помышлявших.

Средства визуализации OLAP-данных и результатов Data Mining

Универсальные средства визуализации OLAP-данных выпускают многие компании, такие, как Business Objects, Cognos, Panorama, ProClarity. Как правило, эти инструменты рассчитаны на пользователей, обладающих определенными познаниями в области баз данных и статистических методов анализа. Обычно подобные инструменты позволяют обращаться к хранилищам данных и OLAP-источникам различных производителей (например, к многомерным хранилищам на основе СУБД Oracle, Microsoft и IBM), получать срезы многомерных данных и строить на их основе диаграммы. Зачастую производители этих инструментов поставляют также middleware-серверы, предназначенные для выполнения анализа данных и предоставления результатов для отображения в клиентских приложениях, а также средства создания решений на основе клиентских инструментов и middleware-серверов (например, библиотеки классов или элементы управления ActiveX). Учитывая, что ситуация со стандартами в области бизнес-аналитики все еще далека от идеальной (в отличие от реляционных СУБД, для многомерных СУБД пока нет ни общепринятого стандарта языка запросов, аналогичного языку SQL, ни универсальных механизмов доступа к данным, аналогичных ODBC или OLEDB), применение подобных средств может в той или иной степени решить проблему создания аналитических приложений в компаниях, использующих СУБД и OLAP-средства от нескольких различных производителей.

Производители OLAP-средств, в частности, Oracle и IBM, нередко сами выпускают рассчитанные на пользователей клиентские приложения для доступа к OLAP-хранилищам, созданным на основе их же серверных средств. Так, у корпорации Oracle имеется даже несколько таких продуктов, объединенных в пакет Oracle Business Intelligence. Кроме того, в последнее время получили широкое распространение дополнительные модули для электронных таблиц, предназначенные для визуализации OLAP-данных. Так, средства отображения данных аналитических служб Microsoft SQL Server доступны пользователям Microsoft Excel 2000 и более поздних версий, а компании Oracle и Hyperion выпускают встраиваемые в тот же Excel дополнительные модули доступа к собственным OLAP-хранилищам.

Стоит отметить и расширение в последние годы спектра аналитических продуктов, ориентированных на обслуживание определенных отраслей (например, розничной или оптовой торговли, финансовых услуг). Их выпускают и перечисленные выше компании, и ряд других производителей, в частности, поставщики систем управления предприятиями и других отраслевых бизнес-приложений.

Средства генерации отчетов

Отчет представляет собой документ, содержимое которого динамически формируется на основе информации, содержащейся в базе данных. На рынке ПО сейчас представлено немало средств создания отчетов: как отдельных продуктов, так и входящих в состав средств разработки приложений или СУБД, и реализованных в виде либо серверных служб, либо клиентских приложений. Как правило, средства создания отчетов поддерживают широкий спектр универсальных механизмов доступа к данным (ODBC, OLE DB, ADO.NET), нередко - средства прямого доступа к наиболее популярным СУБД с помощью их клиентских API, содержат средства деловой графики, интегрируются с офисными приложениями, позволяют публиковать отчеты в Интернете, включают классы или компоненты, предназначенные для создания приложений, реализующих (наряду с другими возможностями) генерацию отчетов.

Безусловный лидер рынка средств создания отчетов - продукт Crystal Reports, принадлежащий компании Business Objects. Он поставляется как отдельно, так и в составе продуктов других производителей, начиная со средств разработки приложений и заканчивая геоинформационными системами. Существует и серверная версия этого продукта, предназначенная для обеспечения отчетами большого количества пользователей. Помимо Crystal Reports, существует несколько менее популярных продуктов подобного класса.

Заключение

В настоящем обзоре мы рассмотрели основные технологии, лежащие в основе современных аналитических приложений. Как видно, выбор и технологий, и реализующих их продуктов достаточно широк, особенно с учетом факта наличия подобных средств в составе современных серверных СУБД и широкого спектра клиентских средств для визуализации результатов анализа и создания аналитических отчетов. Тем не менее отсутствие общепринятых стандартов в области бизнес-аналитики пока что создает определенные проблемы при создании использующих ее решений.

8.3.1. Средства On-Line Analytical Processing (OLAP)

On-Line Analytical Processing - средства оперативной (в реальном масштабе времени) аналитической обработки информации, направленные на поддержку принятия решений и помогающие аналитикам отвечать на вопрос «Почему объекты, среды и результаты их взаимодействия такие, а не другие?». При этом аналитик сам формирует версии отношений между множеством информации и проверяет их на основе имеющихся данных в соответствующих базах структурированной информации.

Для ERP-систем характерно наличие аналитических компонент в составе функциональных подсистем. Они обеспечивают формирование аналитической информации в режиме реального времени. Эта информация является основой большинства управленческих решений.

Технологии OLAP используют гиперкубы - специально структурированные данные (иначе называемые OLAP-кубами). В структуре данных гиперкуба различают:

Меры - количественные показатели (реквизиты-основания), используемые для формирования сводных статистических итогов;

Измерения - описательные категории (реквизиты-признаки), в разрезе которых анализируются меры.

Размерность гиперкуба определяется числом измерений для одной меры. Например, гиперкуб СБЫТ содержит данные:

Измерения: потребители, даты операций, группы товаров, номенклатура, модификации, упаковки, склады, виды оплаты, виды отгрузки, тарифы, валюта, организации, подразделения, ответственные, каналы распределения, регионы, города;

Меры: количество плановое, количество фактическое, сумма плановая, сумма фактическая, платежи плановые, платежи фактические, сальдо плановое, сальдо фактическое, цена реализации, срок исполнения заказа, сумма возврата.

Такой гиперкуб предназначен для аналитических отчетов:

Классификация потребителей по объемам покупок;

Классификация продаваемых товаров по методу ABC;

Анализ сроков исполнения заказов различных потребителей;

Анализ объемов продаж по периодам, товарам и группам товаров, регионам и потребителям, внутренним подразделениям, менеджерам и каналам сбыта;

Прогноз взаиморасчетов с потребителями;

Анализ возврата товаров от потребителей; и т.д.

Аналитические отчеты могут иметь произвольное сочетание измерений и мер, они используются для анализа принимаемых управленческих решений. Аналитическая обработка обеспечивается инструментальными и языковыми средствами. В общедоступной электронной таблице MS Excel представлена информационная технология «Сводные таблицы», исходными данными для их создания являются:

Список (база данных) MS Excel - реляционная таблица;

Другая сводная таблица MS Excel;

Консолидированный диапазон ячеек MS Excel, расположенных в одной и той же или различных рабочих книгах;

Внешняя реляционная БД или OLAP-куб, источник данных (файлы формата.dsn, .ode).

Для построения сводных таблиц на основе внешних БД используют драйверы ODBC, а также программу MS Query. Сводная таблица для исходной БД MS Excel имеет следующую структуру (рис. 8.3).

Макет сводной таблицы имеет следующую структуру данных (рис. 8.4): измерения - код подразделения, должность; меры - стаж работы, оклад и премия. Ниже представлена сводная табл. 8.2, которая позволяет проанализировать связь среднего стажа работы и оклада, среднего стажа работы и премии, оклада и премии.

Таблица 8.2

Сводная таблица для анализа связей

Окончание табл. 8.2

Для продолжения анализа средствами сводной таблицы можно:

Добавить новые итоговые показатели (например, средний оклад, средняя сумма премии и т.п.);

Использовать фильтрации записей и итогов сводной таблицы (например, по признаку «Пол», который помещается в макете в область * Страница»);

Вычислить структурные показатели (например, распределение фондов оплаты труда и фонда премии по подразделениям - с помощью средств дополнительной обработки сводных таблиц, доли от суммы по столбцу); и т.д.

Совокупность программ MS Office позволяет публиковать данные электронных таблиц, включая сводные таблицы и диаграммы в формате XTML.

Компонент Microsoft Office Web Components поддерживает работу с опубликованными данными в среде Internet Explorer, обеспечивая продолжение анализа (изменения структуры данных сводной таблицы, вычисление новых сводных итогов).

8.3.2. Средства Data Mining (DM)

Средства DM подразумевают извлечение («раскопку», «добычу») данных и направлены на выявление отношений между информацией, хранящейся в цифровых базах данных предприятия, которые аналитик может использовать для Построения моделей, позволяющих количественно оценить степень влияния интересующих его факторов. Кроме этого, такие средства могут быть полезны для построения гипотез о возможном характере отношений информации в цифровых базах данных предприятия.

Технология добычи текстовых данных (Text Mining - ТМ) представляет собой набор инструментов, позволяющий анализировать большие наборы информации в поисках тенденций, шаблонов и взаимосвязей, способные помочь в принятии стратегических решений.

Технология Image Mining (IM), содержит средства для распознавания и классификации различных визуальных образов, хранящихся в базах данных предприятия или полученных в результате оперативного поиска из внешних информационных источников.

Для решения проблем по обработке и хранению всех данных используют следующие подходы:

1) создание нескольких систем резервного копирования или одной системы распределенного документооборота, которые позволяют сохранять данные, но обладают медленным доступом к сохраненной информации по запросу пользователя;

2) построение Интернет-систем, обладающих высокой гибкостью, но не приспособленных для реализации поиска и хранения текстовых документов;

3) внедрение Интернет-порталов, которые хорошо ориентированны на запросы пользователей, но не обладают описательной информацией относительно загружаемых в них текстовых данных.

Системы обработки текстовой информации, свободные от перечисленных выше проблем, можно разделить на две категории: системы лингвистического анализа и системы анализа текстовых данных.

Основными элементами технологии Text Mining являются:

Суммаризация (summarization);

Тематический поиск (feature extraction);

Кластеризация (clustering);

Классификация (classification);

Ответ на запросы (question answering);

Тематическое индексирование (thematic indexing);

Поиск по ключевым словам (keyword searching);

Создание и поддержка офтаксономии (oftaxonomies) и тезаурусов (thesauri).

К программным продуктам, реализующим технологию Text Mining, относятся:

IBM Intelligent Miner for Text - набор отдельных утилит, запускаемых из командной строки, или скиптов; независимых друг от друга (основной упор делается на механизмы добычи данных - information retrieval);

Oracle InterMedia Text - набор, интегрированный в СУБД, позволяющий наиболее эффективно работать с запросами пользователей (позволяет работать с современными реляционными СУБД в контексте сложного многоцелевого поиска и анализа текстовых данных);

Megaputer Text Analyst - набор встраиваемых в программу COM - объектов, предназначенных для решения задач Text Mining.

8.3.3. Интеллектуальные информационные технологии

Сегодня в области автоматизации управления анализ информации доминирует на предварительной стадии подготовки решений - обработки первичной информации, декомпозиции проблемной ситуации, что позволяет познать лишь фрагменты и детали процессов, а не ситуацию в целом. Для преодоления этого недостатка надо научиться строить базы знаний, используя опыт лучших специалистов, а также генерировать недостающие знания.

Использование информационных технологий в различных сферах человеческой деятельности, экспоненциальный рост объемов информации и необходимость оперативно реагировать в любых ситуациях потребовали поиска адекватных путей решения возникающих проблем. Эффективнейшим из них является путь интеллектуализации информационных технологий.

Под интеллектуальными информационными технологиями (ИТТ) обычно понимают такие информационные технологии, в которых предусмотрены следующие возможности:

Наличие баз знаний, отражающих опыт конкретных людей, групп, обществ, человечества в целом, при решении творческих задач в определенных сферах деятельности, традиционно считавшихся прерогативой интеллекта человека (например, такие плохо формализуемые задачи, как принятие решений, проектирование, извлечение смысла, объяснение, обучение и т.п.);

Наличие моделей мышления на основе баз знаний: правил и логических выводов, аргументации и рассуждения, распознавания и классификации ситуаций, обобщения и понимания и т.п.;

Способность формировать вполне четкие решения на основе нечетких, нестрогих, неполных, недоопределенных данных;

Способность объяснять выводы и решения, т.е. наличие механизма объяснений;

Способность к обучению, переобучению и, следовательно, к развитию.

Технологии неформализованного поиска скрытых закономерностей в данных и информации Knowledge Discovery (KD) базируются на новейших технологиях формирования и структурирования информационных образов объектов, что ближе всего лежит к принципам обработки информации интеллектуальными системами.

Информационные технологии поддержки процесса принятия решений Decision Support (DS) представляют собой оболочки эксперт-

ных систем или специализированные экспертные системы, которые предоставляют возможность аналитикам определять отношения и взаимосвязи между информационными структурами в базах структурированной информации предприятия, а также прогнозировать возможные результаты принятия решений.

Тенденции развития ИИТ. Системы связи и коммуникаций. Глобальные информационные сети и ИИТ могут в корне поменять наши представления о компаниях и самом умственном труде. Присутствие сотрудников на рабочем месте станет практически не нужным. Люди могут работать дома и взаимодействовать друг с другом при необходимости через сети. Известен, например, успешный опыт создания новой модификации самолета «Боинг-747» распределенным коллективом специалистов, взаимодействующих по Интернет. Местонахождение участников каких-либо разработок будет играть все меньшую роль, зато возрастает значение уровня квалификации участников. Другая причина, определившая бурное развитие ИИТ, связана с усложнением систем коммуникации и решаемых на их основе задач. Потребовался качественно новый уровень «интеллектуализации» таких программных продуктов, как системы анализа разнородных и нестрогих данных, обеспечения информационной безопасности, выработки решений в распределенных системах и т.п.

Образование . Уже сегодня дистанционное обучение начинает играть важную роль в образовании, а внедрение ИИТ позволит существенно индивидуализировать этот процесс сообразно с потребностями и способностями каждого обучаемого.

Быт . Информатизация быта уже началась, но с развитием ИИТ появятся принципиально новые возможности. Постепенно компьютеру будут передаваться все новые функции: контроль над состоянием здоровья пользователя, управление бытовыми приборами, такими как увлажнители, освежители воздуха, обогреватели, ионизаторы, музыкальные центры, средства медицинской диагностики и т.п. Другими словами, системы станут еще и диагностами состояния человека и его жилища. Будет обеспечено комфортное информационное пространство в помещениях, где информационная среда станет частью окружающей человека среды.

Перспективы развития ИИТ . Представляется, что в настоящее время ИИТ подошли к принципиально новому этапу своего развития. Так, за последние 10 лет существенно расширились возможности ИИТ за счет разработки новых типов логических моделей, появления но-

вых теорий и представлений. Узловыми точками в развитии ИИТ считаются:

Переход от логического вывода к моделям аргументации и рассуждения;

Поиск релевантных знаний и порождение объяснений;

Понимание и синтез текстов;

Когнитивная графика, т.е. графическое и образное представление знаний;

Мультиагентные системы;

Интеллектуальные сетевые модели;

Вычисления, основанные на нечеткой логике, нейронных сетях, генетических алгоритмах, вероятностных вычислениях (реализуемых в различных комбинациях друг с другом и с экспертными системами);

Проблема метазнаний.

Новой парадигмой создания перспективных ИИТ стали мультиагентные системы. Здесь предполагается, что агент - это самостоятельная интеллектуальная система, имеющая свою систему целеполагания и мотивации, свою область действий и ответственности. Взаимодействие между агентами обеспечивается системой более высокого уровня - метаинтеллектом. В мультиагентных системах моделируется виртуальное сообщество интеллектуальных агентов - объектов, которые автономны, активны, вступают в различные социальные отношения - кооперации и сотрудничества (дружбы), конкуренции, соревнования, вражды и т.п. Социальный аспект решения современных задач и есть фундаментальная особенность концептуальной новизны передовых интеллектуальных технологий - виртуальных организаций, виртуального общества.

(?) Контрольные вопросы и задания

1. Дайте характеристику предприятия как объекта информатизации. Назовите основные показатели, характеризующие развитие системы управления предприятием.

2. Перечислите ведущие информационные технологии управления промышленным предприятием.

3. Назовите основные информационные технологии организационного и стратегического развития предприятий (корпорации).

4. Каковы основы стандартов стратегического управления, направленного на улучшение бизнес-процессов? Каково соотношение информационных технологий ВРМ и BPI?

5. Дайте определение философии всеобщего управления качеством (TQM). Как связаны фазы развития качества и информационные технологии?

6. Назовите основные положения организационного развития предприятия, охарактеризуйте этапы стратегического управления. Назовите групповые стратегии.

7. Как создается бизнес-модель предприятия? Назовите основные подходы к оценке эффективности бизнес-модели.

8. Что такое система сбалансированных показателей? Назовите основные составляющие ССП. Каковы взаимосвязи групп показателей ССП?

9. Перечислите методические основы создания информационных систем. Что такое системный подход?

10. Что такое информационный подход к формированию информационных систем и технологий?

11. Что такое стратегический подход к формированию информационных систем и технологий?

12. Каково содержание объектно-ориентированного подхода к описанию поведения агентов на рынке? Дайте определение объекта, укажите аналоги агентных систем.

13. Каковы методические принципы совершенствования управления предприятием на основе информационно-коммуникационных технологий? Каково целевое назначение ИКТ?

14. Дайте определения документа, документопотока, документооборота, системы документационного управления.

15. Как проектируется макет формы документа? Назовите зоны документа, состав их реквизитов.

16. Назовите базовые информационные технологии системы документационного управления.

17. Что такое унифицированная система документации? Каковы общие принципы унификации?

18. Дайте характеристику организационно-распорядительной документации, приведите примеры документов.

19. Каким требованиям должна удовлетворять электронная система управления документооборотом?

20. Что такое корпоративная информационная система? Назовите основные контуры управления, состав функциональных модулей.

21. Назовите известные вам программные продукты для КИС. Дайте их сравнительную характеристику.

Ш Литература

1. Вернет Дж., Мориарти С. Маркетинговые коммуникации. Интегрированный подход. СПб.; Харьков: Питер, 2001.

2. Брукинг Э. Интеллектуальный капитал. Ключ к успеху в новом тысячелетии. СПб.: Питер, 2001.

3. Годин В.В., Корпев И.К. Управление информационными ресурсами. М.: ИНФРА-М, 1999.

4. Информационные системы и технологии в экономике: Учебник. 2-е изд., доп. и перераб. / М.И. Семенов, И.Т. Трубилин, В.И. Лойко, Т.П. Барановская; Под ред. В.И. Лойко. М.: Финансы и статистика, 2003.

5. Информационные технологии в бизнесе / Под ред. М. Желены. СПб.: Питер, 2002.

6. Каплан Роберт С., Нортон Дейвид П. Сбалансированная система показателей. От стратегии к действию / Пер. с англ. М.: ЗАО «Олимп-Бизнес», 2003.

7. Карагодин В.И., Карагодина BJI. Информация как основа жизни. Дубна: Феникс, 2000.

8. Карминский AM., Нестеров ПЗ. Информатизация бизнеса. М.: Финансы и статистика, 1997.

9. Лихачева Т.Н. Информационные технологии на службе информационного общества // Новые информационные технологии в экономических системах. М., 1999.

10. Острейковский В.А. Теория систем. М.: Высшая школа, 1997.

11. Питеркин С.В., Оладов Н.А., Исаев Д.В. Точно вовремя для России. Практика применения ERP-систем. 2-е изд. М.: Альпина Паблишер, 2003.

12. Соколов Д.В. Введение в теорию социальной коммуникации: Учеб. пособие. СПб.: Изд-во СП6ГУП, 1996.

13. Трофимов В.З., Томилов В.З. Информационно-коммуникационные технологии в менеджменте: Учеб. пособие. СПб.: Изд-во СПбГУЭФ, 2002.