Разведочный визуальный анализ данных

Общие сведения о пакете Statistica

Универсальная интегрированная система, предназначенная для статистического анализа, визуализации данных и разработки пользовательских приложений Statistica – это современный пакет, в котором реализованы все новейшие компьютерные и математические методы статистического анализа данных. Программа имеет несколько тысяч зарегистрированных пользователей во всем мире, является наиболее динамично развивающимся статистическим пакетом и мировым лидером на рынке статистического программного обеспечения. Система избавляет пользователя от рутинных вычислений, наглядно отображает результаты анализа, помогает оптимально спланировать будущие эксперименты и создаёт высококачественные отчёты, оставляя специалисту удовольствие интерпретации результатов и формулировки выводов. Система содержит полный набор классических и современных методов анализа данных, что позволяет гибко организовать работу. Помимо общих статистических и графических средств, в системе имеются специализированные модули, например, для проведения социологических исследований, решения промышленных и других задач, при решении которых возникает проблема анализа статистических данных.

Система обладает следующими общепризнанными достоинствами:

  • содержит полный набор классических и продвинутых методов анализа данных;
  • легка в освоении подготовленным пользователем;
  • полностью совместима с приложениями операционной системы Windows;
  • является средством построения приложений в конкретных областях;
  • данные системы Statistica легко конвертировать в различные базы данных и электронные таблицы;
  • в комплект поставки входят специально подобранные примеры, позволяющие систематически осваивать методы анализа;
  • поддерживает большинство Интернет-форматов: html, jpeg, png;
  • поддерживает высококачественную графику, позволяющую эффектно визуализировать данные и проводить графический анализ;
  • содержит язык программирования, который позволяет расширять систему и запускать её из других Windows-приложений.

Главное меню, которое появляется при запуске пакета Statistica состоит из следующих опций:
– фaйл (file);
– редактирование (edit);
– просмотр (view);
– вставка (insert);
– формат (format);
– статистика (statistics);
– графики (graphs);
– инструменты (tools);
– данные (data);
– окно (window);
– справка (help).

Подробно о назначении всех инструментальных кнопок можно узнать, если нажать кнопку "?". При этом раскрывается соответствующее окно с системой поиска и механизмом гиперссылок. Кратко о назначении инструментальных кнопок можно узнать, если подводить к ним, не нажимая, курсор мыши и ждать всплывающей подсказки.

Statistica позволяет:
– построить различные графики: гистограммы (Graphs/ Histograms), графики рассеяния (Graphs/Scatterplots), круговые диаграммы (Graphs/ 2D Graphs/ Pie Charts), построить 3D (3D XYZ Graphs) и другие графики;
– вычислить вероятность, среднее значение и т.д., построить графики различных распределений с помощью вероятностного калькулятора (Statistics/Probability Сalculator);
– построить диаграмму Парето (Statistics/ IndustrialStatisticas&SixSigma/ QualityControlCharts/ Paretochartanalysis);
– построить диаграмму причин и результатов (Statistics/ IndustrialStatisticas&SixSigma/ ProcessAnalysis/ Cause-effectdiagrams);
– построить контрольные карты (Statistics/ Industrial Statisticas&Six Sigma/ Quality Control Charts);
– провести кластерный анализ (Statistics/ Multivariable Exploratory Techniques/ Cluster Analysis);
– провести нелинейное оценивание – регрессионный анализ (Statistics/ Advanced Linear/ Nonlinear Models/Nonlinear Estimation);
– провести корреляционный анализ (Statistics/Basic Statistics/ Correlation Matrices);
– рассчитать статистические характеристики переменных (Statistics/ Basic Statistics/ Descriptive Statistics);
– провести анализ временных рядов (Statistics/ Advanced Linear/ Nonlinear Model / Time Series Analysis/ Forecasting);
– организовать анализ с помощью других статистических методов, используемых в промышленности для обработки  данных.

Запуск программы Statistica

Рабочее окно пакета Statistica представляет собой таблицу из строк и столбцов (трафарет). Перемещаться по листу из ячейки в ячейку можно с помощью стрелок и клавишей Enter или щелчком левой кнопки мыши в нужной ячейке. Ячейка, в которой стоит курсор, обведена чёрной контурной линией и называется активной.

Структура ввода и редактирования данных

Набор данных в пакете Statistica – это прямоугольная таблица, столбцам которой соответствуют обрабатываемые переменные (Variables), а строкам отвечают наблюдения (Cases) значений переменных. В отличие от электронной таблицы Excel, где строки и столбцы могут быть интерпретированы пользователем по собственному желанию, в программе Statistica всё подчинено обработке случайных переменных.

Для создания нового набора данных нужно, прежде всего, завести файл с трафаретом таблицы нужных размеров. Для этого необходимо использовать модуль File/New. В раскрывшемся диалоговом окне необходимо выбрать нужное количество столбцов (Variables) и строк (Cases). При нажатии опции Insert в основном меню или кнопки Vars на панели инструментов становятся доступными команды редактирования переменных (столбцов): Add (добавить новые переменные), Delete (удалить переменные), Move (переместить) и др. При нажатии кнопки Cases становятся доступными аналогичные команды редактирования строк.

Как наблюдениям, так и переменным в трафарете создаваемого набора данных можно дать содержательные названия. Причём для наблюдений это имеет смысл сделать лишь тогда, когда им соответствуют единые объекты для всех переменных (к примеру, если наблюдения соответствуют сотрудникам, то в качестве имён есть смысл взять фамилии сотрудников). В любом случае наблюдения нумеруются.

Что касается имён переменных, то их лучше всегда делать содержательными, а не абстрактными Var1, Var2 и т.д. Для этого необходимо дважды щёлкнуть левой кнопкой мыши по переменной в трафарете.

Из обязательных атрибутов переменной надо указать тип и формат её значений. Тип (Type) определяет, будет ли переменная числовой, текстовой, датой, временем и проч., а формат (Format) описывает размеры значений переменной. При этом формат каждой переменной нужно определить особенно тщательно. По умолчанию он есть числовой с размерами «8,3» (т.е. с фиксированной точкой, где под все значащие цифры, знак числа и десятичную точку отведено 8 символов, 3 из которых предназначены для дробной части). Значениям переменной можно также дать развернутый содержательный комментарий (Long Name).

В этом же поле можно задать формулу, по которой будет рассчитываться выбранная переменная; например, можно написать =vl+v2; и тогда выбранная переменная может быть пересчитана по указанной формуле: найдена сумма первой и второй переменной. В формулах переменные можно обозначать буквой v с указанием номера (например, v1 означает первый столбец) или написать действительные названия переменных. Чтобы пересчет состоялся, нажмите кнопку «OK» и согласитесь с предложением «Recalculate the variable now» («ДА»). Другой способ – нажать кнопку Vars и выбрать команду Recalculate. После точки с запятой в поле формулы можно написать комментарий.

Быстро посмотреть таблицу спецификаций всех переменных набора данных можно, выбрав из меню команды Data/ All Variables Specs.

Приведём пример многомерной таблицы с данными.

Дата

Установка

Оборудование

Дефект

Цена потерь, руб.

Результат

02.05.2007

ТВА160

ЧПТВА

Остановка

5500

Не устранён

03.05.2007

ДС158

1015

Погрешность

4600

Откалиброван

06.05.2007

ТВА160

ЧПТВА

Остановка

3250

Не устранён

09.05.2007

ДС158

ПК

Сбой

5180

Устранён

10.05.2007

SPECO

Фильтр

Поврежд.цепи

6380

Отремонтирован

21.05.2007

ДС158

Горелка

Бурс

1500

Отремонтирован

25.05.2007

МАП

ЧПМАП

Остановка

7560

Отремонтирован

14.06.2007

ТВА160

Термо

Износ

2000

Замена

17.06.2007

ДС1581

510

Поврежд.цепи

1100

Устранён

19.06.2007

МАП

Фильтр

Пурф

1700

Отремонтирован

22.06.2007

ТВА160

ЧПТВА

Остановка

5940

Не устранён

23.06.2007

МАП

Фильтр

Пурф

2460

Отремонтирован

23.06.2007

ТВА160

ЧПТВА

Остановка

1750

Не устранён

10.07.2007

ДС158

Пневмо

Остановка

4300

Отремонтирован

15.07.2007

SPECO

Горелка

Не разжигается

4300

Отремонтирован

19.07.2007

МАП

Термо

Износ

5690

Замена

29.07.2007

ДС158

Горелка

Бурс

2100

Отремонтирован

05.08.2007

ТВА160

ЧПТВА

Остановка

4000

Не устранён

08.08.2007

ТВА160

Горелка

Помеха

2500

Устранён

11.08.2007

МАП

Фильтр

Поврежд.цепи

7760

Отремонтирован

Заполнение таблицы данных в программе Statistica осуществляется с помощью клавиатуры и мыши (включая выделение блоков, копирование, вставку и др.) в полной аналогии с электронными таблицами, такими как Excel. Десятичные знаки отделяются запятой, например: 74,92.

С созданными файлами можно выполнять следующие операции:

  • открытие файла данных: в меню File необходимо выбрать Open и открыть интересующий файл;
  • сохранение файла: в меню File необходимо выбрать Save as… дать имя файлу и указать место, где сохранить файл;
  • импорт файла данных Excel  (*.xls), dBase  (*.dbf),  ASCII  (например, *.txt): в меню File необходимо выбрать Import Data (импорт данных);
  • печать файла (в меню File необходимо выбрать Print...).

Файлы данных в программе Statistica имеют расширение sta.

Читать дальше

Центр системной оптимизации бизнеса
и управления качеством
Качество управления
Обучение статистической обработке данных
Программы курсов, тренингов, семинаров
Оптимизация бизнес-процессов
на основе статистических методов
(промо-семинар)
Уникальность
Изучаемые статистические методы
Проекты

 

 

Система статистических методов управления –
  • это палитра из инструментов сбора, обработки, представления, анализа информации, технологии принятия решений, специально разработанная для повышения качества управления и улучшения деятельности организации
  • это залог успеха вашего бизнеса!

  •  

    Статистика – точная наука, она не терпит приблизительности. Как можно было пользоваться непроверенными данными?


    Эльдар Рязанов, Эмиль Брагинский, «Служебный роман»

     
    Система статистических методов управления –
  • это палитра из инструментов сбора, обработки, представления, анализа информации, технологии принятия решений, специально разработанная для повышения качества управления и улучшения деятельности организации
  • это залог успеха вашего бизнеса!

  • Желаете участвовать в семинаре? Хотите написать? Электронная почта - tomsk@ieee.org (Стукач Олег Владимирович)