Место r вычислений среди других статистических пакетов

 

В научных и прикладных исследованиях имеется большой спрос на использование методов математической статистики. Реализация этих методов для широкого круга пользователей возможна при использовании специализированных программ обработки данных. Существуют множество программ, в которых реализованы те или иные статистические методы. Те из них, которые заслужили признание научного сообщества и прикладников были выбраны в качестве рабочих инструментов для обучения, анализа и исследований.

SAS обладает превосходными возможностями по набору статистических алгоритмов. Кроме того, SAS предоставляет пользователю возможность подключения его оригинальных алгоритмов. SAS/IDS это интеграция весьма разнообразных возможностей доступа к данным и управления ими, средств анализа данных, способов представления информации и генерации отчетов. Пакет имеет модульную структуру и легко может быть сконфигурирован под специфические особенности его пользователя. Основными достоинствами SAS являются мощное интеллектуальное ядро, поддержка архитектуры «клиентсервер», возможность доступа и интеграции данных из любых источников и наличие объектно-ориентированной технологии быстрой разработки приложений. В практическом плане, SAS сообщает пользователю, какие переменные определены, какого они типа, какие переменные являются активными, какой тип модели Вы бы хотели использовать для анализа и специальные требования на используемый метод вычислений. Формирование отчетов нетрудно, если пользователь владеет соответствующими командами пакета. Главные недостатки пакета громоздкость, большие трудности в освоении, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ПЭВМ, большой размер, занимаемый на винчестере.

SPSS пакет предназначен в первую очередь для статистиков профессионалов, так как имеет достаточно мощный аппарат статистического анализа, вполне соизмеримый по мощности с SAS. SPSS версии 8.0 для Windows 2000/ХР. отличается разнообразными возможностями по управлению данными и манипулированию полученными результатами, по работе с электронными таблицами. SPSS предоставляет достаточно удобную графику (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Эта версия отличается повышенной производительностью и скоростью вычислений, а также расширенным функциональным наполнением. Аналитические параметры отображаются на экране в виде простых и ясных меню и диалоговых окон. С введением новой панели инструментов потребуется лишь один щелчок мышки для запуска часто используемых процедур. Для снижения трудоемкости освоения работы с SPSS в эту версию введено новое обучающее средство «Навигатор». SPSS обладает весьма полным набором статистических (всего их более 60-ти) и графических   процедур, а также процедур создания отчетов. Интерфейс прост и удобен. Пакет отличается высокой точностью вычислений.

SYSTAT. Инструкции по пошаговой работе, как правило, полезны и точно ведут к цели, а указатель просто превосходен и очень полезен для пользователя, начинающего работу с SYSTAT. Пакет использует табулированное окно для ввода данных и их редактирования. Предоставляемые возможности по преобразованиям данных легки в использовании. Однако результаты таких преобразований являются «статистическими»: однажды вычисленные, данные уже не преобразуются, если Вы вдруг впоследствии внесли изменения в исходные данные. Функциональные имена в окне преобразований являются кодами, например, XDF и XCF обозначают плотность и кумулятивную функцию распределения случайной величины хи-квадрат. Пропущенные символьные значения кодируются в виде пробелов; пропуски в числовых признаках кодируются как самое отрицательное число и появляются в редакторе как периодические вещественные числа. Пакет обладает прекрасными возможностями отображения на экране исходных данных и полученных результатов разведочного анализа, имея в своем распоряжении около 300ти различных способов графического отображения: гистограммы, ящики с «усами», стебли с листьями, иконки, 22D и 33D диаграммы рассеяния и т.д. Кроме того, имеются матрицы диаграмм рассеяния, графики функций и географических карт. В рекламных материалах подчеркивается, что эта версия пакета доминирует среди аналогов по разнообразию типов графиков. Кроме того, пакет позволяет порождать и изображать сложные поверхности, что полезно для визуализации сложных функций. SYSTAT обладает высокой точностью, используя много превосходных алгоритмов.

STATISTICA Пакет не стоит использовать пользователю-новичку в статистике, т.к. предполагает владение статистической терминологией. Наличие достаточно широкого спектра функциональных алгоритмов делает пакет STATISTICA версии 5.5 достаточно привлекательным для статистиков-профессионалов. Однако относительно распространена точка зрения, в соответствии с которой удобство работы с этим пакетом оценивается весьма невысоко. В частности, STATISTICA по своей структуре как бы состоит из нескольких связанных между собой модулей. Эти модули взаимодействуют друг с другом, имея одинаковый формат файлов. Так, если Вам нужен раздел линейной регрессии, то Вы должны покинуть оболочку главного модуля СПП и загрузить модуль линейной регрессии.

Наиболее сильной стороной пакета является графика и средства редактирования графических материалов. Представлены сотни типов графиков: типа 22D или 33D (имеются даже графики типа 44D), матрицы и пиктограммы. Есть возможность разработать свой дизайн графика и добавить его в меню.

К сожалению, в пакете отсутствуют методы планирования экспериментов и графика по методам контроля качества. В целом пакет STATISTICAA5.5 по мощности уступает перечисленным выше пакетам.

MINITAB продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью очень удобного меню, или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Так, в версии 10.0 были добавлены алгоритмы факторного и кластерного анализа. Кроме того, эта версия позволяет получать множество хороших и сложных многоцветных графиков. Часто используемые команды можно запускать и по их первой букве. Общее число команд превышает 200. Можно составлять и специальные макросы для выполнения последовательностей команд. Таким образом, пакет ориентирован на неспециалистов в области математической статистики, в частности, на студентов университетов. Пользователь MINITAB может легко и быстро решать практически все типовые задачи, в основном из области одномерного анализа и анализа временных рядов. Фирмой Minitab Inc. хорошо налажена поддержка пользователей и обмен опытом через группу пользователей MINITAB. Кроме того, фирма распространяет мини-руководство по пакету для тех студентов, которые, не имея его хотят больше узнать о пакете.

IMSL. Пакет IMSL по сути является библиотекой процедур и ориентирован прежде всего на исследователей и на разработчиков прикладных программных продуктов. IMSL можно использовать в виде библиотеки исходных текстов на C++. Библиотеки пакета IMSL можно использовать отдельно или же с подключением графической библиотеки Exponent Graphics или другой объектнооориентированной библиотеки на языке C++, называемой Object Suite. Последняя библиотека составлена из математического и графического модуля. Первый, кроме математических функций, поддерживает также разработку объектно-ориентированного интерфейса с пользователем.

Все перечисленные статистические программы имею существенную стоимость. В таблице 1 приведены минимальные цены на одну инсоляцию базовой версии.

 

Таблица 1 – Цены на базовую версию статистические пакеты

СТАТИСТИЧЕСКИЕ ПАКЕТЫ

ЦЕНА $

SAS

850

MINITAB

895

SPSS

980

SYSTEM

995

STATISTICA

995

IMSL

700

 

 

Источник: Собственная разработка по статистическим данным.

Система R - это одновременно и свободно распространяемая программная среда с открытым кодом, развиваемая в рамках проекта GNU, и язык программирования для статистической обработки данных и работы с графикой.

R можно применять везде, где нужна работа с данными. Это и сама математическая статистика во всех её приложениях, и первичный анализ данных, и математическое моделирование. Основная мощь R лучше всего проявляется именно при статистическом анализе данных: от вычисления средних величин до серьёзных операций с временными рядами. С помощью R можно подготовить данные для исследования, которое может быть осуществлено с помощью реализованных в различных функциях статистических методов, а затем вывести полученные результаты для дальнейшего анализа. Сейчас практически во всех западноевропейских и американских университетах изучают и используют R, ежегодно издаются многостраничные учебники и монографии относительно как работы с самим пакетом R, так и его применения при исследовании и обработке данных в статистике, медицине, экологии, финансовом анализе, актуарной математике и пр. Многие компании также применяют R, например Boeing.

Перечислим достоинства и недостатки пакета R.

Плюсы:

– R является свободно распространяемым программным обеспечением (ПО), каждый может его бесплатно скачать с сайта http://www.r-project.org;

– достаточно просто устанавливается под Windows, MacOS X, Linux;

– базовая комплектация R занимает немного места на жёстком диске и включает в себя все функции, необходимые для статистического анализа;

– для более серьёзной работы всегда можно дополнительно установить вспомогательные пакеты с необходимыми функциями;

– на данный момент разработаны пакеты, применимые практически во всех областях знания, где используется статистика;

– можно работать с большими массивами данных (несколько сотен тысяч наблюдений);

– встроенная система помощи и подсказок;

– хорошие графические возможности представления результатов исследований;

– возможность самостоятельного написания необходимых функций;

– много свободной литературы по R.

Недостатки:

– в отличие от большинства коммерческих программ R имеет не графический интерфейс, а интерфейс командной строки, таким образом нужно знать необходимые для работы функции и синтаксис языка программирования;

– нет коммерческой поддержки (но есть международная система рассылки сообщений об обновлениях);

– довольно мало литературы по R на русском языке (в основном литература на английском), но при желании можно найти в Интернете.

R представляет собой набор программных средств для манипулирования данными, вычисления и графического отображения. Кроме этого возможно:

  • эффективная обработка и хранение данных;
  • набор операторов для вычислений на массивах, особенно матрицах,
  • цельная, непротиворечивая, комплексная коллекция утилит для анализа данных,
  • графические средства для анализа данных и отображения или непосредственно на компьютере или при выводе на печать, и хорошо разработанный, простой и эффективный язык программирования (называемый ‘S’), который включает условные выражения, циклы, определяемые пользователем рекурсивные функции и средства ввода и вывода.  Действительно, большинство поддерживаемых системой функций сами написаны на языке S.

Термин "окружение/среда" предназначен, чтобы характеризовать ее как полностью запланированную и последовательную систему, а не постепенно возникшего конгломерата весьма специфических и негибких инструментов, как часто имеет место с другим программным обеспечением анализа данных.

R является средством разработки методов интерактивного анализа данных. Она была разработана быстро и была расширена большим количеством пакетов.  Однако, большинство программ, написанных в R, принципиально являются программами-однодневками, написанными для конкретного случая анализа данных.

Много людей используют R в качестве системы статистики.  Мы предпочитаем думать о ней как о среде, в пределах которой были реализованы много классических и современных статистических методов.  Некоторые из них встроены в основу среды R, но многие предоставлены как пакеты.  В составе R существует около 25 пакетов (названных "стандартными" и "рекомендуемыми" пакетами), и еще больше доступно через семейство сайтов CRAN (через http://CRAN.R-project.org) и из других источников.

Большинство классических статистических методов и многое из последних методик доступно для использования в R, но пользователи должны быть готовы к небольшим усилиям, чтобы найти нужное.

Есть важное различие в философии между S (и, следовательно, R) и другими основными статистическими системами. В S статистический анализ обычно делается как ряд шагов с промежуточными результатами, сохраненными в объектах. Таким образом, тогда как SAS и SPSS дадут обильные результаты регрессионного или дискриминантного анализа, R выведет минимум результатов и сохранит их в подогнанном объекте для последующего использования функциями R.

 

Список литературы

 

  1. 1 SAS Institute, Inc[Электронный ресурс] - http:// www. sas. com, 2016. - Дата доступа:  17.03.2016
  2. SPSS, Inc[Электронный ресурс] - http:// www. SPSS. com,  2016. - Дата доступа:  17.03.2016
  3. SciTech Software, Inc[Электронный ресурс] -   http:// www. scitechsoft. com, 2016. - Дата доступа:  17.03.2016
  4. Minitab Inc[Электронный ресурс] - http:// www. minitab.com, 2016. - Дата доступа:  17.03.2016

 

Today, there are a lot of universal treatment programs and analysis of statistical information. Through a circle covered by tasks, they can be useful not only for students under study statistical methods, but also scientists, economists, critical task analysis and forecasting using statistical data. This article provides a comparative analysis of several well-known statistical packages in particular statistical package R. A comparison is carried out in accordance with the task, the simplicity and ease of implementation, thus noting the advantages and disadvantages of the considered application.

 

Кошко Дмитрий Владимирович