yuliianikolaenko 02 февраля 2021

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Через ключевые научные работы и их авторов попробуем разобраться, с чего начиналась история Data Science и как новая наука формировалась в течение десятилетий. Начнем отсчет с докомпьютерной эры.
📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Термин Data Science появился относительно недавно, но осмысление данных имеет долгую историю и обсуждалось математиками, статистиками и специалистами по коммуникациям в течение многих лет. Во вступительной серии публикаций мы подробно описали особенности профессии, а также рассказали, как научиться ей с нуля и какие навыки необходимы специалисту по науке о данных. Дисциплина эта относительно новая, поэтому предлагаем читателям изучить ее развитие через ключевые работы и лица.

От статистики к анализу данных

История Data Science началась еще до появления компьютеров – в 1948 году. В статье «Математическая теория связи» Клод Шеннон изложил основные элементы коммуникации через различные источники информации. Эта публикация положила начало развитию методов обработки, передачи и хранения информации. Еще Шеннон развил понятия информационной энтропии и избыточности, а также ввел термин бит как единицу информации. В статье была предложена методика кодирования Шеннона-Фано, разработанная им совместно с Робертом Фано.

В 1962 году математик Джон У. Тьюки предсказал влияние современных электронных вычислений на анализ данных как эмпирическую науку. Тем не менее современная наука о данных далека от представлений Тьюки. В 1977 году он опубликовал книгу «Исследовательский анализ данных», утверждая, что больше внимания необходимо уделять использованию данных для проверки гипотез и что исследовательский и подтверждающий анализ данных могут и должны идти бок о бок. Его предсказания появились задолго до Big data и возможности проводить сложный и масштабный анализ. Первый настольный компьютер Programma 101 был представлен публике на Всемирной выставке в Нью-Йорке только в 1964 году.

К 1981 году IBM выпустила свой персональный компьютер, а Apple представила первый компьютер с графическим пользовательским интерфейсом через два года. В течение этого десятилетия вычислительная техника развивалась довольно быстрыми темпами, что давало компаниям возможность намного эффективнее и легче собирать данные. Однако пройдет почти два десятилетия, прежде чем они начнут преобразовывать эти данные в информацию и знания.

В 1974 Питер Наур публикует в Швеции и Соединенных Штатах книгу «Краткий обзор компьютерных методов». В ней были описаны методы обработки данных того времени, которые использовались в широком спектре приложений. Они были организованы в соответствии с концепцией, определенной в Руководстве IFIP по понятиям и терминам обработки данных: «Данные это представление фактов или идей формализованным образом, способное передаваться или манипулироваться каким-либо процессом». В предисловии к книге говорилось, что на конгрессе IFIP в 1968 году был представлен план курса под названием «Даталогия, наука о данных и процессах обработки данных и ее место в образовании». В книге термин Data Science был интерпретирован как наука, которая имеет дело с данными, как только они получены, в то время, как отношение данных к тому, что они представляют, было делегировано другим областям.

Ключевые работы данного периода

A Mathematical Theory of Communication by Claude Shannon (1948)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Computing Machinery and Intelligence by Alan Turing (1950)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

A Business Intelligence System by Hans Peter Luhn (1958)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

The Future of Data Analysis by John W. Tukey (1962)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Concise Survey of Computer Methods by Peter Naur (1974)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Exploratory Data Analysis by John W. Tukey (1977)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

The Relational Model for Database Management by Edgar F. Codd (1990)

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

От анализа данных к Data Science

В 1996 году Усама Файяд, Грегори Пятецкий-Шапиро и Падхрейк Смит публикуют книгу «От интеллектуального анализа данных к открытию знаний в базах данных». В ней авторы рассказывают, как исторически понятие поиска полезных паттернов в данных получило множество названий, включая интеллектуальный анализ данных, извлечение знаний, обнаружение информации, сбор информации, археологию данных и обработку паттернов данных. В книге также раскрывается понятие обнаружения знаний в базах данных, которое относится к общему процессу извлечения полезных знаний из данных. Интеллектуального анализ определятся как применение специальных алгоритмов для извлечения паттернов из данных: подготовка данных, отбор данных, очистка данных, включение соответствующих предварительных знаний и правильная интерпретация результатов.

На протяжении 2000-х годов различные научные журналы начали признавать науку о данных как развивающуюся дисциплину. В 2005 году Национальный Научный Совет выступил с заявлением в поддержку карьерного роста специалистов в области Data Science, чтобы обеспечить наличие экспертов.

К этому времени компании также начали рассматривать данные как товар, на котором можно заработать. Томас Дэвенпорт, Дон Коэн и Эл Джейкобсон в отчете Исследовательского Центра рабочих знаний Колледжа Бэбсона за 2005 год писали о том, что вместо конкуренции по традиционным факторам, компании начинают использовать статистический и количественный анализ и прогнозное моделирование в качестве основных элементов конкуренции.

В 2009 году главный экономист Google Хэл Вариан заявил изданию McKinsey Quarterly, что он обеспокоен дефицитом способных анализировать «свободные и вездесущие данные» людей. Он также подчеркнул, что на данный момент необходимо понимать эти данные и извлекать из них ценность. Также чрезвычайно важны такие навыки, как способность получать доступ, понимать и передавать информацию, полученную в результате анализа данных.

Ключевые работы данного периода

From Data Mining to Knowledge Discovery in Databases by Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics by William S. Cleveland

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century by The National Science Board

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Statistical Modeling: The Two Cultures by Leo Breiman

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

MapReduce: simplified data processing on large clusters by Jeffrey Dean and Sanjay Ghemawat

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Competing on Analytics by Thomas H. Davenport

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Introduction to Dataology and Data Science by Yangyong Zhu and Yun Xiong

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Современная Data Science

В 2010 году Дрю Конвей публикует книгу, в которой пишет, «что тому, кто хочет стать компетентным Data Scientist, необходимо многому научиться. К сожалению, простое перечисление текстов и учебников не распутывает узлы. Поэтому стремясь упростить обсуждение и добавить свои собственные мысли к тому, что уже является переполненным рынком идей, я представляю диаграмму Венна Data Science, в которую включены навыки программирования, математические и статистические знания, а также опыт независимой работы».

По мере того, как наука о данных развивается и становится частью бизнеса, растет и необходимость в создании сильных инновационных команд в этой области. В 2011 году D.J. Patil публикует статью «Создавая Data Science команды». Он объясняет, какие навыки, перспективы, инструменты и процессы обеспечивают таким командам успех.

В 2021 Data Science стала занимать центральное место в ИТ на фоне значительных достижений в области вычислительных технологий, поскольку все больше потребителей начали осваивать их с молниеносной скоростью. С более высокими скоростями обработки информации, чем когда-либо прежде, технология сделала гигантский скачок в новое десятилетие. Большие данные, машинное обучение и deep learning занимают центральное место практически во всех отраслях от бизнеса до образования и медицины. На сегодняшний день специалисты по Data Science бесценны для любой компании.

Ключевые работы данного периода

The Data Science Venn Diagram by Drew Conway

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

A Taxonomy of Data Science by Hilary Mason and Chris Wiggins

The Three Sexy Skills of Data Geeks by Driscoll

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Linked Data by Berners Lee

"Data Science": what's in a name? By David Smith

The Art of Data Science by Matthew J. Graham

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Building Data Science Teams by DJ Patil

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Data Scientist: The Sexiest Job of the 21st Century by Thomas H. Davenport and D.J. Patil

📚 С чего начиналась наука о данных: история в лицах и ключевых работах

Заключение

Объединив упомянутые в статье работы и авторов, а также добавив к ним теоретические, вычислительные и научные достижения, мы можем понять историческое развитие науки о данных. Мы видим, что корни Data Science лежат в статистике и что она опирается на математику и информатику. Наука о данных также берет начало из практических целей использования информации для получения знаний, в частности в идее использования данных для решения бизнес-задач.

Наука о данных продолжит изменяться по мере изменения человеческих потребностей, но один момент остается ясным: Data Scientists будут востребованы, пока существуют данные, которые нужно анализировать. Вопрос заключается в том, сколько данных будет доступно, откуда они будут поступать и какие новые методы анализа дадут еще более глубокое их понимание.

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию
Senior Java Developer
Москва, по итогам собеседования
Разработчик С#
от 200000 RUB до 400000 RUB

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ