📚 С чего начиналась наука о данных: история в лицах и ключевых работах
Через ключевые научные работы и их авторов попробуем разобраться, с чего начиналась история Data Science и как новая наука формировалась в течение десятилетий. Начнем отсчет с докомпьютерной эры.
Термин Data Science появился относительно недавно, но осмысление данных имеет долгую историю и обсуждалось математиками, статистиками и специалистами по коммуникациям в течение многих лет. Во вступительной серии публикаций мы подробно описали особенности профессии, а также рассказали, как научиться ей с нуля и какие навыки необходимы специалисту по науке о данных. Дисциплина эта относительно новая, поэтому предлагаем читателям изучить ее развитие через ключевые работы и лица.
От статистики к анализу данных
История Data Science началась еще до появления компьютеров – в 1948 году. В статье «Математическая теория связи» Клод Шеннон изложил основные элементы коммуникации через различные источники информации. Эта публикация положила начало развитию методов обработки, передачи и хранения информации. Еще Шеннон развил понятия информационной энтропии и избыточности, а также ввел термин бит как единицу информации. В статье была предложена методика кодирования Шеннона-Фано, разработанная им совместно с Робертом Фано.
В 1962 году математик Джон У. Тьюки предсказал влияние современных электронных вычислений на анализ данных как эмпирическую науку. Тем не менее современная наука о данных далека от представлений Тьюки. В 1977 году он опубликовал книгу «Исследовательский анализ данных», утверждая, что больше внимания необходимо уделять использованию данных для проверки гипотез и что исследовательский и подтверждающий анализ данных могут и должны идти бок о бок. Его предсказания появились задолго до Big data и возможности проводить сложный и масштабный анализ. Первый настольный компьютер Programma 101 был представлен публике на Всемирной выставке в Нью-Йорке только в 1964 году.
К 1981 году IBM выпустила свой персональный компьютер, а Apple представила первый компьютер с графическим пользовательским интерфейсом через два года. В течение этого десятилетия вычислительная техника развивалась довольно быстрыми темпами, что давало компаниям возможность намного эффективнее и легче собирать данные. Однако пройдет почти два десятилетия, прежде чем они начнут преобразовывать эти данные в информацию и знания.
В 1974 Питер Наур публикует в Швеции и Соединенных Штатах книгу «Краткий обзор компьютерных методов». В ней были описаны методы обработки данных того времени, которые использовались в широком спектре приложений. Они были организованы в соответствии с концепцией, определенной в Руководстве IFIP по понятиям и терминам обработки данных: «Данные – это представление фактов или идей формализованным образом, способное передаваться или манипулироваться каким-либо процессом». В предисловии к книге говорилось, что на конгрессе IFIP в 1968 году был представлен план курса под названием «Даталогия, наука о данных и процессах обработки данных и ее место в образовании». В книге термин Data Science был интерпретирован как наука, которая имеет дело с данными, как только они получены, в то время, как отношение данных к тому, что они представляют, было делегировано другим областям.
Ключевые работы данного периода
A Mathematical Theory of Communication by Claude Shannon (1948)
Computing Machinery and Intelligence by Alan Turing (1950)
A Business Intelligence System by Hans Peter Luhn (1958)
The Future of Data Analysis by John W. Tukey (1962)
Concise Survey of Computer Methods by Peter Naur (1974)
Exploratory Data Analysis by John W. Tukey (1977)
The Relational Model for Database Management by Edgar F. Codd (1990)
От анализа данных к Data Science
В 1996 году Усама Файяд, Грегори Пятецкий-Шапиро и Падхрейк Смит публикуют книгу «От интеллектуального анализа данных к открытию знаний в базах данных». В ней авторы рассказывают, как исторически понятие поиска полезных паттернов в данных получило множество названий, включая интеллектуальный анализ данных, извлечение знаний, обнаружение информации, сбор информации, археологию данных и обработку паттернов данных. В книге также раскрывается понятие обнаружения знаний в базах данных, которое относится к общему процессу извлечения полезных знаний из данных. Интеллектуального анализ определятся как применение специальных алгоритмов для извлечения паттернов из данных: подготовка данных, отбор данных, очистка данных, включение соответствующих предварительных знаний и правильная интерпретация результатов.
На протяжении 2000-х годов различные научные журналы начали признавать науку о данных как развивающуюся дисциплину. В 2005 году Национальный Научный Совет выступил с заявлением в поддержку карьерного роста специалистов в области Data Science, чтобы обеспечить наличие экспертов.
К этому времени компании также начали рассматривать данные как товар, на котором можно заработать. Томас Дэвенпорт, Дон Коэн и Эл Джейкобсон в отчете Исследовательского Центра рабочих знаний Колледжа Бэбсона за 2005 год писали о том, что вместо конкуренции по традиционным факторам, компании начинают использовать статистический и количественный анализ и прогнозное моделирование в качестве основных элементов конкуренции.
В 2009 году главный экономист Google Хэл Вариан заявил изданию McKinsey Quarterly, что он обеспокоен дефицитом способных анализировать «свободные и вездесущие данные» людей. Он также подчеркнул, что на данный момент необходимо понимать эти данные и извлекать из них ценность. Также чрезвычайно важны такие навыки, как способность получать доступ, понимать и передавать информацию, полученную в результате анализа данных.
Ключевые работы данного периода
From Data Mining to Knowledge Discovery in Databases by Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth
Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics by William S. Cleveland
Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century by The National Science Board
Statistical Modeling: The Two Cultures by Leo Breiman
MapReduce: simplified data processing on large clusters by Jeffrey Dean and Sanjay Ghemawat
Competing on Analytics by Thomas H. Davenport
Introduction to Dataology and Data Science by Yangyong Zhu and Yun Xiong
Современная Data Science
В 2010 году Дрю Конвей публикует книгу, в которой пишет, «что тому, кто хочет стать компетентным Data Scientist, необходимо многому научиться. К сожалению, простое перечисление текстов и учебников не распутывает узлы. Поэтому стремясь упростить обсуждение и добавить свои собственные мысли к тому, что уже является переполненным рынком идей, я представляю диаграмму Венна Data Science, в которую включены навыки программирования, математические и статистические знания, а также опыт независимой работы».
По мере того, как наука о данных развивается и становится частью бизнеса, растет и необходимость в создании сильных инновационных команд в этой области. В 2011 году D.J. Patil публикует статью «Создавая Data Science команды». Он объясняет, какие навыки, перспективы, инструменты и процессы обеспечивают таким командам успех.
В 2021 Data Science стала занимать центральное место в ИТ на фоне значительных достижений в области вычислительных технологий, поскольку все больше потребителей начали осваивать их с молниеносной скоростью. С более высокими скоростями обработки информации, чем когда-либо прежде, технология сделала гигантский скачок в новое десятилетие. Большие данные, машинное обучение и deep learning занимают центральное место практически во всех отраслях от бизнеса до образования и медицины. На сегодняшний день специалисты по Data Science бесценны для любой компании.
Ключевые работы данного периода
The Data Science Venn Diagram by Drew Conway
A Taxonomy of Data Science by Hilary Mason and Chris Wiggins
The Three Sexy Skills of Data Geeks by Driscoll
Linked Data by Berners Lee
"Data Science": what's in a name? By David Smith
The Art of Data Science by Matthew J. Graham
Building Data Science Teams by DJ Patil
Data Scientist: The Sexiest Job of the 21st Century by Thomas H. Davenport and D.J. Patil
Заключение
Объединив упомянутые в статье работы и авторов, а также добавив к ним теоретические, вычислительные и научные достижения, мы можем понять историческое развитие науки о данных. Мы видим, что корни Data Science лежат в статистике и что она опирается на математику и информатику. Наука о данных также берет начало из практических целей использования информации для получения знаний, в частности в идее использования данных для решения бизнес-задач.
Наука о данных продолжит изменяться по мере изменения человеческих потребностей, но один момент остается ясным: Data Scientists будут востребованы, пока существуют данные, которые нужно анализировать. Вопрос заключается в том, сколько данных будет доступно, откуда они будут поступать и какие новые методы анализа дадут еще более глубокое их понимание.