Наука о данных – это то, что делает нас людьми такими, какие мы есть сегодня. Нет, не компьютерная наука о данных, а способность нашего мозга видеть связи, делать выводы из фактов и извлекать уроки из нашего прошлого опыта. Более чем любой другой вид на планете, мы зависим от нашего мозга для выживания. Эта стратегия уже сработала для нас, и мы вряд ли изменим ее в ближайшем будущем. Но наш мозг может зайти так далеко, когда дело доходит до необработанных вычислений. Наша сущность не может идти в ногу с объемами данных, которые мы можем собирать сейчас, и с уровнем нашего любопытства. Поэтому мы обращаемся к машинам, чтобы выполнить часть работы за нас: распознавать шаблоны, создавать связи и предоставлять нам ответы на наши многочисленные вопросы. Поиски знаний в наших генах. Полагаться на компьютеры для выполнения части работы для нас является большим плюсом и экономией времени.
Большие данные – это общий термин для любого набора данных, настолько больших или сложных, что становится трудно обрабатывать их с использованием традиционных методов управления данными, таких как, например, системы управления реляционными базами данных. Широко распространенная СУБД долгое время считалась универсальным решением, но требования обработки больших данных показали обратное. Наука о данных предполагает использование методов для анализа огромных объемов данных и извлечения содержащихся в них знаний. Вы можете рассматривать отношения между большими данными и наукой о данных как отношения между сырой нефтью и нефтеперерабатывающим заводом. Наука о данных и большие данные произошли из статистики и традиционного управления данными, но теперь считаются отдельными дисциплинами. Характеристики больших данных часто называют тремя пунктами: 1) Объем – сколько там всего данных? 2) Разнообразие – насколько разнообразны данные различных типов? 3) Скорость – с какой скоростью генерируются новые данные? Часто эти характеристики дополняются четвёртой достоверностью: насколько точны представленные данные? Эти четыре свойства отличают большие данные от данных, используемых в традиционных инструментах управления данными. Следовательно, проблемы, с которыми они сталкиваются, могут ощущаться практически во всех аспектах: сбор, обработка, хранение, поиск, совместное использование, передача и визуализация данных. Кроме того, большие данные требуют специальных методов для извлечения информации. Наука о данных – это эволюционное расширение статистики, способное справляться с огромными объемами данных, производимых сегодня.
Это добавляет методы из информатики в репертуар статистики. В исследовательской записке от Laney and Kart, Emerging Role of the Data Scientist и Art of Science, авторы проанализировали сотни описаний должностей для исследователя данных, статистики и аналитика Business Intelligence, чтобы обнаружить различия между этими названиями. Главные вещи, которые отличают ученого от статистиков – это способность работать с большими данными и опыт в машинном обучении, вычислениях и построении алгоритмов. Их инструменты имеют тенденцию отличаться. Кроме того, в описаниях должностей исследователя данных чаще упоминается возможность использования Hadoop, Pig, Spark, R, Python и Java, а также других. Не беспокойтесь, если вас пугает этот список, большинство из них будут постепенно представлены в этой книге, хотя мы сосредоточимся на Python. Python – отличный язык для науки о данных, потому что он имеет много доступных библиотек данных и широко поддерживается специализированным программным обеспечением. Например, почти каждая популярная база данных NoSQL имеет специфичный для Python API. Благодаря этим функциям и способности быстро создавать прототипы с помощью Python, сохраняя при этом приемлемую производительность, его влияние постоянно растет в мире науки о данных. По мере того, как объем данных продолжает расти, и необходимость его использования становится все более важной, каждый ученый сталкивается с проектами в области больших данных на протяжении всей своей карьеры.
Наука о данных и большие данные используются практически повсеместно как в коммерческих, так и в некоммерческих условиях. Количество вариантов использования огромно. Коммерческие компании почти во всех отраслях используют науку о данных и большие данные, чтобы получить представление о своих клиентах, процессах, персонале, завершении и продуктах. Многие компании используют науку о данных, чтобы предложить клиентам лучший пользовательский интерфейс, а также для перекрестных продаж, дополнительных продаж и персонализации своих предложений. Хорошим примером этого является Google AdSense, который собирает данные от пользователей Интернета, чтобы соответствующие коммерческие сообщения могли быть сопоставлены с пользователем, просматривающим Интернет. Например, персонализированная реклама в реальном времени. Специалисты по персоналу используют аналитику человеческого капитала и анализ текста для отбора кандидатов, мониторинга настроения сотрудников и изучения неформальных сетей среди сотрудников. Аналитика человеческого капитала – центральная тема книги «Moneyball: искусство побеждать в нечестной игре». В книге (и фильме) мы увидели, что традиционный процесс скаутинга для американского бейсбола был случайным, и замена его коррелированными сигналами изменила все. Опираясь на статистику, они могли нанимать правильных игроков и противопоставлять их противникам, где у них было бы наибольшее преимущество.
Финансовые учреждения используют науку о данных для прогнозирования фондовых рынков, определения риска кредитования денег и изучения способов привлечения новых клиентов для своих услуг. По крайней мере, половина сделок во всем мире совершается автоматически на машинах, основанных на алгоритмах, как часто называют ученых, работающих над торговыми алгоритмами, с помощью больших данных и методов науки о данных. Правительственные организации также осознают ценность данных. Многие правительственные организации не только полагаются на специалистов по внутренним данным для поиска ценной информации, но и делятся своими данными с общественностью. Вы можете использовать эти данные для понимания или создания приложений, управляемых данными. Data.gov – это всего лишь один пример, это дом открытых данных правительства США. Специалист по данным в правительственной организации начинает работать над различными проектами, такими как обнаружение мошенничества и другой преступной деятельности или оптимизация финансирования проекта. Хорошо известный пример предоставил Эдвард Сноуден, который просочился во внутренние документы Американского агентства национальной безопасности и штаба связи правительства Великобритании, которые ясно показывают, как они использовали науку о данных и большие данные для мониторинга миллионов людей. Эти организации собрали 5 миллиардов записей данных из широко распространенных приложений, таких как Google Maps, Angry Birds, электронной почты и текстовых сообщений, среди многих других источников данных. Затем они применили методы науки о данных для сбора информации. Неправительственные организации также привыкли использовать данные, чтобы собрать деньги и защитить свои активы. Например, Всемирный фонд дикой природы нанимает ученых, занимающихся исследованием данных для повышения эффективности своих усилий по сбору средств. Многие исследователи данных посвящают часть своего времени для помощи неправительственным организациям, потому что неправительственным организациям зачастую не хватает ресурсов для сбора данных и найма ученых данных. DataKind – одна из таких групп исследователей данных, которая посвящает свое время на благо человечества.
Университеты используют науку о данных в своих исследованиях[1, 2], а также для увеличения уровня образованности своих студентов. Рост массовых открытых онлайн-курсов дает много информации, что позволяет университетам изучать, как этот тип обучения может дополнять традиционные классы. Массовые открытые онлайн-курсы – это бесценный актив, если вы хотите стать специалистом по данным и специалистом в области больших данных, поэтому обязательно обратите внимание на некоторые из наиболее известных: Coursera, Udacity и edX. Ситуация с большими данными и наукой о данных быстро меняется, и массовые открытые онлайн-курсы позволяют вам изучать актуальные дисциплины лучших университетов. Если вы еще не знакомы с ними, найдите время, чтобы сделать это сейчас.
Источники 1. Зиганшина Ф.Т., Исмагилова А.С., Ахметьянова А.И., Ахметшина Е.С., Ахмерова А.А. Компьютерное моделирование задачи определения базиса гомодесмических реакций // Системы управления и информационные технологии. 2019. №4 (78). С.10-15. 2. Исмагилова А.С., Ахмеров А.А., Хурсан С.Л., Ахметьянова А.И., Зиганшина Ф.Т., Юнусов А.А., Ахметшина Е.С. Энергетические характеристики ациклических и циклических органических соединений // Свидетельство о регистрации базы данных RU 2018621520, 27.09.2018. Заявка № 2018621253 от 10.09.2018.
Ахметьянова А.И., Исмагилова А.С.