Светлана Сененко (turtle_t) wrote,
Светлана Сененко
turtle_t

Categories:

Про профессию data analyst

Меня недавно попросили рассказать про профессию data analyst. Обычно когда я отвечаю на такого рода вопросы, сначала изучаю предмет всесторонне и стараюсь ответить как можно более точно и универсально. А тут вот делаю исключение и расскажу главным образом про свой личный опыт, который, ясное дело, и специфический, и ограниченный.

Начну с того, что на data analyst’а я никогда не училась специально и даже не знала, что такая профессия существует, пока в Штаты не приехала в 1995 году. Тут я встретила парочку живых data analyst'ов из числа старых знакомых. Один из них даже прислал мне своё резюме с описанием необходимых skills (знаний и умений), типа как образец, и оно читалось экзотичней, чем китайская грамота.

Ведь мало того, что в моё время (я училась в ХПИ с 1971 по 1977 годы) профессии data analyst ещё не придумали, так и самую нужную для неё математику (статистику) мы не проходили (самым близким был курс теории вероятностей с примерами из стрельбы). А главное, к моменту приезда в Штаты я уже несколько лет как ушла из технической области в гуманитарную -- из инженеров в журналисты, на этом дельфине и через океан переплыла.

Но одно дело гостить, а другое -- жить и работать. Это я к тому, что выигранная грин-карта вернула меня обратно из гуманитариев в технари. В то время ещё распухал дот-камовский пузырь, и я стала читать всякие книжки, которые, как мне казалось (и как мне советовали друзья и знакомые), могут быть полезным для работы веб-программистом. В этой куче много чего оказалось: и JavaScript, и PowerBuilder, и Perl, а самой интересной и приятной для чтения оказалась книжка типа "SQL для чайников".

Моей "первой настоящей американской работой" стала должность web-programmer в маленькой компании, делавшей порталы для вузов и школ, которой владели (и в большинстве и работали) китайцы из Тайваня. Прежде всего там мне была нужна джава-скрипт, но иногда приходилось писать запросы для оракла. Т.е. моё первое практическое знакомство с базой данных состоялось через веб.

Примерно в это же время меня попросили написать речёвку для флайера (рекламной листовки), представляющего новый бизнес, специализирующийся на data-mining. Сначала мне объяснили идею по-русски, а потом, в процессе поиска общепринятых английских терминов и фраз, я ещё почитала об этом деле в интернете по-английски. И прониклась.

На следующую свою работу (в рекламном агенстве) я тоже попала "через веб". А на месте выяснилось, что отделу, в котором я шабашила, нужны люди на постоянной основе, которые могли бы делать разные вещи для разных клиентов (и для внутреннего потребления), связанные с обработкой и анализом данных.

Делать мне это нравилось, да и получалось неплохо, а ежели я чего не знала (поначалу не знала многого), так можно ж учиться на ходу, сначала по мере возникновения необходимости, а потом и впрок. Начала со справочника по математике и постепенно собрала мини-библиотеку, от учебника по статистике до классического труда по адресному маркетингу (с дарственной надписью от автора -- он вась-вась с моей начальницей). Проработала я там лет семь, а потом наше агенство стало частью международной корпорации, и наш отдел сократили поголовно вместе с начальницей, а его функции передали конторам в Нью-Йорке и Лондоне (экономика, как говорится, должна быть экономной). Сейчас моя работа тоже называется data analyst, но совсем в другой сфере, и о ней я пока не готова рассказывать, а вот о предыдущем опыте, в маркетинге, пожалуй, в самый раз.

В самом общем виде цель деятельности data analyst’а может наверное быть описана, как процесс выделения осмысленной и полезной информации из груды "сырых" данных.

Что это за сырые данные такие? Источники для них могут быть самые разные. И перепись населения, и медицинские записи (из которых, понятное дело, исключена личная информация), и чековая лента из магазинов (тоже обычно обезличенная), и результаты опросов.

Причём если собирают эти данные обычно не data analyst'ы, то засунуть их в базу данных для хранения и анализа нередко приходится им самим. Самый простой с этой точки зрения случай -- обработка результатов опросов. Тогда база данных -- это просто таблица, в которой столько колонок, сколько вариантов вопросов-ответов, а каждая строка представляет одного опрошенного. Анализ таких таблиц тоже довольно прям и прост: надо посчитать, сколько людей выбрали такой или сякой ответ, как отличаются ответы для разных демографических групп, есть ли корреляции между разными ответами-выборами и т.д. и т.п.

Мелкий и типичный пример из моей работы. В результате анализа одного из опросов высянилось, что люди склонны по-разному использовать некий сахарозаменитель, в зависимости от возраста и пола, причём, те, кто покупают эту гадость наиболее активно (замужние женщины с детьми в возрасте от 25 до 34 лет), чаще всего используют её для выпечки. Вскоре после того, как наш клиент получил эту информацию (в числе прочего), я увидела по телику рекламу этого сахарозаменителя, в которой молодая хозяйка кормила пирожками своё семейство, упирая на то, что в них меньше калорий, чем если бы она туда настоящего сахару вбухала.

Сложнее и интереснее, когда данные получаются из разных источников (к примеру, как результаты разных рекламных кампаний), через разные каналы (почта, веб, телефон) и в разных форматах. Тогда одной таблицей не обойдёшься, надо строить нормальную базу данных из нескольких связанных между собой таблиц. А сами данные надо чистить (например, выкидывать явные глупости -- есть довольно много шутников с избытком свободного времени, и они обожают резвиться, отвечая на вопросы анкет; а ещё бывает нужно править формат, разбивать слитные записи на кусочки, стандартизировать адреса и т.д. и т.п.), выявлять двойников, собирать историю ответов респондентов и т.д. и т.п. Так я построила и вела базу данных одного из производителей лекарства от СДВГ (ADHD). Сама по себе это занятная история, когда-нибудь расскажу.

А ещё время от времени надо было делать массовые рассылки (как по нормальным адресам, так и электронным), и составление списка, кому, куда и что посылать -- это тоже часть работы data analyst’а, и довольно ответственная: нельзя посылать тем, кто не хочет ничего получать, нельзя посылать на фальшивые адреса, нельзя, чтобы один и тот же человек получил больше, чем одно послание, ну, и прочее в том же роде. Казалось бы, простая задача, но бывает, что хитрая.

Пока что я рассказала про data analysis (анализ данных), но кроме него, data analyst'ы, если повезёт, занимаются data mining’ом (вики говорит, что русского точного аналога этому термину пока что нету; предлагается тот же анализ данных, но с прилагательными типа глубинный или интеллектуальный).

В чём между ними разница? Просто анализ данных делается в лоб: посчитали, сколько таких-то выбрали / делают то-то. Но если данных очень много, то связь между разными переменными может быть сложной, и её не всегда можно предугадать. Выявление скрытых и неочевидных закономерностей и связей в больших массивах данных и называется data mining. Делается это чаще всего с помощью специального софта типа SAS (на самом деле их много разных).

Тут тоже лучше на примерах пояснить. Классический пример вполне реальный, но с годами получивший статус городской легенды. А именно, что по вечерам в будние дни, особенно к концу недели, увеличиваются покупки одновременно пива и одноразвых пелёнок (памперсов). Объяснение тут такое, что ежели молодые папаши получают задание экстренно пополнить запас пелёнок, то забежав за ними по пути с работы домой, заодно и себя балуют пивком. Эту не слишком очевидную закономерность обнаружил некий дата-майнер в начале 90-х годов, когда прочёсывал громадный набор данных по продажам (копии чеков) сети аптек (а как многие уже знают, американские аптеки традиционно играют роль мини-универсамов). Кроме этой связи тогда же он заметил, что средства от кашля и соки тоже хорошо идут вместе, но она в фольклор не вошла.

Какая польза заказчику (в данном случае магазину) от подобных находок? Если цель -- увеличить прибыль, то, например, можно расположить полки для таких парных товаров по соседству, чтобы даже ленивые не пропустили, или не продавать их в это время со скидкой. На самом деле природа таких зависимостей довольно зыбкая и может со временем меняться. Поэтому, как правило, тут нельзя посчитать "раз и навсегда".

Типичный класс задач по data mining'у в маркетинге -- найти, какими неочевидными, но важными параметрами отличается так называемая целевая группа. К примеру, готовится очередная рассылка выпускникам некоего вуза с просьбой денег дать (а пожертвования успешных выпускников -- главный (после взносов текущих студентов) ресурс для процветания американских университетов и колледжей). Можно в принципе послать просительные письма всем подряд, но это дорого и неэффективно: большинство заведомо не дадут. Как повысить эффективность? Другими словами, как найти группу, которая более склонна к благодарной благотворительности? Надо проанализировать базу данных всех выпускников и посмотреть, чем отличаются доноры от всех остальных. Эту задачу я лично не делала, но смотрела, как делают другие (продавцы очередного софта для data mining). Оказалось, что решающую роль играют два параметра вместе: обладание дорогим домом плюс повышенная увлечённость игрой в гольф. А вот уровень доходов сам по себе не является решающим (хотя он влияет на величину пожертвований).

Лично я решала другую задачу: определяла группу тех, кто, беря машину напрокат, более склонен заказывать некие дополнительные вещи: от страховки до GPS-а. Формула получилась довольно заковыристой, но вроде бы сработала.

К задачам data-mining относится сегментация (классификация) клиентов. Мне самой не приходилось их решать, зато я часто пользовалась результатами, полученным другими.

Так же, как и более простой и прямой data analysis, data mining применяется в разных сферах кроме маркетинга. Одна из типичных задач -- вычисление повышенной вероятности мошенничества с кредитными картами. Хотя математику для такого рода задач начали разрабатывать довольно давно, до самого последнего времени реально решать их было невозможно -- слишком много вычислений. Сейчас же компьютеры щёлкают их как семечки, надо только сказать им, что именно и как щёлкать.

Теперь, после этого "развёрнутого вступления", отвечу на конкретные вопросы.

Как приобретают такую специальность? Вот, romanet говорит, что надо выучить курс статистики, и это наверное так и есть. Кроме этого желательно ознакомиться с базами данных и языком запросов (SQL). А ещё не повредит умение манипулировать текстовыми файлами.

Какие качества, навыки, знания (кроме SAS, Access, Excel) ценятся больше всего? На самом деле даже эти три необязательны. Вместо SAS'а может быть, к примеру, SPSS, Matlab или другой специализированный софт, а вместо Acess’а скажем, SQL Server или Oracle. Наверное не обойдёшься без Excel'а , потому что именно в нём зачастую надо делать отчёты: таблички и картинки-графики. А потом и в каком-нибудь PowerPoint’е. Но и тут могут быть варианты, потому что софта для отчётов тоже хватает. Короче говоря, слишком привязываться к какому-то конкретному инструменту не надо, а вот быть готовым к работе по нескольким направлениями надо. Что это за направления? Обязательная часть: запросы к базам данных и изготовление отчётов в виде таблиц и графиков. Опциональная, но тоже важная часть: работа с каким-нибудь специализированным софтом для data analysis и data mining. Ещё более опциональная часть: обработка текстовых файлов. Общий принцип такой: чем больше знаешь и умеешь, тем лучше – всё может пригодиться. А ценится больше всего ум и сообразительность плюс умение применить их к решению конкретных задач.

Насколько интересна или занудна эта работа? Дежурный ответ -- смотря кому. Мне вот очень даже интересна, потому как я люблю решать задачки и узнавать новое про людей. Профессия data analyst комбинирует в себе оба этих занятия.

Уровень стресса, востребованность рынком. Опыт показывает, что уровень стресса связан, скорее, не со специальностью, как таковой, а с тем, как налажена и организована работа, подходит ли она работнику, и кто работает рядом с ним или с ней. Стресса в нашем отделе хватало, но меня он чаще не утомлял, а развлекал -- пока наши дела не стали плохи, тогда, конечно, не до развлечений становится.

Про востребованность рынком -- она вполне заметна, Спецы по анализу данных нужны практически везде: и в бизнесе, и в социальных науках, и в здравоохранении, и в безопасности. Это как бы вообще, а конкретно, пока наш отдел фурычил, нам постоянно были нужны люди. Они приходили и уходили, кто сам, а кто не сам. И надо сказать, что найти по-настоящему хорошего специалиста было нелегко.

И в заключении картинка на тему:

Текст тут такой. На первой картинке data analyst (знаменитый персонаж комиксов Dilbert) говорит: "У меня нет точных цифр, поэтому я взял их с потолка". На второй картинке он же продолжает: "Исследования показывают, что от точных цифр пользы не больше, чем от цифр, взятых с потолка." На третьей его спрашивают: "Сколько исследований показали это?", -- на что он отвечает: "87".
Tags: memoir, картинки, работа, юмор
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 31 comments