?

Log in

No account? Create an account

Previous Entry | Next Entry

Про профессию data analyst

Меня недавно попросили рассказать про профессию data analyst. Обычно когда я отвечаю на такого рода вопросы, сначала изучаю предмет всесторонне и стараюсь ответить как можно более точно и универсально. А тут вот делаю исключение и расскажу главным образом про свой личный опыт, который, ясное дело, и специфический, и ограниченный.

Начну с того, что на data analyst’а я никогда не училась специально и даже не знала, что такая профессия существует, пока в Штаты не приехала в 1995 году. Тут я встретила парочку живых data analyst'ов из числа старых знакомых. Один из них даже прислал мне своё резюме с описанием необходимых skills (знаний и умений), типа как образец, и оно читалось экзотичней, чем китайская грамота.

Ведь мало того, что в моё время (я училась в ХПИ с 1971 по 1977 годы) профессии data analyst ещё не придумали, так и самую нужную для неё математику (статистику) мы не проходили (самым близким был курс теории вероятностей с примерами из стрельбы). А главное, к моменту приезда в Штаты я уже несколько лет как ушла из технической области в гуманитарную -- из инженеров в журналисты, на этом дельфине и через океан переплыла.

Но одно дело гостить, а другое -- жить и работать. Это я к тому, что выигранная грин-карта вернула меня обратно из гуманитариев в технари. В то время ещё распухал дот-камовский пузырь, и я стала читать всякие книжки, которые, как мне казалось (и как мне советовали друзья и знакомые), могут быть полезным для работы веб-программистом. В этой куче много чего оказалось: и JavaScript, и PowerBuilder, и Perl, а самой интересной и приятной для чтения оказалась книжка типа "SQL для чайников".

Моей "первой настоящей американской работой" стала должность web-programmer в маленькой компании, делавшей порталы для вузов и школ, которой владели (и в большинстве и работали) китайцы из Тайваня. Прежде всего там мне была нужна джава-скрипт, но иногда приходилось писать запросы для оракла. Т.е. моё первое практическое знакомство с базой данных состоялось через веб.

Примерно в это же время меня попросили написать речёвку для флайера (рекламной листовки), представляющего новый бизнес, специализирующийся на data-mining. Сначала мне объяснили идею по-русски, а потом, в процессе поиска общепринятых английских терминов и фраз, я ещё почитала об этом деле в интернете по-английски. И прониклась.

На следующую свою работу (в рекламном агенстве) я тоже попала "через веб". А на месте выяснилось, что отделу, в котором я шабашила, нужны люди на постоянной основе, которые могли бы делать разные вещи для разных клиентов (и для внутреннего потребления), связанные с обработкой и анализом данных.

Делать мне это нравилось, да и получалось неплохо, а ежели я чего не знала (поначалу не знала многого), так можно ж учиться на ходу, сначала по мере возникновения необходимости, а потом и впрок. Начала со справочника по математике и постепенно собрала мини-библиотеку, от учебника по статистике до классического труда по адресному маркетингу (с дарственной надписью от автора -- он вась-вась с моей начальницей). Проработала я там лет семь, а потом наше агенство стало частью международной корпорации, и наш отдел сократили поголовно вместе с начальницей, а его функции передали конторам в Нью-Йорке и Лондоне (экономика, как говорится, должна быть экономной). Сейчас моя работа тоже называется data analyst, но совсем в другой сфере, и о ней я пока не готова рассказывать, а вот о предыдущем опыте, в маркетинге, пожалуй, в самый раз.

В самом общем виде цель деятельности data analyst’а может наверное быть описана, как процесс выделения осмысленной и полезной информации из груды "сырых" данных.

Что это за сырые данные такие? Источники для них могут быть самые разные. И перепись населения, и медицинские записи (из которых, понятное дело, исключена личная информация), и чековая лента из магазинов (тоже обычно обезличенная), и результаты опросов.

Причём если собирают эти данные обычно не data analyst'ы, то засунуть их в базу данных для хранения и анализа нередко приходится им самим. Самый простой с этой точки зрения случай -- обработка результатов опросов. Тогда база данных -- это просто таблица, в которой столько колонок, сколько вариантов вопросов-ответов, а каждая строка представляет одного опрошенного. Анализ таких таблиц тоже довольно прям и прост: надо посчитать, сколько людей выбрали такой или сякой ответ, как отличаются ответы для разных демографических групп, есть ли корреляции между разными ответами-выборами и т.д. и т.п.

Мелкий и типичный пример из моей работы. В результате анализа одного из опросов высянилось, что люди склонны по-разному использовать некий сахарозаменитель, в зависимости от возраста и пола, причём, те, кто покупают эту гадость наиболее активно (замужние женщины с детьми в возрасте от 25 до 34 лет), чаще всего используют её для выпечки. Вскоре после того, как наш клиент получил эту информацию (в числе прочего), я увидела по телику рекламу этого сахарозаменителя, в которой молодая хозяйка кормила пирожками своё семейство, упирая на то, что в них меньше калорий, чем если бы она туда настоящего сахару вбухала.

Сложнее и интереснее, когда данные получаются из разных источников (к примеру, как результаты разных рекламных кампаний), через разные каналы (почта, веб, телефон) и в разных форматах. Тогда одной таблицей не обойдёшься, надо строить нормальную базу данных из нескольких связанных между собой таблиц. А сами данные надо чистить (например, выкидывать явные глупости -- есть довольно много шутников с избытком свободного времени, и они обожают резвиться, отвечая на вопросы анкет; а ещё бывает нужно править формат, разбивать слитные записи на кусочки, стандартизировать адреса и т.д. и т.п.), выявлять двойников, собирать историю ответов респондентов и т.д. и т.п. Так я построила и вела базу данных одного из производителей лекарства от СДВГ (ADHD). Сама по себе это занятная история, когда-нибудь расскажу.

А ещё время от времени надо было делать массовые рассылки (как по нормальным адресам, так и электронным), и составление списка, кому, куда и что посылать -- это тоже часть работы data analyst’а, и довольно ответственная: нельзя посылать тем, кто не хочет ничего получать, нельзя посылать на фальшивые адреса, нельзя, чтобы один и тот же человек получил больше, чем одно послание, ну, и прочее в том же роде. Казалось бы, простая задача, но бывает, что хитрая.

Пока что я рассказала про data analysis (анализ данных), но кроме него, data analyst'ы, если повезёт, занимаются data mining’ом (вики говорит, что русского точного аналога этому термину пока что нету; предлагается тот же анализ данных, но с прилагательными типа глубинный или интеллектуальный).

В чём между ними разница? Просто анализ данных делается в лоб: посчитали, сколько таких-то выбрали / делают то-то. Но если данных очень много, то связь между разными переменными может быть сложной, и её не всегда можно предугадать. Выявление скрытых и неочевидных закономерностей и связей в больших массивах данных и называется data mining. Делается это чаще всего с помощью специального софта типа SAS (на самом деле их много разных).

Тут тоже лучше на примерах пояснить. Классический пример вполне реальный, но с годами получивший статус городской легенды. А именно, что по вечерам в будние дни, особенно к концу недели, увеличиваются покупки одновременно пива и одноразвых пелёнок (памперсов). Объяснение тут такое, что ежели молодые папаши получают задание экстренно пополнить запас пелёнок, то забежав за ними по пути с работы домой, заодно и себя балуют пивком. Эту не слишком очевидную закономерность обнаружил некий дата-майнер в начале 90-х годов, когда прочёсывал громадный набор данных по продажам (копии чеков) сети аптек (а как многие уже знают, американские аптеки традиционно играют роль мини-универсамов). Кроме этой связи тогда же он заметил, что средства от кашля и соки тоже хорошо идут вместе, но она в фольклор не вошла.

Какая польза заказчику (в данном случае магазину) от подобных находок? Если цель -- увеличить прибыль, то, например, можно расположить полки для таких парных товаров по соседству, чтобы даже ленивые не пропустили, или не продавать их в это время со скидкой. На самом деле природа таких зависимостей довольно зыбкая и может со временем меняться. Поэтому, как правило, тут нельзя посчитать "раз и навсегда".

Типичный класс задач по data mining'у в маркетинге -- найти, какими неочевидными, но важными параметрами отличается так называемая целевая группа. К примеру, готовится очередная рассылка выпускникам некоего вуза с просьбой денег дать (а пожертвования успешных выпускников -- главный (после взносов текущих студентов) ресурс для процветания американских университетов и колледжей). Можно в принципе послать просительные письма всем подряд, но это дорого и неэффективно: большинство заведомо не дадут. Как повысить эффективность? Другими словами, как найти группу, которая более склонна к благодарной благотворительности? Надо проанализировать базу данных всех выпускников и посмотреть, чем отличаются доноры от всех остальных. Эту задачу я лично не делала, но смотрела, как делают другие (продавцы очередного софта для data mining). Оказалось, что решающую роль играют два параметра вместе: обладание дорогим домом плюс повышенная увлечённость игрой в гольф. А вот уровень доходов сам по себе не является решающим (хотя он влияет на величину пожертвований).

Лично я решала другую задачу: определяла группу тех, кто, беря машину напрокат, более склонен заказывать некие дополнительные вещи: от страховки до GPS-а. Формула получилась довольно заковыристой, но вроде бы сработала.

К задачам data-mining относится сегментация (классификация) клиентов. Мне самой не приходилось их решать, зато я часто пользовалась результатами, полученным другими.

Так же, как и более простой и прямой data analysis, data mining применяется в разных сферах кроме маркетинга. Одна из типичных задач -- вычисление повышенной вероятности мошенничества с кредитными картами. Хотя математику для такого рода задач начали разрабатывать довольно давно, до самого последнего времени реально решать их было невозможно -- слишком много вычислений. Сейчас же компьютеры щёлкают их как семечки, надо только сказать им, что именно и как щёлкать.

Теперь, после этого "развёрнутого вступления", отвечу на конкретные вопросы.

Как приобретают такую специальность? Вот, romanet говорит, что надо выучить курс статистики, и это наверное так и есть. Кроме этого желательно ознакомиться с базами данных и языком запросов (SQL). А ещё не повредит умение манипулировать текстовыми файлами.

Какие качества, навыки, знания (кроме SAS, Access, Excel) ценятся больше всего? На самом деле даже эти три необязательны. Вместо SAS'а может быть, к примеру, SPSS, Matlab или другой специализированный софт, а вместо Acess’а скажем, SQL Server или Oracle. Наверное не обойдёшься без Excel'а , потому что именно в нём зачастую надо делать отчёты: таблички и картинки-графики. А потом и в каком-нибудь PowerPoint’е. Но и тут могут быть варианты, потому что софта для отчётов тоже хватает. Короче говоря, слишком привязываться к какому-то конкретному инструменту не надо, а вот быть готовым к работе по нескольким направлениями надо. Что это за направления? Обязательная часть: запросы к базам данных и изготовление отчётов в виде таблиц и графиков. Опциональная, но тоже важная часть: работа с каким-нибудь специализированным софтом для data analysis и data mining. Ещё более опциональная часть: обработка текстовых файлов. Общий принцип такой: чем больше знаешь и умеешь, тем лучше – всё может пригодиться. А ценится больше всего ум и сообразительность плюс умение применить их к решению конкретных задач.

Насколько интересна или занудна эта работа? Дежурный ответ -- смотря кому. Мне вот очень даже интересна, потому как я люблю решать задачки и узнавать новое про людей. Профессия data analyst комбинирует в себе оба этих занятия.

Уровень стресса, востребованность рынком. Опыт показывает, что уровень стресса связан, скорее, не со специальностью, как таковой, а с тем, как налажена и организована работа, подходит ли она работнику, и кто работает рядом с ним или с ней. Стресса в нашем отделе хватало, но меня он чаще не утомлял, а развлекал -- пока наши дела не стали плохи, тогда, конечно, не до развлечений становится.

Про востребованность рынком -- она вполне заметна, Спецы по анализу данных нужны практически везде: и в бизнесе, и в социальных науках, и в здравоохранении, и в безопасности. Это как бы вообще, а конкретно, пока наш отдел фурычил, нам постоянно были нужны люди. Они приходили и уходили, кто сам, а кто не сам. И надо сказать, что найти по-настоящему хорошего специалиста было нелегко.

И в заключении картинка на тему:

Текст тут такой. На первой картинке data analyst (знаменитый персонаж комиксов Dilbert) говорит: "У меня нет точных цифр, поэтому я взял их с потолка". На второй картинке он же продолжает: "Исследования показывают, что от точных цифр пользы не больше, чем от цифр, взятых с потолка." На третьей его спрашивают: "Сколько исследований показали это?", -- на что он отвечает: "87".

Comments

( 31 comments — Leave a comment )
esya
Oct. 27th, 2011 03:30 am (UTC)
интересно... может, в будущем и поучусь :) а пока, записалась на онлайн курс по базам данных и дропнула, не начав
turtle_t
Oct. 27th, 2011 08:16 pm (UTC)
Надо же, а я думала, что у учёных-исследователей работа ещё интересней... И опять же ноболевку можно получить, а дата-аналистам её не дают :)
(no subject) - esya - Oct. 27th, 2011 08:17 pm (UTC) - Expand
(no subject) - turtle_t - Oct. 27th, 2011 08:24 pm (UTC) - Expand
romanet
Oct. 27th, 2011 03:55 am (UTC)
:) У меня очень плохо получается выражать мысли словами, поэтому я часто пишу сразу итог моих размышлений.
Вот примерная цепочка:
Человек ищет работу и спрашивает очень чайниковый вопрос ->
SAS это инструмент для обработки стат. данных, со своим языком похожим на SQL, если не знаешь статискики, то знание SAS работу не поможет найти ->
есть профессии в IT, где не нужно специальных технических знаний: QA, business analyst, для таких работ полезно знание SQL, Excel, etc, тем более, что это относительно простые вещи -> ввывод, не нужно человеку сейчас искать работу (или готовиться к ней) в этой области, если он не знает, что такое data analyst.

Сейчас ihmo, не 95 год, и даже не 2000. Я смотрю на уровень образования, тех кто приходит в QA, и мне кажется, что data analyst, это не та позиция, куда берут новичков со стороны. Самый простой способ зацепиться в IT, пойти на курсы qa, которые обеспечиваю выпускников практикой. И ещё нужно смотреть трезво на свои плюсы и минусы, если человек может поднять программирование на базовом уровне - qa automation может быть неплохим вариантом, если нет, manual tester тоже специальность, которая открывает определённые перспективы.
youngracoon
Oct. 27th, 2011 11:19 am (UTC)
romanet, с таким анализом трудно быть data analyst'ом :) Откуда вы все это придумали: "человек ищет работу" и пр.? У человека есть специальные технические знания (Computer science), программирование на хорошем уровне, пять лет тимлидерства в QA (и automation в том числе) и даже девменеджером два года. Он не ищет работу (хотя кто не мечтает о лучшем), а просто заинтересовался специальностью "data analyst". Ну вот щелкнуло, захотелось узнать побольше из первых рук :) Светлану читаю давно и мне показалось, что она успешна в своей профессии. Просто так поспрашивать не решался (мы лично не знакомы), а тут вот подвернулся случай - объявление о вакансии :)

Ну ладно, это было вступление, а вопрос вот по этой фразе: "Я смотрю на уровень образования, тех кто приходит в QA, и мне кажется, что data analyst, это не та позиция, куда берут новичков со стороны." Каков, исходя из вашего опыта, уровень образования тех, кто приходит в QA (речь идет о Канаде, судя по вашему профилю)? И как уровень образования QA-специалистов коррелирует с требованиями к позиции "data analyst"?

Спасибо,
Юрий
(no subject) - romanet - Oct. 28th, 2011 02:11 am (UTC) - Expand
(no subject) - youngracoon - Oct. 28th, 2011 05:08 am (UTC) - Expand
tanuhr
Oct. 27th, 2011 04:37 pm (UTC)
Зря вы так про QA, конечно.
Не так уж много компаний, которые возьмут на работу гуманитара решившего окончить курсы и работать тестером.
Техническое образование, хорошее логическое мышление, способность программировать, на мой взгляд, уже базовые вещи для QA.
И мне сейчас кажется что data analyst где-то недалеко. Все мы проходили статистику, теорвер в университете, повторить курс и довести до приличного уровня это можно самостоятельно. Базы данных вспомнить/подтянуть тоже не проблема для технаря.
В общем, звучит так, что переквалифицироваться человеку с техническим образованием в data analyst возможно и не является сверхсложной задачей.
Я не права?
(no subject) - romanet - Oct. 28th, 2011 02:24 am (UTC) - Expand
(no subject) - romanet - Oct. 28th, 2011 02:37 am (UTC) - Expand
(no subject) - turtle_t - Oct. 28th, 2011 02:50 am (UTC) - Expand
(no subject) - (Anonymous) - Oct. 29th, 2011 01:32 am (UTC) - Expand
(no subject) - turtle_t - Oct. 29th, 2011 02:01 am (UTC) - Expand
(no subject) - tanuhr - Oct. 28th, 2011 03:07 am (UTC) - Expand
(no subject) - romanet - Oct. 29th, 2011 02:18 am (UTC) - Expand
(no subject) - romanet - Oct. 29th, 2011 02:19 am (UTC) - Expand
(no subject) - turtle_t - Oct. 27th, 2011 08:22 pm (UTC) - Expand
banana_fish
Oct. 27th, 2011 05:29 am (UTC)

Спасибо за очень интересный пост!

turtle_t
Oct. 27th, 2011 08:28 pm (UTC)
А я как раз про Вас думала, когда его писала. Даже заглянула к Вам, проверить новости (кстати, если есть, то поделитесь, пожалуйста -- интересно же). Вполне возможно, что Вам такая работа подойдёт, и то, что Вы уже знаете, тоже пригодится. Я думаю, что начинать пробиваться может быть легче с маленьких компаний, а то и "неприбыльных" (НГО). Там платят мало, зато свободы много, и можно и учиться на практике, и опыта понабраться, и резюме подукрасить.
(no subject) - banana_fish - Oct. 28th, 2011 11:58 pm (UTC) - Expand
youngracoon
Oct. 27th, 2011 10:49 am (UTC)
Светлана, огромное спасибо!
turtle_t
Oct. 27th, 2011 08:29 pm (UTC)
На здоровье, и спасибо Вам за вопрос.

Edited at 2011-10-27 08:30 pm (UTC)
tanuhr
Oct. 27th, 2011 04:24 pm (UTC)
Очень интересно! Спасибо за рассказ.
А не могли бы вы подсказать какие-нить хорошие книжки по вашей специальности (как математические, так и общие рассуждения на тему) или хорошие ресурсы куда можно заглянуть для более подробного ознакомления?
turtle_t
Oct. 27th, 2011 08:58 pm (UTC)
Честно говоря, я даже и не знаю. Ну, разве что кроме учебника по статистике, причём, здешнего, там примеры толковые есть. А дальше уже многое зависит от области, куда человека занесёт. Грубо говоря, для маркетинга лучше одни книжки, а, скажем, для финансов другие. Если нужны книжки по аналитике в маркетинге, схожу посмотрю "своих" авторов и названия.
(no subject) - tanuhr - Oct. 27th, 2011 09:02 pm (UTC) - Expand
lyudmilki
Oct. 27th, 2011 07:49 pm (UTC)
Спасибо. Очень интересно :)
Рассказывал знакомый-знакомого, который держит аптеку.
Цены на памперсы за последние десять лет сильно упали. И не потому что их производство подешевело. А потому что сами аптеки и магазины субсидирую памперсы, продают себе в убыток. Именно потому что памперсы-товар ходовой, покупают их регулярно, а вместе с ними и "еще что-то".

Когда училась, статистика была для меня одним из самых тоскливых предметов. Хотя к математике способности есть. А вот SQL ей парочку в свободное время для своего удовольствия написать - это пожалуйста :)
turtle_t
Oct. 27th, 2011 09:03 pm (UTC)
Интересно про памперсы. Про отношение к статистике понимаю. Я на теории вероятности тоже очень страдала, прямо стыдно было, потому что преподавал нам её прекрасный чувак, у нас с ним было много общего, включая музыку, лёгкое диссидентство и горный туризм, на переменах я с ним соловьём разливалась, а на занятиях боролась со сном. Но когда статистика "прикладная", это совсем другое дело. Честно. Думаю, что из Вас как раз может очень хороший data-analyst получиться. И высокооплачиваемый :)
802_11
Oct. 28th, 2011 12:41 pm (UTC)
Как интересно! Спасибо, что описали подробно. Посоветуете какой-нибудь томик стат-анализа/анализа датасетов for dummies?

Я проходила стат-анализ во время первой учебы на психолога, но успела прочно все забыть за 8 лет.
А в этом году аналитика данных мне стала очень актуальна, потому что работа потихоньку перетекла в рисование визуализаций данных и проектировку интерактивного датавиза, и тут я стала чаще сталкиваться со своим пробелом в preliminary понимании крупных датасетов и их внутренних и внешних связей.
turtle_t
Oct. 29th, 2011 02:36 am (UTC)
Трудно советовать, потому что я ими никогда не пользовалась. Но вот сейчас посмотрела, что предлагают в этом формате ("для чайников") в амазоне, и судя по описанию и отзывам, я бы выбрала либо две сразу, либо одну из вот этих двух:

1) Statistics Workbook For Dummies by Deborah Rumsey-Johnson

2) The Complete Idiot's Guide to Statistics by Robert A. Donnelly

Во второй книжке, говорят, есть ошибки, но их уже наши и исправили, пока правда только на веб-сайте.

Но если Вы уже изучали статистику, то может Вам не для чайников и идиотов нужны книжки, а наоборот :) Например, вот эта:

Qualitative Inquiry and Research Design: Choosing among Five Approaches by John W. Creswell

А если с уклоном в запросы к базам данных и репортам, то вот эту:

Data Analysis Using SQL and Excel by Gordon S. Linoff

Но это я сужу только по описаниям и отзывам. Сама их в руках не держала. А если бы было нужно мне, поехала бы в большой книжны и полистала там всё, что есть. А потому купила бы, что приглянулось, в амазоне.
(no subject) - 802_11 - Oct. 29th, 2011 09:03 am (UTC) - Expand
( 31 comments — Leave a comment )

Profile

Wayne_George_turtle_t
turtle_t
Светлана Сененко

Latest Month

December 2016
S M T W T F S
    123
45678910
11121314151617
18192021222324
25262728293031

Tags

Powered by LiveJournal.com
Designed by Tiffany Chow