چرا وارد حوزه علم داده (Data science) بشیم؟

فرض کنید یک فروشگاه زنجیره ای بزرگ طی سالیان کاریش داده های مشتریان رو جمع آوری کرده و جداول بزرگی از کلمات و عدد و رقم به دست آورده. با آنالیز این داده ها متوجه میشن که قبل از بروز یک طوفان سهمگین، مردم تمایل دارن یک خوراکی به خصوص رو خریداری کنن. عجیبه نه؟ اما این یک مثال واقعی از آنالیز داده های مشتریان Walmart هست. اون ها متوجه شدن زمانی که قراره Hurricane (طوفان با بادهای شدید) بیاد، مردم تمایل به خرید پاپ تارت توت فرنگی (Strawberry Pop-Tarts) دارن. بنابراین، قفسه های فروشگاهشون رو پر از این خوراکی می کنن تا میزان فروش زیادی رو تجربه کنن.

یا فرض کنید داده های بسیار زیادی در مورد تست های تشخیص آزمایشگاهی با یک روش به خصوص داریم. مثلا در مورد بیماری COVID-19 هزاران تست آزمایشگاهی رو با روش Real time PCR انجام دادیم و نتایج رو با یک سری اطلاعات دیگه ثبت کردیم. با آنالیز این داده ها (اگر دیتاست کاملی باشه) و ساخت مدل های ماشین لرنینگ می تونیم روش آزمایشگاهی رو ارتقا بدیم یا با رسیدن به یک سطح به خصوص از نتیجه، حدس بزنیم جواب پایانی قراره چی باشه. مثال های بسیار زیادی در مورد کار با داده وجود دارن و روز به روز آنالیزهای گوناگون و ساخت مدل های ماشین لرنینگ برای کار با این داده ها توسعه داده می شن.

علم داده چیست؟

علم داده یا Data Science یک فیلد بین رشته ای هست که در اون از آمار، الگوریتم های مختلف و نرم افزارها برای استخراجِ تفسیر و تحلیل پیرامون داده های موجود استفاده می‌شه. در حقیقت می تونیم الگوی های پنهان بین داده های موجود رو پیدا کنیم و به دیدگاه جدیدی از وضع موجود برسیم. علم داده یک حوزه چند بعدی هست. می تونیم اون رو به عنوان یک علم مجزا، یک الگوی تحقیقاتی و پژوهشی، یک رشته دانشگاهی و یا یک حرفه کاری توصیف کنیم. شاید علت این موضوع این باشه که فیلد کاری نوینی هست و هنوز فعالین اون در حال تلاش برای پخته تر کردنش هستن. البته ریشه های این حوزه برمی‌گرده به سال ۱۹۶۲ که آقای John Tukey فیلدی رو تحت عنوان data analysis معرفی کردن و یه جورایی زمینه ساز علم داده مدرن امروزی شد. ایشون کسی هست که تکنیک های مربوط به EDA یا همون Exploratory data analysis رو معرفی کردن. رویکردی که در اون داده ها قبل از اعمال یک مدل خاص، مورد تحلیل رو بررسی قرار می‌گیرن. در علم داده امروزی هم به کررات از EDA استفاده میشه.

یک دیتاساینتیست به واسطه اینکه کارش با داده و الگوریتم هاست، در صورت تسلط کافی بر حوزه کاریش می تونه در پروژه های گوناگونی شرکت کنه. مثلا مدتی رو در یک شرکت اینترنتی استریم فیلم استخدام باشه یا بعدش وارد یک فروشگاه بزرگ زنجیره ای بشه. حتی می تونه با تیم های علمی و تحقیقاتی هم همکاری کنه. مهم اینه که کارش با داده هست و قراره الگوی های پنهان بین این داده ها رو شناسایی و به تفسیر و تحلیل های مناسبی از وضعیت دیتاست برسه.

مسیر یادگیری علم داده

علم داده یا دیتاساینس در بین حوزه هایی که قلبا بهشون علاقه دارم خودش رو به بالاترین ردیف ها رسونده. چند سالی هست که در تلاشم این حوزه رو بهتر درک کنم و پروژه های علمی مرتبطی رو هم با کمک داده های زیستی انجام دادم. البته به نظر خودم راه برای پیشرفت در این حوزه خیلی زیاد هست و تا تلفیق ۱۰۰ درصدی اون با مسیر کاریم راه بیشتری رو میشه طی کرد. اما برحسب تجربه باید بگم که یادگیری در علم داده وابسته به چند فاکتور مهم و یادگیری چند شاخه علمی دیگه هست. به صورت کلی مهم ترین حوزه هایی که باید به اون ها تسلط پیدا کنید:

  • ریاضیات مورد نیاز این حوزه مثل جبر خطی
  • آمار و احتمال
  • یادگیری یک زبان برنامه نویسی (مثل R یا پایتون)
  • یادگیری ماشین لرنینگ و دیپ لرنینگ
  • تکنیک های مصورسازی

هستن. به عنوان کسی که در دوران دبیرستان خیلی طرفدار ریاضیات نبودم، بعد از ورود به این حوزه و انجام یک سری پروژه ها متوجه شدم اگر به صورت کاربردی یادگیری رو آغاز کنید، ریاضیات مورد استفاده در این حوزه خیلی پیچیده نیست و با تمرین مداوم میشه این خلاء رو پر کرد.

زبان های برنامه نویسی برای علم داده

به نظر من در حال حاضر زبان های R و پایتون بهترین انتخاب ها برای ورود به مسیر دیتاساینس هستن. اینکه کدوم بهتر و قوی تر هست رو کاملا بسته به وضعیت و کاری که قرار هست انجام بدیم، باید بررسی کرد. اگر قصد داشته باشید فقط روی داده های زیستی کار کنید، طبیعتا R به دلیل پکیج های اختصاصی زیادی که داره یک انتخاب عالی هست و اگر قصد دارین روی مباحث عمومی تری کار کنید، پایتون انتخاب خوبیه. هر دو زبان برای ماشین لرنینگ که یکی از بخش های اصلی در پروژه های دیتاساینس هست، قدرتمند عمل می کنن. اما در ایده آل ترین حالت، خوبه که سعی کنید هر دو زبان رو یاد بگیرید. اگر یک زبان برنامه نویسی رو اصولی کار کرده باشید، یادگیری زبان جدید خیلی زمان‌بر نخواهد بود. بنابراین، فرقی نداره که با کدوم شروع کنید، مهم اینه که زبان برنامه نویسی مد نظرتون رو انتخاب و مسیر رو آغاز کنید.

مهم ترین موضوعی که باید بهش توجه داشته باشید، این هست که برنامه نویسی رو در بلند مدت یاد بگیرید. طبیعتا دوره های برنامه نویسی زیادی وجود دارن که ادعا می کنند در بازه زمانی کوتاهی از شما یک متخصص در اون حوزه میسازن. اما فراموش نکنید که این آموزش ها مناسب افرادی با یک بک گراند قابل قبول در برنامه نویسی هست. پس اگر برای اولین بار قصد دارید یادگیری برنامه نویسی رو شروع کنید، در یک بازه بلند مدت و با انجام تمرین های متعدد برای هر مبحث، مسیر آموزشی رو پیش ببرید. من در‌ آکادمی دایا زیست فناوران دو دوره جامع R و پایتون رو تدریس می کنم که هر دو دوره از پایه و نقطه صفر آغاز می شن. همچنین رویکرد این دوره ها به صورت تخصصی آنالیز داده هست و مثال های بیوانفورماتیکی رو هم شامل میشن.

چرا علم داده ارزش وقت گذاشتن داره؟

مهم ترین علت به غیر از جذابیت بسیار زیاد این حوزه، قابل تعمیم بودن اون به شاخه های گوناگون علمی و کاری هست. یعنی یک دیتاساینتیست به دلیل مهارتی که داره می تونه وارد انواع شرکت ها و مشاغل با حوزه های کاری گوناگون و همچنین انواع پروژه های پژوهشی بشه. با توجه به حجم زیاد داده تولیدی توسط انسان طی زندگی روزمره، سرعت تولید داده از سرعت تولید تکنولوژی های آنالیز داده سبقت گرفته و به همین جهت موقعیت های کاری خیلی زیادی در حوزه علم داده وجود دارن. با پشتکار و خلاقیت می‌شه در یک بازه زمانی یک تا دو سال در این فیلد به جایگاه خوبی رسید و وارد شرکت های گوناگون شد. متوسط میانگین حقوق دیتاساینتیست در سال ۲۰۲۲ داخل آمریکا حدود ۱۴۰ هزار دلار در سال بوده و جالبه بدونید آگهی های استخدامی این حوزه در ایران هم همراه با حقوق قابل قبولی هستن. چند موردی که من بعضا دیدم بین ۱۰ تا ۲۰ میلیون تومان ماهانه بودن (در سال ۱۴۰۱).

با توجه به موارد گفته شده به نظرم علم داده واقعا ارزش وقت گذاشتن رو داره و امروز نه تنها اشخاص بلکه شرکت های بزرگ هم اگر از این حوزه دوری کنند، قطعا رقبا ازشون سبقت خواهند گرفت. رقابت کاری در دنیای مدرن امروز تا حد بسیار زیادی وابسته به تکنولوژی های نوین و حوزه های جدید قدرتمند هست. پس زمانی که شرکت هایی که هنوز از قدرت دیتاساینس غافل هستن این نیاز رو احساس کنن، تعداد بسیار زیادی موقعیت کاری جدید ایجاد خواهد شد و دیتاساینتیست های حرفه ای به جایگاه خیلی خوبی خواهند رسید.

چقدر این نوشته برات مفید بود؟

از ۱ تا ۵ امتیاز بدید

میانگین رتبه 4.5 / 5. تعداد رای: 4

هنوز امتیازی ثبت نشده، اولین نفر باشید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *