علم و تحلیل داده ها: مصاحبه با J. Bureau


مصاحبه علم داده و تجزیه و تحلیل

تجزیه و تحلیل دیجیتال برای پشتیبانی از طیف گسترده ای از پروژه های علم داده و بالعکس استفاده می شود. ویژگی های ساخته شده با یادگیری ماشین و هوش مصنوعی نیز در راه حل های تجزیه و تحلیل وب ظاهر می شوند – پیش بینی ها، هدف گذاری، خدمات جدید و غیره. گارتنر در یک انتشار اخیر به تحلیلی پیشرفتهیک روند و اولویت اصلی برای CDOها در سال 2020 است. ما اخیراً با ژرمی بورو، دانشمند داده و رئیس تیم علم داده در AT Internet در مورد علم داده و تجزیه و تحلیل مصاحبه کردیم. برای کسب اطلاعات بیشتر به ادامه مطلب بروید…

چگونه یک دانشمند داده شویم؟

مسیرهای زیادی برای ورود به دنیای علم داده وجود دارد. دانشکده ها و دانشگاه های مهندسی دوره هایی از مقطع کارشناسی ارشد تا دکترا را ارائه می دهند. در واقع، تقاضا برای متخصصان داده آنقدر زیاد است که مدارس خصوصی تخصصی شروع به ظهور کرده اند. من شخصاً در دانشگاه بوردو در رشته ریاضیات کاربردی تحصیل کردم و سپس با مدرک دکترای ریاضیات و آمار در دانشگاه تولوز ادامه دادم. من پایان نامه خود را تحت توافقنامه CIFRE (کنوانسیون صنعتی فرانسه برای یادگیری مبتنی بر تحقیق) نوشتم و در طول سه سال دکتری خود به عنوان مهندس تحقیق و توسعه برای یک استارت آپ کار کردم. پایان نامه من در مورد قابلیت اطمینان سیستم های مکان یابی جغرافیایی در زمینه هوانوردی بود. سپس در زمینه های مختلف حرفه ای مانند مراقبت های بهداشتی، اشتغال و فناوری دیجیتال کار کردم.

چگونه علم داده به طور خاص برای یک راه حل تجزیه و تحلیل در حالت SaaS اعمال می شود؟

هنگام کار بر روی مشکلاتی که نیاز به پردازش داده‌ها دارند، قبل از اینکه حتی به مدل‌های پیش‌بینی‌کننده یا یادگیری ماشینی برویم، برای استخراج اطلاعاتی که عملی و دارای ارزش افزوده هستند، باید دو الزام را برآورده کنیم – اول، جمع‌آوری مقدار کافی داده و دوم، حصول اطمینان از اینکه نماینده جمعیتی است که می خواهیم مطالعه کنیم. مزیت بزرگ AT Internet تنوع وب سایت های مشتریان است که امکان تیک زدن هر دو کادر را فراهم می کند!

با این حال، هر سایت بسته به بخش تجاری خود، ویژگی های خاص خود را خواهد داشت. این تفاوت ها می تواند از یک بخش به بخش دیگر بسیار متفاوت باشد – سایت های تجارت الکترونیک، رسانه ها، تبلیغ کنندگان، بانک ها، سایت های سازمانی و غیره.

تیم علم داده باید ابزارهایی را برای همه مشتریان ما ارائه دهد تا به آنها کمک کند تا استراتژی بازاریابی خود را بهینه کنند. ابزارهای مبتنی بر الگوریتم‌ها و مدل‌های ریاضی باید امکان توصیف و پیش‌بینی رفتار کاربران اینترنت را فراهم کنند.

نمونه‌ای از این روش تقسیم‌بندی برای شناسایی کاربرانی است که بیشترین خرید را انجام می‌دهند، یا کاربرانی که احتمال ریزش بالایی دارند (لغو اشتراک یا عدم بازگشت به سایت). اغلب موضوع انتخاب بین یک مدل عمومی با عملکرد متوسط ​​قابل قبول برای همه سایت های مشتری یا یک مدل خاص برای سایت های مشابه است.

امروزه چگونه و چرا علم داده برای تحلیلگران وب مفید است؟

علم داده اکنون قادر به ارائه ابزارهای توصیفی، پیش بینی و حتی تجویزی برای پشتیبانی از تحلیلگران است. معیارهای متعددی برای نظارت و درک برای به دست آوردن اطلاعات مفید وجود دارد. همچنین منطقی نیست که سعی کنید این تعداد زیادی از معیارها را به صورت دستی دنبال کنید. یکی از کاربردهای یادگیری ماشین برای کمک به تحلیلگران، ارائه است سرویس تشخیص ناهنجاری خودکار. هدف این است که نوسانات غیرمعمول یا مشکوک در معیارها را در طول زمان مشاهده کنید. تیم های ما در حال حاضر روی تجزیه و تحلیل کار می کنند تا دلایل احتمالی این ناهنجاری ها را توضیح دهند – برای مثال، اگر یک ربات از سایتی عبور کند و باعث افزایش قابل توجهی در ترافیک شود، یک ناهنجاری در تعداد صفحات مشاهده شده تشخیص داده می شود. هدف ما این است که با کاوش خودکار مجموعه‌ای از ابعاد (منبع، دستگاه، مرورگر و غیره) از تحلیلگر در کار تحقیقاتی‌اش حمایت کنیم. ماژول تجزیه و تحلیل علت اصلی ما نشان می دهد که این ناهنجاری ناشی از افزایش غیرمعمول ترافیک در بخش ترافیک مستقیم کانادایی نسخه 55 کروم است. این نوع ابزار به تحلیلگر اجازه می دهد تا تحلیل اولیه را انجام دهد و درک بهتری از رفتار به ترتیب به دست آورد. برای پیش بینی و اجرای اقدامات یا استراتژی های لازم.

بسته تحلیلی تشخیص ناهنجاری 2 در اینترنت
شکل 1: مجموعه Analytics 2 – تشخیص ناهنجاری AT Internet 2019

تقسیم بندی RFM یکی دیگر از موارد استفاده است – این گروه بندی (بخش بندی) مشتریان بر اساس عادت های خرید آنها به منظور بهینه سازی یک استراتژی بازاریابی است. معاملات مشتری بر اساس سه معیار تجزیه و تحلیل می شود: تاریخ آخرین خرید (تازه بودن)، تعداد دفعات برای یک دوره معین، مقدار (انباشته برای آن دوره). سپس از روش های امتیازدهی برای ایجاد بخش های مشتری مانند ستاره ها که زیاد خرید می کنند و اخیراً خرید کرده اند یا تختخواب های اقتصادی که اخیراً نمره بدی دارند. در AT Internet، ما تصمیم گرفتیم یک ویژگی خوشه‌بندی خودکار RFM را ادغام کنیم – ایده این است که از یک تحلیل کلید در دست استفاده کنیم که به طور خودکار با زمینه مشتری و به ویژه با نوسانات فصلی سازگار شود. علاوه بر این، عناصر پیش‌بینی اضافه شده و در مجموعه‌ای از گرافیک‌های سازگار ادغام می‌شوند. تیم‌های ما در حال حاضر از همان روش‌های تقسیم‌بندی استفاده می‌کنند، اما براساس معیارهای مربوط به تعامل و نه خرید، تا امکان استفاده از این ویژگی‌ها در سایت‌های غیرمعامله را فراهم کنند.

RFM Analytics Suite 2 Clustering
شکل 2: گروه بندی RFM در Analytics Suite 2 – AT Internet 2019

چالش های پیش روی تیم علم داده در AT Internet چیست؟

اول، ساخت یک علم داده نقشه راه با توجه به نیاز کاربران ما. اولویت ما توجه و پاسخگویی است. از منظر سازمانی، تیم ما در حال حاضر بخشی از یک محیط توسعه سطح بالا است. این امر مستلزم اجرای یک گردش کار است که ترکیبی از تحقیق و توسعه گسترده، صنعتی‌سازی و بهینه‌سازی مداوم مدل‌های ما باشد.

گردش کار علم داده در AT Internet در سال 2019
شکل 3: گردش کار علم داده – AT Internet 2019

اکنون هر یک از اعضای تیم باید بتواند هم مسائل مدلسازی و هم صنعتی شدن را مدیریت کند. فناوری‌ها و ابزارهایی که این تیم استفاده می‌کند بسیار متنوع است: Python، R، Shiny، Scala، Spark، Elastic Search، Kibana، Snowflake، AWS، Kubernetes، Jenkins، Git و غیره. چالش کلیدی دیگر این است که اطمینان حاصل شود که پایه مهارت های تیم به طور مداوم برای همه پیشرفت می کند. برای این منظور با پلتفرم هایی مانند DataCamp یا Kaggle کار می کنیم.

و به طور خلاصه…

این مهم است که همیشه روشن و توجه، با اشتیاق به کشف و یادگیری باقی بمانید – “علم داده توسط کنجکاوی هدایت می شود”.

دیدگاهتان را بنویسید