تجزیه و تحلیل دیجیتال برای پشتیبانی از طیف گسترده ای از پروژه های علم داده و بالعکس استفاده می شود. ویژگی های ساخته شده با یادگیری ماشین و هوش مصنوعی نیز در راه حل های تجزیه و تحلیل وب ظاهر می شوند – پیش بینی ها، هدف گذاری، خدمات جدید و غیره. گارتنر در یک انتشار اخیر به تحلیلی پیشرفتهیک روند و اولویت اصلی برای CDOها در سال 2020 است. ما اخیراً با ژرمی بورو، دانشمند داده و رئیس تیم علم داده در AT Internet در مورد علم داده و تجزیه و تحلیل مصاحبه کردیم. برای کسب اطلاعات بیشتر به ادامه مطلب بروید…
چگونه یک دانشمند داده شویم؟
مسیرهای زیادی برای ورود به دنیای علم داده وجود دارد. دانشکده ها و دانشگاه های مهندسی دوره هایی از مقطع کارشناسی ارشد تا دکترا را ارائه می دهند. در واقع، تقاضا برای متخصصان داده آنقدر زیاد است که مدارس خصوصی تخصصی شروع به ظهور کرده اند. من شخصاً در دانشگاه بوردو در رشته ریاضیات کاربردی تحصیل کردم و سپس با مدرک دکترای ریاضیات و آمار در دانشگاه تولوز ادامه دادم. من پایان نامه خود را تحت توافقنامه CIFRE (کنوانسیون صنعتی فرانسه برای یادگیری مبتنی بر تحقیق) نوشتم و در طول سه سال دکتری خود به عنوان مهندس تحقیق و توسعه برای یک استارت آپ کار کردم. پایان نامه من در مورد قابلیت اطمینان سیستم های مکان یابی جغرافیایی در زمینه هوانوردی بود. سپس در زمینه های مختلف حرفه ای مانند مراقبت های بهداشتی، اشتغال و فناوری دیجیتال کار کردم.
چگونه علم داده به طور خاص برای یک راه حل تجزیه و تحلیل در حالت SaaS اعمال می شود؟
هنگام کار بر روی مشکلاتی که نیاز به پردازش دادهها دارند، قبل از اینکه حتی به مدلهای پیشبینیکننده یا یادگیری ماشینی برویم، برای استخراج اطلاعاتی که عملی و دارای ارزش افزوده هستند، باید دو الزام را برآورده کنیم – اول، جمعآوری مقدار کافی داده و دوم، حصول اطمینان از اینکه نماینده جمعیتی است که می خواهیم مطالعه کنیم. مزیت بزرگ AT Internet تنوع وب سایت های مشتریان است که امکان تیک زدن هر دو کادر را فراهم می کند!
با این حال، هر سایت بسته به بخش تجاری خود، ویژگی های خاص خود را خواهد داشت. این تفاوت ها می تواند از یک بخش به بخش دیگر بسیار متفاوت باشد – سایت های تجارت الکترونیک، رسانه ها، تبلیغ کنندگان، بانک ها، سایت های سازمانی و غیره.
تیم علم داده باید ابزارهایی را برای همه مشتریان ما ارائه دهد تا به آنها کمک کند تا استراتژی بازاریابی خود را بهینه کنند. ابزارهای مبتنی بر الگوریتمها و مدلهای ریاضی باید امکان توصیف و پیشبینی رفتار کاربران اینترنت را فراهم کنند.
نمونهای از این روش تقسیمبندی برای شناسایی کاربرانی است که بیشترین خرید را انجام میدهند، یا کاربرانی که احتمال ریزش بالایی دارند (لغو اشتراک یا عدم بازگشت به سایت). اغلب موضوع انتخاب بین یک مدل عمومی با عملکرد متوسط قابل قبول برای همه سایت های مشتری یا یک مدل خاص برای سایت های مشابه است.
امروزه چگونه و چرا علم داده برای تحلیلگران وب مفید است؟
علم داده اکنون قادر به ارائه ابزارهای توصیفی، پیش بینی و حتی تجویزی برای پشتیبانی از تحلیلگران است. معیارهای متعددی برای نظارت و درک برای به دست آوردن اطلاعات مفید وجود دارد. همچنین منطقی نیست که سعی کنید این تعداد زیادی از معیارها را به صورت دستی دنبال کنید. یکی از کاربردهای یادگیری ماشین برای کمک به تحلیلگران، ارائه است سرویس تشخیص ناهنجاری خودکار. هدف این است که نوسانات غیرمعمول یا مشکوک در معیارها را در طول زمان مشاهده کنید. تیم های ما در حال حاضر روی تجزیه و تحلیل کار می کنند تا دلایل احتمالی این ناهنجاری ها را توضیح دهند – برای مثال، اگر یک ربات از سایتی عبور کند و باعث افزایش قابل توجهی در ترافیک شود، یک ناهنجاری در تعداد صفحات مشاهده شده تشخیص داده می شود. هدف ما این است که با کاوش خودکار مجموعهای از ابعاد (منبع، دستگاه، مرورگر و غیره) از تحلیلگر در کار تحقیقاتیاش حمایت کنیم. ماژول تجزیه و تحلیل علت اصلی ما نشان می دهد که این ناهنجاری ناشی از افزایش غیرمعمول ترافیک در بخش ترافیک مستقیم کانادایی نسخه 55 کروم است. این نوع ابزار به تحلیلگر اجازه می دهد تا تحلیل اولیه را انجام دهد و درک بهتری از رفتار به ترتیب به دست آورد. برای پیش بینی و اجرای اقدامات یا استراتژی های لازم.
تقسیم بندی RFM یکی دیگر از موارد استفاده است – این گروه بندی (بخش بندی) مشتریان بر اساس عادت های خرید آنها به منظور بهینه سازی یک استراتژی بازاریابی است. معاملات مشتری بر اساس سه معیار تجزیه و تحلیل می شود: تاریخ آخرین خرید (تازه بودن)، تعداد دفعات برای یک دوره معین، مقدار (انباشته برای آن دوره). سپس از روش های امتیازدهی برای ایجاد بخش های مشتری مانند ستاره ها که زیاد خرید می کنند و اخیراً خرید کرده اند یا تختخواب های اقتصادی که اخیراً نمره بدی دارند. در AT Internet، ما تصمیم گرفتیم یک ویژگی خوشهبندی خودکار RFM را ادغام کنیم – ایده این است که از یک تحلیل کلید در دست استفاده کنیم که به طور خودکار با زمینه مشتری و به ویژه با نوسانات فصلی سازگار شود. علاوه بر این، عناصر پیشبینی اضافه شده و در مجموعهای از گرافیکهای سازگار ادغام میشوند. تیمهای ما در حال حاضر از همان روشهای تقسیمبندی استفاده میکنند، اما براساس معیارهای مربوط به تعامل و نه خرید، تا امکان استفاده از این ویژگیها در سایتهای غیرمعامله را فراهم کنند.
چالش های پیش روی تیم علم داده در AT Internet چیست؟
اول، ساخت یک علم داده نقشه راه با توجه به نیاز کاربران ما. اولویت ما توجه و پاسخگویی است. از منظر سازمانی، تیم ما در حال حاضر بخشی از یک محیط توسعه سطح بالا است. این امر مستلزم اجرای یک گردش کار است که ترکیبی از تحقیق و توسعه گسترده، صنعتیسازی و بهینهسازی مداوم مدلهای ما باشد.
اکنون هر یک از اعضای تیم باید بتواند هم مسائل مدلسازی و هم صنعتی شدن را مدیریت کند. فناوریها و ابزارهایی که این تیم استفاده میکند بسیار متنوع است: Python، R، Shiny، Scala، Spark، Elastic Search، Kibana، Snowflake، AWS، Kubernetes، Jenkins، Git و غیره. چالش کلیدی دیگر این است که اطمینان حاصل شود که پایه مهارت های تیم به طور مداوم برای همه پیشرفت می کند. برای این منظور با پلتفرم هایی مانند DataCamp یا Kaggle کار می کنیم.
و به طور خلاصه…
این مهم است که همیشه روشن و توجه، با اشتیاق به کشف و یادگیری باقی بمانید – “علم داده توسط کنجکاوی هدایت می شود”.