لینک کوتاه:
https://hrhome.ir/?p=18150آنچه در این مطلب میخوانید:
هنگامی که درباره تجزیه و تحلیل دادههای منابع انسانی صحبت میکنیم، از واژههایی مانند یادگیری ماشین، الگوریتمها و دادهکاوی استفاده میکنیم. اما آیا واقعاً معنای این اصطلاحات را میدانیم؟ راستش را بخواهید، اولین باری که این اصطلاحات را شنیدم، نمیدانستم… این مطلب به برخی از اصطلاحات رایج در تجزیه و تحلیل منابع انسانی میپردازد.
۱- دادهکاوی (Data mining)
دادهکاوی مانند جستجوی طلا است. جستوجو گران طلا در میان انبوهی از خاک و سنگ به امید یافتن قطعهای طلای براق هستند. دادهکاوی فرآیند کشف الگوها در انبوهی از دادههای خام و تبدیل آنها به اطلاعات ملموس است که به نوبه خود میتواند برای پیشبینی رفتار یا حوادث واقعی زندگی استفاده شود. قابل توجه است که ۹۹.۵٪ از کل دادههای جهان هرگز تجزیه و تحلیل نشدهاند.
یک تکنیکی که در دادهکاوی استفاده میشود، یادگیری ماشین نام دارد.
۲- یادگیری ماشین (Machine learning)
یادگیری ماشین تکنیکی است که معمولاً در فرایند دادهکاوی استفاده میشود. از طریق این تکنیک، یک ماشین (کامپیوتر) با تجزیه و تحلیل دادهها و شناسایی الگوها از دادههای شما یاد میگیرد. این بدان معنی است که یادگیری ماشین را میتوان نوعی هوش مصنوعی (AI) دانست، زیرا ابزارهای لازم را برای جذب اطلاعات جدید در اختیار رایانهها قرار میدهد.
۳- درخت تصمیم (Decision tree)
درخت تصمیم مدلی است که شبیه به یک درخت است و از تصمیمات و پیامدهای احتمالی آنها تشکیل شده است. این یک ابزار مفید برای پیشبینی آینده (نزدیک) است. درخت تصمیم به شما امکان را میدهد که با یادگیری از دادههای موجود، پیشبینی کنید که چه اتفاقی ممکن است بیفتد. این بسیار شبیه به شیوهای است که همه از تجربیات گذشته خود درس میگیرند. در یک درخت تصمیم، هر تصمیمی به عنوان یک گره و هر گزینه نتیجه به عنوان یک شاخه نشان داده میشود.
۴- زبان R
بسیاری از متخصصان منابع انسانی اغلب از اکسل استفاده میکنند. با این حال، اکثر تحلیلگران پیشبینیکننده منابع انسانی از R استفاده میکنند. R احتمالاً محبوبترین ابزار برای دانشمندان داده است R یک سیستم منبع باز (رایگان) برای محاسبات آماری و تجسم است. همچنین به شما امکان میدهد با مجموعه دادههای عظیمی کار کنید که برای اکسل بسیار بزرگ هستند.
۵- دادههای ساختاریافته در مقابل دادههای بدون ساختار (Structured vs. unstructured data)
ما زیاد در مورد دادهها صحبت میکنیم. دو تمایز در دادهها وجود دارد. هنگامی که داده ها به طور مرتب در یک صفحه گسترده یا پایگاه داده سازماندهی شده باشد، دادههای ساختاریافته نامیده میشود. برای مثال، منابع انسانی، نام کارمندان، سن آنها، محل زندگی آنها، اینکه در کدام بخش کار میکنند، نحوه عملکرد آنها و غیره را میداند. همه این دادهها ساختاریافته هستند: با جستجوی نام یا شناسه، میتوانید به راحتی جزئیات یک فرد را پیدا کنید.
دادههای بدون ساختار برعکس هستند. فقدان ساختار آن، مرتب کردن این دادهها را به امری زمانبر و انرژیبر تبدیل میکند. به عنوان مثال، ایمیلها را در نظر بگیرید. مرتب کردن دقیق ایمیلها بر اساس موضوع یا محتوا غیرممکن است (بنابراین بدون ساختار) هستند. این دادهها به احتمال زیاد قبل از اینکه بتوان آنها را تجزیه و تحلیل کرد، باید ساختاریافته شوند.
۶- یادگیری با ناظر در مقابل یادگیری بدون ناظر (Supervised vs. unsupervised learning)
یادگیری با ناظر (Supervised Learning) و یادگیری بدون ناظر (Unsupervised Learning) دو نوع اصلی یادگیری ماشین هستند که هر کدام روشهای خاص خود را برای پردازش دادهها دارند.
یادگیری با ناظر (Supervised Learning):
در این نوع یادگیری، مدل با استفاده از دادههای ورودی (که شامل ویژگیها هستند) و دادههای خروجی (نتایج مطلوب یا برچسبها) آموزش میبیند. به عبارت دیگر، شما به الگوریتم میگویید که چه چیزی درست است و چه چیزی غلط، و آن را با مثالهای مشخص تربیت میکنید. این روش برای پیشبینی یا طبقهبندی موارد جدید استفاده میشود.
مثال: فرض کنید میخواهید یک مدل بسازید که پیشبینی کند آیا یک ایمیل هرزنامه است یا نه. شما به الگوریتم ایمیلهای قبلی را نشان میدهید (دادههای ورودی) و به آنها برچسب میزنید که هر کدام هرزنامه بوده یا نبودهاند (دادههای خروجی). سپس، الگوریتم میتواند بر اساس آنها پیشبینی کند.
یادگیری بدون ناظر (Unsupervised Learning):
در یادگیری بدون ناظر، مدل فقط با دادههای ورودی آموزش میبیند و هیچ برچسبی به دادهها داده نمیشود. هدف در اینجا کشف الگوها یا ساختارهایی در دادهها است. الگوریتم باید خودش بفهمد دادهها چگونه سازماندهی شدهاند و چه شباهتها یا تفاوتهایی در آنها وجود دارد.
مثال: فرض کنید میخواهید مشتریان یک فروشگاه آنلاین را بر اساس رفتار خریدشان گروهبندی کنید. با استفاده از دادههای خرید آنها (بدون دستهبندی مشخص)، الگوریتم میتواند گروههایی از مشتریان با رفتار مشابه ایجاد کند.

۷- خوشهبندی (Clustering)
خوشهبندی (Clustering) یکی از تکنیکهای یادگیری ماشین است که هدفش گروهبندی دادهها به دستههای مشابه است. در واقع، خوشهبندی به ما کمک میکند تا دادهها را بر اساس ویژگیهای مشترک یا شباهتها شناسایی و طبقهبندی کنیم.
توضیح ساده:
تصور کنید که شما یک باغ میوه دارید، و میخواهید درختان میوههای مختلف را به گروههای مشابه دستهبندی کنید. با خوشهبندی، میتوانید درختان را بر اساس نوع میوه، رنگ میوه یا حتی اندازه درختان به چند گروه تقسیم کنید.
مثال:
فرض کنید شما دادههایی از تعداد و رنگ گلهای مختلف در یک باغ دارید. میخواهید آنها را به خوشههای مختلف تقسیم کنید. در این صورت میتوانید:
- گروه اول: گلهای قرمز (مثل گل رز)
- گروه دوم: گلهای زرد (مثل گل آفتابگردان)
- گروه سوم: گلهای سفید (مثل گل مریم)
با استفاده از الگوریتمهای خوشهبندی، کامپیوتر میتواند به طور اتوماتیک این گلها را بر اساس رنگ و نوع آنها به گروههای مشخص تقسیم کند.
کاربردها:
خوشهبندی در بسیاری از زمینهها کاربرد دارد، از جمله:
– بازاریابی: شناسایی گروههای مختلف مشتریان بر اساس رفتار خرید یا علایق.
– تحلیل داده: کمک به شناسایی الگوها در دادهها، مثل دستهبندی مستندات مشابه.
– شناسایی نابهنجاری: پیدا کردن نقاط دادهای که به طور غیرمعمولی از بقیه گروهها متفاوت هستند.
خوشهبندی به ما این امکان را میدهد که دادهها را به گونهای سازماندهی کنیم که راحتتر بتوانیم آنها را تحلیل و درک کنیم.
۸- دادههای آموزشی در مقابل دادههای آزمایشی (Training data vs. test data)
دادههای آموزشی (Training Data) و دادههای آزمایشی (Test Data) دو نوع مجموعه داده هستند که در فرآیند آموزش و ارزیابی مدلهای یادگیری ماشین استفاده میشوند. درک این دو نوع داده برای ساخت یک مدل موثر بسیار مهم است.
دادههای آموزشی (Training Data):
– این دادهها مجموعهای از اطلاعات هستند که برای آموزش مدل استفاده میشوند.
– دادههای آموزشی شامل ویژگیها (ویژگیهای ورودی) و برچسبها (نتایج مطلوب) هستند. به عبارت دیگر، در این دادهها ما میدانیم که نتیجه کدام است.
– مدل با استفاده از این دادهها یاد میگیرد که چگونه میتواند ورودیها را به خروجیها مرتبط کند.
مثال: فرض کنید شما میخواهید مدلی برای پیشبینی قیمت خانهها بسازید. مجموعه دادههای آموزشی شامل اطلاعاتی مانند مساحت، تعداد اتاقها و قیمتهای واقعی خانهها میشود. مدل با این دادهها آموزش میبیند تا بتواند قیمت خانههای جدید را پیشبینی کند.
دادههای آزمایشی (Test Data):
– این دادهها برای ارزیابی عملکرد مدل بعد از آموزش استفاده میشوند.
– دادههای آزمایشی باید جدا از دادههای آموزشی باشند تا مدل نتواند به آنها دسترسی پیدا کند و از آنها پیشسخن بگوید.
– هدف از استفاده از دادههای آزمایشی این است که ببینید مدل تا چه حد میتواند در پیشبینی موارد جدید و ناشناخته موفق باشد.
مثال: برای ادامه مثال خانهها، بعد از اینکه مدل شما با استفاده از دادههای آموزشی آموزش دید، شما از دادههای آزمایش برای ارزیابی استفاده میکنید. این دادهها شامل اطلاعات در مورد خانههایی هستند که مدل قبلاً ندیده است و شما میخواهید ببینید چقدر دقیق میتواند قیمت آنها را پیشبینی کند.
جمعبندی:
– دادههای آموزشی برای آموزش مدل استفاده میشوند و شامل اطلاعات برچسبدار هستند.
– دادههای آزمایشی برای ارزیابی دقت و کارایی مدل بعد از آموزش به کار میروند و این دادهها نباید در هنگام آموزش به مدل نشان داده شوند.
این جداسازی کمک میکند تا اطمینان حاصل شود که مدل به خوبی بر روی دادههای جدید عمل خواهد کرد و دچار بیشبرازش (Overfitting) نمیشود.اگر این دو مجموعه داده را از هم جدا نکنید، دقت الگوریتمهای خود را بر روی همان دادههایی که در وهله اول برای ایجاد الگوریتم استفاده کردهاید، آزمایش خواهید کرد. این یک نقص اساسی است و میتواند به چیزی به نام «بیشبرازش» منجر شود.
۹- بیشبرازش ( Overfitting)
همه مدلهای پیشبینیکننده یکسان نیستند. بیشبرازش (Overfitting) زمانی رخ میدهد که یک مدل یادگیری ماشین آنقدر به دادههای آموزشی اش تطبیق مییابد که به شدت به جزئیات آنها وابسته میشود و نمیتواند به دادههای جدید به خوبی پاسخ دهد.
در واقع، مدل به جای یادگیری الگوهای عمومی، فقط به شناسایی و حفظ اطلاعات خاص دادههای آموزشی پرداخته است.
مثال: فرض کنید مدل شما برای پیشبینی قیمت خانهها ایجاد شده است، اما آنقدر به جزئیات قیمت خانههای گذشته در یک محله خاص تطبیق میکند که وقتی خانهای در محلهای متفاوت به دادههای ورودی میآید، نمیتواند پیشبینی صحیحی انجام دهد. در اینجا، مدل فقط به دادههای آموزشی خود چسبیده و در شرایط جدید عملکرد خوبی ندارد.
مشکل بیشبرازش این است که مدل کاملاً با دادههایی که برای ساخت آن استفاده کردیم، «مطابقت» دارد. با این حال، در عمل کاربردی ندارد. وقتی دادههای جدیدی به این مدل اضافه کنیم، دقت بلافاصله کاهش مییابد. دقت مدل بسیار سادهتر زیر به احتمال زیاد ثابت میماند بنابراین، وقتی افرادی میگویند که مدل پیشبینیکنندهای دارند که میتواند پیشبینیهای بسیار دقیقی انجام دهد، فریب نخورید! در نهایت این مدل ممکن است ارزش چندانی نداشته باشد.
