9 اصطلاح تجزیه و تحلیل منابع انسانی

هنگامی که درباره تجزیه و تحلیل داده‌های منابع انسانی صحبت می‌کنیم، از واژه‌هایی مانند یادگیری ماشین، الگوریتم‌ها و داده‌کاوی استفاده می‌کنیم. اما آیا واقعاً معنای این اصطلاحات را می‌دانیم؟ راستش را بخواهید، اولین باری که این اصطلاحات را شنیدم، نمی‌دانستم… این مطلب به برخی از اصطلاحات رایج در تجزیه و تحلیل منابع انسانی می‌پردازد.

۱- داده‌کاوی (Data mining)

داده‌کاوی مانند جستجوی طلا است. جست‌وجو گران طلا در میان انبوهی از خاک و سنگ به امید یافتن قطعه‌ای طلای براق هستند. داده‌کاوی فرآیند کشف الگوها در انبوهی از داده‌های خام و تبدیل آن‌ها به اطلاعات ملموس است که به نوبه خود می‌تواند برای پیش‌بینی رفتار یا حوادث واقعی زندگی استفاده شود. قابل توجه است که ۹۹.۵٪ از کل داده‌های جهان هرگز تجزیه و تحلیل نشده‌اند.
یک تکنیکی که در داده‌کاوی استفاده می‌شود، یادگیری ماشین نام دارد.

۲- یادگیری ماشین (Machine learning)

یادگیری ماشین تکنیکی است که معمولاً در فرایند داده‌کاوی استفاده می‌شود. از طریق این تکنیک، یک ماشین (کامپیوتر) با تجزیه و تحلیل داده‌ها و شناسایی الگوها از داده‌های شما یاد می‌گیرد. این بدان معنی است که یادگیری ماشین را می‌توان نوعی هوش مصنوعی (AI) دانست، زیرا ابزارهای لازم را برای جذب اطلاعات جدید در اختیار رایانه‌ها قرار می‌دهد.

۳- درخت تصمیم (Decision tree)

درخت تصمیم مدلی است که شبیه به یک درخت است و از تصمیمات و پیامدهای احتمالی آن‌ها تشکیل شده است. این یک ابزار مفید برای پیش‌بینی آینده (نزدیک) است. درخت تصمیم به شما امکان را می‌دهد که با یادگیری از داده‌های موجود، پیش‌بینی کنید که چه اتفاقی ممکن است بیفتد. این بسیار شبیه به شیوه‌ای است که همه از تجربیات گذشته خود درس می‌گیرند. در یک درخت تصمیم، هر تصمیمی به عنوان یک گره و هر گزینه نتیجه به عنوان یک شاخه نشان داده می‌شود.

۴- زبان R

بسیاری از متخصصان منابع انسانی اغلب از اکسل استفاده می‌کنند. با این حال، اکثر تحلیلگران پیش‌بینی‌کننده منابع انسانی از R استفاده می‌کنند. R احتمالاً محبوب‌ترین ابزار برای دانشمندان داده است R یک سیستم منبع باز (رایگان) برای محاسبات آماری و تجسم است. همچنین به شما امکان می‌دهد با مجموعه داده‌های عظیمی کار کنید که برای اکسل بسیار بزرگ هستند.

۵- داده‌های ساختاریافته در مقابل داده‌های بدون ساختار (Structured vs. unstructured data)

ما زیاد در مورد داده‌ها صحبت می‌کنیم. دو تمایز در داده‌ها وجود دارد. هنگامی که داده ها به طور مرتب در یک صفحه گسترده یا پایگاه داده سازماندهی شده باشد، داده‌های ساختاریافته نامیده می‌شود. برای مثال، منابع انسانی، نام کارمندان، سن آن‌ها، محل زندگی آن‌ها، اینکه در کدام بخش کار می‌کنند، نحوه عملکرد آن‌ها و غیره را می‌داند. همه این داده‌ها ساختاریافته هستند: با جستجوی نام یا شناسه، می‌توانید به راحتی جزئیات یک فرد را پیدا کنید.
داده‌های بدون ساختار برعکس هستند. فقدان ساختار آن، مرتب کردن این داده‌ها را به امری زمان‌بر و انرژی‌بر تبدیل می‌کند. به عنوان مثال، ایمیل‌ها را در نظر بگیرید. مرتب کردن دقیق ایمیل‌ها بر اساس موضوع یا محتوا غیرممکن است (بنابراین بدون ساختار) هستند. این داده‌ها به احتمال زیاد قبل از اینکه بتوان آن‌ها را تجزیه و تحلیل کرد، باید ساختاریافته شوند.

برای بررسی خدمات آموزش، مشاوره و پیاده‌سازی پروژه‌های حوزه مشاوره مدیریت خانه منابع انسانی می‌توانید به صفحه معرفی خدمات مراجعه نموده و یا با شماره ۸۲۸۰۱۵۱۰-۰۲۱ تماس حاصل فرمایید.

خدمات تخصصی خانه منابع انسانی

۶- یادگیری با ناظر در مقابل یادگیری بدون ناظر (Supervised vs. unsupervised learning)

یادگیری با ناظر (Supervised Learning) و یادگیری بدون ناظر (Unsupervised Learning) دو نوع اصلی یادگیری ماشین هستند که هر کدام روش‌های خاص خود را برای پردازش داده‌ها دارند.

یادگیری با ناظر (Supervised Learning):

در این نوع یادگیری، مدل با استفاده از داده‌های ورودی (که شامل ویژگی‌ها هستند) و داده‌های خروجی (نتایج مطلوب یا برچسب‌ها) آموزش می‌بیند. به عبارت دیگر، شما به الگوریتم می‌گویید که چه چیزی درست است و چه چیزی غلط، و آن را با مثال‌های مشخص تربیت می‌کنید. این روش برای پیش‌بینی یا طبقه‌بندی موارد جدید استفاده می‌شود.
مثال: فرض کنید می‌خواهید یک مدل بسازید که پیش‌بینی کند آیا یک ایمیل هرزنامه است یا نه. شما به الگوریتم ایمیل‌های قبلی را نشان می‌دهید (داده‌های ورودی) و به آن‌ها برچسب می‌زنید که هر کدام هرزنامه بوده یا نبوده‌اند (داده‌های خروجی). سپس، الگوریتم می‌تواند بر اساس آن‌ها پیش‌بینی کند.

یادگیری بدون ناظر (Unsupervised Learning):

در یادگیری بدون ناظر، مدل فقط با داده‌های ورودی آموزش می‌بیند و هیچ برچسبی به داده‌ها داده نمی‌شود. هدف در اینجا کشف الگوها یا ساختارهایی در داده‌ها است. الگوریتم باید خودش بفهمد داده‌ها چگونه سازماندهی شده‌اند و چه شباهت‌ها یا تفاوت‌هایی در آن‌ها وجود دارد.
مثال: فرض کنید می‌خواهید مشتریان یک فروشگاه آنلاین را بر اساس رفتار خریدشان گروه‌بندی کنید. با استفاده از داده‌های خرید آن‌ها (بدون دسته‌بندی مشخص)، الگوریتم می‌تواند گروه‌هایی از مشتریان با رفتار مشابه ایجاد کند.

اصطلاحات تجزیه و تحلیل منابع انسانی

۷- خوشه‌بندی (Clustering)

خوشه‌بندی (Clustering) یکی از تکنیک‌های یادگیری ماشین است که هدفش گروه‌بندی داده‌ها به دسته‌های مشابه است. در واقع، خوشه‌بندی به ما کمک می‌کند تا داده‌ها را بر اساس ویژگی‌های مشترک یا شباهت‌ها شناسایی و طبقه‌بندی کنیم.
توضیح ساده:
تصور کنید که شما یک باغ میوه دارید، و می‌خواهید درختان میوه‌های مختلف را به گروه‌های مشابه دسته‌بندی کنید. با خوشه‌بندی، می‌توانید درختان را بر اساس نوع میوه، رنگ میوه یا حتی اندازه درختان به چند گروه تقسیم کنید.

مثال:
فرض کنید شما داده‌هایی از تعداد و رنگ گل‌های مختلف در یک باغ دارید. می‌خواهید آن‌ها را به خوشه‌های مختلف تقسیم کنید. در این صورت می‌توانید:

گروه اول: گل‌های قرمز (مثل گل رز)
گروه دوم: گل‌های زرد (مثل گل آفتابگردان)
گروه سوم: گل‌های سفید (مثل گل مریم)

با استفاده از الگوریتم‌های خوشه‌بندی، کامپیوتر می‌تواند به طور اتوماتیک این گل‌ها را بر اساس رنگ و نوع آن‌ها به گروه‌های مشخص تقسیم کند.

کاربردها:

خوشه‌بندی در بسیاری از زمینه‌ها کاربرد دارد، از جمله:

– بازاریابی: شناسایی گروه‌های مختلف مشتریان بر اساس رفتار خرید یا علایق.

– تحلیل داده: کمک به شناسایی الگوها در داده‌ها، مثل دسته‌بندی مستندات مشابه.

– شناسایی نابهنجاری: پیدا کردن نقاط داده‌ای که به طور غیرمعمولی از بقیه گروه‌ها متفاوت هستند.

خوشه‌بندی به ما این امکان را می‌دهد که داده‌ها را به گونه‌ای سازماندهی کنیم که راحت‌تر بتوانیم آن‌ها را تحلیل و درک کنیم.

۸- داده‌های آموزشی در مقابل داده‌های آزمایشی (Training data vs. test data)

داده‌های آموزشی (Training Data) و داده‌های آزمایشی (Test Data) دو نوع مجموعه داده هستند که در فرآیند آموزش و ارزیابی مدل‌های یادگیری ماشین استفاده می‌شوند. درک این دو نوع داده برای ساخت یک مدل موثر بسیار مهم است.

داده‌های آموزشی (Training Data):

– این داده‌ها مجموعه‌ای از اطلاعات هستند که برای آموزش مدل استفاده می‌شوند.

– داده‌های آموزشی شامل ویژگی‌ها (ویژگی‌های ورودی) و برچسب‌ها (نتایج مطلوب) هستند. به عبارت دیگر، در این داده‌ها ما می‌دانیم که نتیجه کدام است.

– مدل با استفاده از این داده‌ها یاد می‌گیرد که چگونه می‌تواند ورودی‌ها را به خروجی‌ها مرتبط کند.

مثال: فرض کنید شما می‌خواهید مدلی برای پیش‌بینی قیمت خانه‌ها بسازید. مجموعه داده‌های آموزشی شامل اطلاعاتی مانند مساحت، تعداد اتاق‌ها و قیمت‌های واقعی خانه‌ها می‌شود. مدل با این داده‌ها آموزش می‌بیند تا بتواند قیمت خانه‌های جدید را پیش‌بینی کند.

داده‌های آزمایشی (Test Data):

– این داده‌ها برای ارزیابی عملکرد مدل بعد از آموزش استفاده می‌شوند.

– داده‌های آزمایشی باید جدا از داده‌های آموزشی باشند تا مدل نتواند به آن‌ها دسترسی پیدا کند و از آن‌ها پیش‌سخن بگوید.

– هدف از استفاده از داده‌های آزمایشی این است که ببینید مدل تا چه حد می‌تواند در پیش‌بینی موارد جدید و ناشناخته موفق باشد.

مثال: برای ادامه مثال خانه‌ها، بعد از اینکه مدل شما با استفاده از داده‌های آموزشی آموزش دید، شما از داده‌های آزمایش برای ارزیابی استفاده می‌کنید. این داده‌ها شامل اطلاعات در مورد خانه‌هایی هستند که مدل قبلاً ندیده است و شما می‌خواهید ببینید چقدر دقیق می‌تواند قیمت آن‌ها را پیش‌بینی کند.

جمع‌بندی:

– داده‌های آموزشی برای آموزش مدل استفاده می‌شوند و شامل اطلاعات برچسب‌دار هستند.

– داده‌های آزمایشی برای ارزیابی دقت و کارایی مدل بعد از آموزش به کار می‌روند و این داده‌ها نباید در هنگام آموزش به مدل نشان داده شوند.

این جداسازی کمک می‌کند تا اطمینان حاصل شود که مدل به خوبی بر روی داده‌های جدید عمل خواهد کرد و دچار بیش‌برازش (Overfitting) نمی‌شود.اگر این دو مجموعه داده را از هم جدا نکنید، دقت الگوریتم‌های خود را بر روی همان داده‌هایی که در وهله اول برای ایجاد الگوریتم استفاده کرده‌اید، آزمایش خواهید کرد. این یک نقص اساسی است و می‌تواند به چیزی به نام «بیش‌برازش» منجر شود.

۹- بیش‌برازش ( Overfitting)

همه مدل‌های پیش‌بینی‌کننده یکسان نیستند. بیش‌برازش (Overfitting) زمانی رخ می‌دهد که یک مدل یادگیری ماشین آنقدر به داده‌های آموزشی اش تطبیق می‌یابد که به شدت به جزئیات آن‌ها وابسته می‌شود و نمی‌تواند به داده‌های جدید به خوبی پاسخ دهد.

در واقع، مدل به جای یادگیری الگوهای عمومی، فقط به شناسایی و حفظ اطلاعات خاص داده‌های آموزشی پرداخته است.

مثال: فرض کنید مدل شما برای پیش‌بینی قیمت خانه‌ها ایجاد شده است، اما آنقدر به جزئیات قیمت خانه‌های گذشته در یک محله خاص تطبیق می‌کند که وقتی خانه‌ای در محله‌ای متفاوت به داده‌های ورودی می‌آید، نمی‌تواند پیش‌بینی صحیحی انجام دهد. در اینجا، مدل فقط به داده‌های آموزشی خود چسبیده و در شرایط جدید عملکرد خوبی ندارد.
مشکل بیش‌برازش این است که مدل کاملاً با داده‌هایی که برای ساخت آن استفاده کردیم، «مطابقت» دارد. با این حال، در عمل کاربردی ندارد. وقتی داده‌های جدیدی به این مدل اضافه کنیم، دقت بلافاصله کاهش می‌یابد. دقت مدل بسیار ساده‌تر زیر به احتمال زیاد ثابت می‌ماند بنابراین، وقتی افرادی می‌گویند که مدل پیش‌بینی‌کننده‌ای دارند که می‌تواند پیش‌بینی‌های بسیار دقیقی انجام دهد، فریب نخورید! در نهایت این مدل ممکن است ارزش چندانی نداشته باشد.

نوشته شده توسط

ساناز مرادی

حوزه منابع انسانی را زمانی در قلب خود یافتم که پای درس اساتید به نام دانشگاه تهران آموختم باید با مهر قلب آدم ها را به هم پیوند داد تا سازمان بهتری را با هم تجربه کنیم.

۹ اصطلاح تجزیه و تحلیل منابع انسانی