مدلساز، یعنی کسی که مدلی را میسازد یا از مجموعه موجود مدلی را انتخاب میکند، حالا برای یک هدف مشخص مثلاً پیشبینی یا طبقهبندی یا شناسایی ساختار و برآورد اثرگذاری، این چنین فردی به چه کسی در دنیای واقعی شبیهتر است؟
داشتم به این فکر میکردم که چطور میتوان مدلسازی را برای یک عده غیرمتخصص توضیح دهم و جواب سوال بالا را جستجو کردم. نتیجه آن بود که میتوان مدلساز را به یک مربی ورزشی شبیه دانست. حالا رشتههای مختلفی میتوان انتخاب کرد، مثلاً بسکتبال.
یک مربی بسکتبال چگونه بازیکنان را انتخاب میکند؟ مثلاً فرض کنید بین انتخاب دو نفر مانده است.
میتواند قد آنها را با متر اندازه بگیرد و هر که بلندتر بود را انتخاب کند. میتواند یک ذره این انتخاب را تخصصیتر کند، مثلاً با این فرض که پاهای بلندتر در این رشته مهمتر است، میتواند به طول پا ضریب ۱٫۱ بدهم و به طول بالاتنه ضریب ۰٫۹. در نتیجه این تغییر ممکن است یکی واقعاً بلندتر باشد، اما انتخاب نشود چون نسبتاً پاهای کوتاهتری داشته است. یک مربی میتواند تعداد گلهای زدهٔ یک بازیکنان در فصل قبل را با یکدیگر مقایسه کند. همچنین میتواند هر دو پاس گل را هم یک امتیاز لحاظ کند.
بعید است یک مربی خوب (فقط) بر اساس معیارهای کمّی بالا انتخاب کند. احتمالاً آنالیز پیچیدهتری انجام میشود و فاکتورهای مختلفی لحاظ میشود. چیزی که قطعاً من نمیدانم، زیرا اصلاً مربی نیستم.
بحث را گم نکنید. در رابطه با مدلسازی بحث میکردم.
اینکه آنالیز پیچیده است، به این معنی نیست که نمیتوان در روی کاغذ نوشت یا فرمول ندارد. مثلاً فیلم moneyball محصول سال ۲۰۰۵ را ببینید. در یک رشته ورزشی مشابه (بخشی) از آنالیز را به کامپیوتر میسپارند.
انتخاب مدل هم شبیه انتخاب بازیکن است. خیلی ساده ممکن است بیاییم سراغ R2 مدل. شاید بیشباهت به انتخاب بازیکن با اندازهگرفتن طول قد یا وزن او نباشد. یک مرحله جلوتر ممکن است بیاییم سراغ AIC. احتمالاً در اینجا داریم ضریب متفاوتی برای طول پا و دست درنظر میگیریم. یک مرحله پیچیدهتر میآییم سراغ معناداری ضرایب. یا در بحث پیشبینی و طبقهبندی میآییم سراغ عملکرد خارج از نمونه و Cross-validation و آنها را بر پایه یک معیار نظیر RMSE یا AUC ارزیابی میکنیم.
هرچه فکر میکنم میبینم که بسیاری از فرایندها روی کاغذ نوشته شده است، اما در نهایت راحت نیست. مثل مربیگری. راحت نبودنش هم احتمالاً به بخش «هنر» بودنش برمیگردد.