پر کردن شکاف‌ها در مجموعه داده‌ها یا شناسایی نقاط پرت، حوزه‌ای است که الگوریتم یادگیری ماشین TabPFN به آن اختصاص یافته است. این الگوریتم توسط تیمی به سرپرستی پروفسور دکتر فرانک هاتر از دانشگاه فرایبورگ توسعه یافته است. این هوش مصنوعی (AI) با بهره‌گیری از روش‌های یادگیری الهام گرفته از مدل‌های زبان بزرگ کار می‌کند. TabPFN روابط علّی را از داده‌های مصنوعی می‌آموزد و به همین دلیل احتمالاً پیش‌بینی‌های دقیق‌تری نسبت به الگوریتم‌های استاندارد موجود ارائه می‌دهد. نتایج این پژوهش در مجله طبیعت منتشر شده است. علاوه بر دانشگاه فرایبورگ، مرکز پزشکی دانشگاه فرایبورگ، Charité – پزشکی دانشگاه برلین، استارت‌آپ فرایبورگ PriorLabs و مؤسسه ELLIS Tübingen نیز در این پروژه همکاری داشتند.

مجموعه داده‌ها، چه مربوط به تاثیر برخی داروها باشند و چه مسیرهای ذرات در شتاب‌دهنده‌های سرن، به ندرت کامل و بدون خطا هستند. به همین دلیل، بخش مهمی از تحلیل داده‌های علمی شامل شناسایی مقادیر پرت یا پیش‌بینی تخمین‌های معنادار برای داده‌های گمشده است. الگوریتم‌های موجود مانند XGBoost با داده‌های بزرگ عملکرد خوبی دارند، اما اغلب در مواجهه با داده‌های کوچک قابل اعتماد نیستند.

هاتر و تیمش با بهره‌گیری از مدل TabPFN این مسئله را با آموزش الگوریتم بر مجموعه داده‌های مصنوعی شبیه‌سازی شده بر اساس سناریوهای واقعی، حل کرده‌اند. برای این منظور، دانشمندان جداول داده‌ای ایجاد کردند که در آن‌ها ورودی‌های ستون‌ها به صورت علی به یکدیگر وابسته‌اند. TabPFN با استفاده از ۱۰۰ میلیون مجموعه داده مصنوعی آموزش دید. این آموزش به مدل امکان می‌دهد روابط علّی مختلف را شناسایی کرده و برای پیش‌بینی‌های خود به کار ببرد.

این مدل به خصوص در جداول کوچک با کمتر از ۱۰ هزار سطر و وجود مقادیر پرت یا داده‌های گمشده زیاد، عملکرد بهتری نسبت به الگوریتم‌های دیگر دارد. برای مثال، TabPFN تنها به ۵۰٪ داده‌ها نیاز دارد تا به دقت مدل برتر قبلی برسد. علاوه بر این، این مدل در مدیریت داده‌های جدید کارآمدتر است؛ به جای شروع یادگیری از نو برای هر مجموعه داده، می‌توان مدل را برای داده‌های مشابه تنظیم کرد. این روند مشابه انطباق مدل‌های زبانی با وزن‌های باز مانند Llama است که توسط Meta توسعه یافته‌اند. همچنین، این مدل قادر است چگالی احتمال را از یک مجموعه داده استخراج کرده و داده‌های جدیدی با ویژگی‌های مشابه تولید کند.

هاتر می‌گوید: «توانایی استفاده از TabPFN برای ارائه پیش‌بینی‌های سریع و قابل اعتماد روی داده‌های جدولی، برای بسیاری از رشته‌ها از زیست پزشکی گرفته تا اقتصاد و فیزیک، بسیار مفید است. TabPFN نتایج بهتر را سریع‌تر به دست می‌دهد و با نیاز به منابع و داده‌های کمتر، برای شرکت‌ها و تیم‌های کوچک ایده‌آل است.» کد و دستورالعمل‌های استفاده از این الگوریتم را می‌توانید اینجا بیابید. در گام بعدی، محققان قصد دارند هوش مصنوعی را به گونه‌ای توسعه دهند که حتی با مجموعه داده‌های بزرگ‌تر نیز بتواند بهترین پیش‌بینی‌ها را ارائه دهد.

Source link

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *