پر کردن شکافها در مجموعه دادهها یا شناسایی نقاط پرت، حوزهای است که الگوریتم یادگیری ماشین TabPFN به آن اختصاص یافته است. این الگوریتم توسط تیمی به سرپرستی پروفسور دکتر فرانک هاتر از دانشگاه فرایبورگ توسعه یافته است. این هوش مصنوعی (AI) با بهرهگیری از روشهای یادگیری الهام گرفته از مدلهای زبان بزرگ کار میکند. TabPFN روابط علّی را از دادههای مصنوعی میآموزد و به همین دلیل احتمالاً پیشبینیهای دقیقتری نسبت به الگوریتمهای استاندارد موجود ارائه میدهد. نتایج این پژوهش در مجله طبیعت منتشر شده است. علاوه بر دانشگاه فرایبورگ، مرکز پزشکی دانشگاه فرایبورگ، Charité – پزشکی دانشگاه برلین، استارتآپ فرایبورگ PriorLabs و مؤسسه ELLIS Tübingen نیز در این پروژه همکاری داشتند.
مجموعه دادهها، چه مربوط به تاثیر برخی داروها باشند و چه مسیرهای ذرات در شتابدهندههای سرن، به ندرت کامل و بدون خطا هستند. به همین دلیل، بخش مهمی از تحلیل دادههای علمی شامل شناسایی مقادیر پرت یا پیشبینی تخمینهای معنادار برای دادههای گمشده است. الگوریتمهای موجود مانند XGBoost با دادههای بزرگ عملکرد خوبی دارند، اما اغلب در مواجهه با دادههای کوچک قابل اعتماد نیستند.
هاتر و تیمش با بهرهگیری از مدل TabPFN این مسئله را با آموزش الگوریتم بر مجموعه دادههای مصنوعی شبیهسازی شده بر اساس سناریوهای واقعی، حل کردهاند. برای این منظور، دانشمندان جداول دادهای ایجاد کردند که در آنها ورودیهای ستونها به صورت علی به یکدیگر وابستهاند. TabPFN با استفاده از ۱۰۰ میلیون مجموعه داده مصنوعی آموزش دید. این آموزش به مدل امکان میدهد روابط علّی مختلف را شناسایی کرده و برای پیشبینیهای خود به کار ببرد.
این مدل به خصوص در جداول کوچک با کمتر از ۱۰ هزار سطر و وجود مقادیر پرت یا دادههای گمشده زیاد، عملکرد بهتری نسبت به الگوریتمهای دیگر دارد. برای مثال، TabPFN تنها به ۵۰٪ دادهها نیاز دارد تا به دقت مدل برتر قبلی برسد. علاوه بر این، این مدل در مدیریت دادههای جدید کارآمدتر است؛ به جای شروع یادگیری از نو برای هر مجموعه داده، میتوان مدل را برای دادههای مشابه تنظیم کرد. این روند مشابه انطباق مدلهای زبانی با وزنهای باز مانند Llama است که توسط Meta توسعه یافتهاند. همچنین، این مدل قادر است چگالی احتمال را از یک مجموعه داده استخراج کرده و دادههای جدیدی با ویژگیهای مشابه تولید کند.
هاتر میگوید: «توانایی استفاده از TabPFN برای ارائه پیشبینیهای سریع و قابل اعتماد روی دادههای جدولی، برای بسیاری از رشتهها از زیست پزشکی گرفته تا اقتصاد و فیزیک، بسیار مفید است. TabPFN نتایج بهتر را سریعتر به دست میدهد و با نیاز به منابع و دادههای کمتر، برای شرکتها و تیمهای کوچک ایدهآل است.» کد و دستورالعملهای استفاده از این الگوریتم را میتوانید اینجا بیابید. در گام بعدی، محققان قصد دارند هوش مصنوعی را به گونهای توسعه دهند که حتی با مجموعه دادههای بزرگتر نیز بتواند بهترین پیشبینیها را ارائه دهد.
