گروهی از پژوهشگران اخیراً معیار جدیدی را برای سنجش توانایی سه مدل اصلی زبانی در پاسخگویی به پرسشهای تاریخی طراحی کردهاند. این معیار که “Hist-LLM” نام دارد، بهطور ویژه صحت پاسخهای تولید شده توسط مدلها را با استفاده از پایگاه داده جامع تاریخی Seshat ارزیابی میکند. Seshat یک پایگاه داده معتبر و گسترده است که اطلاعات دقیق و مهم تاریخی را از سراسر جهان گردآوری کرده و به نام الهه خرد مصر باستان نامگذاری شده است.
براساس گفتههای محققان، هدف اصلی این مطالعه این است که حتی اگر مدلهای بزرگ زبانی (LLM) در بسیاری از زمینهها توانمندیهای چشمگیری نشان دهند و به پرسشهای عمومی و ساده پاسخ دهند، هنوز قادر به درک و تحلیل دقیق تاریخ در سطوح پیچیده و تخصصی نیستند. بهویژه در حوزههای تحصیلی پیشرفته مانند تاریخ و پژوهشهای دکتری، این مدلها به اندازه کافی قابل اتکا و موثر نیستند. مدلها ممکن است در مواردی که اطلاعات سطحی و کلی لازم است، عملکرد مناسبی داشته باشند، اما در مواجهه با واقعیتهای تاریخی پیچیدهتر نمیتوان به آنها بهطور کامل اعتماد کرد و اغلب دقت لازم را ندارند.
نتایج این پژوهش به نوعی نشان میدهد که هوش مصنوعی اگرچه میتواند ابزاری مفید در حوزههای مختلف باشد، اما همچنان به پیشرفت و بهبود قابل توجهی در برخی زمینهها نیازمند است.
منبع: برنا
منبع: https://www.yjc.ir/fa/news/8901500/%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D8%AF%D8%B1-%D8%AA%D8%A7%D8%B1%DB%8C%D8%AE%E2%80%8C%D9%86%DA%AF%D8%A7%D8%B1%DB%8C-%D8%B4%DA%A9%D8%B3%D8%AA-%D8%AE%D9%88%D8%B1%D8%AF
به گفته سخنگوی وزارت صمت فرایند واردات خودرو برای ایرانیان مقیم خارج از کشور با…
بزرگترین بستر محاسباتی هوش مصنوعی توزیعشده جهان در چین فعال شده است. این شبکه محاسباتی…
منتشر شده در 20 آذر 1404 ساعت 13:00 انجمن تخصصی صنایع همگن نیرومحرکه و قطعه…
انتشار: خرداد 28، 1402بروزرسانی: 20 آذر 1404 باید به زمان مشتری احترام گذاشت و شرایط…
به گفته رئیس انجمن موبایل، تبلت و لوازم جانبی ایران، بازار موبایل در رکود به…
به گزارش روز دوشنبه ایرنا، تارنمای تحلیلی اوراسیا ریویو در گزارشی به بررسی تأثیرات و…