مطالعه: مدل‌های هوش مصنوعی به آزمایش‌های بالینی کامل نیاز دارند تا نگرانی‌های ایمنی را ریشه‌یابی کنند

به گزارش دپارتمان اخبار پزشکی پایگاه خبری آبان نیوز ،

الگوریتم هوش مصنوعی که برای تشخیص شکستگی لگن استفاده می‌شود از رادیولوژیست‌های انسانی بهتر عمل می‌کند، اما محققان به اشتباهاتی پی بردند که از استفاده ایمن در آزمایش‌های بیشتر جلوگیری می‌کند. مطالعه منتشر شده در لانست.

محققان یک مدل یادگیری عمیق را ارزیابی کردند که هدف آن یافتن شکستگی های پروگزیمال فمور در اشعه ایکس پیشانی در بیماران بخش اورژانس بود که بر اساس داده های بیمارستان رویال آدلاید در استرالیا آموزش دیده بود.

آنها دقت مدل را با پنج رادیولوژیست بر روی مجموعه داده ای از بیمارستان رویال آدلاید مقایسه کردند و سپس یک مطالعه اعتبار سنجی خارجی با استفاده از نتایج تصویربرداری از مرکز پزشکی دانشگاه استنفورد در ایالات متحده انجام دادند.

در نهایت، آنها یک ممیزی الگوریتمی برای یافتن اشتباهات غیرعادی انجام دادند.

در مطالعه رویال آدلاید، ناحیه زیر منحنی مشخصه عملکرد گیرنده (AUC) که عملکرد مدل هوش مصنوعی را ارزیابی می‌کند، 0.994 در مقایسه با AUC 0.969 برای رادیولوژیست‌ها بود. با استفاده از مجموعه داده استنفورد، عملکرد مدل در AUC 0.980 اندازه گیری شد.

با این حال، محققان دریافتند که اعتبار سنجی خارجی هنوز در تنظیمات جدید بدون آماده سازی اضافی قابل استفاده نخواهد بود.

“در حالی که به نظر می رسد عملکرد متمایز سیستم هوش مصنوعی (AUC) در اعتبار سنجی خارجی حفظ می شود، کاهش حساسیت در نقطه عملیاتی از پیش تعیین شده (از 95.5 به 75.0) سیستم را از نظر بالینی در محیط جدید غیرقابل استفاده می کند.” نویسندگان مطالعه نوشتند.

اگرچه این تغییر را می‌توان با انتخاب یک نقطه عملیاتی جدید کاهش داد، همانطور که نشان داده شد زمانی که ما حساسیت و ویژگی مشابهی را در یک تجزیه و تحلیل post-hoc پیدا کردیم (که در آن کاهش کمتر در ویژگی نشان‌دهنده کاهش جزئی در عملکرد متمایز است)، نیاز به یک فرآیند بومی سازی برای تعیین نقطه عملیاتی جدید در محیط جدید است.”

اگرچه این مدل به طور کلی عملکرد خوبی داشت، اما این مطالعه همچنین اشاره کرد که گاهی اوقات خطاهای غیرانسانی یا اشتباهات غیرمنتظره ای را مرتکب می شود که رادیولوژیست انسانی مرتکب نمی شود.

نویسندگان نوشتند: «علیرغم اینکه این مدل در تشخیص شکستگی فمور پروگزیمال هنگام ارزیابی با آمار خلاصه، بسیار خوب عمل می‌کند، به نظر می‌رسد این مدل مستعد اشتباهات غیرمنتظره است و می‌تواند در مواردی که انسان‌ها تفسیر آن را ساده می‌دانند رفتار غیرقابل پیش‌بینی داشته باشد».

چرا مهم است

محققان گفتند که این مطالعه بر اهمیت آزمایش دقیق قبل از اجرای مدل‌های هوش مصنوعی تاکید می‌کند.

“این مدل عملکرد بهتری نسبت به رادیولوژیست‌های آزمایش شده داشت و عملکرد خود را در اعتبارسنجی خارجی حفظ کرد، اما چندین محدودیت غیرمنتظره را در طول آزمایش‌های بیشتر نشان داد. ارزیابی پیش‌بالینی کامل مدل‌های هوش مصنوعی، از جمله ممیزی الگوریتمی، می‌تواند رفتار غیرمنتظره و بالقوه مضر را حتی در سیستم‌های هوش مصنوعی با عملکرد بالا نشان دهد. آنها می‌نویسند که می‌تواند آزمایش‌های بالینی و تصمیمات استقرار آینده را مطلع کند.

روند بزرگتر

تعدادی از شرکت ها از هوش مصنوعی برای تجزیه و تحلیل نتایج تصویربرداری استفاده می کنند. ماه گذشته، Aidoc دو مجوز FDA 510(k) را برای نرم افزارهایی که پتانسیل را علامت گذاری و تریاژ می کند، دریافت کرد. پنوموتوراکس و آنوریسم مغزی شرکت دیگری در این فضا، به نام Qure.ai، اخیراً 40 میلیون دلار بودجه جمع آوری کرده است، مدت کوتاهی پس از دریافت چراغ سبز FDA برای ابزاری که به ارائه دهندگان در قرار دادن لوله های تنفسی بر اساس اشعه ایکس قفسه سینه کمک می کند.

اگرچه طرفداران استدلال می کنند که هوش مصنوعی می تواند نتایج را بهبود بخشد و هزینه ها را کاهش دهد، تحقیقات بسیاری از مجموعه داده های مورد استفاده برای آموزش این مدل ها را نشان داده است. از ایالات متحده و چین می آیند، که می تواند مفید بودن آنها را در کشورهای دیگر محدود کند. سوگیری همچنین یک نگرانی بزرگ برای ارائه دهندگان و محققان است، زیرا پتانسیل بدتر کردن نابرابری در سلامت را دارد.

این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت خبری آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.

منبع

درباره ی aban_admin

مطلب پیشنهادی

PC سابق Met می گوید که در مورد فلش قاب وین کوزنز اشتباه کرده است | وین کوزنز

به گزارش دپارتمان اخبار بین المللی پایگاه خبری آبان نیوز ، افسر سابق پلیس مت که …