به گزارش دپارتمان اخبار پزشکی پایگاه خبری آبان نیوز ،
الگوریتم هوش مصنوعی که برای تشخیص شکستگی لگن استفاده میشود از رادیولوژیستهای انسانی بهتر عمل میکند، اما محققان به اشتباهاتی پی بردند که از استفاده ایمن در آزمایشهای بیشتر جلوگیری میکند. مطالعه منتشر شده در لانست.
محققان یک مدل یادگیری عمیق را ارزیابی کردند که هدف آن یافتن شکستگی های پروگزیمال فمور در اشعه ایکس پیشانی در بیماران بخش اورژانس بود که بر اساس داده های بیمارستان رویال آدلاید در استرالیا آموزش دیده بود.
آنها دقت مدل را با پنج رادیولوژیست بر روی مجموعه داده ای از بیمارستان رویال آدلاید مقایسه کردند و سپس یک مطالعه اعتبار سنجی خارجی با استفاده از نتایج تصویربرداری از مرکز پزشکی دانشگاه استنفورد در ایالات متحده انجام دادند.
در نهایت، آنها یک ممیزی الگوریتمی برای یافتن اشتباهات غیرعادی انجام دادند.
در مطالعه رویال آدلاید، ناحیه زیر منحنی مشخصه عملکرد گیرنده (AUC) که عملکرد مدل هوش مصنوعی را ارزیابی میکند، 0.994 در مقایسه با AUC 0.969 برای رادیولوژیستها بود. با استفاده از مجموعه داده استنفورد، عملکرد مدل در AUC 0.980 اندازه گیری شد.
با این حال، محققان دریافتند که اعتبار سنجی خارجی هنوز در تنظیمات جدید بدون آماده سازی اضافی قابل استفاده نخواهد بود.
“در حالی که به نظر می رسد عملکرد متمایز سیستم هوش مصنوعی (AUC) در اعتبار سنجی خارجی حفظ می شود، کاهش حساسیت در نقطه عملیاتی از پیش تعیین شده (از 95.5 به 75.0) سیستم را از نظر بالینی در محیط جدید غیرقابل استفاده می کند.” نویسندگان مطالعه نوشتند.
اگرچه این تغییر را میتوان با انتخاب یک نقطه عملیاتی جدید کاهش داد، همانطور که نشان داده شد زمانی که ما حساسیت و ویژگی مشابهی را در یک تجزیه و تحلیل post-hoc پیدا کردیم (که در آن کاهش کمتر در ویژگی نشاندهنده کاهش جزئی در عملکرد متمایز است)، نیاز به یک فرآیند بومی سازی برای تعیین نقطه عملیاتی جدید در محیط جدید است.”
اگرچه این مدل به طور کلی عملکرد خوبی داشت، اما این مطالعه همچنین اشاره کرد که گاهی اوقات خطاهای غیرانسانی یا اشتباهات غیرمنتظره ای را مرتکب می شود که رادیولوژیست انسانی مرتکب نمی شود.
نویسندگان نوشتند: «علیرغم اینکه این مدل در تشخیص شکستگی فمور پروگزیمال هنگام ارزیابی با آمار خلاصه، بسیار خوب عمل میکند، به نظر میرسد این مدل مستعد اشتباهات غیرمنتظره است و میتواند در مواردی که انسانها تفسیر آن را ساده میدانند رفتار غیرقابل پیشبینی داشته باشد».
چرا مهم است
محققان گفتند که این مطالعه بر اهمیت آزمایش دقیق قبل از اجرای مدلهای هوش مصنوعی تاکید میکند.
“این مدل عملکرد بهتری نسبت به رادیولوژیستهای آزمایش شده داشت و عملکرد خود را در اعتبارسنجی خارجی حفظ کرد، اما چندین محدودیت غیرمنتظره را در طول آزمایشهای بیشتر نشان داد. ارزیابی پیشبالینی کامل مدلهای هوش مصنوعی، از جمله ممیزی الگوریتمی، میتواند رفتار غیرمنتظره و بالقوه مضر را حتی در سیستمهای هوش مصنوعی با عملکرد بالا نشان دهد. آنها مینویسند که میتواند آزمایشهای بالینی و تصمیمات استقرار آینده را مطلع کند.
روند بزرگتر
تعدادی از شرکت ها از هوش مصنوعی برای تجزیه و تحلیل نتایج تصویربرداری استفاده می کنند. ماه گذشته، Aidoc دو مجوز FDA 510(k) را برای نرم افزارهایی که پتانسیل را علامت گذاری و تریاژ می کند، دریافت کرد. پنوموتوراکس و آنوریسم مغزی شرکت دیگری در این فضا، به نام Qure.ai، اخیراً 40 میلیون دلار بودجه جمع آوری کرده است، مدت کوتاهی پس از دریافت چراغ سبز FDA برای ابزاری که به ارائه دهندگان در قرار دادن لوله های تنفسی بر اساس اشعه ایکس قفسه سینه کمک می کند.
اگرچه طرفداران استدلال می کنند که هوش مصنوعی می تواند نتایج را بهبود بخشد و هزینه ها را کاهش دهد، تحقیقات بسیاری از مجموعه داده های مورد استفاده برای آموزش این مدل ها را نشان داده است. از ایالات متحده و چین می آیند، که می تواند مفید بودن آنها را در کشورهای دیگر محدود کند. سوگیری همچنین یک نگرانی بزرگ برای ارائه دهندگان و محققان است، زیرا پتانسیل بدتر کردن نابرابری در سلامت را دارد.
این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت خبری آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.