به گزارش دپارتمان اخبار اقتصادی پایگاه خبری آبان نیوز ،
سیسیستمهای هوش مصنوعی پیشرفته میتوانند به شما کمک کنند تا از جریمه پارکینگ فرار کنید، یک مقاله علمی بنویسید، یا شما را فریب دهند که پاپ فرانسیس یک مد روز است. اما کتابخانههای مجازی پشت این فناوری نفسگیر بسیار وسیع هستند – و نگرانیهایی وجود دارد که آنها اطلاعات شخصی و قوانین کپی رایت را نقض میکنند.
مجموعه دادههای عظیمی که برای آموزش آخرین نسل از این سیستمهای هوش مصنوعی استفاده میشوند، مانند آنچه در پشت ChatGPT و Stable Diffusion استفاده میشود، احتمالاً حاوی میلیاردها تصویر خراشیده شده از اینترنت، میلیونها کتاب الکترونیکی غیرقانونی، کل جلسات 16 ساله پارلمان اروپا و کل ویکی پدیای انگلیسی زبان
اما اشتهای پرخاشگر صنعت برای داده های بزرگ شروع به ایجاد مشکلاتی کرده است، زیرا قانونگذاران و دادگاه ها در سراسر جهان با محققانی که بدون رضایت یا اخطار محتوا را جمع آوری می کنند، سرکوب می کنند. در پاسخ، آزمایشگاههای هوش مصنوعی میجنگند تا مجموعه دادههای خود را مخفی نگه دارند، یا حتی دو انگشت خود را به طور کامل به سمت تنظیمکنندهها تکان میدهند و آنها را جرأت میکنند که این مشکل را پیش ببرند.
در ایتالیا، ChatGPT پس از اینکه رگولاتور حفاظت از داده های این کشور گفت که به نظر می رسد هیچ مبنای قانونی برای توجیه جمع آوری و “ذخیره سازی انبوه” داده های شخصی به منظور آموزش هوش مصنوعی GPT وجود ندارد، از فعالیت منع شد. روز سهشنبه، کمیسیونر حریم خصوصی کانادا در پاسخ به شکایتی مبنی بر «جمعآوری، استفاده و افشای اطلاعات شخصی بدون رضایت»، تحقیقاتی در مورد این شرکت دنبال کرد.
سازمان دیده بان داده بریتانیا نگرانی های خود را بیان کرد. استفان آلموند، مدیر فناوری و نوآوری در دفتر کمیساریای اطلاعات گفت: «قانون حفاظت از دادهها همچنان اعمال میشود که اطلاعات شخصی که پردازش میکنید از منابع در دسترس عموم باشد.
مایکل وولدریج، استاد علوم کامپیوتر در دانشگاه آکسفورد، میگوید «مدلهای زبان بزرگ» (LLM) مانند مدلهایی که زیربنای ChatGPT OpenAI و Bard گوگل هستند، حجم عظیمی از دادهها را جمعآوری میکنند.
“این شامل کل شبکه جهانی وب – همه چیز است. هر پیوندی در هر صفحه دنبال میشود، و هر پیوندی در آن صفحات دنبال میشود… در آن حجم غیرقابل تصور داده، احتمالاً اطلاعات زیادی درباره من و شما وجود دارد. توسط یک LLM جمع آوری شود. و در یک پایگاه داده بزرگ در جایی ذخیره نمی شود – ما نمی توانیم به دنبال این باشیم که دقیقاً چه اطلاعاتی در مورد من دارد. همه اینها در شبکههای عصبی عظیم و غیرشفاف دفن شدهاند.»
Wooldridge اضافه می کند که حق چاپ برای شرکت های هوش مصنوعی یک “طوفان آینده” خواهد بود. LLM ها احتمالاً به مطالب دارای حق چاپ مانند مقالات خبری دسترسی داشته اند. در واقع چت ربات به کمک GPT-4 که به موتور جستجوی بینگ مایکروسافت متصل است، در پاسخهای خود به سایتهای خبری اشاره میکند. او میگوید: «من صریح اجازه ندادم که آثارم بهعنوان دادههای آموزشی مورد استفاده قرار گیرند، اما تقریباً مطمئناً چنین بودند، و اکنون به آنچه این مدلها میدانند کمک میکنند».
«بسیاری از هنرمندان به شدت نگران هستند که معیشت آنها در معرض خطر هوش مصنوعی مولد باشد. منتظر نبردهای حقوقی باشید.»
شکایت هایی در حال حاضر مطرح شده است، شرکت عکس سهام Getty Images از استارتاپ بریتانیایی Stability AI – شرکتی که سازنده تصویر هوش مصنوعی Stable Diffusion است – پس از ادعای این که شرکت تولید کننده تصویر با استفاده از میلیون ها عکس بدون مجوز Getty برای آموزش سیستم خود، حق چاپ را نقض کرده است. در ایالات متحده، گروهی از هنرمندان از Midjourney و Stability AI در دادخواستی شکایت کرده اند که ادعا می کند این شرکت ها “حقوق میلیون ها هنرمند را در توسعه محصولات خود با استفاده از آثار هنرمندان بدون اجازه آنها نقض کرده اند”.
Stable Diffusion برای ثبات، گاهی اوقات تصاویری را با واترمارک Getty Images دست نخورده بیرون میکشد، که نمونههایی از آنها را آژانس عکاسی در دادخواست خود گنجانده است. در ژانویه، محققان گوگل حتی موفق شدند سیستم Stable Diffusion را وادار کنند تا تقریباً یکی از تصاویر بدون مجوزی را که روی آن آموزش دیده بود، یعنی پرتره ای از بشارت دهنده آمریکایی آن گراهام لوتز، بازسازی کند.
دعوای حق نسخه برداری و اقدامات تنظیم کننده علیه OpenAI به دلیل محرمانه بودن مطلق این شرکت در مورد داده های آموزشی خود مختل شده است. در پاسخ به ممنوعیت ایتالیایی، سام آلتمن، مدیر اجرایی OpenAI توسعه دهنده ChatGPT، گفت: “ما فکر می کنیم که همه قوانین حفظ حریم خصوصی را دنبال می کنیم.” اما این شرکت از به اشتراک گذاشتن هر گونه اطلاعاتی در مورد اینکه چه داده هایی برای آموزش GPT-4 استفاده شده است، خودداری کرده است، آخرین نسخه فناوری اساسی که ChatGPT را تامین می کند.
حتی در «گزارش فنی» خود که هوش مصنوعی را توصیف میکند، این شرکت تنها میگوید که «هم با استفاده از دادههای در دسترس عموم (مانند دادههای اینترنتی) و هم از دادههای دارای مجوز از ارائهدهندگان شخص ثالث آموزش دیده است. به گفته آن، اطلاعات بیشتر به دلیل «هم چشمانداز رقابتی و هم پیامدهای ایمنی مدلهای مقیاس بزرگ مانند GPT-4» پنهان است.
دیگران نظر مخالف دارند. EleutherAI خود را به عنوان یک “آزمایشگاه تحقیقاتی هوش مصنوعی غیر انتفاعی” توصیف می کند و در سال 2020 با هدف بازآفرینی GPT-3 و انتشار آن برای عموم تاسیس شد. برای این منظور، گروه Pile، مجموعهای 825 گیگابایتی از مجموعههای داده جمعآوری شده از هر گوشه اینترنت را گردآوری کرد. این شامل 100 گیگابایت کتاب الکترونیکی گرفته شده از سایت دزدان دریایی bibliotik، 100 گیگابایت دیگر از کدهای کامپیوتری حذف شده از Github، و مجموعه ای از 228 گیگابایت از وب سایت هایی است که از سال 2008 از سراسر اینترنت جمع آوری شده است – گروه اذعان می کند که همه آنها بدون رضایت نویسندگان درگیر است. .
الوتر استدلال میکند که مجموعه دادههای موجود در Pile همگی به قدری به اشتراک گذاشته شدهاند که جمعآوری آن “مضرات قابل توجهی را افزایش نمیدهد”. اما این گروه ریسک قانونی میزبانی مستقیم داده ها را نمی پذیرد، در عوض به گروهی از “علاقه مندان به داده ها” ناشناس به نام چشم روی می آورد، که سیاست حذف حق نسخه برداری آن ها ویدئویی از گروه کری از زنان کاملاً پوشیده است که وانمود می کنند در حال آواز خواندن خودارضایی می کنند. .
برخی از اطلاعات تولید شده توسط چت بات ها نیز نادرست بوده است. ChatGPT به دروغ یک استاد حقوق ایالات متحده، جاناتان تورلی، از دانشگاه جورج واشنگتن را به آزار و اذیت جنسی یکی از دانشجویانش – با استناد به یک مقاله خبری که حتی وجود نداشت، متهم کرده است. تنظیم کننده ایتالیایی همچنین به این واقعیت اشاره کرده بود که پاسخ های ChatGPT “همیشه با شرایط واقعی مطابقت ندارد” و “داده های شخصی نادرست پردازش می شوند.”
نگرانی در مورد نحوه آموزش هوش مصنوعی در حالی مطرح شد که گزارش سالانه پیشرفت در هوش مصنوعی نشان داد که بازیگران تجاری بر این صنعت، بر موسسات دانشگاهی و دولت ها تسلط دارند.
بر اساس گزارش 2023 AI Index که توسط دانشگاه استنفورد مستقر در کالیفرنیا گردآوری شده است، در سال گذشته 32 مدل قابل توجه یادگیری ماشینی تولید شده در صنعت در مقایسه با تنها سه مدل تولید شده توسط دانشگاه ها وجود داشت. تا سال 2014، بیشتر مدل های قابل توجه از حوزه دانشگاهی می آمدند. اما از آن زمان هزینه توسعه مدلهای هوش مصنوعی، از جمله کارکنان و قدرت محاسباتی، افزایش یافته است.
ایندکس میگوید: «در کل، مدلهای زبان بزرگ و چندوجهی بزرگتر و گرانتر میشوند. تکرار اولیه LLM پشت ChatGPT، معروف به GPT-2، دارای 1.5 میلیارد پارامتر مشابه نورون های مغز انسان بود و هزینه آموزش آن 50000 دلار تخمین زده می شود. در مقام مقایسه، پالم گوگل دارای 540 میلیارد پارامتر بود و حدود 8 میلیون دلار هزینه داشت.
این نگرانیها را به وجود آورده است که نهادهای شرکتی رویکرد کمتری نسبت به پروژههای دانشگاهی یا تحت حمایت دولت در قبال ریسک اتخاذ کنند. هفته گذشته نامه ای که امضاکنندگان آن شامل ایلان ماسک و استیو وزنیاک، بنیانگذار اپل بود، خواستار توقف فوری ایجاد “آزمایش های غول پیکر هوش مصنوعی” برای حداقل شش ماه شد. در این نامه آمده است که نگرانیهایی وجود دارد که شرکتهای فناوری در حال ایجاد «ذهن دیجیتال قدرتمندتر» هستند که هیچکس نمیتواند آنها را «درک، پیشبینی یا بهطور قابل اعتماد کنترل کند».
دکتر اندرو روگویسکی از مؤسسه هوش مصنوعی مردممحور گفت: هوش مصنوعی بزرگ به این معنی است که این هوش مصنوعیها صرفاً توسط شرکتهای بزرگ منفعتمحور ایجاد میشوند، که متأسفانه به این معنی است که منافع ما بهعنوان انسان لزوماً به خوبی نشان داده نمیشود. دانشگاه ساری
وی افزود: «ما باید تلاشهای خود را بر روی کوچکتر کردن، کارآمدتر کردن هوش مصنوعی، نیاز به دادههای کمتر و برق کمتر متمرکز کنیم تا بتوانیم دسترسی به هوش مصنوعی را دموکراتیک کنیم.»
این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت اخبار امروز آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.