“من اجازه ندادم”: آیا حامیان هوش مصنوعی به نقض قوانین داده اهمیت می دهند؟ | هوش مصنوعی (AI)

به گزارش دپارتمان اخبار اقتصادی پایگاه خبری آبان نیوز ،

سیسیستم‌های هوش مصنوعی پیشرفته می‌توانند به شما کمک کنند تا از جریمه پارکینگ فرار کنید، یک مقاله علمی بنویسید، یا شما را فریب دهند که پاپ فرانسیس یک مد روز است. اما کتابخانه‌های مجازی پشت این فناوری نفس‌گیر بسیار وسیع هستند – و نگرانی‌هایی وجود دارد که آنها اطلاعات شخصی و قوانین کپی رایت را نقض می‌کنند.

مجموعه داده‌های عظیمی که برای آموزش آخرین نسل از این سیستم‌های هوش مصنوعی استفاده می‌شوند، مانند آنچه در پشت ChatGPT و Stable Diffusion استفاده می‌شود، احتمالاً حاوی میلیاردها تصویر خراشیده شده از اینترنت، میلیون‌ها کتاب الکترونیکی غیرقانونی، کل جلسات 16 ساله پارلمان اروپا و کل ویکی پدیای انگلیسی زبان

اما اشتهای پرخاشگر صنعت برای داده های بزرگ شروع به ایجاد مشکلاتی کرده است، زیرا قانونگذاران و دادگاه ها در سراسر جهان با محققانی که بدون رضایت یا اخطار محتوا را جمع آوری می کنند، سرکوب می کنند. در پاسخ، آزمایشگاه‌های هوش مصنوعی می‌جنگند تا مجموعه داده‌های خود را مخفی نگه دارند، یا حتی دو انگشت خود را به طور کامل به سمت تنظیم‌کننده‌ها تکان می‌دهند و آنها را جرأت می‌کنند که این مشکل را پیش ببرند.

در ایتالیا، ChatGPT پس از اینکه رگولاتور حفاظت از داده های این کشور گفت که به نظر می رسد هیچ مبنای قانونی برای توجیه جمع آوری و “ذخیره سازی انبوه” داده های شخصی به منظور آموزش هوش مصنوعی GPT وجود ندارد، از فعالیت منع شد. روز سه‌شنبه، کمیسیونر حریم خصوصی کانادا در پاسخ به شکایتی مبنی بر «جمع‌آوری، استفاده و افشای اطلاعات شخصی بدون رضایت»، تحقیقاتی در مورد این شرکت دنبال کرد.

سازمان دیده بان داده بریتانیا نگرانی های خود را بیان کرد. استفان آلموند، مدیر فناوری و نوآوری در دفتر کمیساریای اطلاعات گفت: «قانون حفاظت از داده‌ها همچنان اعمال می‌شود که اطلاعات شخصی که پردازش می‌کنید از منابع در دسترس عموم باشد.

مایکل وولدریج، استاد علوم کامپیوتر در دانشگاه آکسفورد، می‌گوید «مدل‌های زبان بزرگ» (LLM) مانند مدل‌هایی که زیربنای ChatGPT OpenAI و Bard گوگل هستند، حجم عظیمی از داده‌ها را جمع‌آوری می‌کنند.

“این شامل کل شبکه جهانی وب – همه چیز است. هر پیوندی در هر صفحه دنبال می‌شود، و هر پیوندی در آن صفحات دنبال می‌شود… در آن حجم غیرقابل تصور داده، احتمالاً اطلاعات زیادی درباره من و شما وجود دارد. توسط یک LLM جمع آوری شود. و در یک پایگاه داده بزرگ در جایی ذخیره نمی شود – ما نمی توانیم به دنبال این باشیم که دقیقاً چه اطلاعاتی در مورد من دارد. همه اینها در شبکه‌های عصبی عظیم و غیرشفاف دفن شده‌اند.»

Wooldridge اضافه می کند که حق چاپ برای شرکت های هوش مصنوعی یک “طوفان آینده” خواهد بود. LLM ها احتمالاً به مطالب دارای حق چاپ مانند مقالات خبری دسترسی داشته اند. در واقع چت ربات به کمک GPT-4 که ​​به موتور جستجوی بینگ مایکروسافت متصل است، در پاسخ‌های خود به سایت‌های خبری اشاره می‌کند. او می‌گوید: «من صریح اجازه ندادم که آثارم به‌عنوان داده‌های آموزشی مورد استفاده قرار گیرند، اما تقریباً مطمئناً چنین بودند، و اکنون به آنچه این مدل‌ها می‌دانند کمک می‌کنند».

«بسیاری از هنرمندان به شدت نگران هستند که معیشت آنها در معرض خطر هوش مصنوعی مولد باشد. منتظر نبردهای حقوقی باشید.»

شکایت هایی در حال حاضر مطرح شده است، شرکت عکس سهام Getty Images از استارتاپ بریتانیایی Stability AI – شرکتی که سازنده تصویر هوش مصنوعی Stable Diffusion است – پس از ادعای این که شرکت تولید کننده تصویر با استفاده از میلیون ها عکس بدون مجوز Getty برای آموزش سیستم خود، حق چاپ را نقض کرده است. در ایالات متحده، گروهی از هنرمندان از Midjourney و Stability AI در دادخواستی شکایت کرده اند که ادعا می کند این شرکت ها “حقوق میلیون ها هنرمند را در توسعه محصولات خود با استفاده از آثار هنرمندان بدون اجازه آنها نقض کرده اند”.

طرحی که توسط کریس کاشتانووا کشیده شده است که هنرمند آن را به برنامه هوش مصنوعی Stable Diffusion داده و با استفاده از پیام های متنی به تصویر حاصل تبدیل می کند.
طرحی که توسط کریس کاشتانووا کشیده شده است که هنرمند آن را به برنامه هوش مصنوعی Stable Diffusion داده و با استفاده از پیام های متنی به تصویر حاصل تبدیل می کند. عکس: کریس کاشتانوا/ رویترز

Stable Diffusion برای ثبات، گاهی اوقات تصاویری را با واترمارک Getty Images دست نخورده بیرون می‌کشد، که نمونه‌هایی از آن‌ها را آژانس عکاسی در دادخواست خود گنجانده است. در ژانویه، محققان گوگل حتی موفق شدند سیستم Stable Diffusion را وادار کنند تا تقریباً یکی از تصاویر بدون مجوزی را که روی آن آموزش دیده بود، یعنی پرتره ای از بشارت دهنده آمریکایی آن گراهام لوتز، بازسازی کند.

دعوای حق نسخه برداری و اقدامات تنظیم کننده علیه OpenAI به دلیل محرمانه بودن مطلق این شرکت در مورد داده های آموزشی خود مختل شده است. در پاسخ به ممنوعیت ایتالیایی، سام آلتمن، مدیر اجرایی OpenAI توسعه دهنده ChatGPT، گفت: “ما فکر می کنیم که همه قوانین حفظ حریم خصوصی را دنبال می کنیم.” اما این شرکت از به اشتراک گذاشتن هر گونه اطلاعاتی در مورد اینکه چه داده هایی برای آموزش GPT-4 استفاده شده است، خودداری کرده است، آخرین نسخه فناوری اساسی که ChatGPT را تامین می کند.

حتی در «گزارش فنی» خود که هوش مصنوعی را توصیف می‌کند، این شرکت تنها می‌گوید که «هم با استفاده از داده‌های در دسترس عموم (مانند داده‌های اینترنتی) و هم از داده‌های دارای مجوز از ارائه‌دهندگان شخص ثالث آموزش دیده است. به گفته آن، اطلاعات بیشتر به دلیل «هم چشم‌انداز رقابتی و هم پیامدهای ایمنی مدل‌های مقیاس بزرگ مانند GPT-4» پنهان است.

دیگران نظر مخالف دارند. EleutherAI خود را به عنوان یک “آزمایشگاه تحقیقاتی هوش مصنوعی غیر انتفاعی” توصیف می کند و در سال 2020 با هدف بازآفرینی GPT-3 و انتشار آن برای عموم تاسیس شد. برای این منظور، گروه Pile، مجموعه‌ای 825 گیگابایتی از مجموعه‌های داده جمع‌آوری شده از هر گوشه اینترنت را گردآوری کرد. این شامل 100 گیگابایت کتاب الکترونیکی گرفته شده از سایت دزدان دریایی bibliotik، 100 گیگابایت دیگر از کدهای کامپیوتری حذف شده از Github، و مجموعه ای از 228 گیگابایت از وب سایت هایی است که از سال 2008 از سراسر اینترنت جمع آوری شده است – گروه اذعان می کند که همه آنها بدون رضایت نویسندگان درگیر است. .

از تبلیغات قبلی خبرنامه رد شوید

الوتر استدلال می‌کند که مجموعه داده‌های موجود در Pile همگی به قدری به اشتراک گذاشته شده‌اند که جمع‌آوری آن “مضرات قابل توجهی را افزایش نمی‌دهد”. اما این گروه ریسک قانونی میزبانی مستقیم داده ها را نمی پذیرد، در عوض به گروهی از “علاقه مندان به داده ها” ناشناس به نام چشم روی می آورد، که سیاست حذف حق نسخه برداری آن ها ویدئویی از گروه کری از زنان کاملاً پوشیده است که وانمود می کنند در حال آواز خواندن خودارضایی می کنند. .

برخی از اطلاعات تولید شده توسط چت بات ها نیز نادرست بوده است. ChatGPT به دروغ یک استاد حقوق ایالات متحده، جاناتان تورلی، از دانشگاه جورج واشنگتن را به آزار و اذیت جنسی یکی از دانشجویانش – با استناد به یک مقاله خبری که حتی وجود نداشت، متهم کرده است. تنظیم کننده ایتالیایی همچنین به این واقعیت اشاره کرده بود که پاسخ های ChatGPT “همیشه با شرایط واقعی مطابقت ندارد” و “داده های شخصی نادرست پردازش می شوند.”

نگرانی در مورد نحوه آموزش هوش مصنوعی در حالی مطرح شد که گزارش سالانه پیشرفت در هوش مصنوعی نشان داد که بازیگران تجاری بر این صنعت، بر موسسات دانشگاهی و دولت ها تسلط دارند.

بر اساس گزارش 2023 AI Index که توسط دانشگاه استنفورد مستقر در کالیفرنیا گردآوری شده است، در سال گذشته 32 مدل قابل توجه یادگیری ماشینی تولید شده در صنعت در مقایسه با تنها سه مدل تولید شده توسط دانشگاه ها وجود داشت. تا سال 2014، بیشتر مدل های قابل توجه از حوزه دانشگاهی می آمدند. اما از آن زمان هزینه توسعه مدل‌های هوش مصنوعی، از جمله کارکنان و قدرت محاسباتی، افزایش یافته است.

ایندکس می‌گوید: «در کل، مدل‌های زبان بزرگ و چندوجهی بزرگ‌تر و گران‌تر می‌شوند. تکرار اولیه LLM پشت ChatGPT، معروف به GPT-2، دارای 1.5 میلیارد پارامتر مشابه نورون های مغز انسان بود و هزینه آموزش آن 50000 دلار تخمین زده می شود. در مقام مقایسه، پالم گوگل دارای 540 میلیارد پارامتر بود و حدود 8 میلیون دلار هزینه داشت.

این نگرانی‌ها را به وجود آورده است که نهادهای شرکتی رویکرد کمتری نسبت به پروژه‌های دانشگاهی یا تحت حمایت دولت در قبال ریسک اتخاذ کنند. هفته گذشته نامه ای که امضاکنندگان آن شامل ایلان ماسک و استیو وزنیاک، بنیانگذار اپل بود، خواستار توقف فوری ایجاد “آزمایش های غول پیکر هوش مصنوعی” برای حداقل شش ماه شد. در این نامه آمده است که نگرانی‌هایی وجود دارد که شرکت‌های فناوری در حال ایجاد «ذهن دیجیتال قدرتمندتر» هستند که هیچ‌کس نمی‌تواند آن‌ها را «درک، پیش‌بینی یا به‌طور قابل اعتماد کنترل کند».

دکتر اندرو روگویسکی از مؤسسه هوش مصنوعی مردم‌محور گفت: هوش مصنوعی بزرگ به این معنی است که این هوش مصنوعی‌ها صرفاً توسط شرکت‌های بزرگ منفعت‌محور ایجاد می‌شوند، که متأسفانه به این معنی است که منافع ما به‌عنوان انسان لزوماً به خوبی نشان داده نمی‌شود. دانشگاه ساری

وی افزود: «ما باید تلاش‌های خود را بر روی کوچک‌تر کردن، کارآمدتر کردن هوش مصنوعی، نیاز به داده‌های کمتر و برق کمتر متمرکز کنیم تا بتوانیم دسترسی به هوش مصنوعی را دموکراتیک کنیم.»

این خبر از خبرگزاری های بین المللی معتبر گردآوری شده است و سایت اخبار امروز آبان نیوز صرفا نمایش دهنده است. آبان نیوز در راستای موازین و قوانین جمهوری اسلامی ایران فعالیت میکند لذا چنانچه این خبر را شایسته ویرایش و یا حذف میدانید، در صفحه تماس با ما گزارش کنید.

منبع

درباره ی aban_admin

مطلب پیشنهادی

بازی های برگشت نیمه نهایی لیگ اروپا و لیگ کنفرانس اروپا – زنده | لیگ اروپا

به گزارش دپارتمان اخبار ورزشی پایگاه خبری آبان نیوز ، اتفاقات کلیدی فقط رویدادهای کلیدی را …