آیا استفاده از محتوای وب توسط ChatGPT قانونی است؟

برخی افراد از نحوه استفاده ربات ChatGPT از محتوای وب سایت شان که عموما به منظور آموزش و یادگیری است راضی نیستند.

مهمترین نکات مطرح شده:

راهکاری برای جلوگیری استفاده از محتوای شما برای آموزش مدل های بزرگ زبانی مانند ربات ChatGPT وجود دارد.
یک متخصص حقوق مالکیت معنوی می‌گوید که تکنولوژی از قوانین کپی رایت پیشی گرفته است.
سوال متخصص بازاریابی جستجو یا سئو کار این است که آیا استفاده از محتوای اینترنتی توسط هوش مصنوعی بدون اجازه، قانونی است؟

مدل‌های بزرگ زبانی (LLM) مانند چت جی پی تی (ChatGPT) با استفاده از منابع اطلاعاتی گوناگون، از جمله محتوای وب، اطلاعات خود را به دست می آورند. این داده‌ها پایه و اساس محتواهایی است که در قالب مقالاتی تولید میشود که بدون ذکر منبع یا هیچ منفعتی برای تولید کنندگان محتوای اصلی در ChatGPT استفاده میشوند.
موتورهای جستجو محتوای وب سایت ها ( کرال و ایندکس کردن) را دانلود می کنند تا پاسخ ها را در قالب لینک هایی به وب سایت های دیگر ارائه دهند.
صاحبان وب سایت و منتشر کنندگان محتوا این امکان را دارند که از کرال کردن و ایندکس کردن محتوای خود توسط موتورهای جستجو جلوگیری کنند و این کار از طریق پروتکل حذف ربات ها که معمولاً به آن Robots.txt می گویند، انجام میشود.
پروتکل حذف ربات ها یک استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های قانونی وب از آن پیروی می کنند. (ممکن است که برخی از ربات ها از این قانون پیروی نکنند)

آیا منتشر کنندگان محتوای وب میتوانند از پروتکل Robots.txt برای جلوگیری استفاده مدل های زبانی از محتوای خودشان استفاده کنند؟

مدل های زبان از محتوای وب سایت ها بدون ذکر منبع استفاده می کنند

افرادی که درگیر بازاریابی جستجو هستند، از نحوه استفاده از داده‌های وب‌سایت برای آموزش ماشین‌ها و هوش مصنوعی بدون ارائه هیچ چیزی، مانند تأیید یا ترافیک برای سایت، ناراحت هستند.

هانس پیتر (Hans Petter Blindheim) کارشناس ارشد در Curamando نظر خود را درباره این موضوع به اشتراک گذاشته است.

هانس پتر اظهار داشت:

وقتی نویسنده‌ای بعد از اینکه مطلبی را از مقاله ای در سایت شما یاد گرفت، در اغلب مواقع در نوشته خود به مقاله شما لینک مستقیم نمیدهد، چراکه باعث اعتبار شما میشود. این لینک دادن را استناد (citation) میگویند.

اما در مقیاس بزرگی که ChatGPT از محتوا استفاده کرده و هیچ سودی را برنمی گرداند، آن را از گوگل و مردم متمایز میکند. وب سایت ها به طور کلی با در نظر گرفتن هدف و دستورالعمل اقتصادی ساخته میشود.

گوگل به افراد کمک می‌کند محتوا را پیدا کنند و ترافیکی را به وجود می آورد که متقابلا برای سایت ها سودمند است. اما مدل های زبانی اینطور نیستند که برای استفاده از محتوایتان از شما اجازه بگیرند، آنها فقط از آن به طور گسترده تر از آنچه در هنگام انتشار محتوا انتظار می رفت استفاده می کنند.

اگر مدل‌های زبان هوش مصنوعی در ازای آن هیچ ارزش و سودی ارائه نمی‌دهند، چرا منتشر کننده گان محتوا باید به آنها اجازه دهند تا محتوا را کرال و استفاده کنند؟

آیا استفاده آنها از محتوای شما با استانداردها مطابقت دارد؟

وقتی ChatGPT و مدل‌های ML/AI گوگل بدون اجازه از محتوای شما استفاده میکنند، این اطلاعات در اختیار مخاطب قرار میگیرد، در حالی که مردم را از وب‌سایت‌های شما دور نگه می‌دارد. آیا صنعت و همچنین قانون‌گذاران نباید سعی کنند با مجبور کردن آنها به انتقال و انتخاب یک مدل، کنترل اینترنت را به دست بگیرند؟

نگرانی هایی که هانس پتر بیان می کند منطقی است.
با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده از محتوا باید تجدید نظر و به روز شوند؟
از جان ریزوی (John Rizvi)، وکیل ثبت اختراع که دارای گواهینامه حقوق مالکیت معنوی است، پرسیده شده که آیا قوانین کپی رایت اینترنتی قدیمی شده است.

جان پاسخ داد:
بدون شک بله.
یکی از دلایل اصلی اختلافات در چنین مسائلی، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی پیشرفت میکند.
شاید این مسئله در دهه 1800 اهمیت چندانی نداشت، چون پیشرفت‌ها نسبتاً کند بود و دستگاه ها کم و بیش منطبق با قانون تجهیز می شدند.
با این حال، امروزه پیشرفت‌های تکنولوژی بسیار فراتر از توانایی قانون برای ادامه‌دادن است.

پیشرفت های ساده زیادی وجود دارد و بخش های زیادی هستند که باید بالا بیایند و خودشان را به تکنولوژی برسانند.
از آنجایی که بخش های قانونی در حال حاضر، عمدتاً توسط افرادی که در زمینه تکنولوژی تخصصی ندارند، تشکیل و اداره می‌شود، این قانون برای همگام شدن با تکنولوژی ضعیف است یا ساختار ضعیفی دارد... و ما باید در نظر بگیریم که این کاملا چیز بدی نیست.
بنابراین، از یک جهت، بله، باید امیدوار بود قانون مالکیت فکری حتی اگر به دنبال همگامی با پیشرفت‌های تکنولوژی باشد، تکامل یابد.
مشکل اصلی ایجاد تعادل بین راه‌هایی است که می‌توان از اشکال مختلف فناوری استفاده کرد و در عین حال از دست‌اندازی آشکار یا سانسور آشکار برای منافع سیاسی خودداری کرد.
قانون گذاران همچنین باید مراقب باشند که علیه استفاده‌های احتمالی از تکنولوژی به‌طور گسترده، قانونی وضع نشود، تا هرگونه سود بالقوه‌ای که ممکن است از آن به دست آید را از بین ببرد .
شما به راحتی می توانید با اولین اصلاحیه و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا و تا چه میزان و توسط چه کسی می تواند مورد استفاده قرار گیرد، مخالفت کنید.
تلاش برای هر نوع استفاده ی کنترل نشده از تکنولوژی سال ها یا دهه ها قبل از اینکه چارچوبی وجود داشته باشد ، یک کار احمقانه و بسیار خطرناک به نظر می رسید.
در موقعیت‌هایی مانند این، قانون واقعاً نمی‌تواند به نحوه استفاده از تکنولوژی واکنش نشان دهد.
به احتمال زیاد به این زودی ها تغییر نخواهد کرد، مگر اینکه به یک پلتفرم عظیم و غیرمنتظره فناوری برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.

بنابراین به نظر می رسد که موضوع قوانین کپی رایت به رسیدگی زیادی در مورد نحوه آموزش هوش مصنوعی نیاز دارد و پاسخ ساده ای برای آن وجود ندارد.

شکایت از ماکروسافت و OpenAI

یک مورد جالب که اخیراً ثبت شده، موردی است که در آن اپن ای آی (OpenAI) و مایکروسافت از کد منبع باز برای ساخت محصول CoPilot خود استفاده کردند.
مشکل استفاده از کد منبع باز این است که مجوز کرییتیو کامنز (Creative Commons) نیاز به ذکر منبع دارد.

بر اساس مقاله ای که در یک مجله علمی منتشر شده :

شاکی‌ها ادعا می‌کنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را ساخته اند که نرم افزار تولید کد است و این کدها را با استفاده از کدهای متن باز که قابل دسترس عموم است تولید میکند درحالی که بسیاری از آنها نیاز به منبع دارند.
GitHub می‌گوید نرم افزارCopilot ، زبان طبیعی را به پیشنهادهای کدنویسی به ده‌ها زبان برنامه نویسی تبدیل می‌کند.
ظاهراً محصول گیت هاب، اعتبار را برای سازندگان اصلی از بین برده است.

نویسنده مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت: بسیاری از افراد مجوزهای کرییتیو کامنز منبع باز را«رایگان برای همه» می دانند.
برخی ممکن است این عبارت «رایگان برای همه» را اینگونه توصیف کنند، مجموعه‌های داده‌ای که از محتوای اینترنتی تشکیل شده‌اند، اسکریپت شده و برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده می‌شوند.

پیشینه LLM ها و مجموعه داده ها

مدل های بزرگ زبانی بر روی مجموعه داده های متعددی از محتوا آموزش می بینند. مجموعه داده‌ها می‌توانند شامل ایمیل‌ها، کتاب‌ها، داده‌های دولتی، مقالات ویکی‌پدیا و حتی مجموعه داده‌های ایجاد شده از وب‌سایت‌های لینک شده به پست‌هایی در Reddit باشند که حداقل سه موافق دارند.
بسیاری از مجموعه داده های مرتبط با محتوای اینترنت، منبع خود را در کرال ایجاد شده توسط یک سازمان غیرانتفاعی به نام کامان کرال (Common Crawl) دارند.
مجموعه داده آنها و مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.
مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن تولید میشود.
به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl استفاده کرد.

به این ترتیب محققان GPT-3 از داده های وب سایت های موجود در مجموعه داده Common هایCrawl استفاده کردند:

مجموعه داده‌ها برای مدل‌های زبانی به سرعت گسترش یافته‌اند و با مجموعه داده‌های Common Crawl که تقریباً یک تریلیون کلمه را تشکیل می‌دهند، به اوج خود رسیده‌ است.
این حجم وسیع مجموعه داده برای آموزش بزرگ‌ترین مدل‌های ما کافی است، بدون اینکه روی یک ترتیب دو بار آپدیت شود
با این حال، متوجه شده‌ایم که نسخه‌های فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه داده‌هایی که بیشتر مدیریت شده اند کیفیت پایین‌تری دارند.
بنابراین، ما 3 مرحله را برای بهبود کیفیت متوسط مجموعه داده های خود انجام دادیم:

1- نسخه ای از CommonCrawl را بر اساس شباهت به طیفی از مجموعه های مرجع با کیفیت بالا دانلود و فیلتر کردیم.
2- برای جلوگیری از افزونگی و حفظ یکپارچگی، با استفاده از فرآیند فازی، رکورد های تکراری اسناد را در داخل و بین مجموعه داده ها حذف کردیم.
3- همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعه‌های مرجع شناخته شده با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.

مجموعه داده C4 گوگل (Colossal, Cleaned Crawl Corpus) که برای تبدیل متن به متن (Text-to-Text Transfer Transformer یا T5) استفاده شده، ریشه در مجموعه داده Common Crawl نیز دارد.

مقاله تحقیقاتی آنها توضیح می دهد:
قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، ما موضوعات پیش زمینه ای لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورمر (Transformer) و وظایف کوچک تر که آنها را ارزیابی می کنیم.
ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی به‌عنوان یک کار متن به متن انجام داده وآن را C4 معرفی میکنیم. مجموعه داده‌های مبتنی بر خزیدن مشترک را که به عنوان منبع داده‌های متنی بدون برچسب ایجاد کرده‌ و توصیف می‌کنیم.
ما به مدل و چارچوب خود به عنوان "تبدیل متن به متن" (T5) اشاره می کنیم.

گوگل مقاله ای را در وبلاگ هوش مصنوعی خود منتشر کرد که بیشتر توضیح می دهد که چگونه از داده های Common Crawl (که حاوی محتوای اسکریپت شده از اینترنت است) برای ساخت C4 استفاده شده است.

آنها نوشتند:

یک عنصر مهم برای یادگیری نحوه تبدیل، مجموعه داده بدون برچسبی است که برای پیش‌آموزش استفاده می‌شود.

اندازه‌گیری دقیق تأثیر مقیاس‌پذیری میزان پیش‌آموزش، به مجموعه‌ای نیاز دارد که نه تنها با کیفیت و متنوع بوده، بلکه گسترده باشد.

مجموعه داده‌های پیش‌آموزشی موجود، این سه این معیاررا برآورده نمی‌کنند - برای مثال، متن ویکی‌پدیا با کیفیت بالاست، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند، اما نسبتاً کیفیت پایینی دارند.

برای برآورده کردن این الزامات، ما C4 را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکی‌پدیا است.

فرآیند تمیز کردن ما، شامل کپی برداری، دور انداختن جملات ناقص و حذف محتوای توهین آمیز یا پر سر و صدا بود.

این فیلتر منجر به نتایج بهتر در کارهای پایین دستی می‌شود.

گوگل، OpenAI و حتی Open Data Oracle از محتوای اینترنت و محتوای شما، برای ایجاد مجموعه داده‌هایی استفاده می‌کنند که سپس در ایجاد برنامه‌های هوش مصنوعی مانند ChatGPT استفاده می‌شوند.

آیا کامن کرال Common Crawl را می توان مسدود کرد؟

می توان Common Crawl را مسدود کرد و متعاقباً از همه مجموعه داده هایی که بر اساس Common Crawl هستند انصراف داد.
اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها وجود دارد. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و سایر مجموعه داده های مشتق شده مانند C4 و Open Data وجود ندارد.
استفاده از پروتکل Robots.txt فقط خزیدن های بعدی توسط Common Crawl را مسدود می‌کند، و محققان را از استفاده از محتوای موجود در مجموعه داده منع نمی‌کند.

نحوه مسدود کردن Common Crawl

مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیت‌های مورد بحث در بالا، امکان‌پذیر است.
ربات Common Crawl، CCBot نیز نامیده می شود.
با استفاده از به‌روزترین CCBot User-Agent شناسایی می‌شود: CCBot/2.0
مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.
در اینجا کد مسدود کردن CCBot با Robots.txt را می بینید.

User-agent: CCBot

Disallow: /

CCBot از آی پی آدرس آمازون کرال میکند.

CCBot همچنین از متا تگ nofollow نیز پیروی می کند:

meta name="robots" content="nofollow"

اگر کرال را مسدود نکنید، چه؟

محتوای وب را می توان بدون اجازه دانلود کرد، همانطور که مرورگر ها این کار میکنند، آنها محتوا را دانلود می کنند.
گوگل یا هر شخص دیگری برای دانلود و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.
صاحبان وب سایت گزینه های محدودی دارند.
به نظر می‌رسد که رعایت اخلاقی بودن آموزش هوش مصنوعی بر روی محتوای وب، بخشی از مکالمات روزانه درباره اخلاقیات نحوه توسعه فناوری هوش مصنوعی نیست.
مسلم است که محتوای اینترنتی را می توان دانلود و خلاصه کرد و به محصولی به نام ChatGPT تبدیل نمود.
آیا این عادلانه است؟ جواب کاملا پیچیده است.

منبع محتوا : searchenginejournal

فرارنک

تیم فنی و آموزشی هی سئو با بیش از ۱۲ سال تجربه تمام دانش خود را به صورت صادقانه با شما عزیزان به اشتراک می گذارد.

این مقاله را به اشتراک بگذارید

آیا استفاده ChatGPT از محتوای وب قانونی است؟