ডিপসিক কি সত্যিই চুরি করেছে চ্যাটজিপিটি নির্মাতার ডেটা?

বেশ ক’দিন ধরেই চীনের ডিপসিক এআই অ্যাসিসট্যান্ট ঝড় তুলেছে আমেরিকার প্রযুক্তি খাতে। গত ২০ জানুয়ারি ডিপসিক তাঁদের ‘আর১’ (আর ওয়ান) রিজনিং এআই মডেলটি রিলিজ করার পর থেকেই রীতিমতো হুলুস্থুল বেঁধে যায় আমেরিকায়। এআই উদ্ভাবনে নেতৃত্ব দেওয়া আমেরিকার শীর্ষ এআই গবেষণা প্রতিষ্ঠানগুলোকে লজ্জা দিয়ে ডিপসিক এমন এক এআই মডেল নিয়ে এসেছে যেটা পারফরম্যান্সের দিক থেকে ওপেনএআই’র ০১ ও গুগলের জিমিনি’র মতো প্রচলিত জনপ্রিয় এআই মডেলগুলোর সমকক্ষ, অথচ এর তৈরি ও ব্যবহারের খরচ ভগ্নাংশ পরিমাণ। তবে মাইক্রোসফট-সমর্থিত ওপেনএআই-এর দাবি, তাঁদের জিপিটি মডেলের আউটপুট আইনবহির্ভূতভাবে ব্যবহার করেছে ডিপসিক।

ডিপসিক এআই’র বিরুদ্ধে চুরির অভিযোগ এনেছে মাইক্রোসফট-সমর্থিত ওপেনএআই।
চ্যাটজিপিটি টু ডিপসিক

মাইক্রোসফট ও ওপেনএআই বিষয়টি খতিয়ে দেখছে এবং ইতোমধ্যেই তাঁরা ডিপসিকের বিরুদ্ধে এমন কিছু প্রমাণও পেয়েছে বলে জানা গেছে।

ওপেনএআই ও মাইক্রোসফট তাঁদের আভ্যন্তরীণ তদন্তে এমন বেশ কয়েকটি অ্যাকাউন্টের সন্ধান পেয়েছে যেগুলো থেকে ওপেনএআই-এর এপিআই (অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস) ব্যবহার করে তাঁদের এআই মডেল থেকে ‘ডিস্টিল’ করা হয়েছে বলে জানা গেছে। সন্দেহজনক অ্যাকাউন্টগুলো ডিপসিকের বলেই দাবি ওপেনএআই ও মাইক্রোসফটের এবং গত বছরই এই অ্যাকাউন্টগুলোকে বন্ধ করে দিয়েছে তাঁরা।

উল্লেখ্য, এআই মডেলের প্রশিক্ষণে ‘ডিস্টিলেশন’ বা নলেজ ডিস্টিলেশন পদ্ধতি অনেকেই ব্যবহার করে থাকেন। এই প্রক্রিয়ায় বড় আকারের শক্তিশালী ও জটিল কাজে সক্ষম এআই মডেলের আউটপুট দিয়ে ছোট আকারের সুনির্দিষ্ট কাজের উপযোগী এআই মডেল তৈরি করা হয়। বড় মডেলগুলো ‘টিচার’ এবং ছোট মডেলগুলো ‘স্টুডেন্ট’ নামেও অভিহিত করা হয়। ছোট মডেলগুলো ব্যবহারে খুব বেশি কম্পিউটেশনাল পাওয়ারের প্রয়োজন হয় না, তবে পারফরম্যান্সের দিক থেকে এগুলো ‘টিচার’ মডেলের মতোই কার্যকর।

এখন প্রশ্ন হচ্ছে, বড় মডেলের আউটপুট ডিস্টিল করে ছোট মডেল তৈরির বিষয়টি যদি বহুল-ব্যবহৃত হয়ে থাকে তাহলে ডিপসিকের বিরুদ্ধে চুরির অভিযোগ আসছে কেন? এখানে মূল বিষয়টি হচ্ছে, কোনো প্রতিষ্ঠান তাঁদের একটি এআই মডেলের আউটপুট দিয়ে অন্য একটি এআই মডেলকে প্রশিক্ষণ দিতেই পারে, তাতে দোষের কিছু নেই। কিন্তু অন্য কোনো প্রতিষ্ঠানের এআই মডেলের আউটপুট ব্যবহার করে (ডিস্টিল করে) নিজের প্রতিষ্ঠানের এআই মডেল তৈরি করতে গেলে অনুমতির প্রয়োজন হয়। মূলত এই যুক্তিতেই বলা হচ্ছে, ডিপসিক ওপেনএআই-এর জিপিটি-৪ এআই মডেলটি বেআইনিভাবে ব্যবহার করেছে নিজেদের উন্নত এআই মডেল তৈরিতে।

ওপেনএআই এক বিবৃতি’তে জানিয়েছে যে, চীনে বেশ কয়েকটি গ্রুপ বর্তমানে সক্রিয় আছে যারা আমেরিকার শীর্ষ এআই প্রতিষ্ঠানগুলোর উন্নত মডেলের আউটপুট ডিস্টিল করে নিজেদের এআই মডেল তৈরির চেষ্টা করে যাচ্ছে। অর্থাৎ আমেরিকান এআই মডেলের কপি তৈরিতে তাঁরা নিয়মবহির্ভূতভাবে ডিস্টিলেশন প্রক্রিয়া অনুসরণ করছে বলেই দাবি চ্যাটজিপিটি নির্মাতা ওপেনএআই’র।

বিবৃতিতে ওপেনএআই বলছে, ‘আমরা জানি যে ডিপসিক আমাদের মডেলগুলোকে বিধিবহির্ভূতভাবে ব্যবহার করেছে এবং আমরা এ সম্পর্কিত ইঙ্গিতগুলো পর্যালোচনা করছি। নতুন কোনো তথ্য পেলে আমরা তা শেয়ার করবো।’

ডিপসিক অবশ্য তাঁদের গবেষণাপত্রে স্বীকারও করেছে যে, নিজেদের আর১ মডেলটি তৈরিতে তাঁরা নলেজ ডিস্টিলেশন পদ্ধতি অনুসরণ করেছে। তবে চীনের এই এআই ল্যাবটি জানিয়েছে, তাঁরা কেবলমাত্র ওপেন-সোর্স অর্থাৎ উন্মুক্ত এআই মডেলই ব্যবহার করেছে ডিস্টিলেশনের ক্ষেত্রে। উল্লেখ্য, ওপেন-সোর্স মডেলগুলো বিনামূল্যে ও বিনা-অনুমতিতে ব্যবহার করা যায়।

তবে ওপেনএআই’র দাবি, তাঁদের এআই মডেল ডিস্টিল করেছে ডিপসিক- যেটা সুস্পষ্টভাবে ব্যবহারবিধি’র (টার্মস অব ইউজের) লঙ্ঘন। উল্লেখ্য, ওপেনএআই’র ব্যবহারবিধি’তে স্পষ্ট করেই বলা আছে যে, ব্যবহারকারীরা তাঁদের কোনো সেবা ‘কপি’ করতে পারবে না এবং তাঁদের মডেলগুলোর আউটপুট ব্যবহার করে প্রতিদ্বন্দ্বী কোনো এআই মডেল-ও তৈরি করতে পারবেন না।


আমেরিকার সদ্য-নিয়োগপ্রাপ্ত এআই ও ক্রিপ্টো জার ডেভিড স্যাকস নিজেও জানিয়েছেন যে, ডিপসিকের ডিস্টিলেশনের গুরুত্বপূর্ণ প্রমাণ রয়েছে। 

ডিস্টিলিং না চুরি?

ওপেনএআই ও ডিপসিক উভয়ই একটি জায়গায় ঠিক যে, আর১ মডেলটি তৈরিতে ডিস্টিলেশন করা হয়েছে। কিন্তু পার্থক্য হচ্ছে, ওপেনএআই বলছে, তাঁদের মডেলের আউটপুট ব্যবহার করেছে ডিপসিক। অন্যদিকে ডিপসিকের দাবি তাঁরা ওপেন-সোর্স মডেল থেকে ডিস্টিল করেছে। প্রথম দাবিটি সত্য হলে বিষয়টিকে চুরি বলা যায়। দ্বিতীয়টির ক্ষেত্রে এটি ডিস্টিলেশনের চেয়ে বেশি কিছু নয়।

ডিপসিক চুরি করেছে নাকি ডিস্টিলিং- এই প্রশ্নের সঠিক উত্তর দেওয়া বেশ কঠিন। এর কারণ মূলত দুটি। প্রথমত এআই মডেল প্রশিক্ষণে কোন কাজটি বৈধ আর কোনটি বৈধ নয়- এ নিয়ে সুস্পষ্ট কোনো নিয়মনীতি বা নীতিমালা এখনও তৈরি হয়নি।

দ্বিতীয়ত, এমন কোনো মেকানিজম বা পদ্ধতি তৈরি করা যায়নি যার মাধ্যমে শতভাগ নিশ্চিত করে বলা যায় যে, ডিপসিক ওপেনএআই’র মডেল আউটপুট ব্যবহার করেছে নিজেদের আর১ বা ভি৩ মডেল তৈরিতে। শুধুমাত্র চীনের একটি গ্রুপ ডিস্টিলিং করেছে বললেই ডিপসিক-কে দোষী সাব্যস্ত করা যায় না। সেজন্য সন্দেহাতীতভাবে প্রমাণ করতে হবে যে ডিপসিক এমনটা করেছে যেটা ওপেনএআই’র ব্যবহারবিধি-কে লঙ্ঘন করে। আইনের ভাষায় যাকে বলে, ‘বিয়ন্ড অ্যানি রিজন্যাবল ডাউট’।

ডিপসিক চুরি করে থাকলে বাকিরা কী তবে সাধু?

জেনারেটিভ এআই-ভিত্তিক চ্যাটবটের জন্য প্রয়োজন হয় বিভিন্ন এলএলএম বা লার্জ ল্যাঙ্গুয়েজ মডেলের, যেগুলোকে প্রশিক্ষণ দিতে দরকার হয় বিশাল আকারের ডেটাসেট। আর এই বিশাল পরিমাণ ডেটাসেটের যোগান দিতে অনেক এআই প্রতিষ্ঠানই কপিরাইটযুক্ত কনটেন্ট ব্যবহার করেছেন। মজার বিষয় হচ্ছে, এই কাজটি ওপেনএআই নিজেও করেছে এবং এ নিয়ে স্যাম অল্টম্যানের প্রতিষ্ঠানকে বর্তমানে মামলাও লড়তে হচ্ছে বিভিন কনটেন্ট ক্রিয়েটরদের সাথে- যার মধ্যে আছে সংবাদমাধ্যম নিউইয়র্ক টাইমস পর্যন্ত!

ওপেনএআই নিজেও স্বীকার করে নিয়েছে যে তাঁরা অনলাইনে প্রাপ্ত কপিরাইটযুক্ত ডেটা তাঁদের এআই মডেলের প্রশিক্ষণে ব্যবহার করেছে। তবে কপিরাইটযুক্ত অনলাইন ম্যাটেরিয়াল তাঁরা ‘ফেয়ার ইউজ’ আইনের অধীনে করেছে বলেই দাবি চ্যাটজিপিটি নির্মাতার।

ওপেনএআই এক্ষেত্রে একা নয়। অনেক এআই গবেষণা ল্যাবই এমনটি করেছে নিজেদের এআই মডেল তৈরি করার জন্য। প্রযুক্তি খাতের সুপরিচিত বিনিয়োগকারী (ভেঞ্চার ক্যাপিটালিস্ট) বিল গার্লে বলছেন যে, প্রচলিত এআই মডেলগুলোর ‘কোর (মূল) অ্যালগরিদম’ গুগলের এআই ল্যাব ডিপমাইন্ডে তৈরি করা হয়েছে। 

‘কেউ এতে দ্বিমত পোষণ করে না। বেশিরভাগ এলএলএম-এর ইনসাইটস ও ব্রেকথ্রু অন্যের থেকে ধার করা,’ বলে জানান গার্লে।

তথ্যসূত্র: ফিন্যান্সিয়াল টাইমস, বিবিসি, সিএনএন, ফোর্বস

এই রকম আরও তথ্য পেতে আমাদের ফেসবুক পেজে লাইক দিয়ে যুক্ত থাকুন। এর পাশাপাশি গুগল নিউজে আমাদের ফলো করুন।

Previous Post
মন্তব্যগুলো দেখান
মন্তব্যগুলো যোগ করুণ

আপনার মূল মান মতামতটি আমাদের জানান। আমি শালীন ভাষা ব্যাবহার করবো এবং অশ্লীল ভাষা ব্যাবহার থেকে বিরত থাকবো। কৌণিক বার্তা.কম আপনার আইপি অ্যাড্রেস ব্লকের ক্ষমতা রাখে।

comment url