মিথুনের ডেটা-বিশ্লেষণ ক্ষমতা গুগলের দাবির মতো ভালো নয়

গুগলের ফ্ল্যাগশিপ জেনারেটিভ এআই মডেলের বিক্রয় পয়েন্টগুলির মধ্যে একটি, জেমিনি 1.5 প্রো এবং 1.5 ফ্ল্যাশ, তারা অনুমিতভাবে প্রক্রিয়া এবং বিশ্লেষণ করতে পারে ডেটার পরিমাণ। প্রেস ব্রিফিং এবং ডেমোতে, Google বারবার দাবি করেছে যে মডেলগুলি তাদের “দীর্ঘ প্রসঙ্গ” এর জন্য পূর্বে অসম্ভব কাজগুলি সম্পন্ন করতে পারে, যেমন একাধিক শতাধিক পৃষ্ঠার নথির সারসংক্ষেপ করা বা ফিল্ম ফুটেজে দৃশ্য জুড়ে অনুসন্ধান করা।

কিন্তু নতুন গবেষণা পরামর্শ দেয় যে মডেলগুলি আসলে সেই জিনিসগুলিতে খুব ভাল নয়।

দুই পৃথক অধ্যয়ন Google-এর মিথুন মডেল এবং অন্যরা প্রচুর পরিমাণে ডেটার থেকে কতটা ভালোভাবে বোঝা যায় তা তদন্ত করেছে — মনে করুন “যুদ্ধ এবং শান্তি”-দৈর্ঘ্য কাজ করে৷ উভয়ই দেখতে পায় যে জেমিনি 1.5 প্রো এবং 1.5 ফ্ল্যাশ বড় ডেটাসেট সম্পর্কে সঠিকভাবে প্রশ্নের উত্তর দিতে লড়াই করে; নথি-ভিত্তিক পরীক্ষার একটি সিরিজে, মডেলগুলি সঠিক উত্তর দিয়েছে মাত্র 40% 50% সময়।

“যদিও জেমিনি 1.5 প্রো-এর মতো মডেলগুলি প্রযুক্তিগতভাবে দীর্ঘ প্রসঙ্গগুলি প্রক্রিয়া করতে পারে, আমরা অনেক ক্ষেত্রে দেখেছি যে মডেলগুলি আসলে বিষয়বস্তু 'বোঝে না',” মার্জেনা কার্পিনস্কা, ইউমাস আমহার্স্টের একজন পোস্টডক এবং একজন সহ-লেখক। গবেষণা, TechCrunch বলেছেন.

মিথুনের প্রসঙ্গ উইন্ডোর অভাব রয়েছে

একটি মডেলের প্রসঙ্গ, বা প্রসঙ্গ উইন্ডো, ইনপুট ডেটা (যেমন, পাঠ্য) বোঝায় যা মডেল আউটপুট তৈরি করার আগে বিবেচনা করে (যেমন, অতিরিক্ত পাঠ্য)। একটি সহজ প্রশ্ন – “2020 সালের মার্কিন প্রেসিডেন্ট নির্বাচনে কে জিতেছে?” — প্রসঙ্গ হিসাবে পরিবেশন করতে পারে, যেমন একটি সিনেমার স্ক্রিপ্ট, শো বা অডিও ক্লিপ। এবং কনটেক্সট উইন্ডোগুলি বাড়ার সাথে সাথে ডকুমেন্টের আকারও তাদের সাথে মানানসই হয়।

মিথুনের নতুন সংস্করণগুলি প্রসঙ্গ হিসাবে 2 মিলিয়ন টোকেনের উপরে নিতে পারে। (“টোকেন” হল কাঁচা ডেটার উপবিভক্ত বিট, যেমন শব্দাংশ “ফ্যান”, “টাস” এবং “টিক” শব্দটি “ফ্যান্টাস্টিক।”) এটি প্রায় 1.4 মিলিয়ন শব্দ, দুই ঘন্টা ভিডিও বা 22 ঘন্টা অডিওর সমতুল্য। — যে কোনো বাণিজ্যিকভাবে উপলব্ধ মডেলের সবচেয়ে বড় প্রসঙ্গ।

এই বছরের শুরুর দিকে একটি ব্রিফিংয়ে, Google মিথুনের দীর্ঘ-প্রসঙ্গ ক্ষমতার সম্ভাব্যতা চিত্রিত করার জন্য বেশ কয়েকটি প্রাক-রেকর্ড করা ডেমো দেখিয়েছিল। একজনের কাছে জেমিনি 1.5 প্রো-এর অ্যাপোলো 11 মুন ল্যান্ডিং টেলিকাস্টের ট্রান্সক্রিপ্টটি অনুসন্ধান করা হয়েছিল — প্রায় 402 পৃষ্ঠার — জোকস সম্বলিত উদ্ধৃতিগুলির জন্য, এবং তারপরে টেলিকাস্টে একটি পেন্সিল স্কেচের মতো দেখতে একটি দৃশ্য খুঁজে পান।

Google DeepMind Oriol Vinyals-এর গবেষণার ভিপি, যিনি ব্রিফিংয়ের নেতৃত্ব দিয়েছেন, মডেলটিকে “জাদুকর” হিসাবে বর্ণনা করেছেন।

“[1.5 Pro] প্রতিটি একক পৃষ্ঠা, প্রতিটি একক শব্দ জুড়ে এই ধরণের যুক্তিযুক্ত কাজগুলি সম্পাদন করে,” তিনি বলেছিলেন।

এটি একটি অতিরঞ্জিত হতে পারে.

এই ক্ষমতাগুলির বেঞ্চমার্কিং পূর্বোক্ত গবেষণাগুলির মধ্যে একটিতে, কার্পিনস্কা, অ্যালেন ইনস্টিটিউট ফর AI এবং প্রিন্সটনের গবেষকদের সাথে, মডেলদেরকে ইংরেজিতে লেখা কল্পকাহিনী বই সম্পর্কে সত্য/মিথ্যা বিবৃতি মূল্যায়ন করতে বলেছিলেন। গবেষকরা সাম্প্রতিক কাজগুলি বেছে নিয়েছিলেন যাতে মডেলগুলি পূর্বজ্ঞানের উপর নির্ভর করে “প্রতারণা” করতে না পারে এবং তারা নির্দিষ্ট বিবরণ এবং প্লট পয়েন্টগুলির উল্লেখ সহ বিবৃতিগুলিকে পেপার করে যা সম্পূর্ণভাবে বইগুলি না পড়ে বোঝা অসম্ভব।

“অ্যাপোথ হিসাবে তার দক্ষতা ব্যবহার করে, নুসিস রোনার কাঠের বুকে পাওয়া রিএজেন্ট কী দ্বারা খোলা পোর্টালের ধরণটিকে বিপরীত প্রকৌশলী করতে সক্ষম হয়,” জেমিনি 1.5 প্রো এবং 1.5 ফ্ল্যাশ – প্রাসঙ্গিক বইটি গ্রহণ করার পরে – এর মতো একটি বিবৃতি দেওয়া হয়েছিল। বিবৃতিটি সত্য নাকি মিথ্যা তা বলুন এবং তাদের যুক্তি ব্যাখ্যা করুন।

ইমেজ ক্রেডিট: ইউমাস আমহার্স্ট

প্রায় 260,000 শব্দ (~520 পৃষ্ঠা) দৈর্ঘ্যের একটি বইতে পরীক্ষা করা হয়েছে, গবেষকরা দেখতে পেয়েছেন যে 1.5 প্রো সঠিক/মিথ্যা বিবৃতির 46.7% সময় সঠিকভাবে উত্তর দিয়েছে যখন ফ্ল্যাশ সঠিকভাবে উত্তর দিয়েছে মাত্র 20% সময়ের মধ্যে। এর অর্থ হল একটি মুদ্রা Google এর সর্বশেষ মেশিন লার্নিং মডেলের তুলনায় বই সম্পর্কে প্রশ্নের উত্তর দিতে উল্লেখযোগ্যভাবে ভাল। সমস্ত বেঞ্চমার্ক ফলাফলের গড়, কোন মডেলই প্রশ্ন-উত্তর নির্ভুলতার পরিপ্রেক্ষিতে এলোমেলো সুযোগের চেয়ে বেশি অর্জন করতে পারেনি।

“আমরা লক্ষ্য করেছি যে মডেলগুলির দাবিগুলি যাচাই করতে আরও অসুবিধা হয় যেগুলির জন্য বইয়ের বড় অংশ, এমনকি পুরো বইটি বিবেচনা করা প্রয়োজন, এমন দাবিগুলির তুলনায় যা বাক্য-স্তরের প্রমাণ পুনরুদ্ধার করে সমাধান করা যেতে পারে,” কার্পিনস্কা বলেছেন৷ “গুণগতভাবে, আমরা এটিও লক্ষ্য করেছি যে মডেলগুলি অন্তর্নিহিত তথ্য সম্পর্কে দাবি যাচাই করার সাথে লড়াই করে যা একজন মানব পাঠকের কাছে স্পষ্ট কিন্তু পাঠ্যে স্পষ্টভাবে বলা হয়নি।”

UC সান্তা বারবারার গবেষকদের দ্বারা সহ-লেখিত দুটি গবেষণার দ্বিতীয়টি, ভিডিওগুলি “রিজন ওভার” করার জন্য জেমিনি 1.5 ফ্ল্যাশ (কিন্তু 1.5 প্রো নয়) এর ক্ষমতা পরীক্ষা করেছে — অর্থাৎ, অনুসন্ধান করুন এবং তাদের মধ্যে থাকা বিষয়বস্তু সম্পর্কে প্রশ্নের উত্তর দিন .

সহ-লেখকরা চিত্রগুলির একটি ডেটাসেট তৈরি করেছেন (উদাহরণস্বরূপ, জন্মদিনের কেকের একটি ছবি) ছবিতে চিত্রিত বস্তুগুলি সম্পর্কে উত্তর দেওয়ার জন্য মডেলের জন্য প্রশ্নের সাথে যুক্ত (যেমন, “এই কেকটিতে কোন কার্টুন চরিত্র রয়েছে?”)। মডেলগুলির মূল্যায়ন করার জন্য, তারা এলোমেলোভাবে একটি ছবি বাছাই করে এবং স্লাইডশো-এর মতো ফুটেজ তৈরি করতে এর আগে এবং পরে “ডিস্ট্রাক্টর” চিত্রগুলি সন্নিবেশিত করেছিল।

ফ্ল্যাশ সব ভালো পারফর্ম করেনি। একটি পরীক্ষায় যেখানে মডেলটি 25টি ছবির একটি “স্লাইডশো” থেকে ছয়টি হাতে লেখা অঙ্ক প্রতিলিপি করেছে, ফ্ল্যাশ প্রায় 50% ট্রান্সক্রিপশন সঠিকভাবে পেয়েছে৷ আট সংখ্যার সাথে নির্ভুলতা প্রায় 30% এ নেমে গেছে।

“ইমেজগুলির উপর প্রকৃত প্রশ্ন-উত্তর করার কাজগুলিতে, আমরা যে সমস্ত মডেলগুলি পরীক্ষা করেছি তার জন্য এটি বিশেষভাবে কঠিন বলে মনে হচ্ছে,” মাইকেল স্যাক্সন, ইউসি সান্তা বারবারার একজন পিএইচডি ছাত্র এবং অধ্যয়নের সহ-লেখকদের একজন, টেকক্রাঞ্চকে বলেছেন৷ “এই অল্প পরিমাণ যুক্তি – একটি সংখ্যা একটি ফ্রেমে রয়েছে তা স্বীকার করা এবং এটি পড়া – যা মডেলটি ভাঙছে।”

গুগল মিথুনের সাথে অতিরিক্ত প্রতিশ্রুতিবদ্ধ

গবেষণার কোনটিই পিয়ার-রিভিউ করা হয়নি, না তারা জেমিনি 1.5 প্রো এবং 1.5 ফ্ল্যাশের 2-মিলিয়ন-টোকেন প্রসঙ্গ সহ রিলিজ অনুসন্ধান করে। (উভয়ই 1-মিলিয়ন-টোকেন কনটেক্সট রিলিজ পরীক্ষা করেছে।) এবং ফ্ল্যাশ পারফরম্যান্সের পরিপ্রেক্ষিতে প্রো-এর মতো সক্ষম হওয়ার অর্থ নয়; Google এটিকে কম খরচে বিকল্প হিসেবে বিজ্ঞাপন দেয়।

যাইহোক, উভয় আগুনে জ্বালানি যোগ করুন যে মিথুনের সাথে Google অতিশয় প্রতিশ্রুতিবদ্ধ – এবং কম বিতরণ করছে শুরু থেকে. ওপেনএআই সহ গবেষকরা যে মডেলগুলি পরীক্ষা করেছেন তার কোনওটিই নয় GPT-4o এবং নৃতাত্ত্বিক এর ক্লদ 3.5 সনেট, ভালো পারফর্ম করেছে। কিন্তু গুগলই একমাত্র মডেল প্রদানকারী যেটি তার বিজ্ঞাপনে প্রসঙ্গ উইন্ডো টপ বিলিং দিয়েছে।

“সাধারণ দাবিতে কিছু ভুল নেই, 'আমাদের মডেলটি টোকেনের X নম্বর নিতে পারে' উদ্দেশ্যমূলক প্রযুক্তিগত বিবরণের উপর ভিত্তি করে,” স্যাক্সন বলেছিলেন। “কিন্তু প্রশ্ন হল, এটি দিয়ে আপনি কী দরকারী জিনিস করতে পারেন?”

প্রযুক্তির সীমাবদ্ধতার কারণে ব্যবসায় (এবং বিনিয়োগকারীরা) হতাশ হওয়ার কারণে জেনারেটিভ এআই ব্যাপকভাবে বর্ধিত তদন্তের আওতায় আসছে।

থেকে সাম্প্রতিক সমীক্ষা জোড়া বোস্টন কনসাল্টিং গ্রুপ, উত্তরদাতাদের প্রায় অর্ধেক – সমস্ত সি-স্যুট এক্সিকিউটিভরা – বলেছেন যে তারা জেনারেটিভ এআই যথেষ্ট উত্পাদনশীলতা লাভের আশা করেন না এবং তারা জেনারেটিভ এআই থেকে উদ্ভূত ভুল এবং ডেটা আপস হওয়ার সম্ভাবনা নিয়ে চিন্তিত। চালিত সরঞ্জাম। পিচবুক সম্প্রতি রিপোর্ট যে, পরপর দুই ত্রৈমাসিকের জন্য, প্রাথমিক পর্যায়ে জেনারেটিভ AI ডিলমেকিং হ্রাস পেয়েছে, 2023 এর Q3 শীর্ষ থেকে 76% হ্রাস পেয়েছে।

সভা-সংক্ষিপ্ত চ্যাটবটগুলির মুখোমুখি যা মানুষের সম্পর্কে কাল্পনিক বিবরণ এবং AI অনুসন্ধান প্ল্যাটফর্ম যা মূলত চৌর্যবৃত্তি জেনারেটরগুলির সাথে সম্পর্কিত, গ্রাহকরা প্রতিশ্রুতিশীল পার্থক্যকারীদের সন্ধানে রয়েছে৷ গুগল – যা দৌড়ে গেছে, মাঝে মাঝে আনাড়িভাবেএর জেনারেটিভ এআই প্রতিদ্বন্দ্বীদের ধরতে — মিথুনের প্রসঙ্গকে সেই পার্থক্যকারীদের মধ্যে একটি করতে মরিয়া ছিল।

কিন্তু বাজি ছিল অকাল, মনে হয়।

কার্পিনস্কা বলেন, “আমরা সত্যিকার অর্থে দীর্ঘ নথির উপর 'যুক্তি' বা 'বোঝাবুঝি' দেখানোর উপায়ে স্থির হইনি, এবং মূলত এই মডেলগুলি প্রকাশকারী প্রতিটি দল এই দাবিগুলি করার জন্য তাদের নিজস্ব অ্যাডহক ইভালগুলিকে একত্রিত করছে,” কার্পিনস্কা বলেছেন . “প্রসঙ্গ প্রক্রিয়াকরণ কতক্ষণ প্রয়োগ করা হয় – এবং কোম্পানিগুলি এই বিবরণগুলি ভাগ করে না – এই দাবিগুলি কতটা বাস্তবসম্মত তা বলা কঠিন।”

Google মন্তব্যের অনুরোধে সাড়া দেয়নি।

স্যাক্সন এবং কারপিনস্কা উভয়ই বিশ্বাস করেন যে জেনারেটিভ এআই-এর আশেপাশে হাইপড-আপ দাবির প্রতিষেধকগুলি আরও ভাল বেঞ্চমার্ক এবং একই শিরা বরাবর, তৃতীয় পক্ষের সমালোচনার উপর বেশি জোর দেয়। স্যাক্সন নোট করেছেন যে দীর্ঘ প্রেক্ষাপটের জন্য আরও সাধারণ পরীক্ষাগুলির মধ্যে একটি (গুগল তার বিপণন উপকরণগুলিতে উদারভাবে উদ্ধৃত করেছে), “খড়ের গাদায় সুই,” শুধুমাত্র ডেটাসেট থেকে নাম এবং সংখ্যার মতো নির্দিষ্ট তথ্য পুনরুদ্ধার করার মডেলের ক্ষমতা পরিমাপ করে — উত্তর নয় সেই তথ্য সম্পর্কে জটিল প্রশ্ন।

“সকল বিজ্ঞানী এবং বেশিরভাগ ইঞ্জিনিয়ার এই মডেলগুলি ব্যবহার করে মূলত একমত যে আমাদের বিদ্যমান বেঞ্চমার্ক সংস্কৃতি ভেঙ্গে গেছে,” স্যাক্সন বলেন, “তাই এটা গুরুত্বপূর্ণ যে জনসাধারণ এই বিশালাকার প্রতিবেদনগুলিকে 'বেঞ্চমার্ক জুড়ে সাধারণ বুদ্ধিমত্তা' এর মতো সংখ্যা সম্বলিত বিশাল আকারের সাথে গ্রহণ করতে বোঝেন। লবণ শস্য।”

Source link

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *

Raytahost Facebook Sharing Powered By : Raytahost.com