আপনি কি এই মৌলিক দৃষ্টি পরীক্ষাগুলিতে শীর্ষ-স্তরের AI মডেলগুলির চেয়ে ভাল করতে পারেন?

আপনি যাই করুন না কেন, AI কে জিজ্ঞাসা করবেন না এই ছবিতে কতগুলি অনুভূমিক রেখা রয়েছে৷
বড় করা / আপনি যাই করুন না কেন, AI কে জিজ্ঞাসা করবেন না এই ছবিতে কতগুলি অনুভূমিক রেখা রয়েছে৷

গেটি ইমেজ

গত কয়েক বছরে, আমরা দেখেছি আশ্চর্যজনক অগ্রগতি AI সিস্টেমে যখন এটি আসে স্বীকৃতি এবং বিশ্লেষণ জটিল ছবির বিষয়বস্তু। কিন্তু একটি নতুন কাগজ হাইলাইট করে যে কতগুলি অত্যাধুনিক “ভিশন লার্নিং মডেল” (ভিএলএম) প্রায়শই সাধারণ, নিম্ন-স্তরের ভিজ্যুয়াল বিশ্লেষণের কাজগুলিতে ব্যর্থ হয় যা একজন মানুষের পক্ষে তুচ্ছভাবে সহজ।

উস্কানিমূলক শিরোনামে প্রি-প্রিন্ট পেপারে “দৃষ্টি ভাষা মডেল হয় অন্ধ (কোনটি আছে একটি পিডিএফ সংস্করণ এতে একটি গাঢ় সানগ্লাস ইমোজি রয়েছে শিরোনামে), অবার্ন ইউনিভার্সিটি এবং আলবার্টা বিশ্ববিদ্যালয়ের গবেষকরা বস্তুনিষ্ঠভাবে সঠিক উত্তর দিয়ে আটটি সহজ ভিজ্যুয়াল তীক্ষ্ণতা পরীক্ষা তৈরি করেন। দুটি রঙিন রেখা কত ঘন ঘন ছেদ করে তা সনাক্ত করা থেকে শুরু করে একটি দীর্ঘ শব্দের কোন অক্ষরকে বৃত্তাকার করা হয়েছে তা চিহ্নিত করা থেকে একটি চিত্রে কতগুলি নেস্টেড আকার রয়েছে তা গণনা করা (প্রতিনিধি উদাহরণ এবং ফলাফল হতে পারে গবেষণা দলের ওয়েবপেজে দেখা হয়েছে)

গুরুত্বপূর্ণভাবে, এই পরীক্ষা হয় কাস্টম কোড দ্বারা উত্পন্ন এবং প্রাক-বিদ্যমান ছবি বা পরীক্ষাগুলির উপর নির্ভর করবেন না যা সর্বজনীন ইন্টারনেটে পাওয়া যেতে পারে, যার ফলে “মিনিমিজ[ing] গবেষকদের মতে VLM গুলি মুখস্থ করার মাধ্যমে সমাধান করতে পারে। হয়েছে কিছু অন্যান্য ভিজ্যুয়াল এআই বেঞ্চমার্কের জন্য একটি সমস্যা হিসাবে চিহ্নিত করা হয়েছে)

আপনি কি পঞ্চম গ্রেডের চেয়ে বেশি স্মার্ট?

চারটি ভিন্ন ভিজ্যুয়াল মডেল—GPT-4o, Gemini-1.5 Pro, Sonnet-3, এবং Sonnet-3.5— জুড়ে একাধিক পরীক্ষা চালানোর পর গবেষকরা দেখতে পেয়েছেন যে চারটিই 100 শতাংশ নির্ভুলতার চেয়ে কম হয়েছে যা আপনি এই ধরনের সহজ ভিজ্যুয়াল বিশ্লেষণের কাজগুলির জন্য আশা করতে পারেন। (এবং যা সবচেয়ে বেশি দৃষ্টিসম্পন্ন মানুষের অর্জনে সামান্য সমস্যা হবে)। কিন্তু নির্দিষ্ট কাজের উপর নির্ভর করে AI আন্ডারপারফরম্যান্সের আকার ব্যাপকভাবে পরিবর্তিত হয়। একটি ফাঁকা গ্রিডে সারি এবং কলামের সংখ্যা গণনা করতে বলা হলে, উদাহরণস্বরূপ, সেরা-পারফর্মিং মডেলটি কেবলমাত্র 60 শতাংশেরও কম সময়ে সঠিক উত্তর দেয়৷ অন্যদিকে, Gemini-1.5 Pro বৃত্তাকার অক্ষর শনাক্ত করার ক্ষেত্রে প্রায় 93 শতাংশ নির্ভুলতা আঘাত করেছে, মানব-স্তরের কর্মক্ষমতার কাছাকাছি।

এমনকি কাজের ছোট পরিবর্তনও ফলাফলে বিশাল পরিবর্তন আনতে পারে। যদিও চারটি পরীক্ষিত মডেল পাঁচটি ওভারল্যাপিং ফাঁপা চেনাশোনাকে সঠিকভাবে সনাক্ত করতে সক্ষম হয়েছিল, ছয় থেকে নয়টি চেনাশোনা জড়িত ছিল তখন সমস্ত মডেলের নির্ভুলতা 50 শতাংশের নিচে নেমে গেছে। গবেষকরা অনুমান করেন যে এটি “ইঙ্গিত করে যে VLMগুলি সুপরিচিত অলিম্পিক লোগোর প্রতি পক্ষপাতদুষ্ট, যার 5টি বৃত্ত রয়েছে।” অন্যান্য ক্ষেত্রে, মডেলগুলি মাঝে মাঝে অর্থহীন উত্তরগুলিকে হ্যালুসিনেশন করে, যেমন “সাবডার্মাটোগ্লিফিক” শব্দের বৃত্তাকার অক্ষর হিসাবে “9,” “n”, বা “©” অনুমান করা।

সামগ্রিকভাবে, ফলাফলগুলি হাই-লেভেল ভিজ্যুয়াল রিজনিংয়ে ভাল পারফর্ম করতে পারে এমন এআই মডেলগুলিকে হাই-লেভেলের বিমূর্ত চিত্রগুলির ক্ষেত্রে কিছু উল্লেখযোগ্য “ব্লাইন্ড স্পট” (দুঃখিত) রয়েছে। এটি সবই কিছুটা অনুরূপ সক্ষমতার ফাঁকগুলির স্মরণ করিয়ে দেয় যা আমরা প্রায়শই অত্যাধুনিক বৃহৎ ভাষার মডেলগুলিতে দেখতে পাই, যা দীর্ঘ পাঠ্যের অত্যন্ত সংক্ষিপ্ত সারাংশ তৈরি করতে পারে এবং একই সাথে অত্যন্ত মৌলিক ব্যর্থ হয়। গণিত এবং বানান প্রশ্ন

VLM ক্ষমতার এই ফাঁকগুলি এই সিস্টেমগুলির অক্ষমতার জন্য নেমে আসতে পারে যে ধরনের বিষয়বস্তুতে তারা স্পষ্টভাবে প্রশিক্ষিত হয় তার বাইরে সাধারণীকরণ করতে। তবুও যখন গবেষকরা তাদের একটি কাজ থেকে (“দুটি চেনাশোনা স্পর্শ করছে?” পরীক্ষা) থেকে আঁকা নির্দিষ্ট চিত্র ব্যবহার করে একটি মডেলকে সূক্ষ্ম-টিউন করার চেষ্টা করেছিলেন, তখন সেই মডেলটি 17 শতাংশ নির্ভুলতা থেকে প্রায় 37 শতাংশ পর্যন্ত শুধুমাত্র সামান্য উন্নতি দেখায়৷ “এই সমস্ত পরীক্ষার জন্য ক্ষতির মান শূন্যের খুব কাছাকাছি ছিল, ইঙ্গিত করে যে মডেলটি প্রশিক্ষণ সেটকে ওভারফিট করে কিন্তু সাধারণীকরণে ব্যর্থ হয়,” গবেষকরা লিখেছেন।

গবেষকরা প্রস্তাব করেন যে VLM ক্ষমতার ব্যবধান তথাকথিত সম্পর্কিত হতে পারে প্রাক-প্রশিক্ষিত বড় ভাষা মডেলগুলিতে দৃষ্টি এনকোডারগুলির “দেরী ফিউশন”. একটি “প্রাথমিক ফিউশন” প্রশিক্ষণ পদ্ধতি যেটি ভাষা প্রশিক্ষণের পাশাপাশি ভিজ্যুয়াল এনকোডিংকে একীভূত করে এই নিম্ন-স্তরের কাজগুলিতে আরও ভাল ফলাফলের দিকে নিয়ে যেতে পারে, গবেষকরা পরামর্শ দেন (এই প্রশ্নের কোনও ধরণের বিশ্লেষণ না দিয়ে)।

Source link

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *

Raytahost Facebook Sharing Powered By : Raytahost.com