অ্যাপলের এআই গবেষণা পরামর্শ দেয় যে বৈশিষ্ট্যগুলি সিরি, শিল্পীদের এবং আরও অনেক কিছুর জন্য আসছে।

By infobangla May5,2024

এটা ভাবা সহজ হবে যে অ্যাপল এআই-তে গেমটি শুরু করতে দেরি করেছে। 2022 সালের শেষের দিক থেকে, যখন ChatGPT সারা বিশ্বে ঝড় তুলেছে, অ্যাপলের বেশিরভাগ প্রতিযোগী নিজেদেরকে ধরে ফেলতে নেমে পড়েছে। যদিও অ্যাপল অবশ্যই এআই সম্পর্কে কথা বলেছে এবং এমনকি এআইকে মাথায় রেখে কিছু পণ্য প্রকাশ করেছে, এটি প্রথমে মাথার দিকে ডুব দেওয়ার পরিবর্তে একটি পায়ের আঙ্গুল ডুবিয়েছে বলে মনে হচ্ছে।

কিন্তু গত কয়েক মাস ধরে, গুজব এবং প্রতিবেদনে পরামর্শ দেওয়া হয়েছে যে অ্যাপল প্রকৃতপক্ষে তার সময় নির্ধারণ করেছে, তার পদক্ষেপ নেওয়ার জন্য অপেক্ষা করছে। সাম্প্রতিক সপ্তাহে এমন খবর পাওয়া গেছে যে অ্যাপল উভয়ের সাথে কথা বলছে ওপেনএআই এবং গুগল এর কিছু AI ফিচার পাওয়ার বিষয়ে, এবং কোম্পানিও করেছে Ajax নামক নিজস্ব মডেলে কাজ করছে.

আপনি যদি অ্যাপলের প্রকাশিত এআই গবেষণার মাধ্যমে দেখেন, তাহলে এআই-এর প্রতি অ্যাপলের দৃষ্টিভঙ্গি কীভাবে জীবনে আসতে পারে তার একটি চিত্র তৈরি হতে শুরু করে। এখন, স্পষ্টতই, গবেষণাপত্রের উপর ভিত্তি করে পণ্যের অনুমান তৈরি করা একটি গভীরভাবে অযৌক্তিক বিজ্ঞান – গবেষণা থেকে তাক সংরক্ষণের লাইনটি বাতাসযুক্ত এবং গর্তে পূর্ণ। কিন্তু আপনি অন্তত কোম্পানী কি একটি ধারনা পেতে পারেন চিন্তা অ্যাপল জুনে তার বার্ষিক ডেভেলপার কনফারেন্স, WWDC-তে এগুলি সম্পর্কে কথা বলতে শুরু করলে – এবং কীভাবে এর AI বৈশিষ্ট্যগুলি কাজ করতে পারে।

ছোট, আরো দক্ষ মডেল

আমি সন্দেহ করি আপনি এবং আমি এখানে একই জিনিস আশা করছি: বেটার সিরি। এবং দেখে মনে হচ্ছে বেটার সিরি আসছে! অ্যাপলের প্রচুর গবেষণায় (এবং প্রচুর প্রযুক্তি শিল্প, বিশ্ব এবং সর্বত্র) একটি অনুমান রয়েছে যে বড় ভাষার মডেলগুলি অবিলম্বে ভার্চুয়াল সহকারীকে আরও ভাল এবং স্মার্ট করে তুলবে। অ্যাপলের জন্য, বেটার সিরিতে যাওয়ার অর্থ হল সেই মডেলগুলিকে যত দ্রুত সম্ভব তৈরি করা — এবং নিশ্চিত করা যে তারা সর্বত্র রয়েছে৷

iOS 18-এ, অ্যাপল তার সমস্ত AI বৈশিষ্ট্যগুলি একটি অন-ডিভাইস, সম্পূর্ণ অফলাইন মডেলে চালানোর পরিকল্পনা করেছে, ব্লুমবার্গ সম্প্রতি রিপোর্ট. আপনার কাছে ডেটা সেন্টারের নেটওয়ার্ক এবং হাজার হাজার অত্যাধুনিক জিপিইউ থাকা সত্ত্বেও একটি ভাল বহুমুখী মডেল তৈরি করা কঠিন — শুধুমাত্র আপনার স্মার্টফোনের অভ্যন্তরে এটি করা অত্যন্ত কঠিন। তাই অ্যাপলকে সৃজনশীল হতে হবে।

একটি কাগজে বলা হয় “LLM ইন আ ফ্ল্যাশ: সীমিত মেমরির সাথে দক্ষ বৃহৎ ভাষার মডেল ইনফারেন্স” (এই সমস্ত কাগজপত্রের সত্যিই বিরক্তিকর শিরোনাম রয়েছে কিন্তু সত্যিই আকর্ষণীয়, আমি প্রতিশ্রুতি দিচ্ছি!), গবেষকরা একটি মডেলের ডেটা সংরক্ষণ করার জন্য একটি সিস্টেম তৈরি করেছেন, যা সাধারণত SSD-তে আপনার ডিভাইসের র‌্যামে সংরক্ষণ করা হয়। “আমরা উপলব্ধ DRAM এর দ্বিগুণ পর্যন্ত LLM চালানোর ক্ষমতা প্রদর্শন করেছি [on the SSD]”গবেষকরা লিখেছেন, “সিপিইউতে প্রচলিত লোডিং পদ্ধতির তুলনায় 4-5x এবং GPU-তে 20-25x দ্বারা অনুমান গতিতে ত্বরণ অর্জন করা।” আপনার ডিভাইসে সবচেয়ে সস্তা এবং উপলব্ধ স্টোরেজের সুবিধা গ্রহণ করে, তারা খুঁজে পেয়েছে, মডেলগুলি দ্রুত এবং আরও দক্ষতার সাথে চলতে পারে।

অ্যাপলের গবেষকরা নামে একটি সিস্টেমও তৈরি করেছেন ইলবার্ট যা মূলত একটি LLM কে অর্থপূর্ণভাবে খারাপ না করে অনেক ছোট আকারে সংকুচিত করতে পারে। গুগলের বার্ট মডেলে তাদের সংকুচিত গ্রহণ 15 গুণ ছোট ছিল — মাত্র 1.2 মেগাবাইট — এবং গুণমানে মাত্র 4 শতাংশ হ্রাস পেয়েছে। যদিও এটি কিছু লেটেন্সি ট্রেডঅফের সাথে এসেছিল।

সাধারণভাবে, অ্যাপল মডেল জগতের একটি মূল উত্তেজনা সমাধানের জন্য চাপ দিচ্ছে: একটি মডেল যত বড় হবে, এটি তত বেশি ভাল এবং আরও কার্যকর হতে পারে, তবে এটি আরও অবাধ্য, শক্তি-ক্ষুধার্ত এবং ধীর হয়ে উঠতে পারে। অন্য অনেকের মতো, কোম্পানিটি সেই সমস্ত জিনিসের মধ্যে সঠিক ভারসাম্য খুঁজে বের করার চেষ্টা করছে এবং এটি সব পাওয়ার উপায় খুঁজছে।

সিরি, কিন্তু ভাল

আমরা যখন AI পণ্য সম্পর্কে কথা বলি তখন আমরা যা নিয়ে কথা বলি তার অনেকগুলি হল ভার্চুয়াল সহকারী — সহকারীরা যারা জিনিসগুলি জানে, যেগুলি আমাদের মনে করিয়ে দিতে পারে, যেগুলি প্রশ্নের উত্তর দিতে পারে এবং আমাদের পক্ষ থেকে কাজগুলি সম্পন্ন করতে পারে৷ তাই এটা ঠিক মর্মান্তিক নয় যে অ্যাপলের প্রচুর AI গবেষণা একটি একক প্রশ্নে ফোটে: যদি সিরি সত্যিই, সত্যিই, সত্যিই ভাল হত?

অ্যাপলের একদল গবেষক কাজ করছেন সিরি ব্যবহার করার একটি উপায় একটি জাগ্রত শব্দ ব্যবহার করার প্রয়োজন ছাড়াই; “Hey Siri” বা “Siri” শোনার পরিবর্তে, ডিভাইসটি সহজভাবে বোঝাতে সক্ষম হতে পারে যে আপনি এটির সাথে কথা বলছেন কিনা। “এই সমস্যাটি ভয়েস ট্রিগার সনাক্তকরণের চেয়ে উল্লেখযোগ্যভাবে বেশি চ্যালেঞ্জিং,” গবেষকরা স্বীকার করেছেন, “যেহেতু ভয়েস কমান্ডের সূচনা চিহ্নিত করে এমন একটি অগ্রণী ট্রিগার বাক্যাংশ নাও থাকতে পারে।” যে কারণে গবেষকদের আরেকটি গ্রুপ একটি সিস্টেম তৈরি করতে পারে আরো সঠিকভাবে জাগ্রত শব্দ সনাক্ত. আরেকটি কাগজ বিরল শব্দগুলিকে আরও ভালভাবে বোঝার জন্য একটি মডেলকে প্রশিক্ষিত করেছেন, যা প্রায়শই সহকারীরা ভালভাবে বুঝতে পারে না।

উভয় ক্ষেত্রেই, একটি এলএলএম-এর আবেদন হল যে এটি তত্ত্বগতভাবে, অনেক বেশি তথ্য আরও দ্রুত প্রক্রিয়া করতে পারে। ওয়েক-ওয়ার্ড পেপারে, উদাহরণস্বরূপ, গবেষকরা এটি খুঁজে পেয়েছেন না সমস্ত অপ্রয়োজনীয় শব্দ বর্জন করার চেষ্টা করা হচ্ছে কিন্তু, পরিবর্তে, মডেলকে এটি সব খাওয়ানো এবং এটিকে প্রক্রিয়া করতে দেওয়া যা কিছু যায় না, জাগ্রত শব্দটি অনেক বেশি নির্ভরযোগ্যভাবে কাজ করে।

একবার সিরি আপনার কথা শুনে, অ্যাপল এটি আরও ভালভাবে বুঝতে এবং যোগাযোগ করে তা নিশ্চিত করার জন্য একগুচ্ছ কাজ করছে। এক কাগজে, এটি বিকশিত হয়েছিল STEER নামক একটি সিস্টেম (যার অর্থ হল সেমান্টিক টার্ন এক্সটেনশন-এক্সপেনশন রিকগনিশন, তাই আমরা STEER-এর সাথে যাব) যার লক্ষ্য আপনি কখন একটি ফলো-আপ প্রশ্ন জিজ্ঞাসা করছেন এবং কখন জিজ্ঞাসা করছেন তা খুঁজে বের করার চেষ্টা করার মাধ্যমে একজন সহকারীর সাথে আপনার সামনে-পিছনে যোগাযোগ উন্নত করা। আপনি একটি নতুন জিজ্ঞাসা করছেন. অন্যটিতে, আপনি যেভাবেই বলুন না কেন আপনি কী বলতে চান তা বোঝার জন্য এটি “অস্পষ্ট প্রশ্নগুলি” আরও ভালভাবে বোঝার জন্য LLM ব্যবহার করে। “অনিশ্চিত পরিস্থিতিতে,” তারা লিখেছিল, “বুদ্ধিমান কথোপকথন এজেন্টদের সক্রিয়ভাবে ভাল প্রশ্ন জিজ্ঞাসা করে তাদের অনিশ্চয়তা কমাতে উদ্যোগ নিতে হতে পারে, যার ফলে সমস্যাগুলি আরও কার্যকরভাবে সমাধান করা যায়।” আরেকটি কাগজ এটির সাথেও সাহায্য করার লক্ষ্য রয়েছে: গবেষকরা যখন উত্তর তৈরি করছেন তখন সহকারীকে কম শব্দভাষী এবং আরও বোধগম্য করতে LLM ব্যবহার করেছেন।

খুব শীঘ্রই, আপনি পরিবর্তনের জন্য জিজ্ঞাসা করে আপনার ছবিগুলি সম্পাদনা করতে সক্ষম হতে পারেন৷
ছবি: আপেল

স্বাস্থ্যের ক্ষেত্রে এআই, ইমেজ এডিটর, আপনার মেমোজিতে

অ্যাপল যখনই এআই সম্পর্কে প্রকাশ্যে কথা বলে, তখন এটি কাঁচা প্রযুক্তিগত শক্তির উপর কম ফোকাস করে এবং প্রতিদিনের জিনিসের উপর বেশি ফোকাস করে যা AI আসলে আপনার জন্য করতে পারে। সুতরাং, যখন সিরির উপর অনেক ফোকাস রয়েছে – বিশেষত অ্যাপল হিউম্যান এআই পিন, র্যাবিট আর 1 এবং গুগলের সমস্ত অ্যান্ড্রয়েডের মধ্যে জেমিনীর চলমান ধ্বংশের মতো ডিভাইসগুলির সাথে প্রতিদ্বন্দ্বিতা করতে দেখায় – অ্যাপল দেখতে আরও অনেক উপায় রয়েছে বলে মনে হচ্ছে AI দরকারী হচ্ছে।

Apple-এর জন্য একটি সুস্পষ্ট স্থান হল স্বাস্থ্যের দিকে মনোনিবেশ করা: LLM, তাত্ত্বিকভাবে, আপনার বিভিন্ন ডিভাইসের দ্বারা সংগৃহীত বায়োমেট্রিক ডেটার সমুদ্রের মধ্য দিয়ে যেতে সাহায্য করতে পারে এবং আপনাকে এটির সমস্ত কিছু বোঝাতে সাহায্য করতে পারে৷ সুতরাং, Apple কীভাবে আপনার সমস্ত গতির ডেটা সংগ্রহ এবং সমন্বিত করতে হয়, কীভাবে আপনাকে শনাক্ত করতে আপনার হেডফোনগুলি ব্যবহার করতে হয় এবং কীভাবে আপনার হার্ট রেট ডেটা ট্র্যাক এবং বোঝা যায় তা নিয়ে গবেষণা করছে৷ অ্যাপল একাধিক অন-বডি সেন্সর সহ 50 জন অংশগ্রহণকারীর কাছ থেকে ডেটা সংগ্রহ করার পরে উপলব্ধ “সবচেয়ে বড় মাল্টি-ডিভাইস মাল্টি-লোকেশন সেন্সর-ভিত্তিক মানব কার্যকলাপ ডেটাসেট” তৈরি এবং প্রকাশ করেছে।

অ্যাপলও এআইকে একটি সৃজনশীল হাতিয়ার হিসেবে কল্পনা করে বলে মনে হয়। একটি কাগজের জন্য, গবেষকরা একগুচ্ছ অ্যানিমেটর, ডিজাইনার এবং প্রকৌশলীদের সাক্ষাৎকার নিয়েছেন এবং তৈরি করেছেন কীফ্রেমার নামে একটি সিস্টেম যে “সক্রিয়[s] ব্যবহারকারীরা পুনরাবৃত্তভাবে জেনারেটেড ডিজাইন তৈরি এবং পরিমার্জন করতে পারে।” একটি প্রম্পটে টাইপ করার এবং একটি চিত্র পাওয়ার পরিবর্তে, তারপরে অন্য একটি চিত্র পেতে অন্য প্রম্পট টাইপ করার পরিবর্তে, আপনি একটি প্রম্পট দিয়ে শুরু করুন তবে তারপরে আপনার পছন্দ অনুসারে চিত্রটির অংশগুলিকে টুইক এবং পরিমার্জিত করার জন্য একটি টুলকিট পান৷ মেমোজি স্রষ্টা থেকে অ্যাপলের আরও পেশাদার শৈল্পিক সরঞ্জামগুলির মধ্যে যে কোনও জায়গায় প্রদর্শিত এই ধরণের পিছনে এবং সামনের শৈল্পিক প্রক্রিয়াটি আপনি কল্পনা করতে পারেন।

ভিতরে আরেকটি কাগজ, Apple MGIE নামক একটি টুল বর্ণনা করে যা আপনাকে শুধুমাত্র আপনি যে সম্পাদনা করতে চান তার বর্ণনা দিয়ে একটি ছবি সম্পাদনা করতে দেয়। (“আকাশকে আরও নীল কর,” “আমার মুখকে কম অদ্ভুত কর,” “কিছু শিলা যোগ করুন,” এই ধরণের জিনিস।) “সংক্ষিপ্ত কিন্তু অস্পষ্ট নির্দেশনার পরিবর্তে, MGIE স্পষ্ট চাক্ষুষ-সচেতন অভিপ্রায় অর্জন করে এবং যুক্তিসঙ্গত চিত্র সম্পাদনার দিকে নিয়ে যায় “গবেষকরা লিখেছেন। এর প্রাথমিক পরীক্ষা নিখুঁত ছিল না, কিন্তু তারা চিত্তাকর্ষক ছিল।

এমনকি আমরা অ্যাপল মিউজিক-এ কিছু AI পেতে পারি: “” নামক একটি কাগজের জন্যরিসোর্স-সীমাবদ্ধ স্টেরিও গানের ভয়েস বাতিলকরণ,” গবেষকরা গানের যন্ত্রগুলি থেকে কণ্ঠস্বর আলাদা করার উপায়গুলি অন্বেষণ করেছেন — যেটি কাজে আসতে পারে যদি অ্যাপল মানুষকে টুল দিতে চায়, বলুন, আপনি যেভাবে টিকটক বা ইনস্টাগ্রামে গান রিমিক্স করতে পারেন।

ভবিষ্যতে, Siri আপনার ফোন বুঝতে এবং ব্যবহার করতে সক্ষম হতে পারে।
ছবি: আপেল

সময়ের সাথে সাথে, আমি বাজি ধরতে পারি যে এটি এমন একটি জিনিস যা আপনি অ্যাপলের দিকে ঝুঁকে দেখতে পাবেন, বিশেষ করে iOS এ। এর কিছু অ্যাপল তার নিজস্ব অ্যাপ তৈরি করবে; কিছু এটি তৃতীয় পক্ষের বিকাশকারীদের API হিসাবে অফার করবে। (সাম্প্রতিক জার্নালিং সাজেশন বৈশিষ্ট্যটি সম্ভবত এটি কীভাবে কাজ করতে পারে তার জন্য একটি ভাল নির্দেশিকা৷) অ্যাপল সর্বদা তার হার্ডওয়্যার ক্ষমতাগুলিকে ট্রাম্পেট করেছে, বিশেষ করে আপনার গড় অ্যান্ড্রয়েড ডিভাইসের তুলনায়; সেই সমস্ত অশ্বশক্তিকে অন-ডিভাইসের সাথে যুক্ত করা, গোপনীয়তা-কেন্দ্রিক এআই একটি বড় পার্থক্যকারী হতে পারে।

তবে আপনি যদি অ্যাপলের সবচেয়ে বড়, সবচেয়ে উচ্চাভিলাষী এআই জিনিসটি দেখতে চান তবে আপনাকে সে সম্পর্কে জানতে হবে ফেরেট. ফেরেট হল একটি মাল্টি-মডেল বৃহৎ ভাষার মডেল যা নির্দেশনা নিতে পারে, নির্দিষ্ট কিছুর উপর ফোকাস করতে পারে যা আপনি চক্কর দিয়েছেন বা অন্যথায় বেছে নিয়েছেন এবং এর চারপাশের বিশ্বকে বুঝতে পারেন। এটি আপনার চারপাশের বিশ্ব সম্পর্কে একটি ডিভাইসকে জিজ্ঞাসা করার জন্য এখন-সাধারণ AI ব্যবহারের ক্ষেত্রে ডিজাইন করা হয়েছে, তবে এটি আপনার স্ক্রিনে কী রয়েছে তা বুঝতেও সক্ষম হতে পারে। ফেরেট পেপারে, গবেষকরা দেখান যে এটি আপনাকে অ্যাপগুলি নেভিগেট করতে, অ্যাপ স্টোর রেটিং সম্পর্কে প্রশ্নের উত্তর দিতে, আপনি কী দেখছেন তা বর্ণনা করতে এবং আরও অনেক কিছু করতে সহায়তা করতে পারে। অ্যাক্সেসযোগ্যতার জন্য এটির সত্যিই উত্তেজনাপূর্ণ প্রভাব রয়েছে কিন্তু আপনি যেভাবে আপনার ফোন ব্যবহার করেন — এবং আপনার ভিশন প্রো এবং/অথবা স্মার্ট চশমাগুলি কোনও দিন সম্পূর্ণরূপে পরিবর্তন করতে পারে৷

আমরা এখানে নিজেদের থেকে এগিয়ে যাচ্ছি, কিন্তু আপনি কল্পনা করতে পারেন যে অ্যাপল যে কাজ করছে তার সাথে এটি কীভাবে কাজ করবে। একটি সিরি যা আপনি যা চান তা বুঝতে পারে, এমন একটি ডিভাইসের সাথে যুক্ত যা আপনার ডিসপ্লেতে যা ঘটছে তা দেখতে এবং বুঝতে পারে, এমন একটি ফোন যা আক্ষরিক অর্থে নিজেকে ব্যবহার করতে পারে। অ্যাপলের সবকিছুর সাথে গভীর একীকরণের প্রয়োজন হবে না; এটি কেবল অ্যাপগুলি চালাতে পারে এবং স্বয়ংক্রিয়ভাবে ডান বোতামগুলি আলতো চাপতে পারে।

আবার, এই সবই শুধু গবেষণা, এবং এই বসন্তে শুরু করা সব কিছুর জন্য ভালোভাবে কাজ করা একটি বৈধভাবে অশ্রুত প্রযুক্তিগত অর্জন হবে। (মানে, আপনি চ্যাটবট চেষ্টা করেছেন — আপনি জানেন যে তারা দুর্দান্ত নয়।) তবে আমি আপনাকে বাজি ধরতে চাই যে আমরা WWDC-তে কিছু বড় AI ঘোষণা পেতে যাচ্ছি। অ্যাপলের সিইও টিম কুক ফেব্রুয়ারীতেও যতটা উত্যক্ত করেছিলেন মূলত এটা প্রতিশ্রুতি এই সপ্তাহের উপার্জন কলে। এবং দুটি জিনিস খুব স্পষ্ট: অ্যাপল এআই রেসে অনেক বেশি, এবং এটি আইফোনের মোট ওভারহলের পরিমাণ হতে পারে। হেক, আপনি এমনকি স্বেচ্ছায় সিরি ব্যবহার শুরু করতে পারেন! এবং যে বেশ সিদ্ধি হবে.

Source link

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *