টেনসেন্টের হুনয়ুয়ানপোর্ট্রেইট: ওপেন-সোর্স AI

চীনা টেক জায়ান্ট Tencent আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) এর জগতে আরও একটি বড় ধাপ এগিয়েছে। কোম্পানিটি মঙ্গলবার HunyuanPortrait নামক একটি নতুন AI মডেল ওপেন-সোর্স করেছে, যা কেবল একটি স্থির পোর্ট্রেট ইমেজ দেখে তাকে বাস্তবসম্মত ভিডিওতে রূপান্তরিত করতে পারে। এই মডেলের সবচেয়ে আকর্ষণীয় দিক হল, এটি কোনো ড্রাইভিং ভিডিওতে দেখানো মুখের ভাবভঙ্গি ও মাথার অবস্থানকে লক্ষ্য ইমেজের উপর সম্পূর্ণ স্বাভাবিকভাবে সিঙ্ক করে দেয়। ছোট অ্যানিমেশন স্টুডিও থেকে শুরু করে স্বাধীন কন্টেন্ট ক্রিয়েটর পর্যন্ত, প্রতিটি স্তরে এই প্রযুক্তি অ্যানিমেশন তৈরির প্রক্রিয়াকে সহজ ও সাশ্রয়ী করে তুলতে পারে।

HunyuanPortrait কি করে?

HunyuanPortrait একটি উন্নত AI মডেল যা আপনার যেকোনো স্থির পোর্ট্রেট ছবিটিকে একটি জীবন্ত, নড়াচড়া করা অ্যানিমেটেড ভিডিওতে রূপান্তরিত করতে পারে। এটি দুটি ইনপুটে কাজ করে – একটি রেফারেন্স ইমেজ, অর্থাৎ আপনার সাধারণ ছবি, এবং একটি ড্রাইভিং ভিডিও, যেখানে কোনো ব্যক্তির মুখের ভাবভঙ্গি এবং মাথার নড়াচড়া দেখা যায়। এই মডেল ড্রাইভিং ভিডিও থেকে নড়াচড়ার তথ্য সংগ্রহ করে এবং তা রেফারেন্স ছবির উপর প্রয়োগ করে। এর জন্য এটি “কন্ডিশন কন্ট্রোল এনকোডার” এবং ডিফিউশন প্রযুক্তি ব্যবহার করে, যার ফলে তৈরি ভিডিওতে আপনার মুখ এমনভাবে নড়াচড়া করে যেন তা আসলেই কথা বলছে বা প্রতিক্রিয়া দেখাচ্ছে। এই পুরো প্রক্রিয়া এতটাই নিখুঁত যে ভিডিওতে মুখের ক্ষুদ্র ক্ষুদ্র ভাবভঙ্গি ও নড়াচড়াও সম্পূর্ণ বাস্তবসম্মত মনে হয়।

মডেলের প্রযুক্তিগত গঠন

HunyuanPortrait-এর মেরুদণ্ডে রয়েছে স্থির ডিফিউশন মডেল, যা একটি বিশেষ কন্ডিশন কন্ট্রোল এনকোডারের সাথে যুক্ত করা হয়েছে:

কন্ডিশন কন্ট্রোল এনকোডার: এটি প্রি-ট্রেন করা ভিশন-ল্যাঙ্গুয়েজ মডেলের মতো কাজ করে, যা ভিডিও ফ্রেম থেকে চিহ্নিতকরণ ও গতির তথ্য পৃথক করে।
ডেনোইজিং U-Net: ডিফিউশন আর্কিটেকচারের এই অংশটি ভিডিও থেকে প্রাপ্ত কন্ট্রোল সিগনালকে স্থির ইমেজে ইনজেক্ট করে ফ্রেম-দর-ফ্রেম আউটপুট তৈরি করে।
স্পেশাল ও টেম্পোরাল স্থিরতা: মডেলটি দাবি করে যে এটি কেবল পোজ-সিঙ্কিং-এ নিখুঁত নয়, বরং ফ্রেম থেকে ফ্রেমে মুখের অভিব্যক্তিতে আসা ক্ষুদ্র পরিবর্তনগুলিকেও স্থিরতার সাথে বজায় রাখে।

এই আর্কিটেকচারের সুবিধা হল, ম্যানুয়াল কি-ফ্রেমিং বা ব্যয়বহুল মোশন-ক্যাপচার সিস্টেমের প্রয়োজন না থাকলেও উচ্চমানের অ্যানিমেশন তৈরি করা যায়।

ওপেন-সোর্স রিলিজ ও লাইসেন্স

Tencent HunyuanPortrait ওপেন-সোর্স করেছে, অর্থাৎ এখন কেউই এর কোড ও মডেল GitHub এবং Hugging Face থেকে বিনামূল্যে ডাউনলোড করতে পারে। এর সাথে arXiv-এ একটি রিসার্চ পেপারও প্রকাশ করা হয়েছে, যেখানে মডেলের ট্রেনিং প্রসেস, ব্যবহৃত ডেটা এবং পারফরমেন্স সম্পর্কিত সকল প্রযুক্তিগত দিক বিস্তারিতভাবে বর্ণনা করা হয়েছে। এই মডেল বিশেষ করে শিক্ষাগত ও গবেষণা উদ্দেশ্যে বিনামূল্যে উপলব্ধ, তবে কেউ যদি এটি কোনো ব্যবসা বা পণ্যে ব্যবহার করতে চায়, তাহলে তার জন্য আলাদা করে কমার্শিয়াল লাইসেন্স নিতে হবে। এই পদক্ষেপের ফলে বিশেষ করে ছোট স্টুডিও ও বিশ্ববিদ্যালয়গুলো অধিক খরচ ছাড়াই একটি শক্তিশালী AI অ্যানিমেশন টুলের সুবিধা পেতে পারবে।

বর্তমান বিকল্পগুলির সাথে তুলনা

এটিও পড়ুন:-
খাড়ি অঞ্চলে উত্তেজনার মধ্যে ৮৮ লক্ষ ভারতীয়ের নিরাপত্তা অগ্রাধিকার, ২৪x৭ কন্ট্রোল রুম স্থাপন
নীতীশ কুমারের সম্ভাব্য রাজ্যসভা মনোনয়ন নিয়ে বিহারের রাজনৈতিক পরিস্থিতিতে পরিবর্তনের আলোচনা

Tencent দাবি করে যে HunyuanPortrait নিম্নলিখিত মানদণ্ডে অন্যান্য ওপেন-সোর্স মডেলের চেয়ে উন্নত পারফরম্যান্স দেখায়:

স্পেশাল সঠিকতা: HunyuanPortrait চোখ, নাক, ঠোঁট এবং মাথার দিক যেমন মুখের অঙ্গগুলিকে অত্যন্ত সঠিকভাবে অ্যানিমেট করে। এর ফলে মুখটি সম্পূর্ণ স্বাভাবিক ও বাস্তবসম্মত দেখায়।

টেম্পোরাল স্থিরতা: এই মডেল ভিডিওর প্রতিটি ফ্রেমে একই রকম আউটপুট দেয়। অর্থাৎ নড়াচড়ার সময় মুখে ঝিলিমিলি বা পরিবর্তন দেখা যায় না, যার ফলে ভিডিওটি মসৃণ ও পেশাদারী মনে হয়।

নিয়ন্ত্রণযোগ্যতা: HunyuanPortrait ড্রাইভিং ভিডিওর খুব ছোট ও হালকা নড়াচড়াও ধরতে পারে। এর ফলে মুখের ক্ষুদ্র ক্ষুদ্র ভাবভঙ্গিও পোর্ট্রেটে ঠিক তেমনিভাবে প্রতিফলিত করা যায়।

চলচ্চিত্র ও অ্যানিমেশনে HunyuanPortrait-এর ব্যবহার

এটিও পড়ুন:-
তাঞ্জাভুরে TVK পদাধিকারীদের সভায় বক্তব্য রাখলেন থালাপথি বিজয়
রাজ্যসভা নির্বাচনের জন্য Indian National Congress ছয় প্রার্থীর তালিকা ঘোষণা করেছে

চলচ্চিত্র নির্মাণ ও অ্যানিমেশন শিল্পে HunyuanPortrait-এর ব্যবহার অনেকভাবে করা যায়:

দ্রুত প্রোটোটাইপ অ্যানিমেশন: HunyuanPortrait-এর সাহায্যে চলচ্চিত্র বা অ্যানিমেশন প্রকল্পের প্রাথমিক পর্যায়েই চরিত্রের নড়াচড়া ও অভিব্যক্তির দ্রুত ডেমো তৈরি করা যায়, যার ফলে সময় ও ব্যয় উভয়ই সাশ্রয় হয়।

ভার্চুয়াল স্পোক্সপারসন: ব্র্যান্ডগুলি এখন কোনো ব্যক্তির পরিবর্তে AI-ভিত্তিক অ্যানিমেটেড মুখগুলিকে তাদের প্রতিনিধি হিসেবে ব্যবহার করতে পারে, যারা লাইভ ভিডিওতেও স্বাভাবিকভাবে কথা বলতে ও নড়াচড়া করতে পারে।

সোশ্যাল মিডিয়া কন্টেন্ট: এই টুল ইউটিউবার, ইনস্টাগ্রাম ইনফ্লুয়েন্সার এবং ডিজিটাল ক্রিয়েটরদের জন্য দারুণ প্রমাণিত হতে পারে, কারণ তারা কোনো ভারী সেটআপ ছাড়াই লাইভ অ্যানিমেটেড ভিডিও তৈরি করতে পারবে।

চ্যালেঞ্জ ও ভবিষ্যতের পথ

প্রতিটি নতুন প্রযুক্তির মতো HunyuanPortrait-এর সাথেও কিছু চ্যালেঞ্জ জড়িত। সবচেয়ে বড় উদ্বেগ হল, এর ব্যবহার ভুল পন্থায়, যেমন অনুমতি ছাড়া কারও মুখ চুরি করে মিথ্যা ভিডিও (deepfake) তৈরিতে হতে পারে, যা মানুষের গোপনীয়তা ও নিরাপত্তার জন্য হুমকি। এছাড়া, ব্যক্তির অনুমতি ছাড়াই তার ছবি অ্যানিমেট করা নৈতিকতার প্রশ্ন তোলে। ব্যবসায়িক ব্যবহারকে সম্পূর্ণ অনুমোদন দেওয়ার আগে, নিরাপত্তা ও নৈতিক নির্দেশিকা স্পষ্ট ও কঠোর হওয়া প্রয়োজন যাতে এর ভুল সুযোগ নেওয়া না যায়।

Tencent-এর HunyuanPortrait পোর্ট্রেট অ্যানিমেশনের ক্ষেত্রে একটি বড় ধাপ হতে পারে। এর ওপেন-সোর্স প্রকৃতি ছোট ক্রিয়েটর, শিক্ষা প্রতিষ্ঠান এবং উদ্যোক্তাদের উচ্চমানের অ্যানিমেশন টুলের শক্তিশালী অ্যাক্সেস দান করে। তবে, এর সাথে সাথে নৈতিক ও গোপনীয়তা সংক্রান্ত প্রশ্নও উঠে আসে, যার উত্তর খুঁজে পাওয়া প্রযুক্তির অগ্রগতির জন্য প্রয়োজনীয়।

Message

Name

Leave a comment

এটিও পড়ুন

ডিম-চিকেনকেও টেক্কা দেয় প্রোটিনে! এই ৮ ডালই আসল সুপারফুড, কখন কোনটি খাবেন জানুন

গৌর পূর্ণিমায় ভক্তিস্রোত! Mayapur ISKCON Temple-এ ৩৪ দিনের মহা উৎসব, সপ্তাহান্তে ঘুরে আসার সেরা সুযোগ

Yellow Teeth: দিনে ২ বার ব্রাশ করেও দাঁতে হলুদ দাগ? নেপথ্যে এই ৪ কারণ, জানুন কী বলছেন বিশেষজ্ঞ

Ideal Weight By Age Chart: আপনার ওজন ‘পারফেক্ট’ তো? বয়সভিত্তিক তালিকায় মিলিয়ে নিন সঠিক মান

ছুটির দুপুরে ঝাল-ঝাল চমক! ৩০ মিনিটে বানান সিজলিং ‘মাটন সল্ট কারি’, গরম ভাতে হবে জমাটি ভোজ

টেনসেন্টের হুনয়ুয়ানপোর্ট্রেইট: ওপেন-সোর্স AI মডেল ছবি থেকে বাস্তবসম্মত ভিডিও তৈরি করছে

View & Write Comments

Leave a comment

এটিও পড়ুন