চীনা টেক জায়ান্ট Tencent আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) এর জগতে আরও একটি বড় ধাপ এগিয়েছে। কোম্পানিটি মঙ্গলবার HunyuanPortrait নামক একটি নতুন AI মডেল ওপেন-সোর্স করেছে, যা কেবল একটি স্থির পোর্ট্রেট ইমেজ দেখে তাকে বাস্তবসম্মত ভিডিওতে রূপান্তরিত করতে পারে। এই মডেলের সবচেয়ে আকর্ষণীয় দিক হল, এটি কোনো ড্রাইভিং ভিডিওতে দেখানো মুখের ভাবভঙ্গি ও মাথার অবস্থানকে লক্ষ্য ইমেজের উপর সম্পূর্ণ স্বাভাবিকভাবে সিঙ্ক করে দেয়। ছোট অ্যানিমেশন স্টুডিও থেকে শুরু করে স্বাধীন কন্টেন্ট ক্রিয়েটর পর্যন্ত, প্রতিটি স্তরে এই প্রযুক্তি অ্যানিমেশন তৈরির প্রক্রিয়াকে সহজ ও সাশ্রয়ী করে তুলতে পারে।
HunyuanPortrait কি করে?
HunyuanPortrait একটি উন্নত AI মডেল যা আপনার যেকোনো স্থির পোর্ট্রেট ছবিটিকে একটি জীবন্ত, নড়াচড়া করা অ্যানিমেটেড ভিডিওতে রূপান্তরিত করতে পারে। এটি দুটি ইনপুটে কাজ করে – একটি রেফারেন্স ইমেজ, অর্থাৎ আপনার সাধারণ ছবি, এবং একটি ড্রাইভিং ভিডিও, যেখানে কোনো ব্যক্তির মুখের ভাবভঙ্গি এবং মাথার নড়াচড়া দেখা যায়। এই মডেল ড্রাইভিং ভিডিও থেকে নড়াচড়ার তথ্য সংগ্রহ করে এবং তা রেফারেন্স ছবির উপর প্রয়োগ করে। এর জন্য এটি “কন্ডিশন কন্ট্রোল এনকোডার” এবং ডিফিউশন প্রযুক্তি ব্যবহার করে, যার ফলে তৈরি ভিডিওতে আপনার মুখ এমনভাবে নড়াচড়া করে যেন তা আসলেই কথা বলছে বা প্রতিক্রিয়া দেখাচ্ছে। এই পুরো প্রক্রিয়া এতটাই নিখুঁত যে ভিডিওতে মুখের ক্ষুদ্র ক্ষুদ্র ভাবভঙ্গি ও নড়াচড়াও সম্পূর্ণ বাস্তবসম্মত মনে হয়।
মডেলের প্রযুক্তিগত গঠন
HunyuanPortrait-এর মেরুদণ্ডে রয়েছে স্থির ডিফিউশন মডেল, যা একটি বিশেষ কন্ডিশন কন্ট্রোল এনকোডারের সাথে যুক্ত করা হয়েছে:

- কন্ডিশন কন্ট্রোল এনকোডার: এটি প্রি-ট্রেন করা ভিশন-ল্যাঙ্গুয়েজ মডেলের মতো কাজ করে, যা ভিডিও ফ্রেম থেকে চিহ্নিতকরণ ও গতির তথ্য পৃথক করে।
- ডেনোইজিং U-Net: ডিফিউশন আর্কিটেকচারের এই অংশটি ভিডিও থেকে প্রাপ্ত কন্ট্রোল সিগনালকে স্থির ইমেজে ইনজেক্ট করে ফ্রেম-দর-ফ্রেম আউটপুট তৈরি করে।
- স্পেশাল ও টেম্পোরাল স্থিরতা: মডেলটি দাবি করে যে এটি কেবল পোজ-সিঙ্কিং-এ নিখুঁত নয়, বরং ফ্রেম থেকে ফ্রেমে মুখের অভিব্যক্তিতে আসা ক্ষুদ্র পরিবর্তনগুলিকেও স্থিরতার সাথে বজায় রাখে।
এই আর্কিটেকচারের সুবিধা হল, ম্যানুয়াল কি-ফ্রেমিং বা ব্যয়বহুল মোশন-ক্যাপচার সিস্টেমের প্রয়োজন না থাকলেও উচ্চমানের অ্যানিমেশন তৈরি করা যায়।
ওপেন-সোর্স রিলিজ ও লাইসেন্স
Tencent HunyuanPortrait ওপেন-সোর্স করেছে, অর্থাৎ এখন কেউই এর কোড ও মডেল GitHub এবং Hugging Face থেকে বিনামূল্যে ডাউনলোড করতে পারে। এর সাথে arXiv-এ একটি রিসার্চ পেপারও প্রকাশ করা হয়েছে, যেখানে মডেলের ট্রেনিং প্রসেস, ব্যবহৃত ডেটা এবং পারফরমেন্স সম্পর্কিত সকল প্রযুক্তিগত দিক বিস্তারিতভাবে বর্ণনা করা হয়েছে। এই মডেল বিশেষ করে শিক্ষাগত ও গবেষণা উদ্দেশ্যে বিনামূল্যে উপলব্ধ, তবে কেউ যদি এটি কোনো ব্যবসা বা পণ্যে ব্যবহার করতে চায়, তাহলে তার জন্য আলাদা করে কমার্শিয়াল লাইসেন্স নিতে হবে। এই পদক্ষেপের ফলে বিশেষ করে ছোট স্টুডিও ও বিশ্ববিদ্যালয়গুলো অধিক খরচ ছাড়াই একটি শক্তিশালী AI অ্যানিমেশন টুলের সুবিধা পেতে পারবে।
বর্তমান বিকল্পগুলির সাথে তুলনা
Tencent দাবি করে যে HunyuanPortrait নিম্নলিখিত মানদণ্ডে অন্যান্য ওপেন-সোর্স মডেলের চেয়ে উন্নত পারফরম্যান্স দেখায়:
স্পেশাল সঠিকতা: HunyuanPortrait চোখ, নাক, ঠোঁট এবং মাথার দিক যেমন মুখের অঙ্গগুলিকে অত্যন্ত সঠিকভাবে অ্যানিমেট করে। এর ফলে মুখটি সম্পূর্ণ স্বাভাবিক ও বাস্তবসম্মত দেখায়।
টেম্পোরাল স্থিরতা: এই মডেল ভিডিওর প্রতিটি ফ্রেমে একই রকম আউটপুট দেয়। অর্থাৎ নড়াচড়ার সময় মুখে ঝিলিমিলি বা পরিবর্তন দেখা যায় না, যার ফলে ভিডিওটি মসৃণ ও পেশাদারী মনে হয়।
নিয়ন্ত্রণযোগ্যতা: HunyuanPortrait ড্রাইভিং ভিডিওর খুব ছোট ও হালকা নড়াচড়াও ধরতে পারে। এর ফলে মুখের ক্ষুদ্র ক্ষুদ্র ভাবভঙ্গিও পোর্ট্রেটে ঠিক তেমনিভাবে প্রতিফলিত করা যায়।
চলচ্চিত্র ও অ্যানিমেশনে HunyuanPortrait-এর ব্যবহার

চলচ্চিত্র নির্মাণ ও অ্যানিমেশন শিল্পে HunyuanPortrait-এর ব্যবহার অনেকভাবে করা যায়:
দ্রুত প্রোটোটাইপ অ্যানিমেশন: HunyuanPortrait-এর সাহায্যে চলচ্চিত্র বা অ্যানিমেশন প্রকল্পের প্রাথমিক পর্যায়েই চরিত্রের নড়াচড়া ও অভিব্যক্তির দ্রুত ডেমো তৈরি করা যায়, যার ফলে সময় ও ব্যয় উভয়ই সাশ্রয় হয়।
ভার্চুয়াল স্পোক্সপারসন: ব্র্যান্ডগুলি এখন কোনো ব্যক্তির পরিবর্তে AI-ভিত্তিক অ্যানিমেটেড মুখগুলিকে তাদের প্রতিনিধি হিসেবে ব্যবহার করতে পারে, যারা লাইভ ভিডিওতেও স্বাভাবিকভাবে কথা বলতে ও নড়াচড়া করতে পারে।
সোশ্যাল মিডিয়া কন্টেন্ট: এই টুল ইউটিউবার, ইনস্টাগ্রাম ইনফ্লুয়েন্সার এবং ডিজিটাল ক্রিয়েটরদের জন্য দারুণ প্রমাণিত হতে পারে, কারণ তারা কোনো ভারী সেটআপ ছাড়াই লাইভ অ্যানিমেটেড ভিডিও তৈরি করতে পারবে।
চ্যালেঞ্জ ও ভবিষ্যতের পথ
প্রতিটি নতুন প্রযুক্তির মতো HunyuanPortrait-এর সাথেও কিছু চ্যালেঞ্জ জড়িত। সবচেয়ে বড় উদ্বেগ হল, এর ব্যবহার ভুল পন্থায়, যেমন অনুমতি ছাড়া কারও মুখ চুরি করে মিথ্যা ভিডিও (deepfake) তৈরিতে হতে পারে, যা মানুষের গোপনীয়তা ও নিরাপত্তার জন্য হুমকি। এছাড়া, ব্যক্তির অনুমতি ছাড়াই তার ছবি অ্যানিমেট করা নৈতিকতার প্রশ্ন তোলে। ব্যবসায়িক ব্যবহারকে সম্পূর্ণ অনুমোদন দেওয়ার আগে, নিরাপত্তা ও নৈতিক নির্দেশিকা স্পষ্ট ও কঠোর হওয়া প্রয়োজন যাতে এর ভুল সুযোগ নেওয়া না যায়।
Tencent-এর HunyuanPortrait পোর্ট্রেট অ্যানিমেশনের ক্ষেত্রে একটি বড় ধাপ হতে পারে। এর ওপেন-সোর্স প্রকৃতি ছোট ক্রিয়েটর, শিক্ষা প্রতিষ্ঠান এবং উদ্যোক্তাদের উচ্চমানের অ্যানিমেশন টুলের শক্তিশালী অ্যাক্সেস দান করে। তবে, এর সাথে সাথে নৈতিক ও গোপনীয়তা সংক্রান্ত প্রশ্নও উঠে আসে, যার উত্তর খুঁজে পাওয়া প্রযুক্তির অগ্রগতির জন্য প্রয়োজনীয়।








