இனி புகைப்படங்கள் பேசும், பாடும்: மைக்ரோசாப்ட் அசத்தல் ஏ.ஐ அறிமுகம்

புதிய ஏ.ஐ தொழில்நுட்பம் VASA-1 பயன்படுத்தி ஸ்டில் படங்களை ( still images) பேசவும், பாடவும் அதற்கு ஏற்ப துல்லியமான முகபாவனைகளை செய்யும் வகையில் புதிய அம்சம் அறிமுகம் செய்யப்பட்டுள்ளது.

புதிய ஏ.ஐ தொழில்நுட்பம் VASA-1 பயன்படுத்தி ஸ்டில் படங்களை ( still images) பேசவும், பாடவும் அதற்கு ஏற்ப துல்லியமான முகபாவனைகளை செய்யும் வகையில் புதிய அம்சம் அறிமுகம் செய்யப்பட்டுள்ளது.

author-image
WebDesk
New Update
VASA-1.jpg
Listen to this article
0.75x1x1.5x
00:00/ 00:00

சில நாட்கள் முன் சில செயலிகள் GIF அனிமேஷன் பயன்படுத்தி  புகைப்படங்களை உயிர்ப்பித்தனர். அந்தவகையில், இப்போது ​​புகைப்படங்களை ஆடவும் பாடவும் செய்யும் AI அமைப்பு வந்துள்ளது. மைக்ரோசாஃப்ட் ரிசர்ச் ஏசியாவின் AI ஆராய்ச்சியாளர்கள் குழு, AI செயலியை உருவாக்கியுள்ளது, இது மனிதர்களின் ஸ்டில் படங்கள் மற்றும் ஆடியோ டிராக்குகளை அனிமேஷனாக மாற்றும். 

Advertisment

ஆராய்ச்சியாளர்கள் கூறுகையில்,  “எங்கள் முறை யதார்த்தமான முக மற்றும் தலை இயக்கவியலுடன் உயர் வீடியோ தரத்தை வழங்குவது மட்டுமல்லாமல், 40 FPS வரை 512×512 வீடியோக்களின் ஆன்லைன் தலைமுறையை மிகக் குறைவான தொடக்க தாமதத்துடன் ஆதரிக்கிறது. மனித உரையாடல் நடத்தைகளைப் பின்பற்றும் உயிரோட்டமான அவதாரங்களுடன் நிகழ்நேர ஈடுபாடுகளுக்கு இது வழி வகுக்கிறது" என்றனர். 

VASA-1 என்றால் என்ன? 

மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் தங்கள் புதிய முறை லிப்-ஆடியோ ஒத்திசைவை உருவாக்கும் திறன் கொண்டது மட்டுமல்லாமல், வெளிப்படையான முக நுணுக்கங்கள் மற்றும் இயற்கையான தலை அசைவுகளின் ஒரு பெரிய நிறமாலையை உருவாக்க முடியும் என்று கூறுகிறார்கள். "இது தன்னிச்சையான நீளமான ஆடியோவைக் கையாளும் மற்றும் தடையற்ற பேசும் முக வீடியோக்களை நிலையான முறையில் வெளியிடும்."

VASA-1-ல் பணிபுரியும் ஆராய்ச்சியாளர்கள் நிலையான படங்களை உயிர்ப்பித்து, அவற்றைப் பேசவும், பாடவும், உணர்ச்சிகளை எந்த ஆடியோ டிராக்குடனும் சரியான ஒத்திசைவில் வெளிப்படுத்தும் லட்சியப் பணியை மேற்கொண்டனர். VASA-1 என்பது அவர்களின் முயற்சியின் விளைவாகும், ஏனெனில் AI அமைப்பு அசைவற்ற காட்சிகளை, அவை புகைப்படங்கள், வரைபடங்கள் அல்லது ஓவியங்கள், ஒத்திசைக்கப்பட்ட அனிமேஷன்களாக மாற்றுகிறது. கட்டுப்பாட்டிற்கு வரும்போது, ​​​​ஆராய்ச்சியாளர்கள் தங்கள் பரவல் மாதிரியானது விருப்பமான சிக்னல்களை முக்கிய கண் பார்வை திசை மற்றும் தலை தூரம், உணர்ச்சி ஆஃப்செட் போன்ற நிபந்தனைகளாக ஏற்றுக் கொள்ள முடியும் என்று கூறினர்.

Advertisment
Advertisements

ஆய்வுக் கட்டுரையின் அடிப்படையில், குழு VASA-1 அமைப்பின் திறன்களை வீடியோ கிளிப்புகள் மூலம் காட்சிப்படுத்தியுள்ளது. மோனாலிசாவின் கார்ட்டூன் பதிப்பு ஒன்றில் உயிர்பெற்று ராப் பாடலாக உடைகிறது. இந்த எடுத்துக்காட்டில், மோனாலிசாவின் வெளிப்பாடுகள் மற்றும் உதடு அசைவுகள் பாடல் வரிகளுடன் சரியாக ஒத்துப்போகின்றன.

VASA-1 எவ்வாறு உருவாக்கப்பட்டது?

ஆய்வறிக்கையின் படி, VASA-1 இன் முன்னேற்றம் ஒரு விரிவான பயிற்சி செயல்முறை மூலம் நடந்தது. இது AI அமைப்புகள் பரந்த அளவிலான முகபாவனைகளை சித்தரிக்கும் ஆயிரக்கணக்கான படங்களை வெளிப்படுத்தியது. இந்த பரந்த தரவுத் தொகுப்பு, பேச்சு முறைகளுடன் மனித உணர்ச்சிகளின் நுணுக்கங்களைக் கற்றுக் கொள்ளவும் துல்லியமாக மீண்டும் உருவாக்கவும் கணினியை அனுமதித்ததாகக் கூறப்படுகிறது.

VASA-1 இன் தற்போதைய மறு செய்கையானது 45fps பிரேம் வீதத்துடன் 512X512 பிக்சல்களில் உயர் தெளிவுத்திறன் கொண்ட காட்சிகளை உருவாக்குகிறது. இந்த அனிமேஷன்கள் காட்சிகள் மற்றும் ஆடியோவைத் தடையின்றி ஒருங்கிணைத்து, உயிரோட்டமான அழகைக் கொடுத்தாலும், நுணுக்கமாக ஆராய்ந்தால், AI-உருவாக்கிய உள்ளடக்கத்தின் பொதுவான சில நுட்பமான குறைபாடுகள் மற்றும் சொல்லும் அறிகுறிகளை ஒருவர் கவனிக்க முடியும் என்று ஆராய்ச்சியாளர்கள் கூறியுள்ளனர். இருப்பினும், பகிரப்பட்ட எடுத்துக்காட்டுகள் VASA-1 இல் பணிபுரியும் குழுவின் தொழில்நுட்ப சிறப்பை வெளிப்படுத்துகின்றன.

“தமிழ் இந்தியன் எக்ஸ்பிரஸின் அனைத்து செய்திகளையும் உடனுக்குடன் டெலிகிராம் ஆப்பில் பெற  https://t.me/ietamil“

    Microsoft

    Stay updated with the latest news headlines and all the latest Lifestyle news. Download Indian Express Tamil App - Android or iOS.

    Follow us: