
በቴክኖሎጂው ዓለም በከፍተኛ ፍጥነት እያደገ የመጣው የቻይናው Alibaba ኩባንያ በቅርቡ Qwen3.5-Omni የተባለ እጅግ ዘመናዊና ቀጥተኛ ሁለገብ (Native Multimodal) የሆነ የሰው ሰራሽ አስተውሎት ሞዴል ይፋ ማድረጉን አስታውቋል።
ይህ አዲስ ቴክኖሎጂ ቀደም ሲል ከነበሩት የ Qwen ስሪቶች በተለየ መልኩ ጽሑፍን፣ ድምፅንና ተንቀሳቃሽ ምስልን በአንድ ላይና በቅጽበት የመረዳት እንዲሁም ምላሽ የመስጠት ልዩ ብቃት አለው።
follow us on telegram
Join our Telegram ChannelQwen3.5-Omni የ “Native” ወይም ቀጥተኛ ሁለገብነት ባሕርይ ያለው መሆኑ ትልቁ መለያው ነው። ይህም ማለት እንደ ቀድሞዎቹ ሞዴሎች የተለያዩ መረጃዎችን ለየብቻ ተርጉሞ የሚያቀናጅ ሳይሆን፣ ሁሉንም የመረጃ አይነቶች በአንድ ወጥ የሆነ የNeural Network ውስጥ በማሳለፍ በሰው ልጅ አእምሮ አሠራር መንገድ እንዲረዳቸው ተደርጎ የተገነባ ነው።
ይህ ሞዴል በተለይ ከሰዎች ጋር በሚያደርገው Real-time Interaction እጅግ ዝቅተኛ የመዘግየት ጊዜ ያለው በመሆኑ፣ ልክ እንደ እውነተኛ ሰው ሳይቆራረጥና ሳይዘገይ መግባባት ይችላል። እንደ Alibaba ገለጻ፣ ሞዴሉ ለድምፅ ጥያቄዎች ምላሽ ለመስጠት የሚወስድበት ጊዜ ከ 200 ሚሊሰከንድ በታች ሲሆን፣ ይህም በዘርፉ ካሉ እንደ GPT-4o ካሉ ሞዴሎች ጋር እኩል የሚያሰልፈው ነው።
በተጨማሪም Qwen3.5-Omni ውስብስብ የሆኑ የቪዲዮ መረጃዎችን በቅጽበት የመተንተን አቅም አለው። ለምሳሌ አንድ ተጠቃሚ በካሜራው እያሳየው ያለውን ድርጊት ወይም አካባቢ በቀጥታ በመመልከት ምን እየተከናወነ እንዳለ ሊያስረዳ ወይም ለሚቀርቡለት ጥያቄዎች በቪዲዮው ላይ ተመስርቶ ምላሽ ሊሰጥ ይችላል። ይህ ብቃቱ ለትምህርት፣ ለቴክኒክ ድጋፍና ለተለያዩ የፈጠራ ስራዎች ትልቅ ፋይዳ ይኖረዋል።
Alibaba ይህንን ሞዴል በ ModelScope እና Hugging Face በተባሉ የቴክኖሎጂ መድረኮች ላይ ለሁሉም ክፍት ማድረጉ በዘርፉ ላይ ያለውን ተፅዕኖ ከፍ ያደርገዋል። ይህም ተመራማሪዎችና የሶፍትዌር አልሚዎች ሞዴሉን በራሳቸው ስራዎች ላይ እንዲጠቀሙበትና ይበልጥ እንዲያሳድጉት ዕድል የሚሰጥ በመሆኑ፣ የሰው ሰራሽ አስተውሎት ቴክኖሎጂን ለሁሉም ተደራሽ ለማድረግ ለሚደረገው ጥረት ትልቅ አስተዋፅዖ አለው።
የዚህ ሞዴል መውጣት በዓለም አቀፍ ደረጃ በሰው ሰራሽ አስተውሎት ዘርፍ ያለውን ፉክክር ይበልጥ ያፋጥነዋል። በተለይም ጽሑፍንና ድምፅን ብቻ ሳይሆን ተንቀሳቃሽ ምስልን ጭምር በአንድ ላይ አቀናጅተው የሚረዱ ሞዴሎች ወደፊት የሰውንና የኮምፒውተርን ግንኙነት ሙሉ በሙሉ እንደሚቀይሩት ይጠበቃል።
የዜናውን ይፋዊ ምንጭ ይመልከቱ
Leave a Reply