Rassore.ai రియల్ టైమ్, “ఫేస్టైమ్-స్టైల్” వీడియో జనరేషన్ కోసం టాకింగ్ మాచైన్లను ఆవిష్కరించింది

Carraction.ai పంచుకున్నారు కొన్ని పరిశోధనలు ఇది జనరేటివ్ వీడియోలో చేస్తోంది. టాకింగ్ మాచైన్స్ అని పిలువబడే కొత్త ఆటోరెగ్రెసివ్ డిఫ్యూజన్ మోడల్ను కంపెనీ అభివృద్ధి చేసింది, ఇది కేవలం చిత్రం మరియు వాయిస్ సిగ్నల్ నుండి AI అక్షరాల యొక్క నిజ-సమయ, ఆడియో-ఆధారిత వీడియోను ఉత్పత్తి చేయగలదు. దీనితో, సంస్థ AI అక్షరాలతో ఫేస్టైమ్-స్టైల్ దృశ్య పరస్పర చర్యలకు దగ్గరవుతోంది.
ఈ సమయంలో, ఇది ఇప్పటికీ పరిశోధన అని అర్థం చేసుకోవడం ముఖ్యం. ఒక రీసెర్చ్ పేపర్ మరియు వీడియో డెమోలు, కానీ మీరు దీన్ని vartical.ai అనువర్తనంలో ఇంకా ఉపయోగించలేరు.
ఇది ఎప్పుడైనా vartical.ai అనువర్తనానికి ఫిల్టర్ చేస్తే, ఇది వినియోగదారులను AI తో మరింత లీనమయ్యే రోల్ప్లేలో పాల్గొనడానికి, ఇంటరాక్టివ్ కథాంశంలో పాల్గొనడానికి మరియు దృశ్య ప్రపంచ నిర్మాణానికి అనుమతిస్తుంది.
కొత్త టాకింగ్ మాచైన్స్ మోడల్ డిఫ్యూజన్ ట్రాన్స్ఫార్మర్ (డిఐటి) టెక్నాలజీ అని పిలువబడే వాటిపై నిర్మించబడింది, ఇది తప్పనిసరిగా యాదృచ్ఛిక శబ్దం నుండి వివరణాత్మక చిత్రాలను సృష్టించగల కళాకారుడు, చిత్రం పరిపూర్ణంగా ఉండే వరకు శుద్ధి చేస్తుంది. ఏ పాత్ర.య్ చేసినది ఏమిటంటే ఇది చాలా వేగంగా పని చేస్తుంది, కాబట్టి ఇది నిజ-సమయంగా అనిపిస్తుంది.
దాని పురోగతులను సాధించడానికి, టాకింగ్ మాచైన్స్ అనేక కీలక పద్ధతులను ప్రభావితం చేస్తాయి, వీటిలో: ఫ్లో-మ్యాచ్డ్ డిఫ్యూజన్, ఆడియో-నడిచే క్రాస్ శ్రద్ధ, చిన్న కారణ శ్రద్ధ మరియు అసమాన స్వేదనం.
ఫ్లో-మ్యాచ్డ్ డిఫ్యూషన్ సూక్ష్మ ముఖ కవళికలతో సహా చాలా కదలికలపై ఎక్కువ నాటకీయ హావభావాలకు శిక్షణ ఇస్తుంది. AI అక్షరాలు మరింత సహజంగా కదులుతున్నాయని నిర్ధారించడానికి ఇది సహాయపడుతుంది. ఉత్తేజకరమైన పని ఆడియో-నడిచే క్రాస్ అటెన్షన్ ద్వారా పంపిణీ చేయబడుతుంది, ఇది AI ను పదాలు వినడానికి మాత్రమే కాకుండా, ఆడియోలో లయ, విరామం మరియు ఇన్ఫ్లెక్షన్లను కూడా అర్థం చేసుకుని, ఆపై దీనిని ఖచ్చితమైన నోటి కదలికలు, హెడ్ నోడ్స్ మరియు కంటి రెప్పపాటుగా అనువదిస్తుంది.
తక్కువ కారణమైన శ్రద్ధతో, vartical.ai వీడియో యొక్క ఫ్రేమ్లను చాలా ఖర్చు-సమర్థవంతమైన పద్ధతిలో ప్రాసెస్ చేయగలదు మరియు అసమాన స్వేదనం తో, ఫేస్టైమ్ కాల్ లాగా అనిపించేలా వీడియోలను నిజ సమయంలో ఉత్పత్తి చేయవచ్చు.
అక్షరం ఇది నిజ సమయంలో మీరు సంభాషించగల ఇంటరాక్టివ్ ఆడియోవిజువల్ AI అక్షరాల వైపు ఒక అడుగు అని ఇది చెబుతుంది. మోడల్ ఫోటోరియలిస్టిక్ మానవులు, అనిమే మరియు 3 డి అవతారాలతో సహా అనేక రకాల శైలులకు మద్దతు ఇస్తుంది మరియు ఇది సహజమైన శ్రవణ మరియు మాట్లాడే దశలతో స్ట్రీమింగ్ను అనుమతిస్తుంది.
ఈ లక్షణం అనువర్తనం కోసం ఇంకా సిద్ధంగా లేదు, అక్షరంతో. ఇది ఇంకా పరిశోధనలో ఉందని చెప్పారు. సంస్థ దీన్ని ప్రారంభిస్తే, ఇది ఖచ్చితంగా దీనిని సాధించిన మొదటి సంస్థలలో ఒకటి అవుతుంది, కాకపోతే మొదటిది మరియు ఖచ్చితంగా AI రేసులో గుర్తించదగిన మైలురాయి.