Microsoftin uusi tekoälymalli matkii kenen tahansa ääntä nopeasti. VALL-E tarvitsee toimiakseen vain kolmen sekunnin mallin.
VALL-E on Microsoftin uusi tekoälymalli, joka perustuu niin kutsuttuihin neuroverkkoihin. Kyseessä on uudenlainen ja erittäin nopeaksi kuvattu malli, joka Microsoftin mukaan kykenee tarkasti matkimaan lähes kenen tahansa ääntä vain kolmen sekunnin mittaisen äänitteen pohjalta.
MAINOS (ARTIKKELI JATKUU ALLA)
Pelkän matkimisen ohella VALL-E säilyttää myös alkuperäisen puhujan tunnetilan. Microsoftin mukaan tekoälymallia voitaisiin käyttää esimerkiksi kehittyneissä tekstistä puheeksi -sovelluksissa ja jälkikäteen tehtävissä puheiden muokkauksissa.
VALL-E perustuu Facebook-yhtiö Metan lokakuussa 2022 esittelemään EnCodec-teknologiaan. Mallin kouluttamisessa on käytetty jopa 60 000 tunnin englanninkielistä ääniaineistoa, joka on kerätty yli 7 000 puhujalta pääasiassa yleisesti saatavilla olevista äänikirjoista.
Meta on myös tämän niin kutsutun LibriLight-äänikokoelman takana.
MAINOS (ARTIKKELI JATKUU ALLA)
Jotta VALL-E onnistuu tehtävässään, on lyhyen malliäänitteen vastattava kohtalaisen tarkasti mallin ”koulutusaikana” kuulemaa sisältöä. Ensi alkuun VALL-E toimineekin vain englanniksi.
Asiasta kirjoittavan ArsTechnica-sivuston mukaan VALL-En toimintaperiaate poikkeaa muista ääntä tuottavista tekoälyistä. Ääniaaltojen mukauttamisen sijaan VALL-E analysoi malliäänitteen, rikkoo sen osiin ja rakentaa sitten haluttua sisältöä.
Microsoft kertoo julkaisemassaan tutkimusartikkelissa tarkemmin VALL-Esta ja sen tarjoamista mahdollisuuksista. Yksityiskohtaisia toimintaperiaatteita ohjelmistojätti ei kuitenkaan jaa, mikä kenties liittyy tekoälymalleihin liitettyihin uhkakuviin.
Mainos: Noin 1 600 000 tuotteen hintavertailu ja hintaseuranta - katso Hinta.fistä mistä saat halvimmalla
Salasana hukassa?
Etkö ole vielä rekisteröitynyt? Rekisteröidy tästä »