Mitä jos joku kloonaisi äänesi?

Synteettisellä äänellä tehdyt äänikirjat ja äänityöt uhkaavat näyttelijöiden toimeentuloa. Miten kehittynyttä teknologia on — ja voiko se ihan oikeasti korvata näyttelijät?

Teksti: Leena Pihkala
Kuvat: DALL·E 2 -tekoälyn näkemys aiheesta "Artificial Intelligence takes actors voice"

”Minut on opetettu noin kahdellakymmenellä tunnilla vaihtelevaa puhetta”, kalsea synteettinen ääni aloittaa.

Istun fonetiikan professorin Martti Vainion työhuoneessa. Fonetiikka tutkii ihmisen puhetta monista eri näkökulmista. Osa fonetiikan tutkimusalaa on jo pitkään ollut puheen tuottaminen keinotekoisesti.

Puhesynteesi, jota Vainio soittaa minulle, tuntuu hyvin keinotekoiselta. Mutta yhtäkkiä ääni vaihtaa kirjakielestä puhekieleen ja ottaa mukaan erilaisia painotuksia, kuten vihaisuutta. Silloin siitä tulee uskottavampi.

Jos en jo tietäisi kuuntelevani keinotekoista ääntä, osaisinko epäillä mitään? En ole varma.

Jos tämä synteettinen ääni olisi treenattu omalla puheäänelläni, voisiko sillä huijata läheisiäni?

Ja ennen kaikkea: Jos teksti voidaan muuttaa näin helposti keinotekoiseksi puheeksi, miten näyttelijöiden tekemien äänitöiden käy?

Ämyri selvitti, millainen on ääniteknologioiden ja -töiden tulevaisuus. Haastattelupyynnön ottivat vastaan fonetiikan professori Martti Vainio Helsingin Yliopistolta, kognitiotieteen yliopistolehtori Anna-Mari Rusanen Helsingin Yliopistolta ja apulaisprofessori Tom Bäckström Aalto-yliopistolta.

Lisäksi selvitimme, miten isommilla kielialueilla on reagoidu teknologian tuomiin haasteisiin näyttelijän työmarkkinoilla. Juttuun on konsultoitu myös liiton omaa juristia Tiia-Lotta Lehterää ja amerikkalaisen sisarjärjestömme SAG-AFTRA sopimusasioiden päällikkö Ray Rodriguezia.

Teknologia on jo täällä

Kokonaan keinotekoinen puhe tuntuu tieteisutopialta, mutta todellisuudessa elämme jo sen keskellä. Tekoälyn ja koneoppimisen menetelmillä voidaan helposti luoda puhesyntetisaattori, jossa voi olla tuhansia erilaisia aidon kuuloisia ääniä.

”Teknologinen ja algoritminen puoli on jo olemassa. Nyt voidaan jo tuottaa monivivahteista, hyvälaatuista puhetta”, yliopistolehtori Anna-Mari Rusanen kertoo.

Puhesynteesiä ei tutkita vain yliopistossa, vaan siitä on tulossa kaupattava tuote. Markkinoilla on jo monia välineitä: Puhetta voidaan kloonata ja tuottaa keinotekoisesti.

Samaan aikaan puheen ja äänen määrä lisääntyy erilaisissa medioissa koko ajan. Jotkut miettivät jopa onko kirjoitetun kielen ja painetun tekstin ajanjakso ollut vain lyhyt välivaihe ihmiskunnan historiassa. Nyt puhujina voivat ihmisten sijaan olla koneet. Voi olla, että hyvin pian ollaan tilanteessa, jossa ainakaan osa yleisöistä ei enää kaipaa ihmisäänen vivahteikkuutta. Esimerkiksi moni TikTokin ja YouTuben käyttäjä on jo tottunut somealustoilla paljon käytettyyn puhesynteesiin, jolla muutetaan tekstiä puheeksi.

Näkövammaiset ihmiset ovat vuosien ajan käyttäneet synteettisellä äänellä puhuvia ruudunlukijoita esimerkiksi internet-sivujen selaamisen apuna. Monet heistä nimenomaan haluavat puheesta pois kaikki tulkitsevat elementit, sillä oleellista on tekstissä olevan tiedon välittyminen perille neutraalissa muodossa.

Myönnän itsekin, että olen jättänyt joskus äänikirjan kesken, koska sen lukija eläytyi asiapitoisen tietokirjan maailmaan liian tunteikkaasti. Jos kuluttajille annettaisiin vaihtoehto valita itseä miellyttävä lukija äänikirjoihin, moni varmasti käyttäisi sitä. Äänen kloonaamisen avulla kustantajat voisivat ottaa talliinsa satoja eri lukijoita, joiden ei tarvitsisi tehdä manuaalisesti lukutyötä. Samaa teknologiaa voitaisiin käyttää myös dubbauksissa ja mainoksissa – kaikkialla, missä ääntä käytetään.

Maailma on täynnä erilaisia tekstejä, joiden lukemisessa näyttelijän lausujantaidot eivät ole välttämättömiä. Professori Martti Vainio ei näe mitään syytä, miksei synteettinen ääni sopisi tällaiseen ”bulkkitavaraan”. Hän kuitenkin uskoo, että aito ja inhimillinen ihmisääni erottuisi koneella tuotetusta massasta.

”Sellainen työ vaatii lahjakkuutta ja tietynlaista koulutusta. Etenkin, jos siinä pitää ilmaista jotakin. Puhetta tulee enemmän ja enemmän koko ajan. Mutta jos halutaan siihen joku aito inhimillisyys, mitä näyttelemisessä on, ei se siihen helposti tule”, Vainio sanoo.

Myös yliopistolehtori Anna-Mari Rusanen uskoo, että koneääneen tullaan tottumaan pian. Hän on kuitenkin skeptisempi aidon ihmisäänen käytön tulevaisuudesta.

”Koneääntä tullaan hyödyntämään enemmän kuin nyt edes tajuamme. En jaa sitä ajatusta, että kaikki näyttelijöiden äänen avulla tekemä työ olisi niin tulkitsevaa, etteikö sitä yritettäisi ainakin kokeilla tehdä koneella. Luulen, että äänikirjojen kaltaisia työtehtäviä tehdään pian kustannussyistä koneellisesti, jos se ei vaadi Oscarin arvoista suoritusta”, Rusanen sanoo.

Samansuuntaisia kommentteja on esitetty myös luovan alan sisältä. Suomen Kirjailijaliiton puheenjohtaja Ville Hytönen kertoi Helsingin Sanomissa uskovansa, että tekoäly syrjäyttää äänikirjojen lukijat.

Aalto-yliopiston apulaisprofessori Tom Bäckström uskoo, että markkinoilla on jo keinotekoisia äänikirjoja, mutta niiden puheilmaisu on köyhempää kuin ihmisen lukemana. Synteettisen puheen ilmaisukykyä kuitenkin kehitetään koko ajan, ja ilmiön yleistyminen voi olla vain ajan kysymys.

Tällä hetkellä ihminen osaa konetta paremmin kertoa tekstin kontekstista, ja osaa siksi painottaa ilmaisussaan oikeita asioita. Bäckströmin mukaan asiatekstien lukeminen voi olla koneelle helpompaa.

”Esimerkiksi lakitekstin lukeminen ei ole jännittävää tai tuo mielihyvää lukijalle, siinä mielessä ne työt kannattaa laittaa koneelle.”

Luova työ taas on ihmiselle miellyttävämpää tehdä, ja toistaiseksi kone ei pysty samaan.

”Kyllä Pöystin lasten sadut ovat edelleen arvokkaita, koska se ilmaisu on omaa luokkaansa”, Bäckström sanoo.

Nykyteknologia ei ainakaan vielä osaa kertoa, miksi joku on poikkeuksellisen hyvä kertoja tai lausuja.

Näyttelijän kannalta oma ääni voi olla osa omaa henkilöbrändiä ja elämäntyötä. Mutta oma ääni on muutenkin hyvin henkilökohtainen asia: se kumpuaa syvältä ihmisen syvimmästä.

”Ihmisen puheääni on herkkä ja erotteleva, kommunikaation kivijalka”, sanoo Rusanen.

”Omistajuuden tunne siinä on hyvin vahvaa”, sanoo Bäckström.

Ei ole ihme, että asia herättää voimakkaita tunteita.

Ajatus siitä, että joku veisi ääneni tuntuu hyvin kajoavalta toimenpiteeltä. Mieleen tulee sadun pieni merenneito, jonka äänen merinoita varastaa omaan käyttöönsä. Mielikuva ei ole täysin tuulesta temmattu, sillä myös lauluäänen voi kloonata.

Mitä laki sanoo äänen kloonaamisesta?

EU:ssa valmistellaan tekoälyyn liittyvää lainsäädäntöä. Sen linjaukset liittyvät isoihin eettisiin kysymyksiin, kuten syrjinnän ehkäisemiseen tilanteissa, joissa kone tekee päätöksiä ihmisen puolesta.

Teknologian kehittäjiä ja käyttöönottajia yritetään patistella tuottamaan ja hyödyntämään teknologiaa vastuullisemmin, mutta monia asioita ei varsinaisesti kielletä tai estetä. Sääntely vaikuttaa olevan huono työkalu siihen, jos yksilön ihmisoikeuksia tai tekijänoikeuksia loukataan tekoälyn avulla.

Valmisteilla oleva tekoälyyn ja tekijänoikeuksiin liittyvä lainsäädäntö ei ota selkeästi kantaa puheäänen tapaisiin tilanteisiin. Esimerkiksi tekijänoikeudet lähtökohtaisesti suojaavat teosta ja teoksen omistajaa, eivätkä ensisijaisesti henkilöä tai kenenkään henkilökohtaisia ominaisuuksia.

Äänikirjasopimuksissa näyttelijät eivät luovuta ääntään, vaan he sopivat suoritteesta ja tallenteen käytöstä. Kustantajalle ei tällaisien sopimuksien myötä synny oikeutta näyttelijän ääneen tai näyttelijän lukemien yksittäisten sanojen käyttämiseen miten tahansa.

Tulevaisuudessa on tietenkin mahdollista, että näyttelijöille tarjotaan erilaisia sopimuksia, joissa sovittaisiin äänen käyttämisestä erilaisilla tavoilla.

Voisiko joku käyttää ääntä ilman lupaa tai laittomasti? Se on täysin mahdollista.

Jos ääntä käytettäisiin ilman lupaa jonkin tuotteen tai tahon markkinointiin, siihen voitaisiin luultavasti puuttua esimerkiksi elinkeinotoimintaa koskevan lain perusteella. Näin on toimittu, kun kyseessä on henkilön kuva. Sama lähestymistapa voisi olla sovellettavissa äänen kohdalla, etenkin jos teko on tehtyä ansiotarkoituksessa. Markkinointi- ja mainonta-alalla on myös omat eettiset ohjeensa, joissa tällainen toiminta on kielletty.

Mutta kaikki toiminta ei ole kaupallista. Teknologiaa voidaan käyttää myös kiusanteon välineenä. Teknologisesti on mahdollista, että kuka tahansa ulkopuolinen voisi käyttää vaikkapa äänikirjoja ja elokuvien ääniraitoja kloonatakseen jonkun ihmisen äänen, ja käyttää sitä haluamallaan tavalla.

Entä jos joku tekisi näyttelijästä syväväärennöksen, jonka sisältö halventaisi esiintyjää? Silloin kyseeseen voisi tulla kunnianloukkausta koskeva lainsäädäntö.

Tietosuojavaltuutettu on linjannut, että tallennettu ääni on henkilötieto, jos ihminen on siitä tunnistettavissa. Näyttelijöiden kohdalla voisi ajatella, että he ovat tunnistettavissa usein. Asiassa tarvitaan uutta lakitekstiä ja lain tulkintaa.

On selvää, ettei näyttelijöiden tule myydä jatkossakaan ääntään kertakorvauksella, vaan jokainen käyttö pitäisi sopia projektikohtaisesti. Äänen myyminen kertakorvauksella tarkoittaisi todennäköisesti tulevien töiden menettämistä. Oma uniikki ominaisuus olisi muiden käytössä, eikä omalle ammattitaidolle olisi enää ostajia.

Kuten aina, kollektiiviselle sopimiselle reiluista työehdoista on huutava tarve. Lisäksi ongelma on saatava luovien tekijöiden tietoon ennen ongelmien yleistymistä.

Yhdysvalloissa asiaan on jo havahduttu.

Kloonattu ääni Suomen ulkopuolella

Englanninkielisellä kielialueella äänen kloonaaminen on jo tuttu aihe, joten otan yhteyttä Yhdysvaltoihin sisarjärjestöömme SAG-AFTRA:an. Sopimusasioista vastaava päällikkö Ray Rodriguez kertoo, että organisaatio on jo jonkin aikaa käynyt keskusteluja tekoäly-yrityksien kanssa.

SAG-AFTRA:lla on olemassa jo malli siitä, millaisia minimivaatimuksia esiintyjien sopimuksissa tulisi olla, jos esiintyjän ääni kloonataan. Rodriguez antaa minulle listan kohdista, joita sopimuksesta tulisi ehdottomasti löytyä:

Tietoturvallinen säilytystila esiintyjän äänelle, siitä jalostetuille tuotteille ja sisällöille.

Mahdollisuus antaa tai olla antamatta suostumus äänen käytölle.

Selvät rajoitukset sisällön käytölle.

Asianmukainen korvaus sisällön käytöstä.

Kaikki yksinomaisuus selvästi kirjattuna ja reilusti kompensoituna.

Mahdollisuus lopettaa äänen jatkuva käyttö ja tuotanto.

Suomessa vastaavia sopimuksia ei ole vielä tarvinnut tehdä, mutta kohdat on hyvä painaa mieleen tulevaa ajatellen.

Lisäksi SAG-AFTRA työskentelee tällä hetkellä sen eteen, että digitaalinen manipulaatio saadaan osaksi heidän työehtosopimuksiaan. Myös SAG-AFTRA on huolissaan siitä, että digitaalisella manipulaatiolla voidaan uskotella yleisölle esiintyjien tehneen ja sanoneen asioita, joita he eivät ole tosiasiassa tehneet tai sanoneet.

Eettisesti vaikea aihe

Synteettiseen puheeseen ja tekoälyyn liittyvä kehitys on ollut viime vuosina todella nopeaa. Teknologiseen kehitykseen liittyvät ongelmat eivät kuitenkaan ratkea insinöörien työpöydällä. Avuksi tarvitaan esimerkiksi humanisteja, joilla on vahva ymmärrys etiikasta ja ihmisyydestä.

Tekoälyn kehittämisen yhteydessä pohditaan paljon läpinäkyvyyttä. Taide-elämyksien kohdalla voidaan esimerkiksi ajatella, että yleisöllä tulisi olla oikeus tietää, onko heidän nauttimansa kulttuurielämys aito vai tekoälyllä luotu.

Sama pätee myös arkisemmissa käyttöyhteyksissä. Kun soittaa viranomaisen puhelinpalveluun, haluaa tietää, puhuuko linjan toisessa päässä ihminen vai kone. Ihmiselle tulee hölmö ja huijattu olo, jos hän alkaa vahingossa kertoa asioitaan automaatille, jota luulee terveyskeskuksen sairaanhoitajaksi. EU:n valmisteilla oleva sääntelyehdotus, AI Act nostaakin esille sen, että tekoälyn käytön pitää olla läpinäkyvää.

Toinen iso kysymys liittyy yksityisyyteen ja omaan identiteettiin.

Luottamus kuvien ja puheen todistusvoimaan voi vähentyä, kun syväväärennökset (deepfake) yleistyvät.

”Rikoksiakin on tehty deepfake-puheäänen välityksellä”, Bäckström kertoo.

Jos puoliso tai pomo pyytää puhelimessa tekemään kiireisesti tilisiirron, ei ensimmäisenä välttämättä tulee mieleen, että linjan päässä ei olekaan oikea ihminen. Puheella on helppoa vaikuttaa ihmisiin monessa mielessä.

”Puhe menee suoraan intuition ja emootion puolelle ilman, että sitä huomaa”, Bäckström sanoo.

Tuttuuden lisäksi meihin vaikuttavat myös käsitykset siitä, mitä pidämme uskottavana ja vakuuttavana. Äänien kloonaamiseen ja syntetisoimiseen liittyy myös kysymyksiä representaatiosta.

”Kenen ääntä me syntetisoidaan? Onko se jälleen kerran eurooppalainen, keski-ikäinen ja valkoinen puhetapa, jota aletaan pitää puheen stereotyyppinä?”, Rusanen spekuloi.

Synteettisen puheen ohessa kulkee myös kuvia ja videota koskeva teknologia. Teknologian avulla voidaan tehdä videoita, joilla muita ihmisiä voidaan asettaa kyseenalaiseen valoon. Laajemmassa mittakaavassa syväväärennöksillä voidaan tehdä esimerkiksi propagandaa ja disinformaatiota.

Asialla on myös sukupuolittunut ulottuvuus: etenkin naisiin kohdistunut asiaton kohtelu voi lisääntyä, kun kuka tahansa voi tehdä synteettistä pornoa. Väärinkäytön seuraukset yhteiskunnassa ja ihmisten yksityiselämässä voivat olla arvaamattomia ja vahingollisia.

Rusasen mukaan tekoäly on erikoinen aihe, koska sen käyttöön toivotaan paljon lainsäädäntöä. Tekoäly on kuitenkin vain väline, jolla on aina käyttäjä.

”Lopulta työkalun loppukäyttäjällä on vastuu omista tekemisistä: millaisia sopimuksia kustantajat tekevät, tai millaista työtä ja sopimuksia näyttelijät itse tekevät”, Rusanen sanoo.

Puhumattakaan siitä rikosoikeudellisesta vastuusta.

Onko synteettisessä äänessä mitään hyvää?

Synteettiseen ääneen ja äänen kloonaamiseen liittyy monia riskejä. Miksi synteettistä ääntä sitten pitäisi kehittää näistä ongelmista huolimatta?

Tärkein syy on saavutettavuus. Saavutettavuudella tarkoitetaan sitä, että esimerkiksi palvelut ja tiedot ovat helposti lähestyttäviä kaikenlaisille ihmisryhmille. Saavutettavuuden yhteydessä puhutaan usein esteettömyydestä, jolla viitataan taas useimmiten fyysiseen toimintaympäristöön.

Synteettinen ääni on jo pitkään ollut näkövammaisten ihmisten tärkeä apuväline. Mikäli ihminen ei itse pysty jonkin vamman takia tuottamaan puhetta, voi synteettinen ääni tarjota hänelle uuden mahdollisuuden puhua.

Ilman puhesynteesiä olisi maailma jäänyt ilman esimerkiksi fyysikko ja kosmologi Stephen Hawkingin luentoja. Nykyteknologian ansiosta apuvälineet voidaan räätälöidä niiden käyttäjille sopiviksi.

”Vielä vähän aikaa sitten oli sellainen tilanne, että puhekyvytön pieni tyttö joutui puhumaan aikuisen miehen äänellä. Yritä siinä sitten ilmaista tunteitasi”, Martti Vainio kertoo.

Moni varmasti antaisi mielellään äänensä tällaiseen käyttöön.

Bäckströmillä on Aalto-yliopistolla suunnittelussa projekti, jossa synteettistä ääntä kehitetään sukupuolivähemmistöjen näkökulmasta. Teknologia voisi auttaa vähemmistöön kuuluvia ihmisiä puhumaan äänellä, joka vastaa heidän omaa sukupuolikokemustaan.

”Lähdetään siitä, että se teknologia on hyvä asia, joka voi avata suuria juttuja, eikä vaan siitä, että se on feikkiä”, Bäckström kertoo.

Voisiko synteettiseen ääneen liittyvä teknologia olla myönteinen asia myös näyttelijälle?

Bäckström keksii esimerkin: Näyttelijä voisi uuden teknologian avulla toimia ison, kansainvälisen brändin äänenä monikielisesti. Vaikka näyttelijä ei puhuisi muuta kuin omaa äidinkieltään, voi tekoälyn avulla saada hänen äänensä kertomaan samat asiat sadalla eri kielellä eri kohdeyleisöille.

Ja kenties luvassa on myös uusia taiteen tekemisen tapoja ja taidemuotoja, joista emme edes tiedä mitään. Vainion mukaan puhesynteesi voi aiheuttaa äänitöille samanlaisia muutoksia, kuin mitä valokuvataide aiheutti aikanaan maalaustaiteessa. Samoin ajattelee Bäckström.

”Epäilen, että tämä on samantyyppinen uuden teknologian saapuminen, aivan kuin television saapuminen, jolloin varmaan mietittiin, ettei teatteria tarvita enää. Ja eihän niin käynyt. Televisiosta myös syntyi uusia taidemuotoja”, Bäckström sanoo.

Toisaalta kyynisesti voi ajatella, että teatterien suosio ei palannut koskaan samalle tasolle, kun yleisö pirstoutui eri esitystapojen äärelle. Sama on tapahtunut nk. lineaariselle televisiolle internetin myötä.

Vainio ja Bäckström näkevät mahdolliseksi myös sen, että äänisynteesi voisi toimia jollakin tavalla näyttelijän työn tukena. Puheesta voisi esimerkiksi luoda erilaisia variaatioita, josta voisi valita omaan käyttötarkoitukseen sopivan version.

Bäckström ajattelee, että näyttelijöillä on nyt mahdollisuus vaikuttaa siihen, mitä kaikkea uudella teknologialla voi tehdä.

”Mun neuvo näyttelijöille on lähteä mahdollisuuksien kautta liikkeelle. Tulee uusia mahdollisuuksia ja uusia tapoja ilmaista asioita. Teknologia ei ole vielä asettunut paikalleen, joten vielä ei ole päästy innovoimaan sitä taiteellista ilmaisua uusilla työkaluilla. Vielä ei oikein tiedetä, mitkä ovat ne mahdollisuudet”, Bäckström sanoo.

Yksi mahdollisuus olisi esimerkiksi tehdä taidetta, jossa kaksi ihmistä fuusioituu, kun toinen henkilö tuo teokseen fyysisen ilmaisun ja toinen puheen. Bäckström kehottaa näyttelijöitä tekemään erilaisia projekteja ja kokeiluja uudella teknologialla. On hyvä olla tietoinen siitä, mitä äänellä voi tehdä ja pitää kiinni omista oikeuksista.

”Saataisiin sitä kautta tilanne, jossa ne teknologiat on hyödyksi näyttelijöille, eikä lähdetä ryöstämään näyttelijöitä”, Bäckström sanoo.

Kun tekoälyn käyttö yleistyy, siitä saattaa olla etua joillekin näyttelijöille. Teknologia mahdollistaa sen, että näyttelijä voi monistaa itsensä olemaan kahdessa paikassa samaan aikaan. Joku näyttelijä voi esimerkiksi olla samaan aikaan teatterin lavalla, kun äänisyntetisaattori lukee hänen äänellään äänikirjan. Suosituista tekijöistä voi tulla entistä näkyvämpiä.

Toistaiseksi synteettinen ääni ei ole vienyt Suomessa kenenkään töitä, eikä sen käyttö ole vakiintunutta. Teknologia ottaa kuitenkin koko ajan valtavia harppauksia, eikä kehityksen tahtia ole mahdollista täysin ennustaa.

Näyttelijäliitto ja sen sisarjärjestöt seuraavat tilannetta, ja pohtivat millä tavoin näyttelijöiden edut voidaan turvata muuttuvassa maailmassa.

►Lue koko Ämyri-Taltratten 1/2023!