Yoot Saito är en person som gör en poäng av att göra saker annorlunda. Vare sig det handlar om flipperspelet med tvärtaktik i Odama eller det äckliga men älskvärda röststyrda virtuella husdjuret i Seaman, har Saitos avsikt varit att överraska spelarna med nya typer av interaktioner.
Att ägna sin karriär åt genrebrytande spel är sannerligen inte den enkla vägen. I sommar är det 20 år sedan det japanska originalspelet Seaman släpptes på Segas omtalade Dreamcast. Spelet innehöll en mikrofonperiferi genom vilken spelarna interagerade med en märklig och ofta grinig havsvarelse som hade en mans ansikte och röst.
Trots sin konstighet och de marknadsföringsutmaningar som detta innebar blev Seaman en storsäljare och sålde över en miljon exemplar av Dreamcast- och PlayStation 2-versionerna.
Två decennier efter att spelet släpptes svarar Saito på våra frågor om Seaman, minns framgångarna och svårigheterna med att göra ett så märkligt spel och förklarar sin benägenhet att luta sig åt ett annat håll än andra speldesigners.
Min kreativa process för nya spel som jag brinner för att skapa är ganska enkel till sin natur. Jag använder ofta föremål/ting/platser som de flesta traditionella spelskapare inte skulle överväga att använda. I Tower ser du en sida av en skyskrapa från ovan och observerar människorna i den nästan som om du tittar på en myrstack. I Seaman var grundidén att tänk om mitt husdjur hemma kunde prata. Vad skulle de säga? I Odama ville jag se hur det skulle kännas att som general leda en styrka med tusentals soldater. Så i grund och botten ville jag att folk skulle känna hur det skulle kännas att känna något som de normalt sett inte kan uppleva med hjälp av spel som en konstform för att förmedla den känslan.
Yoot Saito
Och jag tycker inte heller om att måla inom linjerna för en redan existerande genre som rollspel, skattjakt, skytte osv. Jag vill göra min egen grej. Det är en otroligt motiverande del av att göra spel för mig. Det tar dock mycket energi att skapa och presentera något ”nytt” för människor. Det tar alltid längre tid än man räknar med att göra något riktigt originellt och det finns många fallgropar på vägen som man aldrig räknar med. Och när man väl befinner sig i det okända finns det ingen universallösning på den typen av problem. Det krävs mycket tid och energi från en producent för att lösa dessa problem och risken är ganska stor, men det är det som gör det värt att göra.
Kände du dig vid något tillfälle kreativt vilse eller fast under utvecklingen av Seaman? Om så är fallet, vad var det du fastnade för?
Vid skapandet av Seaman fanns det en kreativ vägg som jag stötte på och som verkligen står kvar i mitt minne. Precis innan vi slutförde spelet gjorde vi ett testspel med några slumpmässiga personer och det slutade med att alla sa saker som jag aldrig hade trott att de skulle säga i den specifika situationen eller delen av samtalet. Det var precis när vi var på väg att bli Seaman publicitetscykel. Segas marknadsföringsrepresentant höll ett evenemang på ett akvarium i Tokyo och bad folk att försöka prata med fiskarna i akvariet. Det var experimentet.
De personer som deltog vände sig mot mikrofonen men visste inte vad de skulle säga så de gjorde det som folk alltid gör i sådana situationer. De babblade på och på i en mycket lång mening. Jag byggde inte ut Seaman för att förstå långa konversationer så han kunde inte förstå vad som sades. Så han återgick till den vanliga ordpatrullen ”kan du säga det igen” eller ”Huh, sa du något?” och ställde i själva verket en fråga till människorna. Efter flera gånger då Seaman inte förstod samtalet och bad deltagarna att upprepa sig började de bli upprörda eller bara inte gillade det och gick hem. De saker som folk sa skilde sig så mycket från vad jag hade tänkt att Seaman skulle göra att teamet blev helt förvirrat.
De personer som besökte akvariet visste inte vad de skulle säga i mikrofonen, så de började säga saker som ”varför är den här jäkla fisken överhuvudtaget här?” och skapade i slutändan överdrivet långa meningar som Seaman inte kunde förstå. Eftersom vi inte hade räknat med det, fastnade Seaman i en ”Kan du säga det igen?”-slinga.
För att göra saken ännu värre skulle spelet släppas kort därefter. Efter att ha funderat på en mängd olika lösningar bestämde jag mig för att lösa problemet genom mänskligt beteende och förståelse snarare än genom logiska konstruktioner i ett datorprogram. Så i princip skulle Seaman säga saker som ”Du pratar för länge, jag förstår inte” och ”Om du inte formulerar dig enklare/kortare vill jag inte prata med dig” och klaga på slutanvändaren. Om de inte följde dessa instruktioner skulle Seaman simma iväg till baksidan av akvariet.
Denna idé slutade med att bli en av de saker som folk verkligen gillade med spelet. Så snart slutanvändarna insåg att de inte kunde använda långa meningar började de prata med Seaman som om han var en bebis och sa enkla och lättförståeliga fraser som ”hej” och ”förlåt”. Ännu bättre var att de talade långsamt och tydligt. Detta ledde till en ny spelstil inom Sega och hjälpte oss att undvika bilden av att spel med röstigenkänning var dåliga och bara inte fungerade. Å andra sidan blev Seaman snabbt känd som en varelse som var ganska självisk och svår att få kontakt med. (skrattar)
Seaman själv
Hur var det att arbeta med Dreamcast på 90-talet?
Jag tror att man kan sammanfatta allting med Dreamcast när den debuterade på 90-talet som en otroligt unik upplevelse. Sega jagade sina rivaler Sony och Nintendo så gott de kunde. Men folk på Sega älskade att göra ”roliga” och ”intressanta” saker. Så istället för att spela säkert och vara konservativa gick de till attack och gjorde så många kreativa och galna saker som möjligt. Det är den sortens inställning som gjorde att ett så unikt och ovanligt spel som Seaman kunde födas. De ställde sig bakom det och drev hårt för det på reklamfronten, vilket gjorde att det kunde bli en riktig succé.
Så för mig är Dreamcast en fantastisk spelkonsol med många unika funktioner, men mer än så påminner den mig om de dagar då Sega gjorde så många kreativa och underbara saker.
Varför bestämde du dig för att Seaman skulle vara så trubbig och ofta oförskämd?
Det finns två grundläggande anledningar till varför Seaman är en så oförskämd karaktär. Det första är att jag var trött på gulliga karaktärer och ville göra något riktigt annorlunda. Den andra orsaken är den som jag tidigare nämnde, den typen av personlighet bidrog till att öka chanserna för Seaman att förstå vad slutanvändaren sa.
Hur kändes det för dig när folk under utvecklingen sa att konceptet var ”äckligt” eller ”läskigt”?
Jag ville att Seaman skulle vara konstig och äcklig, så jag hade inga problem med att folk sa det. Det var en avsikt. För att Seaman skulle kännas originell och ha verkligt unika egenskaper finns det saker som Seaman var tvungen att göra för att verkligen sticka ut:
- Inte gulligt
- Se in i slutanvändarnas värld genom TV:n
- Fokusera på den riktiga världen i stället för på någon fantasivärld
Jag kände att om jag kunde uppnå de här tre punkterna på ett bra sätt, så skulle jag ha något som inget annat spel hade och folk att presentera en verkligt unik upplevelse. Det var målet och vad jag verkligen ville göra som skapare. Det är fortfarande den inre elden som driver mig att göra unika och originella saker.
Menar du att de stora spelföretagen har blivit för ”säkra” sedan 1999, och tror du att ett stort förlag som Sega skulle ge ut ett spel som Seaman här, 20 år senare?
På senare tid har spelbranschen, särskilt konsumentspelsbranschen, inneburit projekt som kostar mycket stora summor kapital, och därför har man övergått till en affärsmodell som Hollywoodfilmen, där man måste satsa på säkra saker, till exempel uppföljare, för att överleva. Det är förmodligen det enda sättet att kunna återvinna en sådan enorm mängd av up-front dev risk. Jag hoppas att motsvarigheten till vad ”The Blair Witch project” gjorde för filmer kommer att hända inom spel.
Jag vet att Sega är ett företag fullt av människor som gillar att göra intressanta saker. Och det finns många nya människor som fortsätter att föra den andan vidare. Så om en annan speldesign som Seaman dyker upp är jag säker på att Sega skulle vara den typ av företag som gör sitt bästa för att göra det till en succé.
Hur stor var den extra pressen på dig för att göra Seaman till en succé, eftersom Sega konkurrerade med PlayStation? Hur var det?
Nej, jag tror inte att Sega kände någon press på grund av att PlayStation hade tagit en tidig ledning? Eller åtminstone på kreatörssidan i studion var vi bara fokuserade på hur vi skulle göra de mest kreativa sakerna med den nya hårdvaran. Naturligtvis är jag säker på att säljteamet och den övre ledningen kände helt annorlunda och att det faktiskt fanns en hel del press, men den kreativa sidan var bara som ett gäng barn som var glada över att få leka med sin nyaste leksak.
Vad var din process för att utforma samtal i Seaman? Vilka verktyg använde du och vilka var dina vägledande principer när du skrev manuset?
Hela samtalsstrukturen och designen hanterades bara av mig. Det beror på att det mesta av konversationen bygger på mina dagliga observationer av livet. Och det är faktiskt min röst i den japanska versionen som sjöman. Så det var lätt för mig att vara ”in-character” när jag spelade som Seaman.
Om vi hade låtit flera personer bygga upp Seamans karaktär, konversation och tankar skulle Seaman ha varit överallt. Så det betyder i princip att Seaman är jag. Och även om det är en ganska enkel karaktärsdesign tror jag att den enkelheten gjorde att vi kunde hålla vår deadline även när det blev svårt. När vi byggde upp manuset fanns det vissa regler. Om Seaman var för hård med de här orden skulle det ha varit förolämpande eller gjort slutanvändaren besviken. Så vi fick Seaman att säga saker som en sur men älskvärd gammal dam skulle kunna säga. Det må vara hårda ord, men man kan se att det finns en värme och kärlek bakom dem till den grad att man så småningom uppskattar den tonaliteten.
När det lokaliserades av Sega America beskrev jag bara konceptet på hög nivå för Sega of America och de körde med det. Jag har ingen aning om huruvida dessa ”regler” förmedlas i den engelska versionen eller inte.
Med all röstteknik som finns tillgänglig idag, varför är inte röstcentrerade spel mer populära (eller kanske frågan är, varför gör inte fler utvecklare dem?
Jag tycker att det här är en riktigt bra fråga, så låt mig ta mig friheten att gå djupt ner i ett kaninhål för att besvara den. I spel som involverar röstigenkänning finns det två huvuddelar. Den ena är riktning och den andra är navigering.
Riktning används som en form av att leda en spelare längs den scenarioväg du har satt upp och alla typer av ord kan vara en typ av riktningsanordning. Navigering å andra sidan sker endast när spelaren anger ett förutbestämt kommando eller en ingång som till exempel ”vänster” eller ”framåt”. Seaman är alltså ett spel som bygger på navigering. Så i princip så ”hoppar” du till nästa del av konversationen eller dialogen när spelaren väl matar in det nödvändiga kommandot eller inmatningen som skaparen har bestämt i förväg.
Saitos Seaman-koncept
Det är en ganska enkel design. Men för att skapa känslan av verklighet behövde vi skapa 40 000 olika typer av sjömän. Seaman förstår inte riktigt vad varje spelare säger. Det är bara det att vi har förberett så många olika svar för de många olika möjliga röstsvar/konversationer som en spelare kan säga och sedan hoppar vi till den naturligt korrekta fortsättningen av dialogen baserat på det systemet som gör att det verkar som om Seaman förstår.
Egentligen är spel lite som språk. I kortspel har man begränsade kort som man kan spela som svar på en annan spelare. Mänsklig kommunikation har dock inte samma begränsningar som ett kortspel eller ett rollspel. Kommunikationen kan vara ganska expansiv. Att försöka skapa ett kortspel med så många möjligheter skulle vara extremt utmanande för en människa … nästan omöjligt egentligen. Så vi har inget annat val än att vänta på att AI ska hjälpa till att överbrygga denna omöjliga klyfta.
Men även om AI-baserad kommunikation blir bättre och bättre tvivlar jag på att det är en bra grund för ett spel. I grund och botten är spel ganska enkla och raka vägen. Ju mer komplicerade de blir, desto svårare är det att skapa ordentliga ”win-lose-betingelser”. Det är den centrala anledningen till att den typen av spel är utmanande. Förresten håller jag faktiskt på att skapa en AI-motor baserad på japanskt språk och japanska ord.
Vilken typ av teknik från 2019 skulle du använda för att skapa en ny Seaman-stil idag?
För att skapa en ny Seaman i just denna tid finns det en absolut nödvändig teknik som vi behöver. Det är en motor som kan fortsätta en konversation på ett organiskt sätt utan att behöva ett manus. Ni skulle naturligtvis kalla detta för AI.
Den ursprungliga Seaman krävde att allt manus och all konversation spelades in i förväg som en röstfil av en röstskådespelare. Och när man väl har hört all röst finns det inget kvar att göra. I princip har spelet vad man skulle kunna kalla ett ”slut”. Men när man tänker på vad man redan kan göra nu när alla bär runt på en mobiltelefon kan man förvänta sig att Seaman ska kunna observera och kommentera användarens aktuella aktivitet och ständigt kommentera den … nästan i all oändlighet. Det är därför man i dagsläget behöver en AI-motor för att kunna åstadkomma den typen av utformning. Det är också därför jag gick ut för att samla kapital för att börja skapa en sådan motor och fortsätta att arbeta på den.
Så mitt fokus och intresse är inte längre spel utan snarare ett halvpermanent sätt att fortsätta tala japanska eller snarare en motor som kan bryta isär det otroligt komplicerade och nyanserade språket som är japanska och sedan åter kombinera det till meningsfulla konversationssvar. Om jag kan uppnå det målet kan jag tänka mig att andra komplicerade språk också kan översättas till en AI-motor.
Dreamcasts mikrofonperiferi
Vad lärde du dig av att se hur människor interagerade med Seaman?
Ja, jag lärde mig mycket viktiga saker. Du fick insikt om människor genom ett urval på över en miljon och såg hur samtalen utvecklades. Det har varit en mycket viktig lärdom för mig. En av de största upptäckterna var att när alla dessa människor riktade sig mot mikrofonen och gjorde sitt bästa för att hitta en konversationsförbindelse med Seaman, talade de flesta av dem inte ett grammatiskt korrekt språk. Det fick mig att känna att om man förlitar sig på läroboksregler för att skapa AI för röstigenkänning kommer man aldrig att kunna fånga det organiska flödet i verklig dialog, och utan det kommer man aldrig att kunna skapa en ordentlig motor som kan åstadkomma det.
Och det var där jag gjorde en annan stor upptäckt – melodi. Att kommunikation inte bara handlar om ord … melodin spelar en viktig roll och att den potentiellt är ännu viktigare än att följa exakt ordföljd och grammatisk struktur. Och det är faktiskt så det redan är på japanska. Ordföljden är mycket lösryckt. Japanska är som Yoda som talar (skrattar). Så jag insåg att skapa en motor som kan känna igen melodier skulle vara ett effektivare sätt att lösa AI-röstigenkänningsproblemet än att försöka hålla sig till meningsstrukturen. Så i mitt ”Seaman AI Research Lab” håller jag på att bygga upp en motor för språkigenkänning baserad på vad jag kallar ”melodispråk”.
Vad är ditt bästa minne av utvecklingen av Seaman?
När den engelska versionen av Seaman släpptes var jag mycket nyfiken på hur den skulle tas emot. När Leonard Nimoy presenterar sig själv i spelet med sitt riktiga namn var det verkligen fantastiskt att se alla slutanvändare le, eftersom vi uppnådde samma sak i den japanska versionen. Jag undrar varför det är så? Kanske för att det var lite för mycket att låta en skådespelare presentera en annan karaktär men säga sitt riktiga namn och att det var något man förväntar sig av ett drama och inte av ett spel. Det var precis som en av de egenskaper jag ville ha – att Seaman skulle tala till slutanvändaren inifrån TV:n och titta ut i världen. Så den atypiska, konstiga och grova Seaman slutade med att bryta mot alla de rätta reglerna och troperna på både engelska och japanska!