Tillbaka
LINKÖPINGS UNIVERSITET Informations- och medievetenskap 1 Essä Hösttermin 1997 Fredrik Andersson
Du har ingen anledning att använda din tid på ett så intetsägande och meningslöst ämne.
Montaigne
| Utmärkande för människan är
hennes förmåga till tal. Härmed inte sagt att andra arter i djurriket är utan tal, men
det är inget tecken på större våghalsighet att säga att människans språk och tal
är särdeles utvecklat och en stor grund just för hennes utveckling. Just språkets
egenskaper och egenheter har genom hela det kända skrivandets historia fascinerat den
tänkande människan. Filosofer har särskilt visat intresse för detta område genom
historien och studiet av språk och tal har under 1900-talet skapat egna discipliner. Jag
ämnar inte redogöra för det vetenskapliga språkstudiets historia utan vill göra
läsaren uppmärksam på en alltmer växande arena för det mänskliga språket och
framförallt det mänskliga talet. Jag ämnar för läsaren uttrycka funderingar kring
kommunikation mellan människa och dator; kort uttryckt hur vi "talar" med
datorer. Förenklat kan jag beskriva en modell; (egen konstruktion) där syftet med modellen är att visa led när användare vill åt information genom ett verktyg (dator). Modellen är förenklad och visar endast fysisk bild. "Språk" är huvudingrediens i modellen, främst i ledet mellan användare och primärdator. "Information" som det framställs här är inte definierat och är för essän ej heller nödvändigt. Vad jag vill studera är "sättet att prata" med datorn när vi önskar information. Det sätt datorer pratar med varandra kan beskrivas utifrån vissa språk; TCP/IP, DECnet, OSI-protokoll. Ledet mellan användare och dator å andra sidan har traditionellt skett via tangentbordskommandon, men har sedemera utvecklats genom exempelvis pekdon, grafiskt användarsnitt och röstkommandon. Min essä är tänkt att inrikta sig främst mot det sista, röstkommandon, i.e att verkligen "prata" med datorn. Jag kommer i det följande resonera kring vad tal har inneburit och kommer att innebära för kommunikation mellan användare och dator. Kommer vi att kunna föra dialog med datorn, eller är vi fast i kommandomodell? Ämnet och de områden essän är tänkt att beröra är för mig ganska okända. Jag vill ändock genom min initiella ämnesblindhet ge en både givande och roande diskussion kring mänksligt tal och datorer. Det krävs inga större efterforskningar att se att ämnet jag behandlar berör och överlappar stora forskningområden och vetenskapsdiscipliner. Informationsteori, akustik, kognitionsvetenskap, lingvistik, datavetenskaper, datalingvistik, fonetik för att nämna några. Datalingvistik är en disciplin mellan lingvistik och datavetenskap som behandlar tillämpningar och teori kring dator och mänskligt språk. Datalingvistik faller närmast under kognitionsforskning och överlappar även forskning kring AI. Tillämpningen ligger främst i utvecklande av mjukvaruprogram i syfte att förbättra människa-maskin kommunikation. Material att finna kringa mitt ämne är därav väldigt stort och djupt vilket är en tillgång men som även kan vara till svårighet. Jag önskar dock att jag kan öka min egen och läsarens inblick i detta fascinerande område; kommunikationen mellan människa och maskin. Tyngdpunkter kommer ligga på de problem som talad kommunikation innefattar. Detta är en essä och kommer därmed att vara uppbyggd så. En dator är framför allt ett verktyg, men det är oklart vad som utgör verktygets gränser och karaktäristik.(2) Att använda tal som gränsnitt mot dator börjar alltmer bli en nödvändighet.(7) Allt större och effektivare nätverk som sammankopplar allt större mängd människor med större mängd information och data, kommer klart att påverka hur människor lever och arbetar. Om denna utveckling skall komma till gagn för merparten av oss så krävs det att förmågan att använda datasystemen inte inskränker utnyttjandet av detsamma. En person måste känna att hon lätt och utan större systemoperativa kunskaper kan använda en dator för att komma åt de möjligheter och kommunikationsvägar detta medium står för. Forna dagars analfabetism har i dagens samhälle förvandlats till dataanalfabetism, computer-illiteracy. I korthet är det detta som användarvänlighet och gränssnitt handlar om; att på bästa sätt göra mötet mellan människa och maskin så naturligt och likt möte med annan människa som möjligt. Vad vore då inte naturligare än att kunna tala till datorn med sitt eget språk. Det väsentliga för informationsvetenskapernas intresse för ett mer naturligt gränssnitt är information retrieval systems. Möjligheten till återvinning av digitaliserade data är av högsta prioritet i samhällen där en dialog mellan de styrande (valda) och dess uppdragsgivare (väljare) måste kunna ske öppet och fritt. Det finns en stark koppling mellan datorns utveckling och utnyttjande och de demokratiska värden och spelregler ett samhälle underhåller. Det ligger i demokratins intresse att samhällets folk är just computer-literate, och detta i sig kräver att gränssnittet mellan människa och dator utformas enkelt, förståeligt och optimerat för användarens krav. De mänskliga sinnena, våra perceptila, tacitila sensorer, är vad vi använder för kommunikation och informationshämtning. De maskiner vi idag interagerar med kommer kunna tjäna våra önskningar och syften allt bättre om sättet att interagera med maskinerna liknar de sätt vi kommunicerar (ej i teknisk betydelse här) med en annan människa.(7) När en bil får motorstopp eller en dator hänger upp sig är vi vanliga användare benägna att skälla och svära på bilen eller datorn. Vi vet naturligtvis bättre men har ändå fallenhet att se föremål som om de var levande. Den här egenheten går att utnyttja genom att skapa system som bättre agerar som om de vore levande. Meningen är att skapa datorer och datastyrda system som reagerar och agerar på ett mer naturligt sätt. Forskningen kring människa-maskin-kommunikation centreras kring tolkning och integration av tal, språk och andra kommunikativa signaler för bättre människa-maskin interaktion och datamedierad kommunikation mellan människor.(9) If you give £1 to young John and ask him to go and buy a loaf of bread, he will go to the shop, buy the loaf and bring it back to you with the change. If you could ask a computer to do the same thing, it would go to the shop, buy the loaf and wait there.(6) Vad detta citat understryker är betydelsen av kontext som vi människor oftast har en förståelse av i konversation. Med kontext avser jag här en pragmatisk tolkning, det är inte givande att dyka in i en definitionsargumentation av begreppets mening. Jag låter läsaren förstå att kontext är att se som omfattande relevanta drag hos den situation som den talande eller skrivande befinner sig i. I ett vidare perspektiv och för informationsvetenskaperna intressant drag är att kontexten tjänar att bestämma den mening ett framställt yttrande har.(3) Vårt sätt att prata bygger mycket på antagande om att kontexten är självklar och inte behöver uttryckas. Det så uppmärksammade dilemmat med databaser och ett nytt årtusende visar detta. När vi vanligtvis refererar till år 1997 så räcker det oftast med att säga "97", och det framgår av konversationens kontext vilket år det gäller. Om vi pratar om något som hänt oss själva är det ytterst troligt att "97" avser 1997, pratar vi däremot om Englands expansionplaner i Afrika så handlar "97" troligtvis om 1897. För datorer är inte detta självklart. Den kontext datorer och databaser är uppbyggda kring är dess konstruktion. Datasystem har varit konstruerade att se datum som numeriskt värde bestående av sex siffror. Dessa siffrors värde ökar med varje dag, 980105 är större än 980104 osv. Det här systemets logik misslyckas när 991231 övergår till 000101 (1januari år 2000), dess värde är lägre än det förra. Systemet är inte byggt att förstå att exempel 991231 har 19 som första del, lika lite som det förstår att 000101 har 20 som första del.(6) Victor Hugo hade rest på semester under utgivningen av sin stora roman Les Misérables. Han skrev då till sin förläggare och frågade hur boken togs emot. Brevet löd: »?«. Förläggarens svar var: »!«. Oavsett detaljerna kan vi vara säkra på att brevväxlingen föregicks av många tankar. Om vi ser till mängden informationsbitar är ? och ! inte mycket, men innebörden av brevväxlingen är desto större. Det avgörande är inte hur många bitar som överfördes utan sammanhanget, kontexten.(4) Hugos frågetecken är resultatet av en bortgallring av information, information som inte behövs i brevväxlingen men som behövs för att brevens tecken skall få någon mening. Både Hugo och förläggaren visste att romanen hade nyss utgivits. Förläggaren visste att Hugo var intresserad av hur romanen togs emot och att Hugo uttryckte sig på ett specifikt sätt. Det han ville fråga (?) var om hur boken tagits emot och förläggarens svar (!) uttrycker att boken tagits emot med stort intresse och uppmärsamhet. Det finns ingen möjlighet att av ett meddelandes informationsinnehåll direkt räkna ut hur mycket bakomliggande information den uttrycker. Nørretranders kallar sådan information för exformation.(4) Den här bakomliggande informationen är oftast självklar för människor som kommunicerar med varandra, men för datorer är inte denna bakomliggande information tillgänglig på liknande sätt. Datorer har inte de perceptiva och kognitiva egenskaper vi har och därav ställs kommunikation mellan människa och dator inför säregna villkor. Vi har vant oss att kommunicera via maskiner och nu alltmer genom datorer. Men sättet att kommunicera med maskinerna har utvecklats. De första sätten var att ge datorn kryptiska kommandon i ett hemligt språk. Ett stavfel eller ett felande tecken gjorde att kommunikationen bröts. De nu vanligaste sätten är pekboksnivå där Macintosh skrivbord och PCns fönster skapar ett gränssnitt som genom pekare, ikoner och bilder utgör kommunikationen. Ett tredje sätt är nu förekommande, vi kommer att kommunicera alltmer med datorer med hjälp av talat språk.(5) Talsystemen som nu finns är dock fortfarande till stor del av militärkommandomodell. Korta korrekta fraser används för att ge direktiv till specifika uppgifter. Men kommandon är ingen särskilt avancerad form av kommunikation, de är för enkelriktade. Information i framtiden kommer till stor del att vara digitaliserad. Hur stor del är omöjligt att säga. Hela bibliotek är idag "överförda och lagrade" som elektroniska data på disketter och CD-skivor. Den elektroniska informationen lagras i databaser, gigantiska banker av data som alltmer blir tillgängliga online. För varje år som går utvecklas allt bättre metoder för att kvantifiera information, och så snart den digitala informationen lagrats kan vem som helst med tillgång till en persondator plocka fram, jämföra och omgestalta den. All slags information kan konverteras och uttryckas i siffror, i binära talsekvenser bestående av 0:or och 1:or där de enskilt kallas för "bit". Den digitala informationen består just i långa strängar av bitar. Vilket tal som helst kan återges binärt, och på samma sätt kan man också återge text. Genom en överenskommelse har man låtit talet 65 representera ett stort A, talet 66 representerar ett versalt B och så vidare. I en dator uttrycks talen i binär kod; 65 (A) blir 01000001 och ett mellanslag representeras av 32, eller 00100000.(1) Det är via ett gränssnitt datorn och användaren kommunicerar. Bill Gates skriver att han i början av 80-talet insåg att framtidens gränssnitt var ett grafiskt. Operativsystemet DOS (textbaserat) som Microsoft utvecklat skulle inte vara tillräckligt i den alltmer hårdnande konkurrensen av mjukvara.14 Forskare vid Xerox Research Center i Palo Alto, Kalifornien, utvecklade nya system för samspelet mellan användare och dator. De visade att det var lättare att instruera en dator genom att kunna peka på objekt på skärmen i form av bilder. Användaren orienterade sig på skärmen med hjälp av en "mus" som visade sig som en pil. Den första populära grafiska plattformen var Apple och dess Macintosh som introducerades på marknaden 1984.(1) När datorernas förmåga att reagera på det talade ordet blir verkligt tillförlitlig kommer det att leda till ännu en stor förändring av operativsystemen. Så småningom kommer vi att kunna tala till våra TV-apparater och persondatorer. Röstidentifikation fungerar redan idag väl om man använder ett begränsat antal i förväg definierade kommandon. Många företag har under senare år arbetat med pennbaserade datorer som förmår läsa en handskriven text. Microsoft är en av dem och Gates uttrycker de svårigheter de haft med sådant gränssnitt och den övertro de haft på iden. Under utvecklingen av pennskriftkommandon hade tekniker på Microsoft omedvetet skrivit tydligare än en normal användare skulle göra, samt att de alla hade varit högerhänta. Systemet i sig var alltså inte användaroptimerat. Det klarade inte den användning den ska klara av.(1) Ett system som har testats i ideala laboratorieförhållanden kommer inte att klara användning utanför testlabbet om det inte är tillräckligt robust. I Microsofts fall var det för "rena" testförhållanden och det är särskilt viktigt inom HMC (Human-Machine Communication) att systemen är konstruerade att de klarar "orena" tester.(8) System som bygger kring tal är särskilt känsliga eftersom ett skrivet eller pekat "Öppna fil A" är lika oavsett användre, medan att uttala kommandot "Öppna fil A" har ett oändligt antal lägen. En viktig tillämpning av talsystem är automatisk översättning. Det finns gott om program som översätter från ett språk till ett annat, men de bygger nästan uteslutande på syntaktisk analys, som ges en symbolisk representation. I många fall räcker tyvärr inte den syntaktiska analysen till, utan ett fungerande översättningsprogram måste också förstå meningen hos den översatta texten och detta kräver en semantisk teori. Men det finns ingen konsensus om vad semantik är eller bör vara.(2) Illusion av att program förstår meningen tydliggörs av ELIZA. Ett konverserande program som konstruerades av Joseph Weizenbaum 1967 som en parodi på en psykoterapeut. Om man ser bakom kulisserna på ELIZA är det uppenbart att programmet inte har någon verklig förståelse av språket. Det fungerade genom att syntaktiskt leta upp vissa språkliga konstruktioner i den inmatade texten och sedan välja, mer eller mindre slumpmässigt, mellan en begränsad mängd av typsvar. Svaren var oftast uppbyggda kring strategier att sätta fraser som "Varför tror du att.." framför en upprepning av vad motparten har sagt.(2) För den intresserade läsaren kan man chatta med ett program konstruerat efter ursprungliga ELIZA på http://www-ai.ijs.si/eliza/eliza.html. Vi använder språket dagligen utan att direkt fundera på vad som får oss att förstå en annan persons tal eller skrift. Om vi lyssnar till två personer som talar ett okänt språk inser vi att förståelsen ligger främst i tolkningen av det talade. Orden i ett språk är symboler för olika saker. För att kuna tolka språket måste vi först känna till vad orden symboliserar, dvs vad de har för betydelse. Men vad innebär en betydelse, vad är det orden representerar? Det är vanligt att indela språket i syntax och semantik, där det förra beskriver de formella regler hur satser kan sammanbindas för att behålla rätt ordning, tempus, syftning etc. Att skapa mjukvaruprogram som förstår ett språks syntax är inte svårt, och för HMC (Human-Machine Communication) ingen större problematik. Problemen ligger mer i betydelsen av orden och meningen av de kombinerade orden. Läran om ord och satser betydelse behandlas inom semantik, men det finns ingen klar avgränsing av semantiken och dess teorier. Dock finns det mer eller mindre vedertagna teorier. En traditionell syn hävdar att ordens betydelse bestäms av en koppling mellan språket och tingen i världen. Ett ord sägs referera till bestämt objekt i verkligheten. Det är inte svårt att se problem med denna uppfattning. Speciellt gäller detta referenser till ord som beskriver annat än fysiska eller identifierbara objekt. Även enkla ord som "stol" är svåra att ge bestämd referens. Stol kan referera till alla stolar och inte bara en bestämd; och hur avgör vi vilken stol som avses? Vidare enligt denna traditionella syn gäller att betydelsen av ett ord finns oberoende av en språkanvändare. Men då uppstår problem med hur språkanvändaren kan veta vilka objekt som hör till ett visst ord. Användning av metaforer och bildspråk ställer även till problem för en traditionell semantisk uppfattning.(2) Hur kan man få en dator att förstå liknande fraser som "En sten föll från mitt bröst" ? Lösningen ligger inte på teknisk utveckling utan på förståelse av det mänskliga språket. Gärdenfors pekar på en mer modern uppfattning, den kognitiva semantiken. Grundtanken men denna teori är att ett ords betydelse "bestäms" av språkanvändaren och inte av en koppling till ett materiellt objekt. Den kognitiva uppfattningen av ett ords betydelse har en koppling till vår perception. När vi har sett något kan vi ofta återskapa vad vi sett men minnets hjälp. Det vi ser lagras alltså på något sätt i vår hjärna och ett centralt problem är att visa hur våra minnen är lagrade, dvs vilken form våra minnen har.(2) En invändning mot den kognitiva semantiken är att ordens betydelse bestäms av varje språkanvändares tankeschema, hur kan vi då veta att de betyder samma sak för oss och hur vet vi när någon använder ett ord fel? Ett sätt att lösa det är att åberopa ett språkspelsperspektiv. När vi lär oss ett språk lär vi oss att anpassa oss till de normer som gäller för ordens betydelse. Om vi inte anpassar oss misslyckas vi i språkspelet och därmed kan vi inte kommunicera med andra användare av språket. Att med en maskin tillhöra samma språkspel är ett område som främst kräver förståelse av det mänskliga språkets funktion. Men vad har språkteorier för betydelse för interaktion mellan människa och dator? En tänkbar tillämpning av den kognitiva semantiken är förbättring av datoriserad översättning där innehållet i en text först översätts till bildscheman för att sedan användas till att skapa en annan text på ett annorlunda språk med ungefär samma betydelse. Vad som skapas är alltså en sorts universell representation av varje ord oavsett språk. Tyngdpunkten för en sådan applikation är inte de syntaktiska mönstren hos språk utan den kognitiva innebörd de bär på, dvs människans tanke.(2) Human-Machine Communication (HMC) som utgör den huvudsakliga mötesplatsen för forskningen kring människa-dator kommunikation inkluderar perception, produktion och kognition. Denna form etablerar en länk mellan människan och den miljö hon befinner sig i. Perception innefatter de fem sinnena där läsande ingår i seende och tal är en del av hörsel. Produktion är resultat av talorganet (talljud) och synorganet, skapandet av bilder, grafik, skrivna tecken. Andra aktioner kan produceras som handrörelser, kroppshållning etc. Kognition är central i kommunikation där den utgör motor och skapare av meddelanden, tolkar meddelanden och tar beslut om uttrycksform, en medvetandeprocess.(8) Olika metoder kan användas som kommunikationsform, talat eller skrivet, bilder, gester och syn. Iden är att ge dessa egenskaper i mänsklig kommunikation till de maskiner som används i interaktion människa-maskin, i vårt fall i mötet mellan människa och dator. Det sätt som en människa kommunicerar med en dator ska var så likt den kommunikation hon skulle använda mot en annan människa. Inom moderna domäner av HMC har datorer redan artificiella perceptiva och produktiva kapaciteter. Gester och rörelsekännedom och interaktion skapas genom exempelvis en VPL-handske eller Datasuit. Datorer kan känna en användares blickpunkter, avkänna en persons identitet och utseende, skapa kinetisk feedback. Allt detta kan sedan inkluderas i en virtuell miljö där användaren genom specifika hjälpmedel orienterar sig i en skapad digital värld. Slutligen måste datorn ha kognitiva kapaciteter i den mening att den förstår identitet av användaren, dennes kommandon och den miljö som dator och människa befinner sig i. Multimodal kommunikation pekar explicit på problemet med co-reference, som när en användare indikerar ett objekt eller del på datadisplay och uttalar ett kommando med hänvisning till det objektet "Lägg den där".(8) Det verkar som kommunikation mellan människor normalt involverar olika uttryckssätt för samma budskap. När tal används tillsammans med gester och synintryck, kan det resultera i en mer naturlig och effektiv kommunikation. Att använda denna "multimodala" funktion i HMC är idag ett viktig fält och skapar både öppningar och svårigheter. Multimodal kommunikation mellan människor omfattar inte bara olika sätt att understryka det talade med gester, uttryck, röstläge, utan även en fysisk bestämning av miljön de talande befinner sig i. Två personer som samtalar med varandra utformar sin konversation utifrån miljöns egenskaper. Röstlägen och hållningar, avstånd och tydlighet är inte samma om det är fler personer i rummet, om de talande sitter bredvid, framför eller bakom varandra. På liknande sätt kan systemet avgöra vilket sätt kommunikationen ska ske, genom röst, skrift eller annan form. Den multimodala aspekten hos kommunikation mellan människor visar att förståelsen och uppmärksamheten av ett meddelande ökar genom vissa fysiska uttryck. Inom HMC används ofta detta genom att syntetiskt, eller inspelat, tal från datorn uttrycks med hjälp av ett visuellt huvud som binkar med ögonen och grymtar innan den (här genusneutralt) ger ett svar.(8) Endast talgränssnitt är därför oftast inte tillräckligt och effektivt, vilket förstås om man tänker sig vanliga situationer framför en dator i en sal där andra användare arbetar samtidigt, eller där flera personer jobbar framför samma dator. I en sådan miljö sker tal som inte är menat som kommandon till datorn utan som konversation till annan person, och hur skall datorn kunna veta vilken talaktion den skall uppmärksamma. En multimodal uppmärksamhet krävs för att systemet skall klara en sådan miljö. Genom att kombinera tal med syn, rörelse etc kan användaren indikera när tal är menat för datorn. Utveckling inom talinteraktion har snabbt stegrat sedan början av 80-talet. Vissa system kunde i början av 80-talet identifiera en liten vokabulär (40-50 ord) uttalade i isolation av en enskild talare. Utvecklingen har sedan dess gått främst längs tre axlar. För det första att få systemet att klara löpande tal och inte enbart isolerade ord, för det andra att gå från talarberoende till talaroberoende, och slutligen till en ökning av vokabulären.(8) Det sista, ökningen av vokabulären, är även beroende av ämnesoberoende om systemet skall klara sponant tal. De flesta applikationer inom HMC är konstruerade kring en specifik uppgift; att ge trafikinformation, tider för tåg, väderinformation etc. Den kropp av vokabulär som systemet känner igen är hämtade ur sammanhang som sammanfaller med uppgiften, men när det gäller spontant tal som vid dialog mellan människor så finns det inte klara sammanhang att hämta vokabulären ifrån. Taligenkänningsprogram och talöversättningsprogram från text har idag nått till en nivå att inom specifika uppgifter klara av löpande tal inom rimliga ramar. Så länge användaren håller sig inom uppgiftens gränser (tex be om väderinformation med relevanta frågor) klarar systemen uppgiften utmärkt och kan svara med syntetisk röst.(7) Taligenkänningssystem är av starkt kommersiellt intresse för applikationer som exempelvis elektronisk penningtransferering, tillgång till privilegerad information, konton och säkerhetssystem. En annan stor utmaning i talsystem är automatisk översättning av talat språk. Exempel på sådana är system introducerade i Japan av ATR för översättning mellan japanska/engelska/tyska och av AT&T Bell Laboratories i Spanien för spanska/engelska.(7) Dialogen i sig mellan människor innehåller en mängd olika element av fraseringar, syftningar, metaforer, avsikter, önskningar, ironi, förkortningar, fonetik, dialekt, presuppositioner etc. Om jag ska lyckas meddela en annan person något, räcker det inte med att jag säger det. Jag måste också veta att hon förstår vad jag yttrar och att hon tror att jag talar sanning och inte driver med henne.(5) Många samtal innehåller förväntningar, i.e att jag säger; "Kan du skicka saltet". Liknande förhållande framkom i inledning här hur en dator skulle agara i att gå och köpa en brödlimpa. Ett korrekt svar på "Kan du skicka saltet" är antingen ett Ja eller ett nej, men jag förväntar mig att om Ja så kommer vederbörande även att skicka saltet. Under en konversation använder man även refererande uttryck, och oftast sker detta genom ett pronomen. "Jag träffade Johan och hans hund igår. Han hade just varit på bio." För oss är det ganska självklart att "han" här refererar till Johan, men för en dator med dagens syntaktiska och semantiska kunskaper i sitt program är detta inte självklart. Det är istället vår kunskap om vår och hundars förmåga som får oss att förstå sammanhanget. Den här förståelsen skapas av föreställningar av den värld vi befinner oss i. Det som i datorvärlden kallas användarmodell är steg mot den gemensamma värld som krävs för att dialog skall kunna uppstå mellan människa och dator. Människan är anpassad att integrera sensoriska intryck och sammanföra olika data genom alla hennes sinnen. Maskiner är sämre utrustade att generera denna multimodala kunskap, men frågan om multimodalt gränssnitt är en allt större utmaning inom datorutvecklingen.(7) För att klara den utmaningen krävs dels teknisk utveckling, ekonomiska förutsättningar men framförallt krävs förståelse av den mänskliga sidan, dvs hur människan använder sin perception, kognition och produktion vid kommunikation. Mänsklig kommunikation är väldigt naurlig och flexibel för att vi tar fördel av att använda flera kommunikativa signaler samtidigt. Ett multimodalt gränssnitt måste därför integrera olika signaler, tal, rörelse och muspekning, för att uppnå de fördelar ett multimodalt kommunikationssätt har. Exempel på multimodal applikation är en texteditor för blinda. Systemet använder ett vanligt keyboard, ett braille-keyboard och ett Speech recognition system som input, en text-till-synteteisk-tal konverterare och en braille-display som output.(8) Ett område som får allt större uppmärksamhet är virtual reality där multimodala aspekter hos datorsystemen måste tas i aktning. Meningen med VR är att skapa en miljö så lik den verkliga att den hjälper en användare att skapa och lösa uppgifter i VR som sedan kan realiseras i verkligheten. En användare i VR kommunicerar oftast med datorn genom fysiska rörelser av hand/huvud, men det är viljan i forskning om VR att användaren ska kunna använda även tal och ljud tillsammans med rörelse.(7) I forskning kring kommunikationen mellan människa och dator är inte datateknik och datakraft den dominerande faktorn, utan utmaningen är att förstå och kvantifiera kvalitativa mänskliga egenskaper.(7) Utan djupgående kunskaper om de mekanismer som ligger bakom hur människan producerar och uppfattar talat språk finns det inga större möjligheter att skapa datorprogram som klarar motsvarande uppgifter.(5) För att ha chans att skapa system som kan föra ett samtal är det inte tekniken som är den felande länken. /Fredrik: fredander@yahoo.com
|
KällorBöcker1. Gates Bill (1996), Vägen till framtiden, Pan Norstedts Förlag AB, Stockholm 2. Gärdenfors Peter (1992), Blotta tanken, Nya Doxa AB, Nora 3. Lübcke Poul (1988), Filosofilexikonet, Andra tryckningen 1993, Forum AB, Stockholm 4. Nørretranders Tor (1996), Märk Världen. En bok om vetenskap och intuition, MånPocket, Nørhaven Rotation, Danmark Tidskrifter5. Gärdenfors Peter (1997), "Att tala med maskinerna", [i] HumanIT. Tidskrift för studier av IT ur ett humanvetenskapligt perspektiv, Nr 3/1997 6. Fenner Robert (1997), "The Year 2000 Bomb: Is it Hype?", [i] Prospect , August/September, s 62-64. Internet7. Cole Ronald A (ed) (1997), Survey of the State of the Art in Human Language Technology, Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology http://www.cse.ogi.edu/CSLU/HLTsurvey/ (980105) 8. Mariani Joseph J, Spoken Language Processing and Multimodal Communication: A View from Europe., LIMSI-CNRS, Orsay, France http://www.ifp.uiuc.edu/nsfhcs/talks/mariani.html (971217) 9. Waibel Alex (1996), "Members", Interactive Systems Lab, Carnegie Mellon University, Pittsburgh, USA http://www.cs.cmu.edu/afs/cs/user/hcii/www/people/members/waibel.html (971217) För mer inblick i forskning se:Lundeberg Magnus (1997), "The Teleface project - disability, feasibility and intelligibility, Department of Speech, Music and Hearing, KTH, Stockholm. http://www.speech.kth.se/~magnusl/teleface_f97.html (971218) Multimodal Speech Synthesis, Department of Speech, Music and Hearing, KTH, Stockholm http://www.speech.kth.se/multimodal (971218) The Waxholm dialog project, Department of Speech, Music and Hearing, KTH, Stockholm http://www.speech.kth.se/waxholm/waxholm2.html (971218) Vo Minh Tue & Wood Cindy (1996), "Building an application framework for speech and pen inpt integration in multimodal learning interfaces", Interactive Systems Laboratories, Carnegie Mellon University, Pittsburgh, USA. http://www.cs.cmu.edu/afs/cs.cmu.edu/user/tue/WWW/papers/icassp96/paper.html (971216)
|