Ve vývoji: Smartphony, které dokážou vyhodnotit náladu
Vědci z University of Rochester vyvíjejí nový počítačový program, který měří lidské city pomocí řeči, s prototypem aplikace pro smartphony již vytvořenou.Program neanalyzuje, co člověk říká, ale spíše jak.
"Ve skutečnosti jsme použili nahrávky herců, kteří odečítali datum měsíce - opravdu nezáleží na tom, co říkají, to, jak to říkají, nás zajímá," řekla Wendi Heinzelman, Ph.D. elektrotechniky a výpočetní techniky.
Program analyzuje 12 funkcí řeči, jako je výška tónu a hlasitost, aby identifikoval jednu ze šesti emocí ze zvukového záznamu. Vědci tvrdí, že dosahuje přesnosti 81 procent, což je významné zlepšení oproti dřívějším studiím, které dosáhly přesnosti pouze asi 55 procent.
Výzkum již byl použit k vývoji prototypu aplikace, která po zaznamenání a analýze hlasu uživatele zobrazí buď veselý, nebo smutný obličej. Postavil jej jeden z absolventů Heinzelmana, Na Yang, během letní stáže ve společnosti Microsoft Research.
"Výzkum je stále v počátcích," připustil Heinzelman, "ale je snadné si představit složitější aplikaci, která by tuto technologii mohla použít pro vše od úpravy barev zobrazených na vašem mobilu (telefonu) po přehrávání hudby podle toho, jak Cítím se po nahrání tvého hlasu. “
Heinzelman a její tým spolupracují s Rochesterovými psychology Drs. Melissa Sturge-Apple a Patrick Davies, kteří v současné době studují interakce mezi teenagery a jejich rodiči. "Spolehlivý způsob kategorizace emocí by mohl být v našem výzkumu velmi užitečný," uvedl Sturge-Apple. "Znamenalo by to, že výzkumník nemusí poslouchat rozhovory a ručně zadávat emoce různých lidí v různých fázích."
Učení počítače porozumět emocím začíná podle vědců rozpoznáním toho, jak to lidé dělají.
"Možná slyšíte někoho mluvit a myslet si, ach, zní to naštvaně." Ale co vás k tomu přimělo myslet? " řekl Sturge-Apple.
Vysvětlila, že emoce ovlivňují způsob, jakým lidé mluví, změnou hlasitosti, výšky tónu a dokonce harmonických projevů. „Těmto funkcím se nevěnujeme individuálně, právě jsme se dozvěděli, jaké jsou rozzlobené zvuky - zejména pro lidi, které známe,“ dodala.
Aby však počítač mohl kategorizovat emoce, musí pracovat s měřitelnými veličinami. Vědci tedy stanovili 12 specifických rysů řeči, které byly měřeny v každém záznamu v krátkých intervalech. Vědci poté kategorizovali každou z nahrávek a pomocí nich naučili počítačový program, jak zní „smutný“, „šťastný“, „ustráchaný“, „znechucený“ nebo „neutrální“.
Systém poté analyzoval nové nahrávky a pokusil se zjistit, zda hlas v záznamu vykresluje některou ze známých emocí. Pokud se počítačový program nemohl rozhodnout mezi dvěma nebo více emocemi, ponechal tento záznam neklasifikovaný.
"Chceme si být jisti, že když si počítač myslí, že zaznamenaná řeč odráží konkrétní emoce, je velmi pravděpodobné, že tuto emoci skutečně vykresluje," řekl Heinzelman.
Předchozí výzkum ukázal, že systémy klasifikace emocí jsou vysoce závislé na řečnících, což znamená, že fungují mnohem lépe, pokud je systém trénován stejným hlasem, který bude analyzovat. "To není ideální pro situaci, kdy chcete být schopni provést experiment na skupině lidí, kteří spolu mluví a komunikují, jako jsou rodiče a teenageři, se kterými pracujeme," řekl Sturge-Apple.
Nové výsledky toto zjištění potvrzují. Pokud je klasifikace emocí založená na řeči použita pro hlas odlišný od hlasu, který trénoval systém, přesnost poklesla z 81 procent na přibližně 30 procent. Vědci nyní hledají způsoby, jak tento efekt minimalizovat trénováním systému hlasem ve stejné věkové skupině a stejného pohlaví.
"Stále je třeba vyřešit výzvy, pokud chceme tento systém používat v prostředí připomínajícím situaci v reálném životě, ale víme, že algoritmus, který jsme vyvinuli, je účinnější než předchozí pokusy," řekl Heinzelman.
Zdroj: University of Rochester