Fakultät für Linguistik und Literaturwissenschaft
 
Hintergrundbild

Sie sind hier :   Universität Bielefeld > LiLi-Fakultät > Forschung > AGs, Fachbereiche > WG Phonetics / Phonology > ESSV

essv-Konferenz 2013

Elektronische Sprachsignalverarbeitung

26.3.:

12:00: Registrierung/Registration
14:00: Grußwort von Rektor Prof. Dr. Gerhard Sagerer / Welcome Remarks

14:20: Hauptvortrag 1/ Keynote 1: David Schlangen (Universität Bielefeld)
Chair: Petra Wagner

Incremental speech and language processing
Spoken language unfolds in time, and is understood and generated in a continuous process: when we take part in a dialogue, we don't plan full sentences which we then merely `read out', and we don't have to wait for our interlocutors to finish their utterance before we can start to think about and react to it.
This may seem obvious, but both in many branches of linguistics and in practical implementations, these these continuous processes are abstracted away and focus is placed on the sentence or turn as the basic unit of analysis. In this talk, I will briefly review the evidence for incremental processing and the potential advantages it can have for practical systems. I will then describe a conceptual model of such processing that we have developed (Schlangen & Skantze, EACL 2009 / Dialogue & Discourse 2011), a realisation of this model in an open- source toolkit for building incremental systems (the "InproTK", Baumann & Schlangen, ESSV 2010), two implementations of the model in example dialogue systems (Skantze & Schlangen, EACL 2009; Buß, Baumann & Schlangen, SIGdial 2010), current directions of our work (Baumann & Schlangen, ACL Demo & Interspeech 2012), and discuss what we have learned from these implementations.

15:00: Kaffeepause/ Coffee Break

Session 1: Dialogsysteme/Dialogue Systems
Chair: David Schlangen

15:20:

Timo Baumann, Maike Paetzel, Philipp Schlesinger, Wolfgang Menzel (Universität Hamburg):

Using affordances to shape the interaction in a hybrid spoken dialog system
Affordances manifest possibilities of interaction with a spoken dialog system. For example, the act of asking a question affords to the recipient the possibility of answering. In the system we present, the observable act of maneuvering affords the possibility of controlling a motion. Our system thus uses the affordance principle to shape the interaction: to trigger the usage of instructions that are easy to understand and process, the system gives immediate visual feedback to afford user commands that can then be reacted upon. This tightening of the interaction loop requires an incremental processing paradigm to allow fast reactions and to be able to alter ongoing system actions. Our system is a hybrid of incremental and non-incremental processing components, combining conventional, state graph-based processing, which has the advantage of widely available toolkits and well-understood dialog management, with incremental dialog processing which allows for the tight feedback loop that provides for quick reactions. We tested our approach in a small user study and found that users used simpler and setting-independent commands more often and were more efficient when faced with the affordance-based version of our system.

15:40:

Stefan Hillmann, Klaus-Peter Engelbrecht (TU Berlin):

Aufgabenmodellierung in der Simultation von Interaktion mit Sprachdialogsystemen
In diesem Beitrag stellen wir unseren Ansatz zur Modellierungen von Aufgabenwissen bei der Simulation von Interaktionen mit Sprachdialogsystemen vor und evaluieren dessen Simulationsergebnisse. Es werden die zugrundeliegenden Ideen erläutert und konkrete, konzeptuelle Erweiterungen spezi?ziert. Auf Basis der vorgestellten Erweiterungen wurde ein Aufgabenmodell implementiert und in ein prototypisches Werkzeug integriert. Der Vergleich von Simulationen mit dem bisherigen und dem erweiterten Aufgabenmodell, mittels der Cramer-von Mieses Distanz, weist eine signi?kante Verbesserung der Simulationsergebnisse nach.

16:00:

Maria Schmidt, Steffen Werner (Universität Tübingen), Tobias Heinroth (Daimler AG):

Herausforderungen der kombinierten Verwendung von On-Board- und Off-Board-Sprachdialogsystemen in Teilematikeinheiten im Automobil
Die Erwartungen von Autofahrern an ein integriertes Infotainment-System im Fahrzeug nehmen stetig zu. Neben klassischen Funktionen wie Radio, Telefon und Navigation werden auch Inhalte aus dem Internet sowie die Vernetzung mit Social Media- Angeboten erwartet. Apps auf mobilen Endgeräten unterstützen diesen Trend, weshalb zunehmend nicht mehr nur Endgeräte an sich, sondern auch einzeln downloadbare Apps integriert werden. Eine Bedienung per Sprache ist dabei nicht nur komfortabel, sondern auch sicherer und weniger ablenkend als andere Bedienmodalitäten. In diesem Beitrag werden Herausforderungen diskutiert, welche sich aus der kombinierten Verwendung von Sprachdialogsystemen (SDS) ergeben, die sich einerseits lokal im Fahrzeug und andererseits off-board (z. B. auf einem Mobilgerät) befinden. Die Themen "Intelligentes Lernen: das On-Board-SDS lernt vom Off-Board-SDS" und "Natürlichsprachlichkeit" werden herausgegriffen und am Beispiel der Verkürzung von Sprachausgaben näher diskutiert. Des Weiteren stellen wir ein entsprechendes Implementierungskonzept für dieses Beispiel vor. Abschließende Ergebnisse sowie eine entsprechende Evaluation folgen in weiterführenden Arbeiten.

16:20:

Sven Reichel, André Berton, Ute Ehrlich (Daimler AG), Michael Weber (Universität Ulm):

Semantische Anwendungsmodellierung und Nutzermodelle: Anforderungen an einen sprachlich zu bedienenden persönlichen Assistenten im dynamischen Systemumfeld
Infotainmentsysteme im Auto bieten dem Fahrer viele Funktionen, die inzwischen weit über die boardeigenen Anwendungen hinaus gehen. Internetzugang ist vorhanden und bringt, neben vielen Anwendungen, Anforderungen an eine konsistente Sprachbedienung des Infotainmentsystems. Dieser Beitrag formuliert Anforderungen an ein zukünftiges Infotainmentsystem anhand von fünf Anwendungsfällen und motiviert als Abstraktionsschicht zwischen Mensch und Anwendungen einen persönlichen Assistenten. Dieser beinhaltet Weltwissen, Interaktionshistorie, Nutzermodell und Situationsverständnis um eine aufgabenbasierte Interaktion zu ermöglichen.

16:40-17:00: Kaffeepause / Coffee Break

Session 2: Sprachsynthese/Speech Synthesis
Chair: Bernd Kröger

17:00:

Florian Hinterleitner, Sebastian Möller (TU Berlin), Christoph Norrenbrock (CAU Kiel):

Perceptual quality dimensions of text-to speech systems in audiobook reading tasks
In this paper we present research on perceptual quality dimensions of text-to-speech systems in audiobook reading tasks. Therefore, we proposed a newly developed evaluation protocol for the assessment of synthetic speech in audiobook reading tasks for the Blizzard Challenge 2012. We illustrate the experimental setup of the special audiobook reading task of the Blizzard Challenge 2012 and analyze and interpret the results of the subjective listening test. Via a factor analysis, two quality dimensions could be extracted. Through the correlation between the values of the rating scales and the factor values, the dimensions could be assigned to prosody & rhythm and to the listening pleasure of the user. This con?rms the results of the previous study in which the current evaluation protocol was created. Also, a comparison with the perceptual quality dimensions of text-to-speech systems in different use cases led to significant similarities.

17:20:

Jürgen Trouvain, Bernd Möbius (Universität des Saarlandes):

Einatmungsgeräusche von synthetisch erzeugten Sätzen - Eine Pilotstudie
Die vorliegende Pilotstudie untersucht, ob das Einfügen kaum wahrnehmbarer Einatmungsgeräusche die Präferenz synthetischer Sprache positiv beeinflusst. Während in synthetischer Sprache Einatmungsgeräusche üblicherweise nicht vorkommen, sind sie in menschlicher Sprache mehr oder minder gut hörbar, werden aber meist "überhört". Experimente mit Formantsynthese zeigen, dass synthetisch erzeugte Sätze, denen Einatmungsgeräusche vorangestellt werden, besser memoriert werden als solche ohne [6]. Im hier berichteten Experiment werden mit konkatenativer Synthese erzeugte Telefonnummern verwendet. Ein Stimulus bestand aus zwei Kopien derselben Telefonnummer, wobei jeweils einer Kopie ein Einatmungsgeräusch vorangestellt wurde. Die elf Versuchspersonen hatten zu entscheiden, ob sie die erste oder die zweite Telefonnummer bevorzugen. Die Ergebnisse zeigen zwar für wenige Hörer die erwartete Präferenz der Version mit Einatmungsgeräusch, für einen Hörer allerdings eine negative Einstellung. Die Mehrheit zeigt weder eine Präferenz noch eine bewusstes Wahrnehmen dieser kurzen Vokalisierung. Die Hypothese, dass synthetisch erzeugte Äußerungen durch Voranstellen hörbarer Einatmungsgeräusche positiver wahrgenommen werden als solche ohne, konnte durch das vorgestellte Hörexperiment nicht im angenommenen Umfang bestätigt werden. Es kann nicht ausgeschlossen werden, dass die fehlende Kongruenz zwischen dem Sprecher der Synthese und dem "Sprecher" des Atmungsgeräusches sowie die fehlende Variation der Einatmungsgeräusche zu diesem Befund beigetragen haben. Die vorliegende Pilotstudie zeigt bezüglich der Steigerung der "Natürlichkeit" synthetischer Sprache zum einen, wie komplex sich die Beziehung zwischen Modellierung und Analyse des natürlichen Vorbilds verhält, zum anderen deutet die Studie aber auch den potenziellen Nutzen, aber auch das Risiko dieser Modellierung an.

17:40:

Frank Kügler, Bernadett Smolibocki, Manfred Stede, Sebastian Varges (Universität Potsdam):

Information structure in speech synthesis: Early focus and post-focal givenness
Even though speech synthesis nowadays is of acceptable quality for many purposes, straightforward text-to-speech (TTS) systems do not produce optimal results in cases where contextual and other pragmatic factors play an important role for prosodic realization. For instance, in systems giving product comparisons and recommendations, an appropriate intonation is required to signal contrasting entities; and in longer discourse, given and new entities need to be distinguished prosodically. In our project, such notions of information structure (IS) are used to extend an existing text generator for product comparison/recommendation with a speech synthesis component (MARY TTS). In this paper, we concentrate on one particular IS phenomenon: post-focal givenness. The purpose of the paper is twofold: First, we explain the architecture of our system and the IS extensions we made MARY TTS (MARY+IS); second, we show that an appropriate prosodic marking of post-focal givenness indeed leads to increased hearer acceptability ratings.

18:00: Willkommensempfang/Welcome Reception (ZiF)

27.3.:

09:00: Hauptvortrag 2/Keynote 2: Bernd Kröger, Xi Chen, Cornelia Eckers, Stefan Heim (RWTH Aachen/Tianjin University):
Chair: Laura de Ruiter

How to learn proto speech patterns using a physiologically based vocal tract model
For modeling early phases of speech acquisition (babbling and imitation) we used a geometrical (non-muscle based) vocal tract model so far. But especially in order to differentiate higher level and lower level motor representations it is essential to incorporate a physiological vocal tract model controlled by muscle force activation patterns. In this paper we will discuss, why higher and lower level motor representations should be separated and why these different representations are important already during early phases of speech acquisition. First simulation results are reported. In these simulation experiments a physiological (muscle based) vocal tract model is used for learning proto speech patterns, i.e. for learning prelinguistic vocalic babbling patterns.

Session 3: Sprachproduktion und -perzeption/Speech Production and Perception
Chair: Zofia Malisz

09:40:

Leona Polyanskaya, Mikhail Ordin (Universität Bielefeld), Christiane Ulbrich (Universität Marburg):

Contribution of timing patterns into perceived foreign accent
We studied the influence of speech rate and speech rhythm into perceived foreign accent (FA). Although the effect of speech rate in foreign accent has been investigated quite extensively, much less is known about the contribution of speech rhythm perceived accentedness. Speech rate and speech rhythm are interdepent, and thus they make an overlapping effect, however, speech rate makes a unique impact on FA. We were interested in seperate, unique effect of speech rhythm and also in the relative contribution of rhythm and tempo into FA. Our study has shown that speech rate and speech rhythm both contribute into perception of accentedness. As the combined contribution of speech rate and rhythm is substantially greater than that of speech rhythm alone, we conclude that speech tempo and speech rhythm also make unique, seperate and independent contribution into perceived FA. We also show that deviations in timing patterns are overridden by accented phonemic realizations on lower levels of proficiency in second language as the mastery in L2 increases.

10:00:

Hongwei Ding (Tongji University), Rainer Jäckel, Rüdiger Hoffmann (TU Dresden):

A preliminary investigation of German rhythm by Chinese learners
This study focuses on the temporal and metrical features of the German speech produced by Chinese speakers. It is well known that the values of proportion of vocalic intervals (%V) and the standard deviation of the consonant intervals (ΔC) within the sentence can classify the languages into stress-timed and syllable-timed categories. German is described to be a stress-timed language, while standard Chinese is regarded as a syllable-timed language. It has been suggested that the rhythm of the target language can be infuenced by the learners native language. In this study we conduct an investigation with 18 Chinese students of the same proficiency level in comparison with 6 native German speakers. Ten sentences from the whole recordings are selected for analysis, we come up with the following results:
a) Chinese learners have higher values of %V than those of the German speakers;
b) most Chinese learners have higher ΔC values than those of German speakers; c) Chinese learners speak much slower than German speakers.
It is argued that these Chinese learners try to add additional vowels after syllable final consonants, they can hardly reduce vowels, but tend to delete certain consonants in consonant clusters due to the influence of their native CV structured syllable-stressed language.

10:20:

Daniel Duran, Jagoda Bruni, Grzegorz Dogil (Universität Stuttgart):

Modeling multi-modal factors in speech production with the context-sequence model
This article describes modeling speech production with multi-modal factors integrated into the Context Sequence Model (Wade et al. 2010). It is posited that articulatory information can be successfully incorporated and stored in parallel to the acoustic information in a speech production model. Results demonstrate that a memory sensitive to rich context and enlarged by the additional inputs facilitates exemplar weighing and selection during speech production.

10:40: Kaffeepause/Coffee Break

Session 4: Kognitive Systeme/Cognitive Systems
Chair: Klaus Fellbaum

11:00:

Ronald Römer, Matthias Wolff (BTU-Cottbus), Günther Wirsching (KU Eichstätt-Ingolstadt):

Ein Beitrag zu den Natur- und geisteswissenschaftlichen Grundlagen Kognitiver Systeme
Für die Beschreibung technischer kognitiver Systeme wird naturgemäß auch auf biologisches oder psychologisches Begriffsinventar zurückgegriffen. Eine allgemein akzeptierte Definition für Kognition oder kognitive Systeme findet man in den Ingenieurwissenschaften jedoch nicht in ausreichendem Maße. Im diesjährigen Beitrag wird daher der Versuch unternommen, den Geltungsbereich technischer kognitiver Systeme zu definieren. Dabei gehen zunächst wir auf den historischen Vorgänger der kognitiven Systeme - die Kybernetik - eingegangen. Nach einer Beleuchtung der Gründe für den Niedergang der Kybernetik und deren nachfolgenden Ausdifferenzierungen erfolgt eine Reflexion über die natur- und geisteswissenschaftlichen Säulen der Kybernetik. Diese stellt den Ausgangspunkt einer kritischen Analyse dar und führt uns auf mögliche Brückenkonzepte zwischen den Natur- und Geisteswissenschaften. Unter Verwendung dieser Brückenkonzepte und der konsequenten Einnahme einer biologischen (evolutionären) Perspektive, hat sich in der Psychologie das Modell eines finalen Systems entwickelt. Die Tragfähigkeit des Modells beruht einerseits auf dessen systemtheoretischen Fundament und zum anderen auf der Eigenschaft, dass die in finalen Systemen ablaufenden Prozesse semantisch beschreibbar sind. In diesem Sinne können kognitive Prozesse als Informationsverarbeitung betrachtet werden. Da außer Organismen auch Automaten in diese Kategorie fallen, können kognitive Modelle entwickelt und simuliert werden, so dass ein Vergleich von organischen- und künstlichen Systemen gerecht- fertigt ist. Weitere Anforderungen wie Bewusstsein oder die Fähigkeit zur Reflexion sind auf dieser Entwicklungsstufe nicht notwendig. Der Geltungsbereich kognitiver Systeme kann daher auf die finalen Systeme beschränkt werden.

11:20:

Robert Lorenz, Markus Huber (Universität Augsburg):

Realising the translation of utterances into meanings by Petri Net Transducers
In this paper, we illustrate by a small case study how the translation of utterances into meanings within a hierarchical cognitive dynamic speech signal processing system can be realised by Petri net transducers (PNTs). PNTs are a natural generalisation of finite state transducers (FSTs) for the translation of partial languages consisting of partial words (with a partial order on their symbols) instead of (linear) words (having a total order on their symbols). For the considered case study we extend previous definitions of PNTs by weights and composition operations. We use bisemirings for the set of weights of a PNT.

11:40:

Markus Huber, Christian Kölbl, Robert Lorenz (Universität Augsburg), Günther Wirsching (Universität Eichstätt-Ingolstadt):

Konstruktion von UMP-Transduktoren aus Wizard-of-Oz Daten
Wir beschreiben in dieser Arbeit die Konstruktion eines Transduktors zur Übersetzung von Erkennergebnissen zwischen der syntaktischen und der semantischen Ebene eines hierarchischen Systems zur Sprachsignalverarbeitung aus Wizard-of-Oz Daten. Dazu werden in einem ersten Schritt Äußerungs-Bedeutungs-Paare gebildet und dann ein Transduktor konstruiert, der jede Äußerung in die zugehörige Bedeutung übersetzt. Der Transdukor wird nicht durch einen Automaten, sondern durch ein Petrinetz realisiert, da Bedeutungen durch partielle Wörter repräsentiert werden.

12:00: Mittagspause/Lunch Break

14:00: Hauptvortrag 3/Keynote 3: (Tutorial) Peter Birkholz (RWTH Aachen)
Chair: Ingmar Steiner

Elektromyographische Analyse von Sprech- und Schluckbewegungen
Dieses Tutorial gibt einen Überblick über die Elektromyographie (EMG) als elektrophysiologisches Verfahren zur Messung der Muskelaktivität im Kontext der Analyse von Sprech- und Schluckbewegungen. Das Grundprinzip der EMG besteht in der Messung elektrischer Potentiale aus der Muskulatur, die mit dem Spannungszustand der Muskeln variieren. Diese elektrischen Potentiale können entweder über Oberflächenelektroden abgeleitet werden, die auf die Haut über den Muskeln geklebt werden, oder mittels Nadelelektroden, die durch die Haut direkt in die Muskeln gestochen werden. Die damit gemessenen Potentiale erlauben eine detaillierte Analyse des Zeitverlaufs von Muskelanspannungen. Dies hat vielfältige Anwendungen. Für die Forschung auf dem Gebiet der Sprachproduktion ergibt sich hiermit z. B. die Möglichkeit, die zeitliche Koordination der Muskeln zu untersuchen, die an der Ausführung bestimmter Sprechgesten beteiligt sind [3]. EMG gibt auch Aufschluss darüber, welche Artikulationsbewegungen vom Sprecher direkt geplant sind, und welche Bewegungen passiv durch die mechanische Kopplung der Artikulatoren untereinander entstehen. Darüber hinaus bieten EMG-Aufzeichnungen theoretisch die Möglichkeit, biomechanische Modelle des Vokaltrakts mit den gemessenen Muskelaktivitäten anzusteuern und ihr Verhalten dadurch zu evaluieren. Im Bereich der Sprachtechnologie wird EMG als mögliche Methode für die lautlose Sprachkommunikation untersucht, d.h. für die Erkennung und Interpretation ?still? gesprochener Sprache [2]. Letztlich findet EMG auch im medizinischen Bereich breite Anwendung, z. B. als Biofeedbackverfahren zur Behandlung von Schluckstörungen [1], oder zur effektiven Unterscheidung von myogenen und neurogenen Störungen, z. B. bei Kehlkopferkrankungen [4]. Dieses Tutorial soll einerseits näher auf diese vielfältigen Möglichkeiten eingehen und andererseits die grundsätzlichen Techniken zur Aufzeichnung, Verarbeitung und Interpretation von EMG-Signalen darstellen.

Session 5: Poster Session: Anwendungen, Werkzeuge, Messverfahren /Applications, Tools and Metrics

14:40:

- Felix Burkhardt, Jianshen Zhou, Stefan Seide, Thomas Scheerbarth (Deutsche Telekom Laboratories Berlin, AutoScout24):

Voice enabling the AutoScout24 Car Search App
A text parser to match keywords in short texts based against vocabularies and numerical value descriptors is introduced. It is used for a voice search exten- sion of the AutoScout24 App, which enables users to search for second hand cars by selecting features in graphical drop down menus. With our extension, the user can simply say the search query in natural language, using a collo- quial vocabulary, instead of selecting from long text lists on a small hand-held device.
- Cornelia Eckers, Bernd J. Kröger, Stefan Heim (RWTH Aachen):

The speech action repository: Evidence from a single case neuroimaging study
The speech-action-repository (SAR) is a neurofunctional and neurocom-putational model of syllable processing. The model is capable of storing sensorimotor representations of high-frequent syllables by a supramodal hub and its connections to unimodal sensorimotor state maps. In order to support the notion of the SAR, a functional imaging study was conducted. Within the fMRI-experiment a single case subject responded overtly and covertly to different visually and auditory presented homogeneous and heterogeneous syllable blocks. An auditory-visual conjunction analysis for determining this distributed supramodal hub, revealed an activation network, comprising bilateral precentral gyrus, left inferior frontal gyrus (area 44), left supplementary motor area, and bilateral superior temporal gyrus. The analysis of main effect of syllable priming, i.e. heterogeneous vs. homogeneous syllable-blocks, in order to detect neural activation relating to access of the state maps, revealed an activation pattern, distributed over the frontal, temporal, and parietal lobe. These results are compatible in agreement with the notion of the SAR. Thus, the present study provides evidence for the neural representation of the SAR, which is in line with the Kröger model.
- Tina John, Oliver Niebuhr, Gerhard Schmidt, Anne Theiß (CAU Kiel):

Phonetic analysis vs. dirty signals: Fixing the paradox
Noisy speech signals and phonetic data analysis: two phrases that rarely occur in the same context. This paper shows that noise cancellation and noise suppression methods can clean noisy speech signals to such an extent that they can be reliably segmented into phones semi-automatically using appropriate tools such as the Munich Automatic Segmentation Tool. This finding brings noisy signals and phonetic data analysis closer together.
- Simon Preuß, Christiane Neuschaefer-Rube, Peter Birkholz (RWTH Aachen):

Prospects of EPG and OPG sensor fusion in pursuit of a 3D real-time representation of the oral cavity
After giving a brief review of the underlying technologies electro-palatography and optical palatography, this paper presents the prototype of a device that combines electrical and optical palatographic measurements to reconstruct the tongue surface during articulation in real-time. The prototype consists of a mouth piece (pseudo-palate) and a control board, and improves on a previous design by integrating the entire measurement system into a single unit, increasing spatial resolution by a greater number of sensors, and reducing the number of wires necessary to contact the pseudo-palate for more comfortable use. Furthermore, a concept to approximate and visualize the tongue surface from the sensor readings using cubic spline interpolation is described. Future challenges in the next development stages are highlighted. The outlined system could be applied in, e.g., experimental phonetics, speech therapy, silent speech interfaces, and pronunciation training.

- Hendrik Buschmeier, Marcin Wlodarczak (Universität Bielefeld):

TextGridTools: A TextGrid processing and analysis toolkit for python
In this paper we present TEXTGRIDTOOLS, a free Python package for processing, querying and manipulating Praat's TextGrid files. TEXTGRIDTOOLS improves on many deficiencies of Praat's embedded scripting language by providing a clean data model for TextGrid objects and their attributes, and offering functionality for common annotation-related tasks, for instance calculation of interannotator agreement measures. Owing to seamless integration with other Python tools, such as data analysis libraries and interactive interpreters, users gain access to a versatile and powerful computing environment without the need of repeated format conversions.
- Thomas Kisler, Uwe D. Reichel (LMU München):

A dialect distance metric based on string and temporal alignment
The Levenshtein distance is an established metric to represent phonological distances between dialects. So far, this metric has usually been applied on manually transcribed word lists. In this study we introduce several extensions of the Levenshtein distance by incorporating probabilistic edit costs as well as temporal alignment costs. We tested all variants for compliance with the axioms that within-dialect utterance pairs are phonologically more similar than across-dialect ones. In contrast to former studies we are not applying the metrics on preselected, prototypical word lists but on real connected speech data which was automatically segmented and labeled. It turned out, that the transcription edit distances already performed well in reflecting the difference between within- and across-dialect comparisons, and that the adding of a temporal component rather weakens the performance of the metrics.
- Martin Heckmann (Honda Research Institute Europe GmbH):

Differences between speakers in audio-visual classification of word prominence
We show how the audio-visual discrimination performance of prominent from non-prominent words based on an SVM classifier varies from speaker to speaker. We collected data in an experiment where users were interacting via speech in a small game, designed as a Wizard-of-Oz experiment, with a computer. Following misunderstandings of one single word of the system, users were instructed to correct this word using prosodic cues only. Hence we obtain a dataset which contains the same word with normal and with high prominence. Overall we recorded 8 speakers. The analysis shows that there is a large variation from speaker to speaker in respect to which feature can successfully be used to discriminate prominent from non-prominent words depending on the prominence signaling strategy applied by the speaker. In particular for speakers who mainly use duration to signal prominence we see an increase in performance from combining acoustic and visual information. The audio-visual classification accuracies we obtain vary from 66% ? 91% correct from the most dif?cult to the easiest speaker.

16:00: Kaffeepause/Coffee Break

Session 6: Prosodischer und multimodaler Ausdruck in der Mensch-Maschine Interaktion/Prosodic and Multimodal Expression in Human-Machine Interaction
Chair: Jürgen Trouvain

16:20:

Anja K. Philippsen, Kai A. Mismahl, Britta Wrede (Universität Bielefeld), Yukie Nagai (Osaka University):

Cross-cultural recognition of auditive feedback using echo state networks
This paper deals with the development of a classi?er to distinguish between positive and negative feedback from the user in human-machine-interaction. We calculate prosodic features from the user?s utterances and feed it to an Echo State Network, a dynamic classi?er that is able to learn temporal dependencies implicitly. The data were recorded in a test scenario from German and Japanese test subjects, once in natural speech and once in an arti?cial ?language? that uses only the syllable ?na?. The test subjects had to give feedback to a simulation of the robot Flobi and were instructed to behave like interacting with a child. The implemented Echo State Network proved to be able to learn to classify the feedback of a single person into the two categories ?positive? and ?negative? and could generalize to a certain extent. We experience a high range of different feedback in the data, intra-culturally as well as inter-culturally. However, it can be shown that a classi?er trained on German data works signi?cantly better on German data than on the Japanese, indicating that cultural differences exist. Analyzing different feature subsets, we found out that using Mel-Frequency Cepstral Coef?cients as features yield a better classi?cation rate than using prosodic features (like pitch and intensity) alone.

16:40:

Angelika Hönemann, Hansjörg Mixdorff (Beuth University of Applied Sciences Berlin), Sascha Fagel (Zoobe message entertainment GmbH):

Alignment between rigid head movements and prosodic landmarks
In our study we recorded and analyzed an audiovisual speech corpus to develop a model with predicts head an facial non-verbal movements accomanying speech. The model is intended to improve the naturalness of avatars. Our previous paper already gives a preliminary analysis of our speech corpus which includes acoustic and visual recordings of seven individual speakers who talk about three minutes about their last vacation. We showed that for each speaker 20-30% of events in each motion class are aligned with prominent syllables in phrase-initial ormedial position and that the speakers moved most often at the end of intonation phrase. We also observe that the speakers differ in strength and frequency of visible events. However, there is also a great ratio of about 60% of motion events which are not assigned to the target syllables. In order to account for this result, further analyses had to be carried out. The present paper shows further analyses of the relationship between speech and movements. Therefore, we extracted the fundamental frequency (F0) and the intensity of the acoustic signals using Praat. By marking the prominent syllables we obtained a description of the course of F0. We use the visual parameters that constitute the main head movements.

17:00:

Zeeshan Ahmed, Éva Székely, Julie Carson-Berndsen (University College Dublin), Ingmar Steiner (Universität des Saarlandes):

Progress in facial expression based affective speech translation
Speech-to-speech translation is an emerging field for applications in spoken language technology. Translation systems currently focus on the processing of linguistic content, without taking into account the significance of paralinguistic information conveyed by visual gestures in human face-to-face communication. In the project presented in this paper, we have implemented a speech-to-speech translation system which preserves information about the user's affective state by transmitting it through the processing pipeline to the output component, which renders the translated content in the appropriate speaking style using expressive speech synthesis.

Session 7: Signalverarbeitung/Signal Processing
Chair: Oliver Jokisch

17:20:

Matthias Wolff, Ronald Römer (BTU Cottbus), Constanze Tschöpe (Fraunhofer IZFP Dresden), Günther Wirsching (KU Eichstätt-Ingolstadt):

Subsymbol-Symbol-Transduktoren
In [1, 2, 3] haben wir eine Formulierung von kontinuierlichen Hidden-Markov-Modellen (CD-HMM) als endliche Transduktoren (finite state transducers, FST) vorgeschlagen. In diesem Beitrag entwickeln wir diesen Ansatz weiter und zeigen, dass so formulierte Hidden-Markov-Modelle als Komposition aus elementaren Subsymbol-Symbol-Transduktoren (SST), einem Mischungstransduktor und dem klassischen "versteckten" Zustandsautomaten aufgefasst werden können. Der Vorteil dieser Sichtweise liegt zum einen in einer klaren Trennung der klassischen endlichen Komponente (FSM) von der notwendigen Erweiterung auf ein unendliches (kontinuierliches) Eingabealphabet in Form des neu zu de?nierenden Subsymbol-Symbol-Transduktors. Zum anderen erlaubt sie eine mathematisch saubere Behebung des potenziellen Konflikts zwischen dem Gewichtshalbring der Subsymbol-Symbol-Ubersetzung (typisch: logarithmischer Halbring), dem Gewichtshalbring der Mischung von Eingabeverteilungsdichten (typisch: logarithmischer Halbring) und dem Gewichtshalbring des versteckten Automaten (tropischer Halbring bei Viterbi-Dekodierung).

17:40:

Constanze Tschöpe (Fraunhofer IZFP Dresden), Matthias Wolff (BTU Cottbus), Rüdiger Hoffmann (TU Dresden):

Anwendungen der akustischen Mustererkennung
Die akustische Mustererkennung gewinnt in der zerstörungsfreien Prüfung immer mehr an Bedeutung. Unabhängig von der Art der Signalgewinnung besteht die Aufgabe, die aufgenommenen Daten zu bewerten und eine Entscheidung zu treffen. Diese Entscheidung hängt von der Problemstellung ab und kann entweder hart oder graduell ausfallen. Die Anwendungen der akustischen Mustererkennung sind vielfältig. Bereits bei technischen Signalen konnte bereits eine breite Palette an Anwendungen erfolgreich bearbeitet werden. Bei der automatisierten Zahnradprüfung erfolgt direkt nach dem Herstellungsprozess eine Kontrolle auf Risse, Lunker und andere Fehlerarten. In Form einer Gut-/Schlechtanalyse werden die fehlerhaften Teile aussortiert. Die Aufgabe besteht also hier darin, eine harte Entscheidung ("Zahnrad gut" oder "Zahnrad schlecht") zu treffen, aber alle fehlerhaften Zahnräder müssen erkannt werden (100 %-Prüfung). Die Prüfung von Magnetventilen anhand der Schaltgeräusche dagegen erfordert eine graduelle Entscheidung. Da die Ventile beispielsweise in Chemieanlagen eingesetzt werden und dort ein korrektes Schalten zu gewährleisten ist, muss ein bevorstehender Ausfall rechtzeitig erkannt und dadurch verhindert werden. Die Ventile werden permanent uberwacht, und die getroffenen Aussagen lauten "Ventil neuwertig" oder "Ventil 50 % der Lebenszeit erreicht". Flugzeugbauteile werden permanent uberwacht, um Beschädigungen und Ermüdung zu erkennen. Dabei müssen auch kleine Risse oder Einschläge aufgespürt werden. Aber nicht "nur" für die Bewertung technischer Signale ist die akustische Mustererkennung eine geeignete Methode. Auch Musik- oder Biosignale können klassifiziert werden.

18:00: Ende des Konferenztages/End of conference day

19:00: Abendempfang/Conference dinner (Location: VERVE Bielefeld)


28.3.:

09:00: Hauptvortrag 4/Keynote 4: Petra Wagner (Universität Bielefeld)
Chair: Juraj Simko

The phonetics and phonology of interaction
Speech and language serve interlocutor's communication, consequently they are bound to human-human or human-machine interaction. Most models of speech and language processing fail to take into account the co-ordinative principles underlying these and other forms of social interaction. e.g. by regarding communicative interaction to take place in a symbolic space. abstracting away from the phonetic detail in the speech signal, from communicative ?noise? such as overlapping speech, and from the physiological properties and constraints underlying communication.
In the last couple of years, we have carried out research on various phenomena relating to the phonetic and phonological properties of speech-in-interaction, e.g.in the field of speech timing, co-ordinative rhythm in feedback and overlapping speech, the interaction of segmental and suprasegmental phonetic detail etc. [e.g. 1, 2, 3, 4, 5]. Our research results support the point of view that a certain level of dynamic inter-speaker co-ordination is a necessary prerequisite for a subsequent symbolic-linguistic analysis of the incoming speech signal by enabling the listener to selectively attend to and produce relevant fine phonetic detail. It is furthermore argued that models of temporal co-ordination can justly be regarded as part of the phonological component of speakers, as a co-ordinative mechanism driving attentional processes must conform to the language specific properties.

Session 8: Prosodie/ Prosody
Chair: Bernd Möbius

09:40:

Benjamin Weiss (TU Berlin):

Prosodische Elemente vokaler Prosodie
Parameter prosodischer Merkmale wurden identifiziert, die nach einschlagigen Ergebnissen mit der Valenzdimension - auch Sympathie oder auch soziale Attraktivität genannt - einhergehen. Diese Parameter wurden automatisch für je 300 männliche und weibliche Sprecher der Agender Datenbank erhoben und ausgewertet. Zwischen den Gruppen positiver, durchschnittlicher und negativer Bewertungen ergeben sich signifikante Unterschiede für Maße der Tonhöhe, Tempo und Variabilität von Tempo und Intensität. Jedoch handelt es sich bei diesen Ergebnissen nicht um ein vollständiges Set für die Valenzdimension (etwa Variabilitat in Tempo, Tonhöhe oder Intensität), sondern durchaus um Parameter, die auch der Dominanzdimension zugeordnet werden. Eine strikte Trennung zwischen den Dimensionen Valenz und Dominanz fur die Personenbeurteilung erweist sich demnach als unangebracht.

10:00:

Tomasz Kuczmarski, Norbert Kordek (Adam Mickiewicz University Poznan), Daniel Duran, Jagoda Bruni (Universität Stuttgart):

Second-degree polynomial approximation of Mandarin Chinese lexical tone pitch contours - A preliminary evaluation
The current paper presents a preliminary evaluation of a second-degree polynominal pitch stylization method for MC cited lexical tones. This study was devised to verify methodological assumptions for a subsequent work where a systematic manipulation of the F0 curve in MC syllables will be used to study the perceptual Magnet Effect. For this purpose, a number of MC syllables representing various phonological templates were chosen from a single speaker corpus. Stylized pitch curves were resynthesized and compared with their natural counterparts in a discrimination experiment. The results of native speakers' judgments show that the approximation method is adequate for the desired application.

10:20:

Uwe Reichel (LMU München), Katalin Mády (Hungarian Academy of Sciences):

Parameterization of F0 register and discontinuity to predict prosodic boundary strength in Hungarian spontaneous speech
This study addresses the questions how to parameterize (1) aspects of fundamental frequency (F0) register, i.e. time-varying F0 level and range within prosodic phrases and (2) F0 discontinuities at prosodic boundaries in order to predict perceived prosodic boundary strength in Hungarian spontaneous speech. For F0 register stylization we propose a new fitting procedure for base-, mid-, and toplines that does not require error-prone local peak and valley detection and is robust against disturbing influences of high pitch accents and boundary tones. From these linear stylizations we extracted features which reflect F0 boundary discontinuities and fitted stepwise linear regression and regression tree models to predict perceived boundary strength. In a ten-fold cross-validation the mean correlation between predictions and human judgments amounts up to 0.8.

10:40: Kaffeepause/Coffee Break

Session 9: Sprach- und Sprechererkennung/Speech and Speaker Recognition
Chair: Matthias Wolff

11:00:

Maria Paola Bissiri, Ivan Kraljevski, Rüdiger Hoffmann (TU Dresden):

Improved phoneme segmentation of German-accented English by lexicon and acoustic model adaptation
In the present study, a German ASR system was used to perform phoneme segmentation og German-accented English speech. The phoneme models were created on German training data and the used lexicon consisted of English words whose pronunciation was represented by means of the German phoneme inventory. The production of accurate segmentation is significantly affected by the language mismatch between the German training data and the German-accented English test data. In order to reduce this mismatch, enhancement of the lexicon and of the phoneme models was performed. The lexicon was enhanced by means of pronunciation rules for German-accented English and according to recognition results analysis. Acoustic model adaption was carried out to reduce mismatch regarding language and recording differences between training and test data. Lexicon enhancement and acoustic model adaption improved recognition accuracy providing a reliable phoneme and word segmentation framework.

11:20:

Ivan Kraljevski, Maria Paola Bissiri, Rüdiger Hoffmann (TU Dresden):

Text independent speaker identification with coded speech
In this paper, a system for text independent speaker identification was evaluated under different coding conditions over limited speech data. The identification experiments were performend on the UASR (United Approach for Speech Synthesis and Recognition) system with two different configurations. Performance evaluations over different feature sets, number of Gaussians per model, as well as amount of training data were performed in order to select an appropriate configuration for speech coding effects demonstration. The initial results did not appear suitable for practical application and further improvements were achieved with model compensation by adaption on different coders. In this case, significant improvements were observed even with limited amount of speech data with similar identification rates as for clean speech. In case of large speech data mismatch or low bit-rate coded speech, model training on coded speech was performed to further improve speaker identification.

11:40:

Lia Saki Bucar Shigemori, Uwe Reichel (LMU München):

Predictability of the effects of phoneme merging on speech recognition performance by quantifying phoneme relations
To investigate whether the impact of phoneme merging on recognition rate can be predicted, different measures to quantify the relationship between two phonemes a and b have been compared: (1) the functional load of their opposition, (2) the bigram type preservation, (3) their information radius, (4) their distance within an information gain tree induced from a distinctive feature matrix, and (5) the symmetric Kullback-Leibler divergence. For each of 26 different phoneme pairs we trained a speech recognition system where the phoneme pair was merged. We then compaired the new accuracy rates and the measures to find out if there was any correlation. The results did not always meet our expectations and raised further questions.

12:00:

Harald Höge (Universität der Bundeswehr München):

Comparison of HMMs and HCMs
We investigate acoustic models for segments which are sub-phonetic units dreiced from clustered tri-phones. For each segment Qi, we evaluate acoustic models approximating the conditional density function cdf of sequences of feature vectors aligned to a segment Qi. We name those aligned sequences 'chunks'. The quality of the acoustic models is evaluated by segment error rates (SER) and Shannon's Conditional Entropy. Further we develop a new method to anser the question how close an acoustic model approximates the cdf. The method is based on the simulation of model generated chunks (MgCs), which have a cdf as given by the acoustic model. We evaluate Hidden Markov Models (HMMs) and Hidden Chunk Models (HCMs) realized by GMMs with tied covariance matrices.

12:20: Verabschiedung/Closing Remarks

12:40: Konferenzende/End of Conference