Knowledge Representation and Machine Learning

Campus der Universität Bielefeld — © Universität Bielefeld

Software

Software-Pakete

Wir bieten folgende Software-Pakete für interdisziplinäre Forschende als Werkzeuge für ihre Arbeit.

SCORES ist ein grafisches Werkzeug um Sozialwissenschaftler*innen in der Verarbeitung von Freitextantworten zu unterstützen. Die Freitextantworten werden zuerst mit Hilfe eines kleinen Sprachmodells in Vektoren übersetzt und die Vektoren werden dann mittels K-Means und agglomerativem Clustering in Kategorien eingeteilt. Alle Schritte des Prozesses werden erklärt und sind konfigurierbar um Forschenden außerhalb des maschinellen Lernen möglichst viel Unterstützung zu bieten.
edist implementiert eine Vielzahl von edit-Distanzen zwischen Sequenzen und Bäumen, einschließlich Backtracing und Metriklernen (Paaßen et al., 2018) in cython. Insbesondere enthält die Bibliothek Implementierungen für die Levenshtein-Distanz, dynamic time warping, die affine edit-Distanz und die Baum-edit-Distanz sowie weitere edit-Distanzen über algebraische dynamische Programmierung (Giegerich, Meyer und Steffen, 2004). Die Bibliothek ist auf pypi über "pip3 install edist" verfügbar (derzeit nur für Linux).
SCRIPT ist ein intelligentes Tutoring-System für die Programmierlehre. Lernfortschritt wird über knowledge tracing-Methoden gemessen und das Programmieren wird durch automatische Hinweise unterstützt. Das System ist modular aufgebaut, sodass sich Lernendenmodelle und pädagogische Modelle leicht austauschen lassen. Auch A/B-Tests verschiedener Systemvarianten werden unterstützt. Generell ist das System sowohl als Lehr- als auch als Forschungsplattform gedacht. (Referenzpapier)

Referenzimplementierungen

Diese Software-Pakete sind Referenzimplementierungen als Begleitmaterial für unsere Publikationen, um Reproduzierbarkeit und weitere Forschung zu unterstützen. Die Zielgruppe sind Forschende im maschinellen Lernen und die Software ist generell weniger poliert und gewartet als die obigen Pakete.

Maschinelles Lernen für die Bildung

ast2vec ist ein vortrainierter Autoencoder für Python-Programme. Das Modell wurde auf einer halben Million Anfängerprogrammen trainiert und ist für educational datamining-Anwendungen in der Informatiklehre gedacht. Referenzpapier
Faster Confidence Intervals for Item Response Theory via an Approximate Likelihood ist ein neuer Algorithmus, um Konfidenzintervalle füritem response theory-Modelle schneller zu berechnen. Referenzpapier
Sparse Factor Autoencoders for Item Response Theory ist ein neuer Faktoranalyse-Ansatz für Identifizierung latenter Skills, die beobachtete Testergebnisse erklären. Grundlage ist ein mehrdimensionales item response-Theory-Modell. Referenzpapier

Maschinelles Lernen auf strukturierten Daten

Recursive Tree Grammar Autoencoders sind rekursive neuronale Netze, die Baumdaten automatisch kodieren können, wenn eine Grammatik bekannt ist. Die Autoencoding-Fehlerrate und die Optimierungsleistung im latent space ist bei RTGAEs häufig besser als bei herkömmlichen Auto-Encodern. Referenzpapier
Graph Edit Networks sind graphenverarbeitende neuronale Netze, die zeitliche Änderungen modellieren können, indem sie Graph-Edits an jedem Knoten vorhersagen. Referenzpapier
Reservoir Stack Machines sind eine Erweiterung von Reservoir Memory Machines (siehe unten) mit einem Stack als Speicher. Dies erhöht die Rechenleistung für deterministische kontextfreie Grammatiken (über Chomsky-3, aber unter Chomsky-2). Referenzpapier
Reservoir Memory Machines sind eine Erweiterung von Echo State Networks mit einem expliziten Speicher. Dies ermöglicht es diesen Netzwerken, Rechenaufgaben wie das verlustfreie Kopieren von Daten zu lösen, die für standardmäßige rekurrente neuronale Netzwerke (auch tiefe) nur schwer oder gar nicht zu lösen sind. Diese Speichererweiterung erhöht auch die Rechenleistung von ESNs von unter Chomsky-3 auf über Chomsky-3. Referenzpapier
Tree Echo State Autoencoders sind ein Modell zur automatischen Kodierung von Baumdaten in Domänen, in denen eine Baumgrammatik bekannt ist. Da das Modell dem Echo-State-Framework folgt (insbesondere Baum-Echo-State-Netzwerke von Gallicchio und Micheli, 2013), ist es sehr effizient zu trainieren. Anhand einer Liste von Trainingsbäumen kann ein Autoencoder innerhalb von Sekunden eingerichtet werden. Referenzpapier
Ungeordnete Baum-Edit-Distanz bietet einen A*-Algorithmus zur Berechnung der NP-harten ungeordneten Baum-Edit-Distanz mit benutzerdefinierten Kosten. Referenzpapier
Adversarial Edit Attacks bietet einen Ansatz zum Angriff auf Klassifikatoren für Baumdaten mithilfe von Baum-Edits. Referenzpapier
Linear Supervised Transfer Learning bietet ein einfaches Schema zum Training einer Abbildung von einem Quellraum in einen Zielraum mit Hilfe von expectation maximization über ein Gaußsches Mischungs-Modell und sehr wenigen Datenpunkten im Zielraum. Referenzpapier

Maschinelles Lernen auf strukturierten Daten

edist implementiert eine Vielzahl von edit-Distanzen zwischen Sequenzen und Bäumen, einschließlich Backtracing und Metriklernen (Paaßen et al., 2018) in cython. Insbesondere enthält die Bibliothek Implementierungen für die Levenshtein-Distanz, dynamic time warping, die affine edit-Distanz und die Baum-edit-Distanz sowie weitere edit-Distanzen über algebraische dynamische Programmierung (Giegerich, Meyer und Steffen, 2004). Die Bibliothek ist auf pypi über "pip3 install edist" verfügbar (derzeit nur für Linux).
Recursive Tree Grammar Autoencoders sind rekursive neuronale Netze, die Baumdaten automatisch kodieren können, wenn eine Grammatik bekannt ist. Die Autoencoding-Fehlerrate und die Optimierungsleistung im latent space ist bei RTGAEs häufig besser als bei herkömmlichen Auto-Encodern. Referenzpapier
Graph Edit Networks sind graphenverarbeitende neuronale Netze, die zeitliche Änderungen modellieren können, indem sie Graph-Edits an jedem Knoten vorhersagen. Referenzpapier
Reservoir Stack Machines sind eine Erweiterung von Reservoir Memory Machines (siehe unten) mit einem Stack als Speicher. Dies erhöht die Rechenleistung für deterministische kontextfreie Grammatiken (über Chomsky-3, aber unter Chomsky-2). Referenzpapier
Reservoir Memory Machines sind eine Erweiterung von Echo State Networks mit einem expliziten Speicher. Dies ermöglicht es diesen Netzwerken, Rechenaufgaben wie das verlustfreie Kopieren von Daten zu lösen, die für standardmäßige rekurrente neuronale Netzwerke (auch tiefe) nur schwer oder gar nicht zu lösen sind. Diese Speichererweiterung erhöht auch die Rechenleistung von ESNs von unter Chomsky-3 auf über Chomsky-3. Referenzpapier
Tree Echo State Autoencoders sind ein Modell zur automatischen Kodierung von Baumdaten in Domänen, in denen eine Baumgrammatik bekannt ist. Da das Modell dem Echo-State-Framework folgt (insbesondere Baum-Echo-State-Netzwerke von Gallicchio und Micheli, 2013), ist es sehr effizient zu trainieren. Anhand einer Liste von Trainingsbäumen kann ein Autoencoder innerhalb von Sekunden eingerichtet werden. Referenzpapier
Ungeordnete Baum-Edit-Distanz bietet einen A*-Algorithmus zur Berechnung der NP-harten ungeordneten Baum-Edit-Distanz mit benutzerdefinierten Kosten. Referenzpapier
Adversarial Edit Attacks bietet einen Ansatz zum Angriff auf Klassifikatoren für Baumdaten mithilfe von Baum-Edits. Referenzpapier
Linear Supervised Transfer Learning bietet ein einfaches Schema zum Training einer Abbildung von einem Quellraum in einen Zielraum mit Hilfe von expectation maximization über ein Gaußsches Mischungs-Modell und sehr wenigen Datenpunkten im Zielraum. Referenzpapier