29. Januar 2018

PatentConsolidator – Herausforderungen bei der Homogenisierung von Patentdaten

Seit Juli 2016 fördert das Bundesministerium für Wirtschaft und Energie die Juniorprofessur für Wirtschaftsinformatik und die InTraCoM, um ein Tool zur automatisierten Erstellung von Patentportfolios – den PatentConsolidator – zu entwickeln.

Primäres Ziel ist die Identifikation und Zusammenführung mehrfacher Entitäten in Patentdaten. Dabei sollen redundante Firmen- und Personeninformationen, welche als Erfinder und Anmelder in Patentschriften hinterlegt sind, auf eine kanonische Form gebracht werden. In den Patentdaten des Europäischen Patentamtes sind über 48 Millionen Einträge zu Anmeldern und Erfindern enthalten. Zusätzlich sind noch weitere Informationen über Namen (Unternehmensname oder Vor-/Nachnamen, gegebenenfalls ergänzt um Titel und Zweitnamen) und in 31% der Fälle Adressinformationen hinterlegt. Im ersten Jahr des Projektes wurde das sogenannte Kaskadenmodell konzipiert, welches Verfahren vereint, die durch eine regelbasierte, syntaktische Angleichung (Normalisierung von Namen/Rechtsformen, Aufbereitung von Adressen) das Aufspüren von Duplikaten ermöglichen. Zuerst wurden veraltete Informationen bei den Patenten bereinigt. Dabei lag ein besonderer Fokus auf sogenannten Patentfamilien. Darunter werden Gruppen von Patenten zusammengefasst, die auf dieselbe Erstanmeldung zurückgehen. Hierfür werden Eigentümerwechsel rückwirkend korrigiert, indem allen Patenten einer Familie jeweils der Anmelder und die Erfinderinformationen der neuesten Einreichung zugeordnet werden.

Anschließend werden Attributzuordnungen korrigiert, wenn ein Unternehmensname ebenfalls im Namen des Erfinders vorkommt (z. B. „Fischer, Thomas, Lucent Technologies Inc.“) oder Adressinformationen fälschlicherweise im Namensattribut aufgeführt werden. Danach werden die Namens- und Adressattribute normalisiert. Dabei werden syntaktische Normalisierungen des Namensattributs durch Löschung oder Normalisierung von unerwünschten Zeichen und bei Unternehmensnamen durch eine Anpassung der Rechtsformen durchgeführt. Aber auch Adressangaben, die dieselbe Anschrift meinen, können unterschiedlich verschriftlicht werden. „Zur Veranschaulichung eines dieser Prob­leme eignet sich beispielsweise die Adresse der Universität Paderborn. So kann die Straße als „Warburger Str.“ oder „Warburger Straße“ in einer Adressangabe ausbuchstabiert werden. Im Zuge der Adressnormalisierung werden nun diese unstrukturierten Adressinformationen segmentiert sowie die verschiedenen Schreibweisen auf ein kanonisches Format normalisiert“, erläutert Juniorprofessorin Michaela Geierhos. Durch die auf syntaktischen Angleichungen basierenden Methoden können Duplikate aufgespürt werden, welche hier als Synonym- und Homonymkandidaten (S&H) bezeichnet werden. „Wir bezeichnen S&H-Kandidaten als direkte Kandidaten, wenn nach der Anwendung des Kaskadenmodells die Informationen über den Namen und die Adresse übereinstimmen sowie die angegebenen Informationen vollständig und von ausreichender Qualität sind, wohingegen indirekte Kandidaten solche Fälle betreffen, bei denen keine vollständige Übereinstimmung gegeben oder die Informationsgüte unzureichend ist“, führt Markus Dollmann, Entwickler des PatentConsolidators, aus.

Solche Fälle können aufgrund von Rechtschreibfehlern oder unvollständiger Einträge durchaus vorkommen. Indirekte S&H-Kandidaten lassen sich zumeist nur durch die Hinzunahme weiteren semantischen Wissens zuverlässig disambiguieren, was Ziel des zweiten Projektjahres ist. Dabei werden unter anderem Co-Autoren-Netzwerke oder Mitarbeiter-Arbeitgeber-Relationen untersucht. Zusätzlich soll ein Klassifikator herangezogen werden, welcher bei indirekten S&H-Kandidaten, zwischen denen keine semantischen Relationen identifiziert werden konnten, die Frage beantwortet, wann zwei Einträge auch trotz syntaktischer Unterschiede oder unvollständiger Informationen synonym sind.

zurück zur Übersicht