EXCITE - Extraction of Citations from PDF Documents

Laufzeit: 01.09.2016 - 31.05.2019

Partner: GESIS - Leibniz-Institut für Sozialwissenschaften Abteilung Wissenstechnologien für Sozialwissenschaften (WTS) Dr. Philipp Mayr

Förderung durch: DFG - Deutsche Forschungsgemeinschaft

Projektmittel (€): 172.600,00

Kurzfassung

Der Mangel an Zitationsdaten in den internationalen und insbesondere den deutschsprachigen Sozialwissenschaften ist bei Wissenschaftler gut bekannt und oft in akademischen Studien untersucht worden. Zitationsdaten sind u.a. der Ausgangspunkt effektiver Informationssuche, Empfehlungsdiensten und Wissensentdeckungsprozessen. Die Zugänglichkeit von Informationen in den Sozialwissenschaften liegt deutlich hinter anderen Disziplinen (z.B. den Naturwissenschaften) in denen grundsätzlich mehr...Der Mangel an Zitationsdaten in den internationalen und insbesondere den deutschsprachigen Sozialwissenschaften ist bei Wissenschaftler gut bekannt und oft in akademischen Studien untersucht worden. Zitationsdaten sind u.a. der Ausgangspunkt effektiver Informationssuche, Empfehlungsdiensten und Wissensentdeckungsprozessen. Die Zugänglichkeit von Informationen in den Sozialwissenschaften liegt deutlich hinter anderen Disziplinen (z.B. den Naturwissenschaften) in denen grundsätzlich mehr Zitationsdaten verfügbar sind. Das EXCITE Projekt versucht diese Lücke zu schließen, indem eine Tool-Kette von Softwarekomponenten zur Referenzextraktion entwickelt wird, die auf bestehende wissenschaftliche Datenbanken (insb. Volltexte in den der Sozialwissenschaften) angewendet wird. Die Tools werden anschließend anderen Forschern zur Verfügung gestellt. Das Projekt wird eine Reihe von Algorithmen zur Extraktion von Referenzen und Zitationen aus PDF Volltexten entwickeln und das Matchen der Referenzstrings auf bibliographische Datenbanken verbessern. Die Extraktion von Zitationen wird als ein Fünf-Schritt-Prozess umgesetzt: 1) Extraktion von Text aus den Quelldokumenten, 2) Identifikation von Referenzabschnitten im Text, 3) Segmentierung individueller Referenzen in Felder wie Autor, Titel, etc. 4) Matching von Referenzstrings in bibliographischen Nachweissystemen und 5) Export der gematchten Referenzen in nachnutzbare Formate und Services. Besonderes Augenmerk wird auf die Optimierung der Einzelkomponenten des Prozesses zu Zitationsextraktion gelegt. Dies soll mit Hilfe von Machine Learning Methoden geschehen, die die Datenqualität der extrahierten Daten in den Einzelkomponenten kontrollieren. Die extrahierten Zitationsdaten werden anschließend in bestehende Nachweissysteme der Antragsteller (Sowiport and related-work.net) integriert und als linked open data unter freien Lizenzen zur Nachnutzung publiziert. Die entwickelte Software im Projekt wird zudem als WebService API und Open Source verfügbar gemacht.» weiterlesen » einklappen

Starten Sie Ihre Suche...

EXCITE - Extraction of Citations from PDF Documents

Kurzfassung

Beteiligte Einrichtungen