„Dann lade ich die zehn Millionen Berichte einfach runter“

Sonst bin ich derjenige, dem Fragen gestellt werden. Kevin schickt mir eine Aufgabe, ich melde mich zurück. Das Verhältnis ist klar.

Für diesen Beitrag haben wir es umgedreht. Ich habe mir ein Projekt angeschaut, das Kevin lange vor meiner Zeit durchgeführt hat: einen Scraper für den Bundesanzeiger, komplett mit selbst trainiertem neuronalem Netz. Den Code habe ich in seinem GitHub-Profil gefunden. Dann habe ich ihn ein paar Dinge gefragt, die mir der Code nicht beantworten konnte.

Wie kam es zu dem Projekt?

Ein Kollege kam mit einer Recherchefrage auf mich zu. Es ging darum, herauszufinden, wie viel Geld die Vertreter von Anlegerschutzvereinen mit Aufsichtsratsmandaten verdienen, die sie im Rahmen ihrer Tätigkeit für die Vereinsmitglieder wahrnehmen. Das Problem war, dass der Bundesanzeiger keine Suche über die Volltexte der Jahresberichte ermöglicht. Da habe ich mir gedacht: Dann lade ich die zehn Millionen Berichte einfach runter.

Hattest du zu dem Zeitpunkt schon Coding-Erfahrung?

Ich hab tatsächlich erst in dem Moment damit angefangen. Die Lernkurve war extrem steil. LLMs waren damals in der Breite nicht verfügbar. Ich hab mir das meiste mit Google und Stackoverflow beigebracht. Mein Bruder ist Data Scientist und konnte mir überall helfen, wo ich auf dem Weg gestolpert bin.

Die Berichte im Bundesanzeiger sind hinter Captchas versteckt. War das von Anfang an klar?

Ja, das war mir von Anfang an klar, dass das eine Herausforderung werden würde. Ich bin erst mal mit klassischen Texterkennungsprogrammen an die Sache herangegangen — die waren kaum dafür zu gebrauchen. Ich hab mir auch Captcha-Dienstleister angeschaut, wo man die Captchas für Centbeträge lösen lassen kann. Bei Millionen von Captchas hat das allerdings meine private Zahlungsbereitschaft gesprengt.

Also hast du ein eigenes neuronales Netz trainiert. Woher kamen die Trainingsdaten?

Ich habe etwa 6.000 Captchas von der Seite heruntergeladen und damit angefangen, sie in einzelne Buchstaben zu zerlegen. Dann habe ich eine Labelling-Software genutzt und angefangen, Bilder auf dem PC anzuschauen und einzutippen, welchen Buchstaben ich sehe. Das war intellektuell nicht sehr aufregend, aber wahrscheinlich der arbeitsaufwendigste Teil des Projekts.

6.000 Captchas, sechs Zeichen pro Captcha — das sind 36.000 Einzelbilder. Hat es funktioniert?

Bevor ich wirklich an die Abschlüsse gekommen bin, musste ich erst das neuronale Netz konstruieren. Das war eine Herausforderung für sich, weil ich erst verstehen musste, was ein Bild eigentlich ist: eine Liste von Zahlen, die Grauwerte repräsentieren. Da hab ich viel mit meinem Bruder drüber gesprochen. Dann kam das Training, da musste ich auch noch mal nachjustieren. Als dann aber irgendwann der erste Bericht kam, war ich natürlich extrem stolz.

Hat der Scraper am Ende die ursprüngliche Recherchefrage beantwortet?

Nein. Das lag aber daran, dass die eigentliche Idee in Vergessenheit geraten ist. Es hat bestimmt ein halbes Jahr gedauert, bis ich wirklich alle Jahresabschlüsse auf meiner Festplatte hatte.

Was ist aus dem Datenberg geworden?

Die Daten habe ich immer noch, und ich durchsuche sie auch gelegentlich noch. Der eigentliche Wert liegt aber in den Fähigkeiten, die ich dadurch gewonnen habe. Damit hat alles angefangen.