Im Jahr 1998 startete Google seine Suchmaschine, die zunächst Backrub hieß. Sie lief auf einem Stanford-Campus-Server mit 40 GB Daten und war in einem Gehäuse aus Duplo-Blöcken untergebracht. Ab 2025 erfordern die Suchfunktionen von Google mehrere Rechenzentren.

Ryan Pearce hat eine DIY-Suchmaschine namens Searcha Page erstellt, einschließlich einer datenschutzorientierten Version namens Seek Ninja. Der Server befindet sich in seiner Waschküche neben seiner Waschmaschine und seinem Trockner. Pearce erklärt: „Im Moment habe ich in der Waschküche mehr Speicherplatz als Google im Jahr 2000. Und das ist einfach verrückt, darüber nachzudenken.“

Der Server befand sich ursprünglich in Pearces Schlafzimmer, wurde aber wegen übermäßiger Hitze in den Hauswirtschaftsraum verlegt. „Die Hitze war nicht ganz so schlimm, aber wenn die Tür zu lange geschlossen bleibt, ist das ein Problem“, sagt er.

Die Ergebnisse von Searcha Page verbessern sich: Die Datenbank umfasst 2 Milliarden Einträge und wird voraussichtlich innerhalb von sechs Monaten 4 Milliarden erreichen. Im Vergleich dazu hatte Google im Jahr 1998 24 Millionen Seiten und im Jahr 2020 400 Milliarden, wie im Kartellverfahren zwischen den USA und Google LLC festgestellt wurde.

Die Engine von Pearce verwendet große Sprachmodelle zur Schlüsselworterweiterung und zum Kontextverständnis. „Was ich mache, ist eigentlich eine sehr traditionelle Suche“, sagt Pearce. „Das ist es, was Google wahrscheinlich vor 20 Jahren getan hat, mit der einzigen Änderung, dass ich KI verwende, um die Keyword-Erweiterung durchzuführen und beim Verständnis des Kontexts zu helfen, was das Schwierige ist.“

KI war ein wichtiger Bestandteil von Suchmaschinen, darunter Tools wie die umgekehrte Bildersuche, Googles RankBrain und Bings zu 90 % ML-gesteuerte Ergebnisse im Jahr 2019. KI wird heute als eine Möglichkeit gesehen, Suchmaschinen effizient zu erstellen und zu skalieren.

Pearce nutzt „Upgrade-Arbitrage“ und kauft alte, aber leistungsstarke Server-Hardware. Seine 32-Kern-AMD-EPYC-7532-CPU, die im Jahr 2020 über 3.000 US-Dollar kostete, kostet jetzt bei eBay weniger als 200 US-Dollar. „Ich hätte für den gleichen Preis einen anderen Chip bekommen können, der doppelt so viele Threads gehabt hätte, aber zu viel Wärme produziert hätte“, sagt er.

Das gesamte System kostete 5.000 US-Dollar, davon wurden 3.000 US-Dollar für die Speicherung ausgegeben. Die Codebasis von Pearce umfasst rund 150.000 Zeilen Code, davon schätzungsweise 500.000 Zeilen iterativer Arbeit.

Searcha Page und Seek Ninja nutzen SambaNova für schnellen Zugriff auf das Llama 3-Modell zu geringen Kosten. Annie SheaWeckesser, CMO von SambaNova, weist darauf hin, dass der Zugang zu kostengünstigen Modellen für Einzelentwickler wie Pearce immer wichtiger wird, und fügt hinzu, dass das Unternehmen „Entwicklern die Tools an die Hand gibt, mit denen sie leistungsstarke KI-Modelle schnell und kostengünstig betreiben können, unabhängig davon, ob sie von zu Hause aus arbeiten oder in der Produktion laufen.“

Pearce verwendet das Common Crawl-Repository, um seinen Crawler zu erstellen. „Ich schätze sie wirklich. Ich wünschte, ich könnte ihnen etwas zurückgeben, aber vielleicht, wenn ich größer bin“, sagt er.

Ein erster Versuch, eine Vektordatenbank zu verwenden, schlug fehl und führte zu „sehr künstlerischen“ Ergebnissen. Pearce verwendet jetzt LLM-generierte Seitenzusammenfassungen. Wilson Lin, ein weiterer DIY-Suchmaschinenentwickler, nutzt ein selbst erstelltes Vektorsuchtool namens CoreNN und verlässt sich auf neun separate Cloud-Dienste, um die Kosten niedrig zu halten. „Es ist viel günstiger als [Amazon Web Services] – eine beträchtliche Menge“, sagt Lin. „Und es gibt mir genug Kapazität, um dieses Projekt mit einem vernünftigen Budget voranzubringen.“

Pearce stellte sich ursprünglich eine Suchmaschine für kleine Websites ähnlich wie Marginalia vor, die kleine Websites gegenüber Big Tech bevorzugt. „Jemand aus China hat sich tatsächlich an mich gewandt, weil … ich glaube, er wollte eine unzensierte Suchmaschine, die er wie die Suche seines Agenten über sein LLM einspeisen wollte“, sagt er.

Eine Erweiterung über Englisch hinaus würde neue Datensätze erfordern. Pearce plant, die Suchmaschine in eine Colocation-Einrichtung zu verlegen, sobald der Traffic einen bestimmten Schwellenwert erreicht und durch Affiliate-Werbung bescheidene Einnahmen generiert.

„Mein Plan ist, dass ich gehostet werde, wenn ich eine bestimmte Traffic-Menge überschreite“, sagt Pearce. „Es wird nicht ewig in dieser Waschküche bleiben.“

Bewerbungsschluss für die Fast Company’s Most Innovative Companies Awards ist Freitag, 3. Oktober, 23:59 Uhr. PT.