TechBriefly DE
  • Tech
  • Business
  • Science
  • How to
  • ABOUT
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
  • Articles
No Result
View All Result
TechBriefly DE
No Result
View All Result
Home Tech
AI -Entwicklern haben keine Daten mehr. Wo können sie mehr bekommen?

AI -Entwicklern haben keine Daten mehr. Wo können sie mehr bekommen?

byTB Editor
11/02/2025
in Tech
Reading Time: 6 mins read
Share on FacebookShare on Twitter

OpenAI löste im November 2022 eine technologische Revolution mit dem Debüt von ChatGPT aus, und Millionen von erstaunlichen Nutzern weltweit waren erstaunt über die Fähigkeit seines legendären Chatbots, sich auf menschlichähnliche Gespräche über jedes Thema zu führen, das sie sich ausdenken konnten.

Es startete eine Begeisterung für KI, die von Tag zu Tag mehr manisch geworden ist, wobei jedes Technologieunternehmen sein Salz wert ist, um mit ihren eigenen generativen KI -Modellen auf die Handlung zu kommen. Wir haben schnell eine Antwort von Google und Meta mit ihren Gemini- und Lama -Großsprachenmodellen gesehen, und Microsoft, das bereits eng mit OpenAI verbunden ist, hat auch seine eigenen Modelle aufgebaut.

Hinzu kommt, dass die Moderatorin von KI-Startups von anthropisch über die AI21-Labors und jetzt Deepseek reichen, und es ist klar der Nachfrage nach KI-Tools der nächsten Generation.

KI-Modelle werden mit riesigen Datenmengen geschult und gebaut, und sie benötigen immer größere Mengen davon, um sich zu verbessern. Um diese Daten zu erhalten, gehen die meisten KI -Entwickler auf die offensichtlichste Quelle des öffentlichen Internets, wo sie massive Informationen frei kratzen.

Krabbeln und Kratzen

Eine Sache, die die meisten Menschen nicht erkennen, ist, dass es keinen einfachen Ort gibt, an dem Sie einfach „das Internet herunterladen“ können. AI -Entwickler sind also auf Tools, die als „Webcrawler“ bezeichnet werden, die das World Wide Web durchsuchen und von Link zum Link wechseln, da sie alle Informationen in einer Datenbank indexieren. Dann verwenden sie “Web Scrapers”, die diese Datenbank durchlaufen und alle Informationen herunterladen, an die sie führen.

Unternehmen mit immensen Ressourcen wie Google und Microsoft besitzen das Geld und das Know -how, um diese Webcrawler und Scraper selbst zu erstellen, und diese Fähigkeiten verleihen ihnen wahrscheinlich einen Vorteil gegenüber Rivalen, die dies nicht können. Für den Rest wenden sie sich tendenziell an vorhandene Ressourcen wie Common Crawl, einer gemeinnützigen Organisation, die das Web kriecht und es herunterlädt, die Informationen in eine massive Open-Source-Datenbank zusammenstellen, die alle paar Monate aktualisiert wird. Eine andere Ressource ist das große Netzwerk für künstliche Intelligenz, das als Laion bekannt ist und die von Links zu Bildern im Internet findet, und alle mit ihnen veröffentlichten Bildunterschriften.

Darüber hinaus gibt es andere gemeinnützige Organisationen, die ein Interesse an der Förderung der Entwicklung von KI haben, wie das Allen Institute for AI. Es wird offene Datensätze für großsprachige Modellentwickler wie die Dolma -Datenbank zusammengestellt, die mehr als drei Billionen Token aus verschiedenen Webseiten, Büchern, Codebasen, akademischen Papieren und Enzyklopädien enthält, die online gefunden wurden.

Inhaltsersteller schieben zurück

Diese Datenbanken werden alle von Webcrawlern und Scrapers erstellt, aber es gibt viel Kontroversen über diese allgemeine Praxis, da sie Fragen zur Genauigkeit und Zuverlässigkeit der mit diesen Informationen trainierten Modelle aufwirft. Schließlich gibt es viele Junk -Informationen und Gerüchte und Hearsay online gepostet. Natürlich hat es auch zu Streitigkeiten bezüglich des Urheberrechts geführt, wobei viele Inhaltsersteller argumentieren, dass sie entschädigt werden sollten, da AI als Bedrohung für ihren Lebensunterhalt wahrgenommen wird.

Einige Unternehmen haben versucht, dies zu umgehen, indem sie für den Zugriff auf Daten zahlen. Zum Beispiel hat sich OpenAI mit Nachrichtenorganisationen wie Axel Springer und dem Internet Forum Reddit abgefunden, die für den Zugriff auf ihre Inhalte bezahlt haben. Andere, wie Meta, verwenden ihre eigenen Daten, wie die Millionen öffentlicher Beiträge auf Facebook und Instagram, um ihre Modelle zu schulen. Elon Musk, der Eigentümer von X, sagt, sein Unternehmen tut dasselbe, um seine Grok -Familie von LLMs auszubilden. Amazon hat erklärt, dass es Sprachdaten von Kunden verwenden wird, die sich mit seinem digitalen Assistenten Alexa unterhalten.

KI -Entwicklern haben keine Daten mehr, wo sie mehr bekommen können
(Bildnachweis)

Diese Praktiken sind jedoch auch nicht so beliebt, da viele Social -Media -Nutzer mit der Idee, dass ihre Beiträge und Kommentare zum Ausbilden von KI -Modellen verwendet werden.

Es gab eine Menge Pushbacks, aber KI-Entwickler können ihren Durst nach immer mehr Daten nicht stillen, da es das Lebenselixier ihrer Algorithmen ist. Daher gibt es Fragen, wo sie die Informationen erhalten können, die sie benötigen, um innovative neue KI -Anwendungen zu erstellen.

Die Synthese von Daten kann eine Lösung sein

Eine mögliche Lösung für diese Frage könnte „synthetische Daten“ sein, nämlich Informationen, die von Maschinen künstlich generiert werden, die zuerst enorme Mengen realer Daten verbrauchen.

Wenn Sie zunächst über viele reale Daten verfügen, können Sie so viel synthetische Informationen basierend darauf erstellen, wie Sie es jemals benötigen, aber es gibt Fragen zur Qualität dieser künstlichen Informationen. Schließlich stammt alles aus realen Daten, die von Menschen hergestellt wurden, und wenn diese Quelldaten ungenau oder voreingenommen sind, werden die resultierenden synthetischen Informationen diese Probleme wahrscheinlich vergrößern.

Infolgedessen werden die synthetischeren Informationen, die zur Ausbiegung von KI -Modellen verwendet werden, umso schlechter ihre Vorurteile und Ungenauigkeiten, was zu mehr „Halluzinationen“ führt, was sich auf Fälle bezieht, in denen KI Fehler macht oder einfach nur Fakten aus dünner Luft erzeugt.

Wenn synthetische Daten zu einer praktikablen Lösung für die steigende Nachfrage nach Schulungsdatensätzen werden sollen, müssen sie sicherstellen, dass sie eine Grundlinie der Qualitätsstandards erfüllt, was nur möglich ist, wenn eine Art menschliche Eingabe verbleibt.

Steigern Sie die Datenqualität mit dem Wettbewerb

Hier Bruch Ai könnte etwas bewirken. Es ist der Schöpfer eines einzigartigen, blockchainbasierten Protokolls, das die Aufgabe der Generierung von synthetischen Daten in einen Wettbewerb verwandelt hat, bei dem menschliche Entwickler KI-Agenten erstellen, die um neue Datensätze konkurrieren. Durch die Schaffung eines erfolgreichen KI -Agenten, der sich in der Erstellung synthetischer Daten auszeichnet, können die Entwickler erhebliche Belohnungen für ihre Teilnahme verdienen.

Die Fraktion AI veranstaltet regelmäßige Wettbewerbe zwischen KI -Agenten, die gemäß den spezifischen Anforderungen um die genauesten und zuverlässigsten Datensätze erstellen. Sie zahlen eine Gebühr in der Kryptowährung, um an diesen Wettbewerben teilzunehmen, aber nur die besten Performer werden belohnt und drängen Entwickler, bessere AI -Agenten zu schaffen.

Bauherren können diese Agenten ohne Codierungsfähigkeiten erstellen, indem sie einfach Eingabeaufforderungen eingeben. Dieser Ansatz stellt sicher, dass er für jeden zugänglich ist.

Darüber hinaus stützt sich Fraktion AI auch auf „Stakers“, die ETH -Kryptowährungs -Token einsetzen, um das Netzwerk zu sichern. Auch sie verdienen dafür, dass sie dies tun, durch eine Kombination aus einem Anteil der Wettbewerbsgebühren, Protokollgebühren und jeglichen Einnahmen, die aus der Lizenzierung seiner synthetischen Datensätze zurückzuführen sind.

Das geniale Ding an Fraction AI ist, dass es einen völlig neuen Ansatz zur Datenkennzeichnung einführt, der sicherstellen sollte, dass sie viel bessere synthetische Informationen erzeugt. Traditionell wurde die Datenkennzeichnung entweder nur von Menschen durchgeführt, was genau, aber viel zu langsam ist, oder von KI -Modellen, die viel schneller, aber weniger genau sind.

Mit Fraction AI können Menschen den Agenten sagen, wie sie Daten kennzeichnen sollten, damit diese Agenten dies in viel höheren Skalen genauer tun können. Es ist ein Ansatz, der die Vorteile beider Methoden kombiniert und für alle drei Teilnehmer des Ökosystems einen Wert bietet.

Die Bauherren oder Schöpfer der KI -Agenten werden für die Schaffung effektiverer Agenten belohnt, was eine bessere Qualitätsdaten gewährleistet. Da nur die besten Agenten belohnt werden, sind diejenigen, deren Agenten verlieren, gezwungen, ihre Agenten zu verbessern, damit sie beginnen können, verdienen. Stakers erhalten die Möglichkeit, eine regelmäßige Rendite für ihre Investitionen zu erzielen und gleichzeitig die Erstellung weiterer Schulungsdaten zu unterstützen. Schließlich profitieren KI-Entwickler von einem kontinuierlichen Strom neuer, hochwertiger synthetischer Daten, mit denen fähigere KI-Modelle trainieren können.

Das Bedürfnis nach Menschen in der Schleife

Es ist ein neuartiger Ansatz, der zeigt, dass er ein echtes Potenzial hat. Die Fraktion AI hat bereits die Fähigkeit demonstriert, ein kleines multimodales LLM zu optimieren, damit es zu einem Bruchteil der Kosten dieses größeren Modells mit OpenAIs GPT-4 abhängt.

Das Protokoll zeigt, wie wichtig es ist, sicherzustellen, dass Menschen während des Erstellungsprozesses für synthetische Daten in der Schleife bleiben. Menschen sind einer der Hauptgründe für den frühen Erfolg von Chatgpt. Während seiner Entwicklung stellte Openai Hunderte von Arbeitern ein, um mit einer frühen Version von ChatGPT zu experimentieren und Feedback zu geben, die dann zur Verbesserung seiner Leistung verwendet wurde. Dies hatte letztendlich einen transformativen Einfluss auf die Qualität der Antworten des Chatbots und löste das verrückte Scramble für KI aus, das heute existiert.

Wenn KI -Modelle allgegenwärtiger und anspruchsvoller werden, geht der Welt schnell die zuverlässigen Daten aus. Synthetische Daten, die mit Menschen in der Schleife erstellt wurden, haben sich als die praktikabelsten Lösungen für dieses Problem herausgestellt, und ihre Bedeutung für die KI -Branche wird weiter wachsen.


Ausgewähltes Bildnachweis: Maxim Berg/Unplash

Die Post -AI -Entwickler haben keine Daten mehr. Wo können sie mehr bekommen? erschien zuerst auf Techbriefly.

Source: AI -Entwicklern haben keine Daten mehr. Wo können sie mehr bekommen?

TB Editor

TB Editor

Related Posts

ASUS stellt die RTX 5070 Ti-Produktion aufgrund eines schwerwiegenden Engpasses bei der Speicherversorgung ein

ASUS stellt die RTX 5070 Ti-Produktion aufgrund eines schwerwiegenden Engpasses bei der Speicherversorgung ein

Eine Anleitung zum Anzeigen des Berechnungsverlaufs unter iOS 18

Eine Anleitung zum Anzeigen des Berechnungsverlaufs unter iOS 18

So überprüfen Sie, ob jemand Ihre Nachricht auf dem iPhone oder iPad gelesen hat

So überprüfen Sie, ob jemand Ihre Nachricht auf dem iPhone oder iPad gelesen hat

Netflix sichert sich die First-to-Stream-Rechte für Sony Pictures

Netflix sichert sich die First-to-Stream-Rechte für Sony Pictures

ASUS stellt die RTX 5070 Ti-Produktion aufgrund eines schwerwiegenden Engpasses bei der Speicherversorgung ein
Tech

ASUS stellt die RTX 5070 Ti-Produktion aufgrund eines schwerwiegenden Engpasses bei der Speicherversorgung ein

Eine Anleitung zum Anzeigen des Berechnungsverlaufs unter iOS 18
Tech

Eine Anleitung zum Anzeigen des Berechnungsverlaufs unter iOS 18

So überprüfen Sie, ob jemand Ihre Nachricht auf dem iPhone oder iPad gelesen hat
Tech

So überprüfen Sie, ob jemand Ihre Nachricht auf dem iPhone oder iPad gelesen hat

Netflix sichert sich die First-to-Stream-Rechte für Sony Pictures
Tech

Netflix sichert sich die First-to-Stream-Rechte für Sony Pictures

Samsung führt Instant-Play-Cloud-Streaming im Mobile Gaming Hub-Update ein
Tech

Samsung führt Instant-Play-Cloud-Streaming im Mobile Gaming Hub-Update ein

TechBriefly DE

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • gp-home
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Science
  • How to
  • ABOUT
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.