AI macht Programmierende langsamer

Warf · Beitrag von **Warf** » Di 22. Jul 2025, 19:38

Stevie hat geschrieben: Di 22. Jul 2025, 16:42 ... zumindest ist man sich nicht ganz so einig unter den Experten, was die Mächtigkeit von LLMs hinsichtlich der Fähigkeit zu logischen Schlüssen angeht: https://arxiv.org/pdf/2406.02061

LLMs haben ganz klar ihre limits, vermutlich das Interessanteste Forschungsergebnis der letzten Zeit dazu ist das von Apple: https://arxiv.org/pdf/2410.05229?

Die Benchmarks von OpenAI und co sind sehr optimistisch gewählt, denn sie wollen ja auch was verkaufen. Dennoch selbst wenn man sich den Drop in Accuracy bei den Fragen anschaut und der mit 10%+ sehr groß erscheint, sind die meisten Modernen Modelle dennoch bei 60%+ Accuracy. Also ja LLMs sind besser bei bekannteren Aufgabestellungen, und bei anpassungen der Parameter performen sie schlechter. Sie performen aber immernoch ziemlich gut.

Beitrag von **m.fuchs** » Do 24. Jul 2025, 10:58

Warf hat geschrieben: Di 22. Jul 2025, 15:47 Deshalb mein verweis auf die Emerging Properties, was ein Fachbegriff aus der Literatur ist. Das beschreibt Eigenschaften die man bei dem system beobachten kann obwohl das system nie drauf trainiert wurde.

Emerging Properties ist die nette Hoffnung, dass da irgendwie, irgendetwas Größeres entstehen kann. Die ganzen Ideen wie sich aus statistischer Textanalyse & -Generierung plötzlich eine Intelligenz erhebt -- es klingt sehr nach Magie. Würde ich heute noch einmal meinen Vortrag "Religion und IT" halten, dann hätte ich da noch ein schönes Themenfeld dazubekommen.

Warf · Beitrag von **Warf** » Do 24. Jul 2025, 11:59

Emerging Properties ist keine hoffnung, es ein Fachbegriff aus der Forschung der das messbare Phänomen beschreibt wenn ein system andere Eigenschaften zeigt als das wofür es eigentlich entwickelt wurde.

Der begriff hat sich etabliert weil man dinge gemessen hat, also objektiv beobachten konnte die man durch die reine statistik nicht erklären kann.
Als Beispiel, die große Neuerung bei chatGPT gegenüber standard CPT war das für im Grunde GPT als basis verwendet wurde und dann menschen zum interagieren vorgelegt wurde und das feedback der menschen als input für das training genommen wurde.

Das letzte training war ausschließlich auf englisch, linguistisch würde man also davon ausgehen das es grammatikalisch lernen sollte wie englische Sprecher sprechen. Das überraschende Ergebnis war aber das chat GPT auch auf koreanisch und chinesisch viel besser performed hat als normales GPT.
Linguistisch macht das nicht viel Sinn weil wenn man rein von Grammatik und wortprövalenz ausgeht die sprachen linguistisch zu unterschiedlich ist um es rein darüber zu erklären das es gelernt hat welche Worte statistisch in Gesprächen mehr aufkamen. Stattdessen hat das "chat" training etwas fundamentales trainiert was sich auf menschliche Kommunikation anwenden lässt und wie menschen damit interagieren. Es hat also in gewisser weise unterliegende Bedeutung gelernt.

Das ist eine emerging property, es ist etwas worauf das system nie trainiert wurde, wo der rein statistische "Wahrscheinlichkeit des nächsten Wortes" Ansatz alleine keine Erklärung bietet, das aber objektiv messbar ist.

Logik ist ein weiterer solcher fall. Wenn du in das apple paper oben schaust siehst du das selbst bei varation von Parametern, Modelle wie GPT 4o 80+% accuracy haben. Das sind aufgaben die nie im trainingsset vorkamen, die man also rein statistisch nicht direkt erklären kann, die aber objektiv messbar sind

Beitrag von **m.fuchs** » Do 24. Jul 2025, 12:27

Warf hat geschrieben: Do 24. Jul 2025, 11:59 Es hat also in gewisser weise unterliegende Bedeutung gelernt.
[...]
Das ist eine emerging property, es ist etwas worauf das system nie trainiert wurde, wo der rein statistische "Wahrscheinlichkeit des nächsten Wortes" Ansatz alleine keine Erklärung bietet, das aber objektiv messbar ist.

Nein, da wurden keine Bedeutungen gelernt, weil so etwas mit LLM überhaupt nicht machbar ist. Objektiv messbar ist da übrigens gar nichts, die Dinger sind nämlich nicht deterministisch.

Warf hat geschrieben: Do 24. Jul 2025, 11:59 Logik ist ein weiterer solcher fall. Wenn du in das apple paper oben schaust siehst du das selbst bei varation von Parametern, Modelle wie GPT 4o 80+% accuracy haben.

Das ist dann immer noch keine Logik. Wenn Logik nicht in 100% der Fälle funktioniert, ist es Raten. Und mehr machen diese Modell nicht.

Warf · Beitrag von **Warf** » Do 24. Jul 2025, 20:15

m.fuchs hat geschrieben: Do 24. Jul 2025, 12:27 Objektiv messbar ist da übrigens gar nichts, die Dinger sind nämlich nicht deterministisch.

Nicht Deterministisch heißt nicht nicht messbar. Der Zentrale Grenzwertsatz besagt das das Akkumulat von unabhängigen messwerten aus der selben Verteilung eine Gausskurve darstellt.
D.h. selbst wenn die unterliegende Verteilung unbekannt ist, kann man die Parameter dieser Verteilung (Mittelwert, Standardabweichung, etc.) berechnen.

D.h. nehmen wir einen Fairen Würfel, und ich will messen wie gut dieser Würfel darin ist die Rechenaufgabe 1+2 zu lösen. Also werf ich ihn eine Millionen mal, und berechne den Anteil der Würfe die das richtige Ergebnis werfen. Dieser anteil ist die Summe der würfe mit richtigem Ergebnis, was ein Akkumulat ist, geteilt durch die Anzahl der Würfe, eine Konstante. Damit gilt der Zentrale Grenzwertsatz und kann dir mit einer extrem hohen konfidenz sagen das die Wahrscheinlichkeit ungefähr 1/6 ist.

Das alles ist 100% objektiv messbar und berechenbar. Es sind objektive experimente die zwar eine Zufällige Komponente haben (den Würfel), aber dennoch ist das Ergebnis auf grund der Statistischen Eigenschaften von Akkumulaten, berechenbar.

So funktioniert übrigens JEDE Wissenschaft. In der realen Welt sind so ziemlich alle Sachverhalte so komplex das man von Nichtdeterminusmus ausgehen muss. Daher werden Studien immer mit Statstischer Auswertung und Konfidenzintervallen angegeben.
Wenn man nicht Determinismus nicht Objektiv messen könnte gäb es keine Physik, Chemie, Biologie, Medizin, keine Autos keine Medikamente, der Rechner vor dem du sitzt funktioniert nur weil leute nicht deterministische Ereignisse objektiv gemessen und statistisch ausgewertet haben.

m.fuchs hat geschrieben: Do 24. Jul 2025, 12:27 Das ist dann immer noch keine Logik. Wenn Logik nicht in 100% der Fälle funktioniert, ist es Raten. Und mehr machen diese Modell nicht.

Es gibt in der Informatik ein ganzes Teilgebiet das sich Probabilistische Algorithmen nennt, bei dem man Zufallswerte verwendet um zu "raten" und damit nicht effizient Lösbare Probleme effizient zu lösen.

Die Website die du grade benutzt, nutzt für die Transportverschlüsselung einen 2048 bit RSA key. Um diesen zu generieren müssen Primzahlen generiert werden. Primzahlentests sind allerdings extrem rechenaufwendig, weshalb der Miller Rabin Test angewendet wird um zu überprüfen ob eine Zahl eine Primzahl ist. Der Miller Rabin Test ist ein Probabilistischer Algorithmus, der auch auf raten basiert. Trotzdem ist das sicher genug das wir ihm unsere Bankinformationen anvertrauen.

Nur weil etwas nicht 100% Korrekt ist heißt es nicht das es das unterliegende Problem nicht lösen kann. Der Miller Rabin Test ist ein Primzahltest, auch wenn er nicht zu 100% Akkurat ist

Beitrag von **m.fuchs** » Do 24. Jul 2025, 21:43

Warf hat geschrieben: Do 24. Jul 2025, 20:15 D.h. nehmen wir einen Fairen Würfel, und ich will messen wie gut dieser Würfel darin ist die Rechenaufgabe 1+2 zu lösen.

Oh mein Gott, wenn das bei dir noch unter Wissenschaft subsummiert wird können wir die Diskussion an dieser Stelle beenden. Ich kann dir aus der Definition eines Würfel sagen wie gut er darin ist die Rechenaufgabe 1+2 zu lösen: gar nicht. Das kann ein Würfel nicht, niemals. Wenn du da jetzt krasse "Berechnungen" machst, bei denen irgendwelche Werte herauskommen, dann hast du NICHTS, aber auch GAR NICHTS von Mathematik verstanden. Das ist dann nur noch Cargo-Kult-Wissenschaft.

In diesem Sinne viel Spaß in deiner Scheinwelt.

Warf · Beitrag von **Warf** » Do 24. Jul 2025, 22:56

m.fuchs hat geschrieben: Do 24. Jul 2025, 21:43 Oh mein Gott, wenn das bei dir noch unter Wissenschaft subsummiert wird können wir die Diskussion an dieser Stelle beenden. Ich kann dir aus der Definition eines Würfel sagen wie gut er darin ist die Rechenaufgabe 1+2 zu lösen: gar nicht.

Das nennt sich analogie, denn ich hab mir bei meinem Post etwas gedacht und hab mit einem extrem einfachen Beispiel angefangen was jedes Kind versteht, wie man auch aus Zufälligen Ereignissen Objektiv Informationen gewinnen kann. Ich gehe einfach davon aus das du nicht weiter gelesen hast, sonst hättest du den Abschnitt zum Miller Rabin Test gelesen. Der Miller Rabin Test ist ein Probabilistischer Algorithmus. Du ziehst eine Zufallszahl und machst einen Test damit, wenn der Test stimmt weißt du mit Wahrscheinlichkeit p das es sich um eine Primzahl handelt, bzw. eine Fehlerquote von 1-p. Wenn du jetzt den selben Test wiederholst mit einer neuen Zufallszahl ist die Wahrscheinlichkeit des neuen tests wieder p, die Wahrscheinlichkeit das beide tests Fehlerhaft waren allerdings (1-p)*(1-p).

Jetzt nehmen wir mal an die Wahrscheinlichkeit ist nur 1/6 wie beim Würfel, dann ist die Fehlerwarscheinlichkeit ~84%, das ist ziemlich schlecht nicht? Aber wenn wir den test 10 mal wiederholen ist die Wahrscheinlichkeit falsch zu liegen nur ungefähr 16%, also mit nur 10 wiederholungen ist die Wahrscheinlichkeit von 1/6 richtig zu liegen invertiert auf eine Wahrscheinlichkeit 1/6 falsch zu liegen. Wenn wir den test 100 mal wiederholen ist die Wahrscheinlichkeit schon 10^-8, also 0,000001%. Das ist exakt genau die Theorie die so ziemlich alle Netzwerktransaktionen absichert, von dir grade auf diesem Forum zu Banken die hunderte Milliarden Euros verschieben.

Auch ein extrem schlechter nicht deterministischer Prediktor kann in einem Probabilistischen Algorithmus eingesetzt werden um hoch akkurate Ergebnisse zu erlangen.

Ich habe in meinem Studium 4 verschiedene Statistik Vorlesungen gehört, Statistik, Medizinische Statistik, Meta-analysen und Machine Learning. Jede einzelne davon hat mit dem Beispiel des Würfels angefangen um zu erklären wie man aus einem zufälligen Ereignis nützliche Informationen extrahieren kann. Bevor du dich also über Pseudo Wissenschafft echauffierst, solltest du mal lernen wie Wissenschaft tatsächlich gemacht wird. Ich für meinen Teil habe 4 Jahre in der Forschung gearbeitet :j

Warf · Beitrag von **Warf** » Do 24. Jul 2025, 23:09

m.fuchs hat geschrieben: Do 24. Jul 2025, 21:43 Ich kann dir aus der Definition eines Würfel sagen

Kleine Randnotiz, wenn ich dir einen Würfel in die Hand drücke, wie kannst du feststellen ob dieser Würfel der "Definition eines Würfels" folgt (ich gehe davon aus du meinst das theoretische Modell eines fairen Würfels) oder gezinkt ist?
Und ist der Test den du machst Subjektiv, also wenn ich ihn Wiederhole komm ich auf ein anderes Ergebnis, oder Objektiv, also jeder kann ihn durchführen und kommt auf das selbe Ergebnis?

Wenn du der Meinung bist das es keinen Objektiven Weg gibt das Rauszufinden, muss ich dich leider enttäuschen, die Milliarden Euro Glücksspielindustrie ist da anderer Auffassung

Beitrag von **m.fuchs** » Do 24. Jul 2025, 23:26

Warf hat geschrieben: Do 24. Jul 2025, 22:56
m.fuchs hat geschrieben: Do 24. Jul 2025, 21:43 Oh mein Gott, wenn das bei dir noch unter Wissenschaft subsummiert wird können wir die Diskussion an dieser Stelle beenden. Ich kann dir aus der Definition eines Würfel sagen wie gut er darin ist die Rechenaufgabe 1+2 zu lösen: gar nicht.
Das nennt sich Analogie,

Nee, das nennt sich Unsinn. Durch das Werfen eines Würfels kann die Aufgabe 1+2 nicht berechnet werden, aus fertig. Da gibt es keine Analogien oder sonst etwas.

Warf hat geschrieben: Do 24. Jul 2025, 22:56 Bevor du dich also über Pseudo Wissenschafft echauffierst, solltest du mal lernen wie Wissenschaft tatsächlich gemacht wird. Ich für meinen Teil habe 4 Jahre in der Forschung gearbeitet :j

Naja, da neuerdings in Forschungsarbeiten Anweisungen an ML-basierte Peer-Review-Systeme versteckt werden, ist das ja noch kein Garant dass in der "Forschung" auch wirklich Wissenschaft betrieben wurde.

Warf hat geschrieben: Do 24. Jul 2025, 23:09 Kleine Randnotiz, wenn ich dir einen Würfel in die Hand drücke, wie kannst du feststellen ob dieser Würfel der "Definition eines Würfels" folgt (ich gehe davon aus du meinst das theoretische Modell eines fairen Würfels) oder gezinkt ist? Und ist der Test den du machst Subjektiv, also wenn ich ihn Wiederhole komm ich auf ein anderes Ergebnis, oder Objektiv, also jeder kann ihn durchführen und kommt auf das selbe Ergebnis? Wenn du der Meinung bist das es keinen Objektiven Weg gibt das Rauszufinden, muss ich dich leider enttäuschen, die Milliarden Euro Glücksspielindustrie ist da anderer Auffassung.

Das ist ja ein völlig anderes Thema, natürlich kann man die Qualität eines Würfels mit objektive Methoden testen. Das hat aber nichts mit deinem Unsinn von Addition mit Hilfe eines Würfelwurfs zu tun.

Wie gesagt, dieser ganze Hype geht mir tierisch auf den Geist und das Geschwafel von magischen Eigenschaften hat eigentlich hier nichts verloren -- ist ja kein Esoterikforum.

Warf · Beitrag von **Warf** » Fr 25. Jul 2025, 00:11

m.fuchs hat geschrieben: Do 24. Jul 2025, 23:26 Das ist ja ein völlig anderes Thema, natürlich kann man die Qualität eines Würfels mit objektive Methoden testen. Das hat aber nichts mit deinem Unsinn von Addition mit Hilfe eines Würfelwurfs zu tun.

Wie gesagt, dieser ganze Hype geht mir tierisch auf den Geist und das Geschwafel von magischen Eigenschaften hat eigentlich hier nichts verloren -- ist ja kein Esoterikforum.

Mal schauen ob du Logik kannst:
Du hast gesagt:

Objektiv messbar ist da übrigens gar nichts, die Dinger sind nämlich nicht deterministisch.

Ergo deine Aussage ist: Wenn ein System nicht deterministisch ist, dann ist es nicht objektiv messbar.

Also habe ich als Beispiel das nicht Deterministische System Würfel als Beispiel herangenommen. Jetzt ist deine Aussage:

Das ist ja ein völlig anderes Thema, natürlich kann man die Qualität eines Würfels mit objektive Methoden testen

Also denkst du das System ist objektiv messbar.

Das nennen wir in der Logik einen Wiederspruch. Auf der einen Seite hast du behauptet das "gar nichts" objektiv messbar ist wenn das system nicht Deterministisch ist. Jetzt behauptest du ein nicht deterministisches System ist objektiv messbar.
Nur eine der beiden Aussagen kann wahr sein, welche ist es?

Wenn du denkst das du messen kannst ob ein Würfel fair ist durch die Zuhilfename eines Statistischen Modells, dann muss zwangsläufig gelten das man auch Aussagen über LLMs treffen kann unter zuhilfenahme von Statistischen modellen. Denn tatsächlich kommen exakt die gleichen Statistischen Grundbausteine (Zentraler Grenzwertsatz, Arithmetisches Mittel, Warscheinlichkeitsverteilungen, etc.) zum Einsatz bei beidem.

Tatsächlich wenn du dir z.B. das Apple Paper das ich vorher gepostet hab mal angeschaut hättest, hättest du gesehen das die nicht eine Messung machen, sondern viele, um daraus dann die Wahrscheinlichkeitsverteilung zu plotten um damit statistische Aussagen zu tätigen.

Das nennt sich wissenschaftliches Arbeiten. Zu behaupten das das einfach fundamental nicht gehen würde wie du es tust, ist eher Esoterik

Warf · Beitrag von **Warf** » Fr 25. Jul 2025, 00:19

m.fuchs hat geschrieben: Do 24. Jul 2025, 23:26 Naja, da neuerdings in Forschungsarbeiten Anweisungen an ML-basierte Peer-Review-Systeme versteckt werden, ist das ja noch kein Garant dass in der "Forschung" auch wirklich Wissenschaft betrieben wurde.

Wenn du Ahnung von Wissenschaft hättest und dich mit der Wissenschaftlichen Landschaft in dem Bereich auseinander gesetzt hättest, wüsstest du das so ziemlich alle Paper in dem Gebiet des Machinellen Lernens auf ArXiv hochgeladen werden, was ein non-peer reviewed pre-print server ist.

Das Feld bewegt sich so schnell das nicht mal Peer Reviews stattfinden. Das ist ein großer Kritikpunkt, und es wird unfassbar viel Müll produziert, weshalb man diese Studien noch genauer lesen muss, aber ich finde es wunderbar das du hier dich über angebliche Pseudowissenschaft behauptest, aber damit grade selbst komplett bewiesen hast das du keinerlei überblick über die Wissenschaftliche Lage in dem Feld hast.

Bitte bevor du hier mit großen Reden über Wissenschaft anfängst, lies dich doch wenigstens erst mal rein. Es gibt hier unfassbar viel zu kritisieren, von der art wie OpenAI und co ihre benchmarks machen (z.B. wurde rausgefunden das die Fragen für die Benchmarks z.T. im Trainingsset gelandet sind) über das Fehlende Peer Review, zu dem Punkt das basically ein Paar firmen aktuell das Monopol über Wissenschaftliche Forschung in dem Gebiet haben (Meta kauft grade jeden Forscher mit Exorbitanten Gehältern auf).
Aber deine Punkte gehen einfach voll daran vorbei, weil du keine Ahnung von dem Gebiet und den tatsächlichen Problemen darin hast, sondern stattdessen mit Halbwissen von ein paar Artikeln aus Online Magazinen hier denkst du hättest ein ganzes Forschungsgebiet besser Verstanden als die Forscher selbst (zu denen ich mich nicht dazu zähle, für mich ist das reines Interesse aber ich habe halt wissenschaftliches Arbeiten gelernt).

Beitrag von **Niesi** » Fr 25. Jul 2025, 08:09

Warf hat geschrieben: Do 24. Jul 2025, 22:56

Jetzt nehmen wir mal an die Wahrscheinlichkeit ist nur 1/6 wie beim Würfel, dann ist die Fehlerwarscheinlichkeit ~84%, das ist ziemlich schlecht nicht? Aber wenn wir den test 10 mal wiederholen ist die Wahrscheinlichkeit falsch zu liegen nur ungefähr 16%, also mit nur 10 wiederholungen ist die Wahrscheinlichkeit von 1/6 richtig zu liegen invertiert auf eine Wahrscheinlichkeit 1/6 falsch zu liegen. Wenn wir den test 100 mal wiederholen ist die Wahrscheinlichkeit schon 10^-8, also 0,000001%. Das ist exakt genau die Theorie die so ziemlich alle Netzwerktransaktionen absichert, von dir grade auf diesem Forum zu Banken die hunderte Milliarden Euros verschieben.

Das Ergebnis wird genauer, wenn ich öfter würfele?

Dein Ernst?

Wo hast Du das gelernt?

Beitrag von **m.fuchs** » Fr 25. Jul 2025, 08:51

Warf hat geschrieben: Fr 25. Jul 2025, 00:11 Also habe ich als Beispiel das nicht Deterministische System Würfel als Beispiel herangenommen.

Falsch. Was soll ein nicht-deterministisches System sein? Für den Determinismus muss man einen Algorithmus betrachten. Also beispielsweise die Erzeugung von Zufallszahlen durch Werfen eines Würfels.

Warf hat geschrieben: Fr 25. Jul 2025, 00:11 Jetzt ist deine Aussage:
Das ist ja ein völlig anderes Thema, natürlich kann man die Qualität eines Würfels mit objektive Methoden testen
Also denkst du das System ist objektiv messbar.

Falsch, die Qualität des Würfels ist messbar. Also zum Beispiel ob er ausbalanciert ist, durch Messungen.

Warf hat geschrieben: Fr 25. Jul 2025, 00:11Auf der einen Seite hast du behauptet das "gar nichts" objektiv messbar ist wenn das system nicht Deterministisch ist. Jetzt behauptest du ein nicht deterministisches System ist objektiv messbar.

Das hat nichts mit einander zu tun. Hier mal eine Analogie: Es ist möglich zu prüfen ob ein Hammer funktioniert. Man kann damit eine Reihe von Nägeln einschlagen, testen ob der Kopf wackelt, eine Belastungsprüfung des Stiels vornehmen, einen Härtetest des Metalls, Ultraschall- und Wärmebilduntersuchungen durchführen, etc. Ich kann damit (recht) objektiv sagen, dass es ein funktionierender Hammer ist. Diese Tests sagen aber nichts darüber aus, wie gut sich damit Schrauben in die Wand drehen lassen. Dazu brauche ich keinen Test, ich kann sofort sagen: geht nicht. Dafür ist das Ding nicht gemacht.

Das Gleiche gilt für "Addieren durch Würfelwurf" oder "Logik durch LLM".

Du setzt aber den Vorgang "Addieren durch Würfelwurf" mit dem Objekt "Würfel" gleich. Das ist aber schon vollkommen falsch, und damit haben wir auch schon lange das Feld Wissenschaft hinter uns gelassen.

Warf hat geschrieben: Fr 25. Jul 2025, 00:19 Bitte bevor du hier mit großen Reden über Wissenschaft anfängst, lies dich doch wenigstens erst mal rein.

Bevor du hier weiter herumpöbelst, arbeite mal den Unterschied zwischen einem Vorgang ("Addieren durch Würfelwurf") und einem Gegenstand ("Würfel") heraus.

Warf · Beitrag von **Warf** » Fr 25. Jul 2025, 10:21

m.fuchs hat geschrieben: Fr 25. Jul 2025, 08:51 Falsch. Was soll ein nicht-deterministisches System sein? Für den Determinismus muss man einen Algorithmus betrachten. Also beispielsweise die Erzeugung von Zufallszahlen durch Werfen eines Würfels.

Du hast das Beispiel einfach nicht verstanden, oder du willst es nicht verstehen. Nochmal ich zitiere was du gesagt hast:

Objektiv messbar ist da übrigens gar nichts, die Dinger sind nämlich nicht deterministisch.

Ich leg dir hier keine Worte in den Mund deine Aussage war ganz direkt: Man kann "gar nichts" objektiv messen wenn das system nichtdeterministisch ist. Eine Aussage die einfach so fundamental falsch ist, das das simple Beispiel eines Würfels schon reicht um diese Aussage zu wiederlegen.

Dinge wie Erwartungswert, Statistisches Mittel, Standardabweichung, etc. kann man alle Objektiv Messen und auf basis dessen objektiv Aussagen über die Korrektheit von einem Probabilistischen Algorithmus treffen.

Wenn ich dir jetzt eine Box gebe, du weißt nicht was drin ist, und ich sage dir: Diese box implementiert einen hoch proprietären probabilistischen Algorithmus um das Ergebnis einer Einstelligen Addition auszurechnen.
In wirklichkeit ist darin ist eine kleine Fee eingesperrt die einen würfel wirft und das Ergebnis des Wurfs rausgibt.
Kannst du dann Objektiv messen ob und mit welcher Wahrscheinlichkeit dieser Algorithmus korrekt arbeitet?
Ich hab nie behauptet das der Würfel ein guter Algorithmus ist um einstellige Addition zu berechnen, aber es ist objektiv quantisierbar genau wie gut oder der Würfel diese Aufgabe erfüllt mittels statistik.

Übrigens dein Kommentar von vorher:

Ich kann dir aus der Definition eines Würfel sagen wie gut er darin ist die Rechenaufgabe 1+2 zu lösen: gar nicht.

Ist hierfür absolut irrelevant, weil es um objektive messungen geht. Eine Analytische Lösung auf basis des unterliegenden Statistischen Modells ist im Falle eines würfels genauso möglich, aber das nur weil der Würfel ein sehr simples modell ist, weils ein beispiel ist.
Ein LLM hingegen ist deutlich Komplexer da es ein Probabilistisches System auf einem mehrdimensionalen Zahlenraum ist, um das Analytisch zu modellieren fehlt uns schlicht weg die rechenleistung da es von zu vielen Parametern abhängt.
Deshalb hab ich einen Würfel genommen, weil es ein schönes eindimensionales system ist

Ein LLM ist nichts anderes als ein sehr viel Komplexeres Probabilistisches System, was man verwenden kann um z.B. logische Aufgabenstellungen zu lösen. Man kann also dieses LLM ans Black Box benutzen um eine reihe an Testaufgaben zu lösen um die Genauigkeit des Systems auf dieser Art von Aufgabenstellung zu lösen.
Das sind objektive messungen und am ende bekommt man eine objektive statistik raus.

Deine Behauptung war das man in einem nicht deterministischen system "gar nichts" objektiv messen kann, und das ist falsch. Wenn diese Aussage stimmen würde wäre das gesammte Feld der Statistik hinfällig.

Diese Tests sagen aber nichts darüber aus, wie gut sich damit Schrauben in die Wand drehen lassen. Dazu brauche ich keinen Test, ich kann sofort sagen: geht nicht. Dafür ist das Ding nicht gemacht.

Das ist auch eine schlicht und ergreifend falsche aussage. Ich kann 100 studenten hinsetzen mit hammer und schrauben und sagen: Dreht mit dem Hammer die Schrauben in das Holz.
Danach messe ich das ergebnis anhand vorher definierter Parameter, wie z.B. wie tief ist die Schraube in das holz gedreht, wie viel kraft wird benöötigt um die schraube gewaltsam zu entfernen, etc.
Danach kann ich auf diesen erfassten werten eine statistik machen und diese gegenüber dem gewünschten wert (z.B. Werte erhoben mit einem Schraubenzieher) vergleichen und ein Konfidenzintervall für die Abweichung bilden. Dann kann ich sagen "mit einer konfidenz von 95% halten schrauben die mit einem Hammer in das Holz gedreht wurden zu 74% weniger kraft".

Das ist eine vollkommen objektive Messung.

Bei den LLMs verhält es sich nicht anders. Wissenschaftler entwickeln Logik tests und werfen dann die LLMs auf mehrere Tausende Aufgaben und berechnen dann die Genauigkeit über Statistische Mittel und können damit ausgeben wie gut diese LLMs in Logik sind.

Nur weil etwas nicht für Aufgabe X entwickelt wurde heißt das nicht das es nicht dafür nützlich ist. In der Medizin kommt es tatsächlich extrem oft vor das Medikamente die für einen Zweck entwickelt wurden später rausgefunden wurde das sie etwas anderes viel besser können. Z.B. Viagra wurde als Kopfschmerzmedikament entwickelt, dann wurde in Tests rausgefunden das es einen besseren Anwendungsfall hat, und heute verschreibt es kein Arzt gegen Kopfschmerzen.

Beitrag von **Niesi** » Fr 25. Jul 2025, 10:39

Warf hat geschrieben: Fr 25. Jul 2025, 10:21

Wenn ich dir jetzt eine Box gebe, du weißt nicht was drin ist, und ich sage dir: Diese box implementiert einen hoch proprietären probabilistischen Algorithmus um das Ergebnis einer Einstelligen Addition auszurechnen.
In wirklichkeit ist darin ist eine kleine Fee eingesperrt die einen würfel wirft und das Ergebnis des Wurfs rausgibt.
Kannst du dann Objektiv messen ob und mit welcher Wahrscheinlichkeit dieser Algorithmus korrekt arbeitet?
Ich hab nie behauptet das der Würfel ein guter Algorithmus ist um einstellige Addition zu berechnen, aber es ist objektiv quantisierbar genau wie gut oder der Würfel diese Aufgabe erfüllt mittels statistik.

Wenn der Würfel keinen Fehler hat und die Fee nicht schummelt ist das Ergebnis ein zufälliges mit den Werten von 1 bis 6.

Und zwar für jeden Wurf.

Bei sehr vielen Würfen muss bei einem intakten Würfel für jede Zahl die gleiche Anzahl an Ergebnissen von 1 bis 6 rauskommen.

Da wird durch viele Würfe nicht genauer.

Deutsches Lazarusforum

AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer

Re: AI macht Programmierende langsamer