Login

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 24.08.2021, 18:51 von scope.)

Hallo,

in dieser Diplomarbeit(?)

https://web.archive.org/web/201002090712...eite2.html

geht es um den Vergleich diverser ADC/DAC, Sampling- und Bitraten.
Weiter hinten werden farbige Balkendiagramme dargestellt, die bei mir Fragen offen lassen, zu denen ich dort nichts finden konnte, oder die ich möglicherweise nicht richtig deuten kann.

Wie sind die Grafiken zu lesen? Wie oft musste ein Hörer seinen Eindruck in Verb. mit einer bestimmten Abhörsituation bestätigen (hoffentlich nicht nur ein mal)
Wie wurde dort wohl vorgegangen? anscheinend gab es relativ viele Teilnehmer.

Interessantes Thema, aber m.E. nicht wirklich transparent....Oder ich habe die Hälfte überlesen Wink3

hennes · 24.08.2021, 19:22

Auf Seite 3 findet sich dieser Abschnitt zur Versuchsanordnung von Nr. 1 (Zu Nr 2: "Der Testsablauf erfolgte wie im ersten Versuch."):

"Die Testhörer bekamen jedes Signal 1,5 Minuten zum Kennenlernen vorgespielt. Danach wurden beide Signale im Wechsel jeweils viermal in einem kürzeren Abschnitt von ca. 15 Sekunden dargeboten. Nach diesen insgesamt fünf Vergleichsmöglichkeiten hatten die Hörer Zeit, um Ihren Bewertungsbogen auszufüllen. Anschließend wurden weitere vier Vergleichsmöglichkeiten angeboten, um die Bewertungen zu überprüfen und gegebenenfalls zu korrigieren. Danach begann die sogenannte Verifizierungsphase. Dabei haben wir die beiden kurzen Testsignale jeweils einmal vorgespielt. Dem folgte sofort noch einmal eines der beiden Signale, welches die Testhörer selbständig zuordnen mußten. Dadurch konnten wir feststellen, ob tatsächlich eine nachvollziehbare Unterscheidbarkeit bei den Signalen vorgelegen hat. Dieser Verifizierungsvorgang wurde noch ein zweites Mal wiederholt. In beiden aufeinanderfolgenden Verifizierungen waren unterschiedliche Signale möglich."

...könnte aber Kabelklang gegeben haben:

"...und über ein 50 m langes, niederkapazitives Kabel vom Typ Belden 46349 in das Erich-Thienhaus-Institut übertragen, in dessen Räumen die Hörtests durchgeführt wurden." LOL

sankenpi · (Dieser Beitrag wurde zuletzt bearbeitet: 24.08.2021, 21:03 von sankenpi.)

Beitrag gelöscht.

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 24.08.2021, 20:42 von scope.)

Zitat:Anschließend wurden weitere vier Vergleichsmöglichkeiten angeboten, um die Bewertungen zu überprüfen und gegebenenfalls zu korrigieren.

Was haltet "ihr" von der Vorgehensweise? In den Balkendiagrammen sind 8 (acht!) Eigenschaften vorgegeben, die der Hörer in kurzen, nur sekundenlangen Passagen einstufen soll.
In der Verifizierungsphase folgt dann nochmal ein schneller Wechsel der Signale, nach denen der Hörer dann einzelne Punkte (Räumlichkeit, Impulstreue (!!)) usw. erneut überdenken kann.
Wenn ich es richtig verstanden habe, hat der Hörer alle Testhasen (abgesehen von 90 Sekunden Einführung) in etwa 180 Sekunden abgeschlossen.

Wer bereits in den Genuss gekommen ist, verschiedene DAC verblindet wiederholt und treffsicher zu unterscheiden, kann sich vorstellen, wie viel "Zufall, Lust und Laune" dort -trotz Verifizierungs- und Kontrolldurchgang im Spiel gewesen sein wird.

180 Sekunden für die klangliche Bewertung eines Gerätes? Das lässt sich mit den bisherigen Informationen aus dem Internet, und vor allem aus den Foren, nicht in Einklang bringen. Da gehen normalerweise alle auf die Barrikaden.
Ich kann mich mit der Prozedur überhaupt nicht anfreunden.

Was meint ihr zu den Balkendiagrammen? Wie sind die zu verstehen? Die Y-Achse soll wohl die Anzahl der Hörer darstellen.
Nehme ich mal das erste Diagramm, dann konnten etwa 70 Leute keinen Unterschied hören. 30 fanden die ADDA Stecke besser, 50 die analoge Wiedergabe. Also waren da 150 Leute in der Warteschlange? Wer waren die alle? Alles Tonmeister, die das in unter 3 Minuten "komplett" abhaken konnten?

hennes · 24.08.2021, 21:30

Naja - das war ja an der Musikhochschule Detmold (was nicht unbedingt etwas heißen muss) - ich erinnere mich aber, dass in meinem Studium bei Testreihen auch immer 80 % Psychologen oder Soziologen teilgenommen haben... man hat sich halt gegenseitig unterstützt. Ob das jetzt die Teilnehmer besser qualifiziert, ist schwer zu sagen, aber ich denke, dass Musik Studierende oder Lehrende zumindest die Begriffe/Kategorien besser einschätzen konnten, als der Durchschnittsbürger. Aber das ist nur eine Hypothese.

Zu dem anderen Punkt: ich kann auch kein klares N rauslesen, das müsste man zurückrechnen über Beschreibung und Häufigkeit/Ergebnisse. Denke aber, die y-Achse ist die Anzahl der Bewertungen pro Kategorie und der blaue Balken rechts addiert die "Unentschieden" über alle Kategorien (von denen z.B. die Impulstreue oft schwer zu unterscheiden war - durchgehend niedrige Werte in rot/grün) . Ich komme auf ca. 14 (+) Einzeltests pro Person (?), dadurch müsste man die Ergebnismengen aus den Diagrammen teilen - ganz grob überflogen ca. 800-900 Einzelabfragen - das sollten damit ca. 60 Personen gewesen sein (wenn ich mich nicht völlig irre beim Lesen bzw. Interpretieren der Studie).

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 15:24 von scope.)

Hennes schrieb:

Zitat:Denke aber, die y-Achse ist die Anzahl der Bewertungen pro Kategorie und der blaue Balken rechts addiert die "Unentschieden"

Das interpretiere ich mittlerweile anders, da man auf der Seite mit den Balkendiagrammen folgendes lesen kann:

"...da die Länge der y-Achse der Teilnehmerzahl für den jeweiligen Wandler entspricht."

Da die Y-Achse skaliert ist, müssten im Fall des ersten Wandlers 80 Personen zu dem Entschluss gekommen sein, das sie keinen Unterschied vernehmen konnten (weil kein forced choice), 50 Personen Analog besser fanden, und 30 Personen den Wandler als besser einstuften. In diesem Fall lese ich es so, dass dieser Wandler von 160 Personen getestet wurde.
Allerdings steht das wieder in Konflikt mit der Skalierung der ersten 7 Balken.

Aber das ist für mich auch nicht wirklich von Bedeutung. Mir geht es vielmehr um den Umgang (!) mit den Testteilnehmern.

Mit der Einstufung einer "besseren" Höhenwiedergabe oder Basswiedergabe habe ich noch kein grosses Problem, obwohl diese Eigenschaften ebenfalls nur völlig subjektiv bewertet werden, und nicht zwingend etwas mit "besser oder schlechter" zu tun haben.
Wichtig ist bei solchen Tests m.E., dass man den Hörern gründlich auf den Zahn fühlt, um ggf. eine gewisse "Willkür" aufzudecken. Die ist m.E. das größte Problem bei solchen Untersuchungen.
Die "Stabilität" der Eindrücke, bzw der Präferenz muss ganz genau unter die Lupe genommen werden. Wenn man mit 8 unterschiedlichen Eigenschaften hantiert, wird das mit steigender Teilnehmerzahl immer umständlicher.
Ich würde einer Testperson beispielsweise einen DAC und wechselweise das Analogsignal anbieten, wobei die Zeiten und die Häufigkeit erst mal dahin gestellt sind. Nach jedem Durchgang, müsste der Hörer die 8 Punkte (besser oder schlechter) den beiden Zuständen zuordnen. Das Ganze z.B. 10x wiederholen, um zu prüfen, ob er die 8 Punkte stets identisch, oder zumindest nahezu identisch zugeordnet hat (also 10 Zettel in Summe für einen Hörer und 2 Zustände.)

Erst dann wäre ich davon überzeugt, dass der Hörer -wirklich- Unterschiede vernommen hat, die er in diesem Fall sogar noch in 8 Punkten korrekt zuordnen konnte.
Ich gehe davon aus, dass man jedes mal einen wilden Mix, völlig unterschiedlich ausgefüllter Auswertzettel erhalten würde.

Man darf nicht vergessen, dass die Unterschiede in solchen Fällen eher marginal ausfallen. Ein ADC/DAC, der auch unter solchen Bedingungen "deutlich hörbar" aus der Rolle Fällt und sich treffsicher zu erkennen gibt, wird ein ganz erhebliches Problem haben.

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 16:57 von scope.)

Was ich bei derartigen Tests als besonders wichtig erachte, sollte in diesem Testdesign mit der sog. Verifizierungsphase umgesetzt werden.

Zitat:Danach begann die sogenannte Verifizierungsphase. Dabei haben wir die beiden kurzen Testsignale jeweils einmal vorgespielt. Dem folgte sofort noch einmal eines der beiden Signale, welches die Testhörer selbständig zuordnen mußten. Dadurch konnten wir feststellen, ob tatsächlich eine nachvollziehbare Unterscheidbarkeit bei den Signalen vorgelegen hat. Dieser Verifizierungsvorgang wurde noch ein zweites Mal wiederholt. In beiden aufeinanderfolgenden Verifizierungen waren unterschiedliche Signale möglich.

Nochmal mit anderen Worten: Zum Abschluss der "Ruck-Zuck" Beirteilung, wurde dem Hörer 15 Sekunden Variante A, danach Variante B, und gleich danach entweder A , oder eben B angeboten. Der Hörer musste dann zwei mal erraten Wink3

, ob die dritte Probe A, oder B war.

Was geschah mit dem Ergebnis des Hörers, wenn er zumindest ein (von 2) mal daneben lag? Wurde sein Bogen zerrissen?
Es ist absolut nicht unwahrscheinlich, die Verifizierungsphase selbst durch Raten, oder eben unbewusstes Raten (Einbildung) zu meistern. Wer die Verifizierungsphase 8 oder 10 mal hintereinander korrekt zuordnet, hat mit hoher Wahrscheinlichkeit einen Unterschied vernommen. Dass man dann natürlich weniger Leute durchjagen kann , liegt in der Natur der Dinge.

Ich halte eine höhere Zahl an Überprüfungen für sehr wichtig. Es ist m.E. das A & O solcher Tests.

25.08.2021, 17:24

Wenn ich die Angaben richtig verstanden habe, gab es je drei Durchläufe: zwei immer mit A+D und der dritte als Verifikation mit A+D oder D+A. Insofern dürfte X nur die Anzahl der Nennungen innerhalb dieser drei Durchläufe=Bögen sein. Zwar stand da auch tatsächlich zu lesen, X sei proporzional zu N, also den Teilnehmern, aber generell ist die Zuordnung Text zu Graph nicht immer eindeutig oder klar.
Die kürze der Testsignale - zweier zusammenschlagender Holzbrettchen - finde ich nachvollziehbar. Generell neigt unser Hirn, ähnlich wie beim Sehen, nicht Vorhandenes hinzu zu interpretieren, insbesondere wenn die Konzentration nachlässt und dann mehr und mehr das Tatsächliche oder eben die ,Austastlücke' mit dem Erwarteten ersetzt wird.
Über Testbedingungen wird man sich immer streiten können, nur fand ich den Test auf Grund der hohen Teilnehmerzahl - von ich sage mal 50 - recht solide. Die Mehrheit sagt immer die Wahrheit, bei zwei oder drei Paar ,Goldener Ohren' wäre ich skeptisch.
Eine hohe Anzahl mit mehreren Einzeltests an verschiedenen Tagen kann bspw. auch Umwelteinflüsse ausschließen. Denke schon dass es auch eine Rolle spielt, ob die Membranen bei trockener Hitze oder nasskaltem Wetter ausgelenkt werden, immer unter der Prämisse, dass man die Güte von 48 oder 96Bit beurteilt.

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 19:56 von scope.)

Zitat:zwei immer mit A+D und der dritte als Verifikation mit A+D oder D+A.

Genau...
Ein Durchgang mit jeweils 4 kurzen Stücken A und D, sowie danach nochmal das selbe, um den Bogen ggf. zu korrigieren und die ersten Eindrücke evtl über Bord zu werfen.
Als Abschluss dann zwei "Dreier" zur sog. "Verifizierung", in denen die unbekannte Dritte, einer der beiden ersten Proben zugeordnet werden musste.

Das alles dauerte keine 5 Minuten....Der Nächste bitte Wink3

Zitat:nur fand ich den Test auf Grund der hohen Teilnehmerzahl - von ich sage mal 50

Wenn es nur 50 Hörer waren, und die mit Zahlen versehene Skala die Anzahl der Hörer sein soll, wie ist dann der Balken "Kein Unterschied" mit Skalierung 80 zu deuten? (erstes Bild)

Zitat:Die Mehrheit sagt immer die Wahrheit,

Ich unterstelle den Hörern keineswegs, dass sie bewusst betrügen, in dem sie einfach raten, oder eingebildete Unterschiede als gehörte Tatsache aufschreiben. Das wäre so gesehen nicht mal Betrug, sondern ein Spielraum, den das Testdesign durchgehen lässt. Eine Kontrollabfrage der im Test auf rein emotionaler Basis abgegebener Momenteindrücke (erster Durchgang) sollte aus meiner Sicht "strenger" ausfallen, um die Stabilität der gewonnenen Eindrücke auf die Probe zu stellen. Das ist hier m.E, nicht hinreichend getan worden.

Es sind lediglich Ansätze vorhanden.
Mein Vorschlag wäre: Einhörphase wie gehabt....von mir aus auch nur 1,5 Minuten wie in diesem Fall.

Danach der ABX Test, wie er leider nur 2 x in der Verifizierungsphase verwendung fand.....mit 10 anstelle von 2 Proben. Wer die meistert (also mind. 9 aus 10), hat wahrscheinlich einen Unterschied vernommen, und kann das auch belegen.
Was "objektiv besser" oder eben richtiger ist, kann so ein Test ohnehin nicht klären.

hennes · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 19:26 von hennes.)

Zitat:nur fand ich den Test auf Grund der hohen Teilnehmerzahl - von ich sage mal 50

Wenn es nur 50 Hörer waren, und die mit Zahlen versehene Skala die Anzahl der Hörer sein soll, wie ist dann der Balken "Kein Unterschied" mit Skalierung 80 zu deuten? (erstes Bild)

___

Schau - das habe ich weiter oben versucht zu beschreiben - nehmen wir mal diesen Graph:

- Am Beispiel Räumlichkeit: wenn das "nur" 50 Teilnehmer gewesen wären, hätten sich (fast) alle vollständig/eindeutig für dcs oder analog entschieden, dann könnte aber bei "Klangfarbe" oder "Klingt besser" der Balken nicht höher sein (weil alle Teilnehmer die gleiche Anzahl Tests gemacht haben)
- Das zeigt auch, dass einige Kategorien wohl "einfacher" zu bewerten waren als andere - hätten die Testleiter Forced Choice angeboten, gäbe es den blauen Balken nicht und rot+grün addiert wäre immer = N
- "Keins besser" ist sehr sicher die kumulierte Anzahl an Antworten ohne Entscheidung - was ja bei dem Testvorhaben auch sinnvoll ist

Edit - das steht hier ja auch in etwa so:
"Insgesamt kurze Balken bedeuten demnach, dass die Testpersonen in ihrer Entscheidung eher zögerlich waren und ein Unterschied eher gering ist. Insgesamt längere Balken bedeuten, dass die Testpersonen entscheidungsfreudiger waren, und ein größerer Unterschied der Signale ist wahrscheinlich. Der blaue Balken sagt schließlich aus, wie viele Testpersonen angaben, kein Signal zu bevorzugen, was nicht heißen muss, dass kein Unterschied vorlag."

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 19:54 von scope.)

Zitat:- "Keins besser" ist sehr sicher die kumulierte Anzahl an Antworten ohne Entscheidung - was ja bei dem Testvorhaben auch sinnvoll ist

Dann bezieht sich das "keins besser" nicht auf analog oder digital, sondern auf die kumulierte Zahl unschlüssiger Eindrücke für die 7 "Einzeldisziplinen"?
OK...Das macht dann Sinn. Allerdings ist der Balken mit "keins klingt besser" etwas unglücklich beschriftet. Den Balken "klingt besser" hätte ich dann ebenfalls in anderen Farben, oder etwas abseits positioniert dargestellt.

Das wäre dann geklärt Wink3

Bei den "Tonschaffenden" ist es anscheinend Pflicht und Ehre, ihre Tests nicht einfach als Präferenztest oder ABX Test zu gestalten, sondern diverse klangliche Eigenschaften (welche die Hörer oft völlig unterschiedlich interpretieren) ins Spiel zu bringen. Ähnliche Tests konnte man in der Vergangenheit in diversen Zeitschriften (z.B.Studio Magazin) über Kabel lesen. (Fritz Frey, wenn ich mich recht erinnere)....Da gab es einen langen Faden im HF.
Auffällig war auch dort der Umstand, dass die von den Probanden aufgeschriebenen Eindrücke (Räumlichkeit, Impulstreue, Neutralität ...bla... etc) nicht mehrfach abgefragt wurden, um deren Stabilität zu prüfen, was m.E. ein absolutes Unding darstellt.

Genau da (und nur da) setzt meine Kritik an.

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 19:51 von scope.)

edit...war doppelt.

25.08.2021, 20:07

Du setzt natürlich vom ersten Moment an auf Aussagequalität aka Stabilität, neigst damit zu den Goldenen Ohren. Dass ist aber der geringen Teilnehmerzahl bei deinen Sitzungen geschuldet. In der Tat ist es wahrscheinlich, dass sich im Detmolder Test die Probanden in den Kategorien zwar für ein Ja oder Nein entscheiden mussten und in den dort möglichen Kommentaren dann diese Festlegung wieder nivellierten. Wie mit diesen Selbstzweifeln umgegangen wurde, sprich wie sie in die Wertungen einflossen, bleibt leider unklar. Für scharfe Konturen hätte ich auf die Kommentierungsmöglichkeit verzichtet und allein darauf gesetzt, dass die Probandenmasse selbst auch diese subjektiven Komponenten ,wegmittelt'.
Stutzig macht mich nur das Fazit: die 44kb/s sind verrauscht - die bessere Technik lohnt sich also wie Hölle - aber schon bei 4kb/s mehr scheiden sich die Geister im Vergleich zu den 96kb/s.

scope · (Dieser Beitrag wurde zuletzt bearbeitet: 25.08.2021, 20:19 von scope.)

Zitat:Du setzt natürlich vom ersten Moment an auf Aussagequalität aka Stabilität, neigst damit zu den Goldenen Ohren.

Da kann ich jetzt keine Brücke bauen. Goldene Ohren sind in der Regel Foristen, die im Forum über ihre Tastatur jede nur erdenkliche Nuance bemerken wollen, ihre unglaublichen, teils übernatürlichen Fähigkeiten aber nie belegt haben. Das (also der Beweis) funktioniert über ein Forum in dieser Disziplin bekanntlich überhaupt nicht Wink3

Zitat:Dass ist aber der geringen Teilnehmerzahl bei deinen Sitzungen geschuldet.

Eine möglichst grosse Teilnehmeranzahl halte ich ganz allgemein ebenfalls für vorteilhaft. Schon aus dem Grund, da dann die Wahrscheinlichkeit größer wird, besondere "Talente" im Boot zu haben. Allerdings nicht auf Kosten der Durchgänge pro Person.

Login
Benutzername:
Passwort:	Passwort vergessen?
	Merken

Möglicherweise verwandte Themen…
Thema		Verfasser	Antworten	Ansichten	Letzter Beitrag
	Zeigt her eure Tröten	Goldmakrele	7.792	3.998.044	06.02.2026, 10:16 Letzter Beitrag: borland
	Welches war Eure erste Anlage? Und was kam danach?	Armin777	606	400.025	14.09.2025, 10:53 Letzter Beitrag: testi100
	Brauche Hilfe bei Hochtöner für Pioneer Prologue 100	Musikliebhaber72	16	20.205	23.07.2025, 07:19 Letzter Beitrag: grautvOHRnix
	Brauche hilfe bei einen Hifi Rack selbst Bau	kleiner mann	40	35.392	22.07.2025, 17:29 Letzter Beitrag: peter-hifi
	Brauche mal Experten Support zu Thorenz & Glanz?	Persilmann	4	18.272	03.10.2024, 12:25 Letzter Beitrag: HisVoice
	Eure HomeOffice Anlagen	TopSpin	27	12.530	03.02.2024, 12:51 Letzter Beitrag: Moles250