Stichprobenumfang für Datensatzstichprobe berechnen
Konzept-Informationen
Vor der Stichprobenentnahme aus einer Datenmenge müssen Sie den statistisch angemessenen Stichprobenumfang und andere Werte berechnen, die von den späteren Stichproben- und Auswertungsoperationen benötigt werden.
Die Funktion Stichprobenumfang berechnen in Analytics berechnet auf Basis der von Ihnen übermittelten Eingabewerte für Sie die benötigten Werte.
Die Bedeutung der Berechnung eines Stichprobenumfangs
Die Berechnung eines angemessenen Stichprobenumfangs ist für die Gültigkeit der folgenden Stichprobe kritisch. Falls die Stichprobe ungültig oder nicht repräsentativ ist, können Sie die Ergebnisse Ihrer für die Stichprobe durchgeführten Prüfungsverfahren nicht auf die gesamten Daten hochrechnen.
Überspringen Sie nicht die Berechnung eines Stichprobenumfangs, und erraten Sie den Stichprobenumfang nicht einfach.
Die meisten zur Berechnung des Stichprobenumfangs verwendeten Eingabewerte basieren auf Ihrer fachlichen Einschätzung. Stellen Sie sicher, die Auswirkungen dieser Werte vollständig zu verstehen, bevor Sie sich in einer Produktionsumgebung auf die Ergebnisse eines Stichprobenverfahrens verlassen. Greifen Sie auf Ressourcen zu Prüfungsstichproben zurück oder wenden Sie sich an einen Spezialisten für Prüfungsstichproben, falls Sie Zweifel haben.
Wie sich Eingabewerte auf den Stichprobenumfang auswirken
Eingabewerte wirken sich auf den durch Analytics berechneten Stichprobenumfang aus. Sie können im Dialogfeld Umfang die Schaltfläche Berechnen verwenden, um zu sehen, wie sich unterschiedliche Eingabewerte auf den Stichprobenumfang auswirken.
Die folgende Tabelle fasst die Auswirkung der Eingabewerte auf den Stichprobenumfang zusammen.
Achtung
Verändern Sie in einer Produktionsumgebung die Eingabewerte nicht ausschließlich, um einen kleineren Stichprobenumfang zu erreichen. Eingabewerte sollten auf Ihrer fachlichen Einschätzung beruhen und hängen davon ab, was auf Basis der Daten für die Stichprobe und des Prüfungsziels am angemessensten ist.
Anheben dieses Eingabewerts: | verringert den Stichprobenumfang | vergrößert den Stichprobenumfang |
---|---|---|
Konfidenz |
|
|
Grundgesamtheit | hat keine Auswirkung auf den Stichprobenumfang | |
Obere Fehlergrenze (%) |
|
|
Erwartete Fehlerrate (%) |
|
Schritte
Hinweis
Geben Sie keine Tausendertrennzeichen oder Prozentzeichen ein, wenn Sie Werte eingeben. Diese Zeichen verhindern die Ausführung des Befehls oder verursachen Fehler.
-
Wählen Sie Stichprobe > Datensatz-/Währungseinheitsstichprobe > Umfang berechnen.
Hinweis
Die Menüoption ist deaktiviert, wenn keine Tabelle geöffnet ist.
- Wählen Sie auf der Registerkarte Haupt Datensatz aus.
- Geben Sie die Eingabewerte ein, die zur Berechnung des Stichprobenumfangs verwendet werden sollen:
- Konfidenz
- Grundgesamtheit
- Obere Fehlergrenze (%)
- Erwartete Fehlerrate (%)
Hinweis
Die Eingabewerte sind im Folgenden eingehender beschrieben.
- (Optional) Klicken Sie auf Berechnen, um eine Vorschau der Ausgabeergebnisse anzuzeigen.
Tipp
Wenn Sie auf Berechnen statt auf OK klicken, können Sie vor der Ausgabe der Ergebnisse mit unterschiedlichen Eingabewerten experimentieren.
Hinweis
Die Ausgabeergebnisse sind im Folgenden eingehender beschrieben.
- Auf der Registerkarte Ausgabe:
- Wählen Sie im Abschnitt Nach eine der folgenden Optionen aus:
- Anzeige zeigt die Ergebnisse im Analytics-Anzeigebereich an
Tipp
Sie können auf jeden verknüpften Ergebniswert im Anzeigebereich klicken, um einen Drill-Down auf die zugeordneten Datensätze innerhalb der Quelltabelle durchzuführen.
- Datei speichert oder hängt die Ergebnisse an eine Textdatei an
Die Datei wird außerhalb von Analytics gespeichert.
- Anzeige zeigt die Ergebnisse im Analytics-Anzeigebereich an
- Wenn Sie als Ausgabetyp Datei gewählt haben, führen Sie einen der folgenden Schritte aus:
- Geben Sie einen Dateinamen in das Textfeld Name ein.
- Klicken Sie auf Name, um den Dateinamen einzugeben, oder wählen Sie eine bereits bestehende Datei aus dem Textfeld Speichern bzw. Datei speichern unter, um die Datei zu überschreiben oder Daten an diese anzuhängen.
Falls Analytics einen Namen für eine Datendatei vorgibt, können Sie diesen übernehmen oder ändern.
Sie können auch einen absoluten oder relativen Dateipfad angeben oder zu einem anderen Ordner navigieren, um die Datei an einem anderen Speicherort als dem Projektspeicherort zu speichern oder anzuhängen. Beispiel: C:\Ergebnisse\Ausgabe.txt oder Ergebnisse\Ausgabe.txt.
Hinweis
ASCII-Textdatei oder Unicode-Textdatei (abhängig von der von Ihnen verwendeten Analytics-Edition) sind die einzigen Optionen für Dateityp.
- Wählen Sie im Abschnitt Nach eine der folgenden Optionen aus:
- Klicken Sie auf OK.
- Falls die Aufforderung zum Überschreiben angezeigt wird, wählen Sie die entsprechende Option aus.
Eingaben und Ergebnisse des Dialogfelds „Umfang“
Die folgenden Tabellen enthalten detaillierte Informationen über die Eingabewerte und Ausgabeergebnisse des Dialogfelds Umfang.
Registerkarte „Haupt“ – Eingabewerte
Eingabewerte – Dialogfeld „Umfang“ |
Beschreibung |
---|---|
Konfidenz |
Ihr gewünschtes Konfidenzniveau, dass die sich ergebende Stichprobe für die Grundgesamtheit repräsentativ ist. Wenn Sie beispielsweise „95“ eingeben, bedeutet dies, dass Sie sicher sein möchten, dass die Stichprobe in 95% aller Fälle repräsentativ ist. Die Konfidenz ist das Gegenteil des „Stichprobenrisikos“. Ein Konfidenzniveau von 95% entspricht einem Stichprobenrisiko von 5%. |
Grundgesamtheit |
Die Anzahl der Datensätze im Dataset, dem Sie die Stichprobe entnehmen. Hinweis Bei der Datensatzstichprobe wirkt sich die Größe der Grundgesamtheit nicht auf den Stichprobenumfang aus. Falls die anderen Eingabewerte beispielsweise identisch sind, wird für Grundgesamtheiten mit 150.000 oder 1 Million Datensätzen derselbe statistisch gültige Stichprobenumfang berechnet. Der sich ergebende Intervallwert steigt jedoch im direkten Verhältnis zur Größe der Grundgesamtheit. |
Obere Fehlergrenze (%) |
Die maximale Abweichungsrate von einer vorgeschriebenen Kontrolle, bei deren Auftreten Sie die Kontrolle weiterhin als effektiv betrachten. Die Eingabe von „5“ bedeutet beispielsweise, dass die Abweichungsrate über 5% betragen muss, damit Sie die Kontrolle nicht mehr als effektiv betrachten. |
Erwartete Fehlerrate (%) |
Die Abweichungsrate von einer vorgeschriebenen Kontrolle, die Sie zu finden erwarten. Falls Sie beispielsweise „1“ eingeben, bedeutet das, dass Sie eine Abweichungsrate von 1% erwarten. Hinweis Die von Ihnen eingegebene erwartete Fehlerrate (%) muss niedriger als der Wert für obere Fehlergrenze (%) sein. Wenn der Unterschied zwischen den beiden Werten zu gering ist, erscheint die Fehlermeldung Fehlerrate zu hoch für die Berechnung. Die Stichprobengenauigkeit ist auf Basis dieses Unterschieds also zu gering, um den Stichprobenumfang für das von Ihnen angegebene Konfidenzniveau zu berechnen. |
Registerkarte „Haupt“ – Ausgabeergebnisse
Ausgabeergebnisse – Dialogfeld „Umfang“ |
Beschreibung |
---|---|
Stichprobengröße | Der erforderliche Stichprobenumfang. |
Intervall | Der Intervallwert – benötigt für die Auswahlmethoden „festes Intervall“ und „Zelle“. |
Anzahl zulässiger Fehler |
Die maximale Anzahl von Fehlern oder Abweichungen, die in der entstehenden Stichprobe enthalten sein dürfen, ohne zu einer Überschreitung der oberen Fehlergrenze (%) zu führen. Weitere Informationen finden Sie unter Anzahl zulässiger Fehler. |
Ein Beispiel für Eingaben und Ergebnisse
Den Umfang einer Datensatzstichprobe für die Tabelle „Gutscheine“ berechnen
Die folgende Abbildung ist ein Beispiel für Eingabewerte und Ausgabeergebnisse bei der Berechnung eines Stichprobenumfangs für eine Datensatzstichprobe.
Die Tabelle enthält 5298 Datensätze. Auf Basis der anderen Eingabewerte beläuft sich der erforderliche Stichprobenumfang auf 593 Datensätze.
Die Berechnung erfolgt auf Basis der Tabelle Gutscheine in ACL_Rockwood.acl (ACL DATA\Beispieldatendateien\ACL_Rockwood\ACL_Rockwood.acl).
Anzahl zulässiger Fehler
Hinweis
Falls Sie beabsichtigen, die Auswertungsfunktion in Analytics zu nutzen, müssen Sie den Wert in Anzahl zulässiger Fehler nicht verwenden. Stattdessen verwenden Sie die Obere Fehlergrenzhäufigkeit, die durch die Auswertungsfunktion berechnet wird. Weitere Informationen finden Sie unter Fehler in einer Datensatzstichprobe auswerten.
Anzahl zulässiger Fehler stellt eine Möglichkeit dar, Abweichungen in einer Grundgesamtheit auszuwerten.
Wenn Sie diese Methode verwenden, kennen Sie im Voraus den von Analytics gemeldeten Schwellenwert, bevor Sie Ihre Prüfungsverfahren für die Stichprobendaten beginnen. Wenn die im Rahmen des Verfahrens festgestellten kumulierten Fehler den von Analytics gemeldeten Wert überschreiten, wissen Sie, dass die Abweichungsrate von einer vorgeschriebenen Kontrolle unannehmbar hoch ist.
Nach dem Durchführen Ihrer Kontrolltests für die Stichprobendaten können Sie die Anzahl der gefundenen Fehler oder Abweichungen mit der Anzahl zulässiger Fehler vergleichen. Solange die Anzahl gefundener Fehler kleiner oder gleich der Anzahl zulässiger Fehler ist, können Sie die Kontrolle auf Basis Ihres angegebenen Konfidenzniveaus als effektiv betrachten.
Statistische Gültigkeit des von Analytics berechneten Stichprobenumfangs
Analytics berechnet für die meisten Analysen statistisch gültige Stichprobenumfänge. Ausnahmen gelten möglicherweise für folgende Situationen:
- Sie entnehmen Stichproben aus weniger als 1.000 Datensätzen.
- Ihre Organisation verfügt über interne Stichprobenexperten, die für Ihre Anforderungen maßgeschneiderte Stichprobenumfänge definieren können.
- Wenn Ihr Unternehmen die Verwendung anderer Methoden oder Tools bestimmt hat.
Poisson-Verteilung gegenüber Binomialverteilung
Zwei gängige Methoden, um Stichprobenumfänge zu generieren, sind die Poisson-Verteilung und die Binomialverteilung. Analytics erzeugt Stichprobenumfänge unter Verwendung der Poisson-Verteilung.
Bei typischen Datasets mit einem Umfang von tausend oder mehr Datensätzen berechnen sowohl die Poisson-Verteilung als auch die Binomialverteilung nahezu identische Stichprobenumfänge. Bei Grundgesamtheiten mit weniger als tausend Datensätzen sind Stichprobenumfänge auf Basis der Poisson-Verteilung tendenziell etwas größer und darum konservativer als Stichprobenumfänge auf Basis der Binomialverteilung. Der Grund besteht darin, dass die Binomialverteilung den Stichprobenumfang bei kleinen Grundgesamtheiten nach unten anpasst, während dies bei der Poisson-Verteilung nicht der Fall ist. Bei sehr kleinen Grundgesamtheiten kann der durch die Poisson-Verteilung erzeugte Stichprobenumfang sogar die Größe der Grundgesamtheit übersteigen.
Machen Sie sich bewusst, dass bei der Berechnung des Stichprobenumfangs in Analytics der Stichprobenumfang bei Datensatzstichproben in kleinen Datasets größer als notwendig sein kann. Dieser größere Stichprobenumfang ist kein Hindernis bei der Analyse, weil es üblich ist, für kleine Grundgesamtheiten eine zu hohe Stichprobe zu ziehen.