Случайное распределение данных

Как я могу распространять данные небольшого объема в случайном порядке, в гораздо больший объем данных?

например, у меня есть несколько тысяч строк " обоснованных " данных, и я хочу, чтобы вставить один или два десятка строк управления данными в случайном порядке во время " реальных данных.

Теперь я не пытаюсь спросить, как использовать генераторы случайных чисел, я прошу статистический вопрос, я знаю, как генерировать случайные числа, но у меня вопрос как я могу удостовериться, что это данные вставлены в произвольном порядке, и в то же время довольно равномерно разбросанных по файлу.

Если я просто полагаться на генерации случайных чисел существует вероятность (хотя и очень маленький), что все мои данные управления, или, по крайней мере, комки, будут вставлены в пределах довольно узкого выбора " обоснованных " данных. Каков наилучший способ предотвратить это?

иными словами, я хочу, чтобы вставить управления данными на протяжении всей моей реальные данные, и нет пути для третьих лиц, чтобы вычислить, какие строки будут контролировать и которые являются реальными.


Update: я сделал это 'community wiki', так что если кто-то хочет изменить мой вопрос, так что не было смысла затем идите прямо вперед.
Update: Позвольте мне попробовать пример (я не хочу, чтобы этот язык или зависимых от платформы, так как это не кодирование вопрос, это статистический вопрос).

  • у меня 3000 строк " обоснованных " данных (эта сумма будет меняться от запуска к запуску, в зависимости от объема данных, пользователь имеет).
  • у меня есть 20 строк " контроля " данные (опять же, это будет меняться в зависимости от количества строк управления пользователь хочет использовать, что угодно, от нуля вверх).

теперь я хочу, чтобы вставить эти 20 'контроль' строки грубо после каждой 150 строк или " реальный " данные вводились (3000/20 = 150). Однако я не хочу, чтобы он был столь же точной, как и что, а я не хочу, чтобы контрольной строки, чтобы можно было идентифицировать просто на основе их местоположения в выходных данных.

Поэтому я не возражаю 'управление' строк, сгрудившихся вместе или для разделы, в которых очень мало или нет 'контроль' строки, но в целом я хочу, чтобы 'контроль' строки довольно равномерно распределены по всей данных.

Найдено 4 ответа:

Random distribution of data

http://stackoverflow.com/questions/187295/random-distribution-of-data

Посмотреть решение →