Attenzione: attualmente il formato dataset prevede di avere uno split training/validation/test fisso. Non sono supportati protocolli sperimentali in cross-validation.
Ogni dataset viene rappresentato come un file gerarchico HDF5. All'interno del file vengono salvate come matrici le feature estratte e come array le label.
La struttura è replicata tre volte per i sotto-dataset train/validation/test. All'interno dei sotto-dataset features e labels sono organizzate nello stesso modo.
Nota: le label sono codificate come stringhe. Sarà cura dei tool effettuare la conversione da e verso gli ID numerici corrispondenti.
I file HDF5 possono essere prodotti automaticamente tramite il tool unchained-please. In particolare il tool consente di estrarre automaticamente le features a partire da file video/immagini elencati in un file CSV in cui, per ogni riga, sono specificati il path al file e la label.
path/to/file1,label1
path/to/file2,label2
path/to/file3,label3
Nota: i path sono relativi alla directory in cui si trova il file CSV. Supponendo che il dataset sia definito da
/home/unchained/train.csv
, la prima riga del file di esempio sopra riportato si riferirà a/home/unchained/path/to/file1
. Lo script segue i link simbolici eventualmente incontrati all'interno del percorso.
Lo script si aspetta di trovare, nella directory di definizione del dataset, tre file train.csv
, valid.csv
, e test.csv
, corrispondenti alla divisione canonica in training/validation/test set.