バッチ処理で使用することを考え、コマンドラインベースで処理できるプログラムを検討します。このようなプログラムはcsv paser(csvパーサー)と呼ばれます。
Log Parser
F:\kansi>"D:\Program Files (x86)\Log Parser 2.2\logparser" Microsoft (R) Log Parser Version 2.2.10 Copyright (C) 2004 Microsoft Corporation. All rights reserved. 使用方法: LogParser [-i:<input_format>] [-o:<output_format>] <SQL query> | file:<query_filename>[?param1=value1+...] [<input_format_options>] [<output_format_options>] [-q[:ON|OFF]] [-e:<max_errors>] [-iw[:ON|OFF]] [-stats[:ON|OFF]] [-saveDefaults] [-queryInfo] LogParser -c -i:<input_format> -o:<output_format> <from_entity> <into_entity> [<where_clause>] [<input_format_options>] [<output_format_options>] [-multiSite[:ON|OFF]] [-q[:ON|OFF]] [-e:<max_errors>] [-iw[:ON|OFF]] [-stats[:ON|OFF]] [-queryInfo]
F:\kansi>"D:\Program Files (x86)\Log Parser 2.2\logparser" -h -i:csv 入力フォーマット: CSV (CSV 形式) カンマ区切り値(CSV)を含むテキストファイルを解析します。 FROM シンタックス: <filename> [, <filename> ...] | http://<url> | STDIN CSV ファイルのパス パラメータ: -headerRow ON|OFF : それぞれのファイルの最初のロウを (フィールド名を含む) ヘッダーとみなします 。 [既定値=ON] -iHeaderFile <header file path> : ファイルはヘッダーを含みます。 (個々のファイルのヘッダー定義を上書きしま す。) [既定値=指定されていません。] -iDQuotes Auto|Ignore : 二重引用符フィールドの動作; Auto: 自動的に二重引用符フィールドを検出します。 ; Ignore: フィールド内の二重引用符をそのま まにします。 [既定値=Auto] -fixedFields ON|OFF : ログのフィールド数を固定にします。 [既定値=ON] -nFields <number of fields> : ログのフィールド数 (-1=実行時に検出します。) [既定値=-1] -dtLines <number of lines> : 実行時にフィールドのデータ型を検出するため に一定行数読み込みます。 [既定値=10] -nSkipLines <number of lines> : スキップする先頭からの行数 [既定値=0] -comment <any string> : スキップするコメント行のプリフィックス文字 列 [既定値=指定されていません。] -iCodepage <codepage ID> : 入力データのコードページ (0=システムコードページ, -1=UNICODE) [既定値=0] -iTsFormat <timestamp format> : TIMESTAMP フィールドのフォーマット [既定値=yyyy-MM-dd hh:mm:ss] -iCheckpoint <checkpoint file> : このファイルにチェックポイント情報を保存し ます。 [既定値=チェックポイントがありませ ん。] F:\kansi>"D:\Program Files (x86)\Log Parser 2.2\logparser" -h -o:csv 出力フォーマット: CSV (CSV 形式) カンマ区切り値としてフィールドを出力します。 INTO シンタックス: <filename> | STDOUT | <empty> empty の場合 STDOUT を使用します。パスに '*' ワイルドカードを指定している場 合は異なるファイルに結果を出力する "Multiplex mode" が有効になります。ファイル名はワイルドカードの代わりに SELECT 句の最初の値を使用します。 パラメータ: -headers ON|OFF|AUTO : 最初の行にフィールド名を出力します。; AUTO の場合は既存のファイルへ追加する際にヘッダー を出力しません。 [既定値=AUTO] -oDQuotes ON|OFF|AUTO : フィールドを二重引用符で囲みます。; AUTO の場合は区切り文字列が含まれている際にのみ囲 みます。 [既定値=AUTO] -tabs ON|OFF : 値との間にタブを出力します。 [既定値=OFF] -oTsFormat <timestamp format> : TIMESTAMP フィールドがレンダリングされた形式 [既定値=yyyy-MM-dd hh:mm:ss] -oCodepage <codepage ID> : 出力データのコードページ (0=システムコードページ, -1=UNICODE) [既定値=0] -fileMode 0|1|2 : 出力ファイルが既に存在する場合の動作 (0=追加, 1=上書き, 2=無視) [既定値=1]
::ヘッダがある場合 logparser -i:CSV -o:CSV "SELECT * FROM a.csv where id='1'" > b.csv
::ヘッダが無い場合 logparser -i:CSV -o:CSV -headerRow:OFF "SELECT * FROM a.csv where Field1='1'" > b.csv
Filename,RowNumber,コード,名前,数量,バーコード F:\kansi\yasai.csv,2,TOMATO,トマト,1,4912345000019
::クエリを別ファイルにする場合 logparser -i:CSV -o:CSV file:query.ini > b.csv
Log Parser StudioはLog ParserのGUI版ですが、Log Parserがインストールされている必要があります。
“C:\Program Files (x86)\q-TextAsData\q.exe" にバイナリがインストールされます。
Usage: q allows performing SQL-like statements on tabular text data. Its purpose is to bring SQL expressive power to manipulating text data using the Linux command line. Basic usage is q "<sql like query>" where table names are just regular file names (Use - to read from standard input) When the input contains a header row, use -H, and column names will be set according to the header row content. If there isn't a header row, then columns will automatically be named c1..cN. Column types are detected automatically. Use -A in order to see the column name/type analysis. Delimiter can be set using the -d (or -t) option. Output delimiter can be set using -D All sqlite3 SQL constructs are supported. Examples: Example 1: ls -ltrd * | q "select c1,count(1) from - group by c1" This example would print a count of each unique permission string in the current folder. Example 2: seq 1 1000 | q "select avg(c1),sum(c1) from -" This example would provide the average and the sum of the numbers in the range 1 to 1000 Example 3: sudo find /tmp -ls | q "select c5,c6,sum(c7)/1024.0/1024 as total from - group by c5,c6 order by total desc" This example will output the total size in MB per user+group in the /tmp subtree See the help or https://github.com/harelba/q/ for more details. Options: -h, --help show this help message and exit -v, --version Print version -V, --verbose Print debug info in case of problems -S SAVE_DB_TO_DISK_FILENAME, --save-db-to-disk=SAVE_DB_TO_DISK_FILENAME Save database to an sqlite database file --save-db-to-disk-method=SAVE_DB_TO_DISK_METHOD Method to use to save db to disk. 'standard' does not require any deps, 'fast' currenty requires manually running `pip install sqlitebck` on your python installation. Once packing issues are solved, the fast method will be the default. Input Data Options: -H, --skip-header Skip header row. This has been changed from earlier version - Only one header row is supported, and the header row is used for column naming -d DELIMITER, --delimiter=DELIMITER Field delimiter. If none specified, then space is used as the delimiter. -t, --tab-delimited Same as -d <tab>. Just a shorthand for handling standard tab delimited file You can use
4911760003058,x,0,005,a,AA ,AAAA 1279 ,99
4911760003058,x,1,005,b,AA ,AAAA 1280 ,99
q -d , --as-text -eShift-JIS "select c4,c6,c7,c8 from in1.txt where c3='0'" >in2q.txt q -d , --as-text -eShift-JIS "SELECT u.*,h.c2 FROM in2q.txt as u LEFT JOIN keitai.csv as h ON(u.c4=h.c1)" > in3q.txt
64ビットは trdsql_windows_amd64.zip
Usage: trdsql [OPTIONS] [SQL(SELECT...)] Options: -config string Configuration file location. -db string Specify db name of the setting. -dblist display db information. -debug debug print. -driver string database driver. [ mysql | postgres | sqlite3 ] -dsn string database connection option. -help display usage information. -icsv CSV format for input. -id string Field delimiter for input. (default ",") -ig Guess format from extension. -ih The first line is interpreted as column names(CSV only). -ijson JSON format for input. -iltsv LTSV format for input. -is int Skip header row. -oat ASCII Table format for output. -ocsv CSV format for output. (default true) -od string Field delimiter for output. (default ",") -oh Output column name as header. -ojson JSON format for output. -oltsv LTSV format for output. -omd Mark Down format for output. -oraw Raw format for output. -ovf Vertical format for output. -q string Read query from the provided filename. -version display version information.
trdsql "select c4,c6,c7,c8 from in1.txt where c3='0'" >in2q.txt trdsql "SELECT u.*,h.c2 FROM in2t.txt as u LEFT JOIN keitai.csv as h ON(u.c4=h.c1)" > in3q.txt
Usage of textql: textql [-console] [-save-to path path] [-output-file path] [-output-dlm delimter] [-output-header] [-pretty] [-quiet] [-header] [-dlm delimter] [-sql sql_statements] [path ...] -console After all statements are run, open SQLite3 REPL with this data -dlm string Input delimiter character between fields -dlm=tab for tab, -dlm=0x## to specify a character code in hex (default ",") -header Treat input files as having the first row as a header row -output-dlm string Output delimiter character between fields -output-dlm=tab for tab, -dlm=0x## to specify a character code in hex (default ",") -output-file string Filename to write output to, if empty no output is written (default "stdout") -output-header Display column names in output -pretty Output pretty formatting -quiet Surpress logging -save-to string SQLite3 db is left on disk at this file -sql string SQL Statement(s) to run on the data -version Print version and exit
textql -sql "select c3,c5,c6,c7 from in1 where c2='0'" in1.txt>in2e.txt textql -sql "SELECT u.*,h.c1 FROM in2e as u LEFT JOIN keitai as h ON(u.c3=h.c0)" in2e.txt keitai.csv> in3e.txt
NAME: csvq - SQL-like query language for csv https://mithrandie.github.io/csvq USAGE: csvq [options] [subcommand] [query|argument] VERSION: Version 1.11.5 SUBCOMMANDS: fields Show fields in a file calc Calculate a value from stdin syntax Print syntax check-update Check for updates help, h Shows a list of commands or help for one command OPTIONS: --repository PATH, -r PATH directory PATH where files are located --timezone value, -z value default timezone (default: "Local") --datetime-format value, -t value datetime format to parse strings --ansi-quotes, -k use double quotation mark as identifier enclosure --wait-timeout value, -w value limit of the waiting time in seconds to wait for locked files to be released (default: 10) --source FILE, -s FILE load query or statements from FILE --import-format value, -i value default format to load files (default: "CSV") --delimiter value, -d value field delimiter for CSV (default: ",") --delimiter-positions value, -m value delimiter positions for FIXED --json-query QUERY, -j QUERY QUERY for JSON --encoding value, -e value file encoding (default: "AUTO") --no-header, -n import the first line as a record --without-null, -a parse empty fields as empty strings --out FILE, -o FILE export result sets of select queries to FILE --format value, -f value format of query results (default: "TEXT") --write-encoding value, -E value character encoding of query results (default: "UTF8") --write-delimiter value, -D value field delimiter for CSV in query results (default: ",") --write-delimiter-positions value, -M value delimiter positions for FIXED in query results --without-header, -N export result sets of select queries without the header line --line-break value, -l value line break in query results (default: "LF") --enclose-all, -Q enclose all string values in CSV and TSV --json-escape value, -J value JSON escape type (default: "BACKSLASH") --pretty-print, -P make JSON output easier to read in query results --east-asian-encoding, -W count ambiguous characters as fullwidth --count-diacritical-sign, -S count diacritical signs as halfwidth --count-format-code, -A count format characters and zero-width spaces as halfwidth --color, -c use ANSI color escape sequences --quiet, -q suppress operation log output --limit-recursion value maximum number of iterations for recursive queries (default: 1000) --cpu value, -p value hint for the number of cpu cores to be used (default: 1) --stats, -x show execution time and memory statistics --help, -h show help --version, -v print the version PARAMETERS: Timezone Local | UTC Import Format CSV | TSV | FIXED | JSON | LTSV Export Format CSV | TSV | FIXED | JSON | LTSV | GFM | ORG | TEXT Import Character Encodings AUTO | UTF8 | UTF8M | UTF16 | UTF16BE | UTF16LE | UTF16BEM | UTF16LEM | SJIS Export Character Encodings UTF8 | UTF8M | UTF16 | UTF16BE | UTF16LE | UTF16BEM | UTF16LEM | SJIS Line Break CRLF | CR | LF JSON Escape Type BACKSLASH | HEX | HEXALL
del in2c.csv del in3c.csv csvq -e SJIS -E SJIS -l CRLF -n -N -o in2c.csv -f CSV "select c4,c6,c7,c8 from in1c where c3='0'" csvq -e SJIS -E SJIS -l CRLF -n -N -o in3c.csv -f CSV "SELECT u.c1,u.c2,u.c3,u.c4,h.c2 FROM in2c as u LEFT JOIN keitai as h ON(u.c4=h.c1)"
querycsv であればメモリでなくsqlitedbを作って処理できます