批处理文件：计算重复的ID，并将其写入CSV列中

如何解决批处理文件：计算重复的ID，并将其写入CSV列中

我目前正在尝试通过批处理文件对csv文件进行自动化预处理。我有下表：

id;street;name;nrOfIds
4014001;T1;example1;0
4014002;B2;example2;0
4014003;B3;example3;0
4014004;L1;example4;0
4015001;M3;example5;0
4015002;B9;example6;0
4016001;T4;example7;0
4016002;L2;example8;0
4016003;L1;example9;0

第一行“ id”包含条目的ID，该条目的ID由后3个digt（例如001、002、003，...）唯一。最后三位数字之前的数字不是唯一的。正如您在结果表中看到的那样，我想计算ID的第一部分（因此后三位数字之前的部分）在表中的出现频率，并将该总和写入名为“ nrOfIds”的第三列中。结果表应如下所示：

id;street;name;nrOfIds
4014001;T1;example1;4
4014002;B2;example2;4
4014003;B3;example3;4
4014004;L1;example4;4
4015001;M3;example5;2
4015002;B9;example6;2
4016001;T4;example7;3
4016002;L2;example8;3
4016003;L1;example9;3

例如，在整个表中，第一行（4014）的最后三位数字之前的部分正好存在4次，因此我在“ nrOfIds”列中写了4次，依此类推。

用于此的代码如下：

@echo off
setlocal enabledelayedexpansion

for /F "tokens=1-3* delims=;" %%a in (%PREPROCESSING_INPUT_PATH%%INPUT_FILENAME%) do (
   (echo %%a;%%b;%%c)> "%PREPROCESSING_INPUT_PATH%%OUTPUT_FILENAME%" & goto :file
)
:file
(for /F "skip=1 tokens=1-3* delims=;" %%a in (%PREPROCESSING_INPUT_PATH%%INPUT_FILENAME%) do (
  REM count ids (like 4014,4015,... and write sum into "nrOfIds" column
  ) 
) >> %PREPROCESSING_OUTPUT_PATH%%OUTPUT_FILENAME%


pause

有关如何执行此操作的任何建议？提前非常感谢您！非常感谢您的帮助。

解决方法

与我之前发布的答案非常相似，这里我们仅使用find /C来标识ID的后3位数字出现的次数：

@echo off
setlocal enabledelayedexpansion
set "infile=z:\folder31\testcsv.csv"
set "outfile=%PREPROCESSING_OUTPUT_PATH%testOutput.csv"
for /f "usebackq delims=" %%a in ("%infile%") do (
    (echo %%a)>"%outfile%" & goto :file
)
:file
(for /f "skip=1 usebackq tokens=1-4*delims=;" %%a in ("%infile%") do (
    set "match=%%a"
    for /f %%i in ('findstr /B "!match:~0,-3!" "%infile%" ^| find /C "!match:~0,-3!"') do (
    set /a _cnt=%%i
    echo %%a;%%b;%%c;!_cnt!
  )
 )
)>>"%outfile%"

调试版本：

@echo off
setlocal enabledelayedexpansion
set "infile=%PREPROCESSING_INPUT_PATH%%INPUT_FILENAME%"
set "outfile=%PREPROCESSING_OUTPUT_PATH%%OUTPUT_FILENAME%"
for /f "usebackq delims=" %%a in ("%infile%") do (
    (echo %%a) & goto :file
)
:file
(for /f "skip=1 usebackq tokens=1-4*delims=;" %%a in ("%infile%") do (
     set "match=%%a"
 for /f %%i in ('findstr /B "!match:~0,-3!" "%infile%" ^|find /C "!match:~0,-3!"') do (
     set /a _cnt=%%i
     echo %%a;%%b;%%c;!_cnt!
  )
 )
)
pause

此方法简单且运行速度快：

@echo off
setlocal enabledelayedexpansion

rem Count ids
for /F "skip=1 delims=;" %%a in (input.txt) do (
   set "id=%%a"
   set /A "count[!id:~0,-3!]+=1"
)

rem Update the file
set "header="
(for /F "tokens=1-4 delims=;" %%a in (input.txt) do (
   if not defined header (
      echo %%a;%%b;%%c;%%d
      set "header=1"
   ) else (
      set "id=%%a"
      for /F %%i in ("!id:~0,-3!") do echo %%a;%%b;%%c;!count[%%~i]!
   )
)) > output.txt

基于外部命令（例如findstr或find）的方法速度较慢...

批处理文件：计算重复的ID，并将其写入CSV列中

如何解决批处理文件：计算重复的ID，并将其写入CSV列中

解决方法

相关推荐