พอดีเจอโจทย์ว่าต้องการ compare csv 2 file แล้ว generate ออกมาเป็น file ใหม่โดยมีเงื่อนไข ต้องตัดตัวซ้ำและใช้ไฟล์แรกเป็นหลักในการ compare
ถ้าไม่ต้องให้ตัดออก และมีเงื่อนไขอื่นๆอีกนิดหน่อย

เบื้องต้นทำการ research ว่ามีเครื่องมืออะไรที่จะใช้ในงานประเภทนี้ลองหลายวิธีอยู่เหมือนกันเช่นเขียน shell script เขียนโปรแกรมด้วย go และอื่นๆ
เห็นว่า run ค่อนข้างช้าและใช้ทรัพยากรเครื่องค่อนข้างสูง จึงไปเจอเครื่องมือตัวหนึ่งที่ run ได้อย่างรวดเร็วและน่าจะเกิดมาสำหรับทำเรื่อง data science อยู่แล้ว
คือ python และ numpy สามารถจัดการโจทย์ที่กล่าวมาข้างต้นได้อย่างมีประสิทธิภาพ

ตัวอย่าง code ที่เขียนดังนี้และคำอธิบายคร่าวๆ

#นำเข้าไลบรารี pandas
import pandas as pd

#อ่านข้อมูลจากไฟล์ CSV สองแห่ง 'input_1.csv' และ 'input_2.csv' มาเก็บในตัวแปร data1 และ data2 ตามลำดับ
data1 = pd.read_csv('input_1.csv', low_memory=False)
data2 = pd.read_csv('input_2.csv', low_memory=False)

#กำหนดคอลัมน์ที่ต้องการลบออกจากตาราง data1 โดยใช้คำสั่ง drop:
cols_to_drop = ['column_name_1','column_name_2','column_name_3']
data1.drop(cols_to_drop, axis=1, inplace=True)

#ลบแถวที่ซ้ำกันในตาราง data1 โดยใช้คำสั่ง drop_duplicates และกำหนดคอลัมน์ที่ต้องใช้เป็นตัวเปรียบเทียบในการหาแถวที่ซ้ำ
data1.drop_duplicates(subset=['column_name'], inplace=True)
#บันทึกตาราง data1 ที่มีแถวที่ซ้ำกันถูกลบออกไปลงในไฟล์ 'unique.csv
data1.to_csv('unique.csv', index=False)

#ทำการรวมข้อมูลจาก data1 และ data2 โดยใช้คำสั่ง merge กำหนดคอลัมน์ที่เป็นตัวเชื่อมข้อมูลในทั้งสองตาราง และรูปแบบการรวมข้อมูล (how) เป็น inner (รวมแถวที่มีค่าเหมือนกัน)
output1 = pd.merge(data1, data2, 
                   left_on='column_name', 
                   right_on='column_name', 
                   how='inner')

#บันทึกตาราง output1 ลงในไฟล์ 'out.csv'
output1.to_csv('out.csv', index=False)

สรุปสิ่งที่ได้เรียนรู้คือเราควรเลือก tools ให้ตรงการงานที่ต้องทำจริงๆจะเห็นว่าเราสามารถใช้ tools ได้หลายอย่างและได้ผลลัพธิ์เหมือนกัน
แต่ถ้าเราเลือกเครื่องมือที่ถูกต้องเราอาจได้ผลลัพธิ์เหมือนทำแบบอื่นๆแต่สิ่งที่ได้เพิ่มขึ้นมาคือประสิทธิภาพในการทำงานนั่นเอง