Benford’s Law in Data Analytics: Detecting Fraud with Numbers ЁЯСЙ Why?
Benford’s Law: Data Analytics рдореЗрдВ рдЗрд╕рдХреА рднреВрдорд┐рдХрд╛
Table of Contents
ToggleрдХреИрд╕реЗ BenfordтАЩs Law fraud рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ?
Benford’s Law рдХреНрдпрд╛ рд╣реИ?
BenfordтАЩs Law рдПрдХ рдмрд╣реБрдд рд╣реА interesting рдФрд░ surprising mathematical principle рд╣реИ, рдЬрд┐рд╕реЗ рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ 1881 рдореЗрдВ Simon Newcomb рдиреЗ discover рдХрд┐рдпрд╛ рдерд╛ рдФрд░ рдмрд╛рдж рдореЗрдВ 1938 рдореЗрдВ Frank Benford рдиреЗ рдЗрд╕реЗ famous рдмрдирд╛рдпрд╛ред рдпрд╣ law рдХрд╣рддрд╛ рд╣реИ рдХрд┐ рдХрд┐рд╕реА рднреА naturally occurring data set рдореЗрдВ numbers рдХреЗ рдкрд╣рд▓реЗ digits рдХрд╛ distribution uniform рдирд╣реАрдВ рд╣реЛрддрд╛ред рдЖрдорддреМрд░ рдкрд░ рд▓реЛрдЧ рд╕реЛрдЪрддреЗ рд╣реИрдВ рдХрд┐ рдПрдХ data set рдореЗрдВ рд╕рднреА рдкрд╣рд▓реЗ digits (1 рд╕реЗ 9 рддрдХ) рд▓рдЧрднрдЧ equal рдмрд╛рд░ рдЖрдПрдВрдЧреЗ, рд▓реЗрдХрд┐рди BenfordтАЩs Law рдЗрд╕рдХреЗ рдареАрдХ рдЙрд▓рдЯ рдмрддрд╛рддрд╛ рд╣реИред рдЗрд╕ law рдХреЗ рдЕрдиреБрд╕рд╛рд░, рдЫреЛрдЯреЗ digits рдЬреИрд╕реЗ 1, 2, рдФрд░ 3 рдмреЬреЗ digits (рдЬреИрд╕реЗ 8 рдФрд░ 9) рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдХрд╣реАрдВ рдЬреНрдпрд╛рджрд╛ рдмрд╛рд░ рдкрд╣рд▓реЗ digit рдХреЗ рд░реВрдк рдореЗрдВ appear рдХрд░рддреЗ рд╣реИрдВред
рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдЗрд╕ law рдХреЗ рд╣рд┐рд╕рд╛рдм рд╕реЗ рдХрд┐рд╕реА рднреА рдмреЬреЗ рдФрд░ natural data set рдореЗрдВ рд▓рдЧрднрдЧ **30.1% numbers “1” рд╕реЗ рд╢реБрд░реВ рд╣реЛрддреЗ рд╣реИрдВ**, рдЬрдмрдХрд┐ “2” рд╕реЗ рд╢реБрд░реВ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ numbers 17.6% рдФрд░ “3” рд╕реЗ рд╢реБрд░реВ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ 12.5% рд╣реЛрддреЗ рд╣реИрдВред рдЗрд╕рдХреЗ opposite рдореЗрдВ, “9” рд╕реЗ рд╢реБрд░реВ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ numbers рд╕рд┐рд░реНрдл **4.6%** рд╣реЛрддреЗ рд╣реИрдВред рдпрд╣ pattern рдкрд╣рд▓реА рдирдЬрд░ рдореЗрдВ strange рд▓рдЧ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рдХрдИ real-world data sets рдореЗрдВ рдмрд╛рд░-рдмрд╛рд░ рджреЗрдЦрд╛ рдЧрдпрд╛ рд╣реИ, рдЬреИрд╕реЗ population statistics, rivers рдХреА length, stock prices, рдФрд░ рдпрд╣рд╛рдБ рддрдХ рдХрд┐ electricity bills рдХреА amountред
BenfordтАЩs Law рдХрд╛ Mathematical Formula
BenfordтАЩs Law рдХреЛ mathematically рдПрдХ simple рд▓реЗрдХрд┐рди powerful formula рд╕реЗ explain рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ:
P(d) = log10(1 + 1/d)
рдпрд╣рд╛рдБ “P(d)” рдЙрд╕ probability рдХреЛ represent рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ number “d” digit рд╕реЗ рд╢реБрд░реВ рд╣реЛрдЧрд╛, рдЬрд╣рд╛рдБ “d” 1 рд╕реЗ 9 рддрдХ рдХреЛрдИ рднреА digit рд╣реЛ рд╕рдХрддрд╛ рд╣реИред For example, рдЕрдЧрд░ рд╣рдо “d = 1” рдбрд╛рд▓реЗрдВ, рддреЛ formula рд╣реЛрдЧрд╛: log10(1 + 1/1) = log10(2) тЙИ 0.301, рдЬреЛ 30.1% рд╣реИред Similarly, “d = 9” рдХреЗ рд▓рд┐рдП: log10(1 + 1/9) = log10(10/9) тЙИ 0.0458, рдЬреЛ 4.58% рд╣реИред рдпрд╣ formula рдЗрд╕ law рдХреЗ рдкреАрдЫреЗ рдХреА mathematical foundation рдХреЛ clear рдХрд░рддрд╛ рд╣реИ рдФрд░ рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ small digits рдмреЬреЗ digits рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдХреНрдпреЛрдВ рдЬреНрдпрд╛рджрд╛ рдмрд╛рд░ рдкрд╣рд▓реЗ position рдкрд░ рдЖрддреЗ рд╣реИрдВред
рдЗрд╕ law рдХрд╛ base рдпрд╣ рд╣реИ рдХрд┐ natural data рдЕрдХреНрд╕рд░ logarithmic scale рдкрд░ distributed рд╣реЛрддрд╛ рд╣реИред рдЗрд╕рдХрд╛ рдорддрд▓рдм рд╣реИ рдХрд┐ numbers рдЬреЛ 1 рд╕реЗ рд╢реБрд░реВ рд╣реЛрддреЗ рд╣реИрдВ, рдЙрдирдХреЗ рдкрд╛рд╕ 2 рд╕реЗ рд╢реБрд░реВ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ numbers рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЬреНрдпрд╛рджрд╛ “chances” рд╣реЛрддреЗ рд╣реИрдВ, рдФрд░ рдпрд╣ pattern рдЖрдЧреЗ рдмреЭрддрд╛ рд░рд╣рддрд╛ рд╣реИред рдпрд╣ рдПрдХ counterintuitive concept рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ real-world data рдореЗрдВ рдмрд╛рд░-рдмрд╛рд░ proven рд╣реБрдЖ рд╣реИред
Benford’s Law рдХрд╛ Use рдХрд╣рд╛рдБ рд╣реЛрддрд╛ рд╣реИ?
BenfordтАЩs Law рдХрд╛ use рдЖрдЬ рдХреЗ digital age рдореЗрдВ рдХрдИ fields рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ, рдЦрд╛рд╕рдХрд░ рдЬрд╣рд╛рдБ data рдХреА authenticity рдФрд░ truthfulness check рдХрд░рдирд╛ рдЬрд░реВрд░реА рд╣реЛред рдпрд╣ law рдЙрди areas рдореЗрдВ рдмрд╣реБрдд useful рд╣реИ рдЬрд╣рд╛рдБ human interference рдпрд╛ fraud рдХреА possibility рд╣реЛрддреА рд╣реИред LetтАЩs see рдЗрд╕рдХреЗ рдХреБрдЫ major uses:
- Fraud Detection рдореЗрдВ: BenfordтАЩs Law рдХрд╛ рд╕рдмрд╕реЗ popular use financial fraud рдХреЛ detect рдХрд░рдиреЗ рдореЗрдВ рд╣реИред For example, рдЕрдЧрд░ рдХрд┐рд╕реА company рдХреЗ financial records рдпрд╛ tax returns рдореЗрдВ рдкрд╣рд▓реЗ digits рдХрд╛ distribution BenfordтАЩs Law рд╕реЗ match рдирд╣реАрдВ рдХрд░рддрд╛, рддреЛ рдпрд╣ indicate рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ data рдореЗрдВ manipulation рд╣реБрдЖ рд╣реИред
- Auditing рдореЗрдВ: Companies рдХреЗ accounting records рдХреЛ audit рдХрд░рддреЗ рд╕рдордп, рдЕрдЧрд░ numbers рдЗрд╕ law рдХреЛ follow рдирд╣реАрдВ рдХрд░рддреЗ, рддреЛ рдпрд╣ potential financial irregularity рдХрд╛ sign рд╣реЛ рд╕рдХрддрд╛ рд╣реИред Auditors рдЗрд╕реЗ use рдХрд░рддреЗ рд╣реИрдВ suspicious patterns рдХреЛ spot рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдПред
- Cryptocurrency рдФрд░ Banking Sector рдореЗрдВ: Unusual transactions рдХреЛ catch рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЬреИрд╕реЗ fake trades рдпрд╛ money laundering, рдпрд╣ law рдмрд╣реБрдд helpful рд╣реИред Banks рдФрд░ crypto platforms рдЗрд╕реЗ irregular activities рдХреЛ monitor рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП apply рдХрд░рддреЗ рд╣реИрдВред
- Cyber Security рдореЗрдВ: Digital forensics рдФрд░ data breach investigations рдореЗрдВ, рдпрд╣ law abnormal data patterns рдХреЛ identify рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ, рдЬреЛ hacking рдпрд╛ unauthorized access рдХрд╛ hint рджреЗ рд╕рдХрддреЗ рд╣реИрдВред
рдЗрдирдХреЗ рдЕрд▓рд╛рд╡рд╛, BenfordтАЩs Law рдХрд╛ use scientific research, election result analysis, рдФрд░ рдпрд╣рд╛рдБ рддрдХ рдХрд┐ social media data рдХреА authenticity check рдХрд░рдиреЗ рдореЗрдВ рднреА рд╣реЛрддрд╛ рд╣реИред рдЗрд╕рдХрд╛ wide application рдЗрд╕реЗ data analytics рдХрд╛ рдПрдХ powerful tool рдмрдирд╛рддрд╛ рд╣реИред
Benford’s Law рдХрд╛ Real-Life Example
рдорд╛рди рд▓реАрдЬрд┐рдП рдПрдХ company рдХрд╛ financial data рдХреБрдЫ рдЗрд╕ рддрд░рд╣ рд╣реИред Company рдиреЗ рдЕрдкрдиреЗ monthly expenses рдХрд╛ record рджрд┐рдпрд╛ рд╣реИ, рдФрд░ рд╣рдо рдЗрд╕реЗ BenfordтАЩs Law рд╕реЗ analyze рдХрд░рддреЗ рд╣реИрдВ:
Number | First Digit |
---|---|
1450 | 1 |
2789 | 2 |
9200 | 9 |
рдЕрдЧрд░ рд╣рдо рдЗрд╕ data рдХреЛ analyze рдХрд░реЗрдВ рдФрд░ рджреЗрдЦреЗрдВ рдХрд┐ “9” рд╕реЗ рд╢реБрд░реВ рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ numbers expected рд╕реЗ рдмрд╣реБрдд рдЬреНрдпрд╛рджрд╛ рд╣реИрдВ (рдЬрдмрдХрд┐ BenfordтАЩs Law рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдЗрдирдХрд╛ percentage рд╕рд┐рд░реНрдл 4.6% рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП), рддреЛ рдпрд╣ red flag рд╣реЛ рд╕рдХрддрд╛ рд╣реИред рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ employee fake invoices рдмрдирд╛рдХрд░ funds embezzle рдХрд░ рд░рд╣рд╛ рд╣реЛред рдРрд╕реЗ cases рдореЗрдВ auditors deep investigation рдХрд░рддреЗ рд╣реИрдВред
Real-world рдореЗрдВ, Enron scandal (2001) рдЬреИрд╕реЗ рдмреЬреЗ fraud cases рдореЗрдВ BenfordтАЩs Law рдиреЗ irregularities рдХреЛ highlight рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХреА рдереАред рдЗрд╕реА рддрд░рд╣, election fraud рдХреА investigations рдореЗрдВ рднреА рдЗрд╕рдХрд╛ use рд╣реБрдЖ рд╣реИ, рдЬрд╣рд╛рдБ voting numbers рдХрд╛ distribution suspicious рдкрд╛рдпрд╛ рдЧрдпрд╛ред