首頁(yè)>>>技術(shù)>>>email

垃圾郵件技術(shù)分析

2004/03/12

垃圾郵件的由來

  去年8月,本報(bào)與雅虎中國(guó)網(wǎng)站針對(duì)垃圾郵件問題進(jìn)行了一次聯(lián)合調(diào)查,結(jié)果顯示,幾乎所有擁有電子郵箱的人都受到過垃圾郵件的困擾。曾幾何時(shí),相對(duì)于“垃圾郵件(spam)這種稱謂,很多人認(rèn)為“未經(jīng)許可的商業(yè)郵件(Unsolicited Commercial Email,UCE)”是一種更準(zhǔn)確的說法。但隨著時(shí)間的推移,垃圾郵件的發(fā)送技術(shù)被黑客攻擊程序和病毒程序(例如最近流行的MyDoom)所利用,為了施行攻擊甚至僅僅為了浪費(fèi)網(wǎng)絡(luò)帶寬資源而發(fā)送的垃圾郵件大量出現(xiàn)。因此,目前業(yè)界更傾向于使用“未經(jīng)許可的大宗郵件(Unsolicited Bulk Email,UBE)”這種稱謂。在下文中,我們統(tǒng)一使用“垃圾郵件”來代表UBE、UCE,總之,這些是郵件中不請(qǐng)自來,并且多半是不懷好意的不速之客。

  垃圾郵件源于電子郵件營(yíng)銷,后者是一種許可營(yíng)銷,是現(xiàn)代營(yíng)銷的重要手段之一。通常,電子郵件營(yíng)銷是在征得客戶同意的前提下,向客戶發(fā)送包含產(chǎn)品信息、促銷信息的電子郵件。這種營(yíng)銷方式的主要成本在于收集和整理包含目標(biāo)客戶電子郵件地址的數(shù)據(jù)庫(kù)。電子郵件營(yíng)銷具有針對(duì)性強(qiáng)、反饋率高的優(yōu)點(diǎn),因此得到了廣泛的應(yīng)用。然而,如果免去了積累數(shù)據(jù)庫(kù)的時(shí)間和費(fèi)用,電子郵件營(yíng)銷的成本將遠(yuǎn)遠(yuǎn)低于其他各種營(yíng)銷形式,想省去這部分成本的商家則大有人在。由此,收集、銷售各種電子郵件地址數(shù)據(jù)庫(kù)以及大規(guī)模發(fā)送電子郵件都成了新的商機(jī)。為了提高發(fā)送效率,群發(fā)工具也日趨普及,而對(duì)SMTP協(xié)議的缺陷加以利用,則最終導(dǎo)致了垃圾郵件泛濫成災(zāi)。

  垃圾郵件問題遠(yuǎn)不只是技術(shù)問題,但是垃圾郵件的產(chǎn)生和防范都有其必然的技術(shù)根源,只有了解垃圾郵件產(chǎn)生過程中的技術(shù),才能有效地阻止垃圾郵件的傳播。

保護(hù)好您的郵件地址

  用戶在收到垃圾郵件的時(shí)候,除了感到煩惱和無奈之外,往往覺得奇怪—對(duì)方是怎樣得到自己的郵箱地址的?垃圾郵件發(fā)送者獲取郵箱地址的最常見方式是網(wǎng)上遍歷收集,使用俗稱“機(jī)器人(robot)”的自動(dòng)搜索程序遍歷Web,并收集其中的電子郵件地址。有時(shí),垃圾郵件發(fā)送者還會(huì)對(duì)收集來的地址數(shù)據(jù)庫(kù)通過專用工具進(jìn)行驗(yàn)證,將無效地址排除。收集來的郵件地址很可能會(huì)被轉(zhuǎn)售,而某些不負(fù)責(zé)任的論壇或網(wǎng)站也會(huì)將注冊(cè)用戶的郵件地址出售。除此之外,有的垃圾郵件發(fā)送工具還會(huì)使用字典窮舉的方法對(duì)MTA進(jìn)行大量郵件發(fā)送嘗試,其中,少數(shù)成功的嘗試會(huì)導(dǎo)致一些用戶收到垃圾郵件,而其余的則全部作為無效退信在一定時(shí)間內(nèi)存放在MTA的隊(duì)列中,耗費(fèi)大量系統(tǒng)資源。


  出于為反垃圾郵件產(chǎn)品評(píng)測(cè)積累樣本的目的,記者于2003年12月在“計(jì)算機(jī)世界網(wǎng)”上張貼了一個(gè)誘餌信箱,令人吃驚的是,僅僅在誘餌信箱發(fā)布后不到5分鐘,第一封垃圾郵件就不期而至。自從該誘餌信箱發(fā)布以來,其垃圾郵件的數(shù)量增長(zhǎng)情況如上圖所示。

  普通用戶為了避免垃圾郵件的困擾,應(yīng)盡量避免在網(wǎng)頁(yè)上公開自己的E-mail地址,在進(jìn)行論壇或網(wǎng)站成員注冊(cè)時(shí)也應(yīng)該盡量謹(jǐn)慎。如果懷疑哪個(gè)網(wǎng)頁(yè)泄漏了自己的E-mail地址,可以通過google等搜索引擎對(duì)自己的地址進(jìn)行檢索,并采取相應(yīng)的措施。

  對(duì)此,郵件系統(tǒng)的管理員應(yīng)該盡量確保自己的前端MTA主機(jī)只接收本地存在的目的E-mail地址,限制來自同一IP或子網(wǎng)的并發(fā)連接數(shù)。如今Postfix等多數(shù)主流MTA都有這方面的功能。此外,禁用SMTP協(xié)議中有可能泄漏本地用戶名列表的EXPN命令也是十分必要的。

  垃圾郵件防范技術(shù)

  垃圾郵件發(fā)送技術(shù)的演化


  有了郵件地址和郵件內(nèi)容,垃圾郵件發(fā)送者要做的就是在盡量短的時(shí)間內(nèi)將垃圾郵件發(fā)送出去。他們通常使用專用的群發(fā)工具或郵件列表系統(tǒng)來達(dá)到目的。

  在早些時(shí)候,Sendmail和IMS等多數(shù)MTA默認(rèn)設(shè)置是開放轉(zhuǎn)發(fā)(Open Relay)的。任何用戶都可以通過Internet上大量存在的開放轉(zhuǎn)發(fā)MTA主機(jī)來發(fā)送郵件。于是垃圾郵件制造者會(huì)首先查找一定數(shù)量的響應(yīng)速度快的開放轉(zhuǎn)發(fā)的MTA主機(jī),通過它們來完成收件人服務(wù)器名字解析及發(fā)送的工作。后來,為了避免成為垃圾郵件的中轉(zhuǎn)站,各種主流MTA程序的默認(rèn)設(shè)置都改為默認(rèn)禁止開放轉(zhuǎn)發(fā),而且,越來越多的開放轉(zhuǎn)發(fā)的服務(wù)器都被列入各種黑名單過濾,Internet上可用的開放轉(zhuǎn)發(fā)的主機(jī)正不斷減少。因此,垃圾郵件制造者開始廣泛使用本身具有收件服務(wù)器名字解析功能的群發(fā)工具和郵件列表系統(tǒng),這些發(fā)送者通常使用家庭寬帶進(jìn)行發(fā)送,其IP地址也不斷變化,為追蹤和屏蔽制造了障礙。

  垃圾郵件的發(fā)送環(huán)節(jié)與對(duì)抗垃圾郵件的過濾環(huán)節(jié)具有直接的對(duì)應(yīng)關(guān)系,在這個(gè)環(huán)節(jié)上可用的技術(shù)很多,用戶應(yīng)當(dāng)從自身的實(shí)際情況出發(fā)進(jìn)行遴選和應(yīng)用。

SMTP用戶認(rèn)證

  一個(gè)最常見但十分有效的方法是在MTA上對(duì)來自本地網(wǎng)絡(luò)以外的Internet的發(fā)信用戶進(jìn)行SMTP認(rèn)證,僅允許通過認(rèn)證的用戶進(jìn)行遠(yuǎn)程轉(zhuǎn)發(fā)。這既能夠有效避免MTA主機(jī)為垃圾郵件發(fā)送者所利用,又為出差在外或在家工作的員工提供了便利。如果不采取SMTP認(rèn)證,在不犧牲安全的前提下,設(shè)立面向Internet的Web郵件網(wǎng)關(guān)也是可行的。

  此外,如果SMTP服務(wù)(MTA)和POP3服務(wù)集成在同一主機(jī)上,在用戶試圖發(fā)信之前對(duì)其進(jìn)行POP3訪問驗(yàn)證(POP before SMTP)就是一種更加安全的方法,但在應(yīng)用的時(shí)候要考慮到當(dāng)前支持這種認(rèn)證方式的郵件客戶端程序還不多。

逆向名字解析

  無論哪一種認(rèn)證,其目的是避免MTA被垃圾郵件發(fā)送者所利用,對(duì)于發(fā)送到本地的垃圾郵件仍然無可奈何。要解決這個(gè)問題,最簡(jiǎn)單有效的方法是對(duì)發(fā)送者的IP地址進(jìn)行逆向名字解析。通過DNS查詢來判斷發(fā)送者的IP與其聲稱的名字是否一致,例如其聲稱的名字為mx.yahoo.com,而其連接地址為20.200.200.200,與其DNS記錄不符,則予以拒收。這種方法可以有效過濾掉來自動(dòng)態(tài)IP的垃圾郵件,對(duì)于某些使用動(dòng)態(tài)域名的發(fā)送者,也可以根據(jù)實(shí)際情況進(jìn)行屏蔽。

  但這種方法對(duì)于借助Open Relay的垃圾郵件依然無效。對(duì)此,更進(jìn)一步的技術(shù)是假設(shè)合法的用戶只使用本域具有合法Internet名稱的MTA主機(jī)發(fā)送E-Mail。例如,若發(fā)件人的郵件地址為somebody@google.com,則其使用的MTA的Internet名字應(yīng)具有g(shù)oogle.com的后綴。這種限制并不符合SMTP協(xié)議,但在多數(shù)情況下是切實(shí)有效的。

  需要指出的是,逆向名字解析需要進(jìn)行大量的DNS查詢,從而耗用大量的系統(tǒng)資源和網(wǎng)絡(luò)資源,為了提高性能和避免出現(xiàn)由于DNS服務(wù)中止或查詢超時(shí),該方法并未被普遍采用。

實(shí)時(shí)黑名單過濾

  以上的防范措施對(duì)使用自身合法域名的垃圾郵件仍然無效。對(duì)此,最有效的方法可能就是使用黑名單服務(wù)了。黑名單服務(wù)是基于用戶投訴和采樣積累而建立的、由域名或IP組成的數(shù)據(jù)庫(kù),最著名的是RBL、DCC和Razor等,這些數(shù)據(jù)庫(kù)保存了頻繁發(fā)送垃圾郵件的主機(jī)名字或IP地址,供MTA進(jìn)行實(shí)時(shí)查詢以決定是否拒收相應(yīng)的郵件。遺憾的是,目前各種黑名單數(shù)據(jù)庫(kù)都具有很強(qiáng)的區(qū)域歧視性,例如,北美的RBL和DCC包含了我國(guó)大量的主機(jī)名字和IP地址,其中有些是早期的Open Relay造成的,有些則是由于誤報(bào)造成的。但這些遲遲得不到糾正,在一定程度上阻礙了我國(guó)與北美地區(qū)的郵件聯(lián)系,也妨礙了我國(guó)的用戶使用這些黑名單服務(wù)。在我國(guó),黑名單服務(wù)仍處在起步階段,可用服務(wù)器較少,其有效性也沒有得到充分驗(yàn)證。

內(nèi)容過濾

  即使使用了前面諸多環(huán)節(jié)中的技術(shù),仍然會(huì)有相當(dāng)一部分垃圾郵件漏網(wǎng)。對(duì)此情況,目前最有效的方法是基于郵件標(biāo)題或正文的內(nèi)容過濾。其中,比較簡(jiǎn)單的方法是結(jié)合內(nèi)容掃描引擎,根據(jù)垃圾郵件的常用標(biāo)題語(yǔ),垃圾郵件受益者的姓名、電話號(hào)碼、Web地址等信息進(jìn)行過濾。更加復(fù)雜但同時(shí)更具智能性的方法是基于貝葉斯概率理論的統(tǒng)計(jì)方法所進(jìn)行的內(nèi)容過濾,該算法最早由Paul Graham提出(http://www.paulgraham.com/spam.html),并使用他自己設(shè)計(jì)的Arc語(yǔ)言實(shí)現(xiàn)。這種方法的理論基礎(chǔ)是通過對(duì)大量垃圾郵件中常見關(guān)鍵詞進(jìn)行分析后得出其分布的統(tǒng)計(jì)模型,并由此推算目標(biāo)郵件是垃圾郵件的可能性。這種方法具有一定的自適應(yīng)、自學(xué)習(xí)能力,目前已經(jīng)得到了廣泛的應(yīng)用。最有名的垃圾郵件內(nèi)容過濾是Spamassassin,它使用Perl語(yǔ)言實(shí)現(xiàn),集成了以上兩種過濾方法,可以與當(dāng)前各種主流的MTA集成使用。令人遺憾的是,從記者的使用情況來看,Spamassassin的中文關(guān)鍵詞學(xué)習(xí)能力非常差,很難達(dá)到在我國(guó)實(shí)際應(yīng)用的要求。

  需要指出的是,內(nèi)容過濾是以上所有各種方法中耗費(fèi)計(jì)算資源最多的,在郵件流量較大的場(chǎng)合,最好配合高性能服務(wù)器使用。

反垃圾郵件系統(tǒng)的建議配置

  正如前面一再提到的,進(jìn)行了各種設(shè)置之后,雖然絕大多數(shù)垃圾郵件在劫難逃,但也給MTA系統(tǒng)帶來了沉重的負(fù)擔(dān)。由于以往多數(shù)MTA與用戶的POP3/IMAP 4服務(wù)器甚至群件系統(tǒng)/協(xié)同工作平臺(tái)安裝在同一臺(tái)機(jī)器上,在這種情況下,進(jìn)行反垃圾郵件的設(shè)置勢(shì)必會(huì)影響系統(tǒng)的整體性能,并有可能進(jìn)而影響用戶業(yè)務(wù)的實(shí)時(shí)性。因此,設(shè)置專門用來過濾垃圾郵件的前端MTA正在逐漸成為一種流行的選擇。目前市場(chǎng)上已經(jīng)出現(xiàn)了一些具有垃圾郵件過濾功能的產(chǎn)品,為了幫助用戶更有效地采購(gòu)和實(shí)施這類產(chǎn)品,《計(jì)算機(jī)世界》網(wǎng)絡(luò)產(chǎn)品評(píng)測(cè)實(shí)驗(yàn)室將在近期組織相關(guān)的橫向評(píng)測(cè)。

反垃圾郵件技術(shù)前景展望

電子郵件——僅存的端到端應(yīng)用

  相對(duì)于Internet形成初期的完全對(duì)等的端到端網(wǎng)絡(luò)環(huán)境,如今的Internet已經(jīng)有了很大的不同,由于防火墻和代理服務(wù)器的限制,絕大多數(shù)應(yīng)用都已經(jīng)不再進(jìn)行端到端環(huán)境的假設(shè)。但由于SMTP協(xié)議的靈活性、普遍性和特殊性,電子郵件應(yīng)用仍然保持了端到端的特點(diǎn)。在用戶看來,郵件收發(fā)雙方是對(duì)等的,是沒有中間限制的。電子郵件如今成為病毒和黑客的突破口是歷史的必然。

SMTP的先天缺陷

  然而,SMTP本身不具有反垃圾郵件的特點(diǎn),它的名字本身(簡(jiǎn)單郵件傳輸協(xié)議)也說明了這一點(diǎn)。在2001年4月發(fā)布的最新版本SMTP協(xié)議文檔RFC2821(http://www.faqs.org/rfcs/rfc2821.html)中,在第七節(jié)“安全性的考慮”部分明確指出“SMTP(從先前的版本)繼承的特性決定了它在有些場(chǎng)合是不安全的,它不能限制郵件發(fā)送者的某些欺騙行為……”,它進(jìn)而指出“郵件的安全應(yīng)該僅僅依賴于基于郵件正文的端到端方案,如通過PGP或S/MIME對(duì)郵件進(jìn)行數(shù)字簽名和加密”。我們必須承認(rèn),這種說法是完全符合Internet傳統(tǒng)的,即在傳輸層無法解決的問題,交給應(yīng)用層來解決。

  然而,IETF并沒有表現(xiàn)出要盡快修改SMTP的意向,關(guān)于垃圾郵件控制的IETF官方RFC文本是RFC2505——“對(duì)于SMTP MTA的反垃圾郵件推薦設(shè)置”,僅僅進(jìn)行了一些簡(jiǎn)單的外圍技術(shù)的說明。只是最近由IRTF(互聯(lián)網(wǎng)研究工程組)成立了一個(gè)“防垃圾郵件研究小組”,開始對(duì)相關(guān)的技術(shù)進(jìn)行研究。

可能的解決方法

  與之形成鮮明對(duì)照的是,業(yè)界提出了各種解決方案。其中,試圖替代SMTP的協(xié)議就有很多,例如AMTP(http://amtp.bw.org/)等提案都在設(shè)計(jì)上就考慮到了安全與垃圾郵件等問題。然而我們必須認(rèn)識(shí)到,完全改變SMTP業(yè)已形成的龐大傳輸網(wǎng)絡(luò),試圖另起爐灶是脫離實(shí)際的。最有效、最現(xiàn)實(shí)的解決辦法必須與現(xiàn)有的SMTP協(xié)議兼容,并具備在SMTP網(wǎng)絡(luò)中逐步推廣,并在推廣過程中對(duì)用戶透明的能力。

  另有些方法是從提高垃圾郵件發(fā)送成本的角度來考慮,如收取費(fèi)用或提高M(jìn)TA的響應(yīng)時(shí)間,但這些方法不可避免地要影響到正常的郵件通信。記者認(rèn)為,現(xiàn)有的解決方法中,最有可能實(shí)施的是與DNS系統(tǒng)結(jié)合的解決方案,這是由電子郵件與DNS密不可分的先天聯(lián)系所決定的,其中有些方法是通過在DNS的目錄系統(tǒng)中加入與反垃圾郵件相關(guān)的條目來對(duì)郵件路由進(jìn)行限制。另外,Bill Gates最近在RSA大會(huì)上所提的方案則是一方面強(qiáng)制對(duì)入站郵件進(jìn)行DNS驗(yàn)證,另一方面是對(duì)MTA改造,加入類似“來電顯示(Caller ID)”的限制機(jī)制。

  值得欣慰的是,垃圾郵件問題已經(jīng)得到了整個(gè)社會(huì)的關(guān)注。我們相信,隨著對(duì)抗垃圾郵件的技術(shù)和非技術(shù)措施不斷出臺(tái),并在業(yè)界形成合力,垃圾郵件的問題終將得到有效的遏制。(反垃圾郵件解決方案可參見同期本報(bào)“應(yīng)用與方案”版C8~C11。)

SMTP協(xié)議與E-mail的發(fā)送流程

  SMTP即簡(jiǎn)單郵件傳輸協(xié)議(Simple Mail Transfer Protocol)是一種TCP協(xié)議,其端口號(hào)為25,它用于電子郵件的傳送。SMTP在收到用戶發(fā)來的郵件后,根據(jù)本地定義的規(guī)則和DNS名字解析的結(jié)果(需要將收件人E-mail地址中的域名解析為IP地址,通常得到其域名的MX紀(jì)錄)對(duì)郵件進(jìn)行轉(zhuǎn)發(fā)。在到達(dá)POP3或IMAP郵局之前,可能中間會(huì)經(jīng)過一個(gè)或多個(gè)SMTP服務(wù)器轉(zhuǎn)發(fā),由于SMTP服務(wù)器負(fù)責(zé)郵件的路由與轉(zhuǎn)發(fā),也被稱作郵件傳輸代理(MTA)。

  MTA通常都和特定的域名綁定,它以此來區(qū)分入站郵件是本域郵件還是遠(yuǎn)程郵件。如果是本域郵件,則轉(zhuǎn)發(fā)給本域的POP3或IMAP4郵局供用戶收。蝗绻沁h(yuǎn)程郵件,則需要經(jīng)過收件人所屬域的名字解析獲得其對(duì)應(yīng)的MTA IP地址,然后進(jìn)行遠(yuǎn)程轉(zhuǎn)發(fā)。如果MTA的默認(rèn)設(shè)置是不加限制地允許來自任意IP地址的用戶進(jìn)行遠(yuǎn)程轉(zhuǎn)發(fā),則這個(gè)MTA是開放轉(zhuǎn)發(fā)(Open Relay)的。

E-mail的工作流程原理如下圖所示。


計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)


相關(guān)鏈接:
從“指紋”中找出垃圾郵件 2004-03-12
郵件災(zāi)禍 2004-03-12
聯(lián)通亞信啟動(dòng)基于CDMA1X電子郵件系統(tǒng)項(xiàng)目 2004-02-05
Good線電郵軟件趕超BlackBerry 2004-02-05
電子郵件將成為國(guó)內(nèi)未來通信類移動(dòng)增值服務(wù)的主要方式 2004-01-31

分類信息:     文摘   技術(shù)_email_新聞   技術(shù)_email_文摘