O formato mbox

Como os clientes de correo electrónico gardan o correo no disco duro

O formato máis común para o almacenamento de mensaxes de correo é o formato mbox. MBOX significa MailBOX. Un mbox é un ficheiro único que contén cero ou máis mensaxes de correo.

O formato mbox

Se usamos o formato mbox para almacenar correos electrónicos, poñémoslles todos nun só ficheiro. Isto crea un arquivo de texto máis ou menos longo (sempre que o correo electrónico de Internet só existe como texto ASCII de 7 bits, todo o demais - anexos, por exemplo - está codificado ) que contén unha mensaxe de correo electrónico despois do outro. Como sabemos onde se termina e outro comeza?

Afortunadamente, cada correo electrónico ten polo menos unha liña dende o seu inicio. Cada mensaxe comeza con "From" (De seguido dun carácter de espazo en branco, tamén chamado de "From_"). Se esta secuencia ("De") ao comezo dunha liña está precedida por unha liña baleira ou está na parte superior do ficheiro, atopamos o inicio dunha mensaxe.

Entón o que buscamos ao analizar un ficheiro mbox é esencialmente unha liña baleira seguida de "De".

Como expresión regular, podemos escribir isto como "\ n \ nDe. * \ N". Só a primeira mensaxe é diferente. Comeza simplemente con "Desde" ao comezo dunha liña ("^ From. * \ N").

& # 34; De & # 34; no corpo

E se exactamente a secuencia anterior aparece no corpo dunha mensaxe de correo electrónico? E se o seguinte é parte dun correo electrónico?

... Envíalles o informe máis recente.

A partir deste informe, non tes que ...

Aquí, temos unha liña baleira seguida de "Desde" ao comezo da liña. Se isto aparece nun ficheiro mbox, inequívocamente temos o comezo dunha nova mensaxe. Polo menos iso é o que pensa o xestor e, polo tanto, tanto o cliente de correo electrónico como o confundiremos cunha mensaxe de correo electrónico que non contén remitente nin destinatario, pero comeza con "A partir deste informe".

Para evitar tales condicións desastrosas, necesitamos asegurarnos de que "De" nunca apareza ao comezo dunha liña seguindo unha liña baleira no corpo dun correo electrónico.

Sempre que engadimos unha nova mensaxe a un ficheiro mbox , buscamos tales secuencias no corpo e simplemente substitúe "De" con "> De". Isto fai imposible a interpretación incorrecta. O exemplo anterior agora é así e non máis activa o analizador:

... Envíalles o informe máis recente.

> A partir deste informe, non precisa ...

É por iso que ás veces pode atopar "> De" nun correo electrónico onde se espera un mero "De".