<p>Hi </p>
  <p>one hint probably which will help.....as you wrote correctly the corpus for the bayes db will fit only if the db itself has 200 entries in it. To get a good corpus to start you can use following example emails:</p>
  <p><a href="http://spamassassin.apache.org/publiccorpus/">http://spamassassin.apache.org/publiccorpus/</a></p>
  <p>extract it and deliver it to the ham or spam mailfolder as run sa-learn....I did this for every customer and it fits really good. It gives you a really good corpus to start. This only as a hint how to fill up first time the bayes db. Below the README regarding this files etc.:</p>
  <p>Not that I worry about but all this stuff was documented within the Wiki of kolab for about 2 years including your stuff and much more but it seems that my site within the wiki was gone (do not know why). If you look within google for "kolab ; solaris" you will still find the link but as mentioned it is not anymore there (<a href="http://wiki.kolab.org/Solaris">http://wiki.kolab.org/Solaris</a>). The site was for Solaris actually but I used it also on CentOS without any problems because OpenPKG is OpenPKG and it does not really matter on which Unix you use it...within OpenPKG it is always the same command etc.</p>
  <p> --------------- <a href="http://spamassassin.org/publiccorpus/README.txt">http://spamassassin.org/publiccorpus/README.txt</a> --------------- </p>
  <p> Welcome to the SpamAssassin public mail corpus.  This is a selection of mail<br /> messages, suitable for use in testing spam filtering systems.  Pertinent<br /> points:<br /> <br />   - All headers are reproduced in full.  Some address obfuscation has taken<br />     place, and hostnames in some cases have been replaced with<br />     "spamassassin.taint.org" (which has a valid MX record).  In most cases<br />     though, the headers appear as they were received.<br /> <br />   - All of these messages were posted to public fora, were sent to me in the<br />     knowledge that they may be made public, were sent by me, or originated as<br />     newsletters from public news web sites.<br /> <br />   - relying on data from public networked blacklists like DNSBLs, Razor, DCC<br />     or Pyzor for identification of these messages is not recommended, as a<br />     previous downloader of this corpus might have reported them!<br /> <br />   - Copyright for the text in the messages remains with the original senders.<br /> <br />  <br /> OK, now onto the corpus description.  It's split into three parts, as follows:<br /> <br />   - spam: 500 spam messages, all received from non-spam-trap sources.<br /> <br />   - easy_ham: 2500 non-spam messages.  These are typically quite easy to<br />     differentiate from spam, since they frequently do not contain any spammish<br />     signatures (like HTML etc).<br /> <br />   - hard_ham: 250 non-spam messages which are closer in many respects to<br />     typical spam: use of HTML, unusual HTML markup, coloured text,<br />     "spammish-sounding" phrases etc.<br /> <br />   - easy_ham_2: 1400 non-spam messages.  A more recent addition to the set.<br /> <br />   - spam_2: 1397 spam messages.  Again, more recent.<br /> <br /> Total count: 6047 messages, with about a 31% spam ratio.<br />  <br /> The corpora are prefixed with the date they were assembled.  They are<br /> compressed using "bzip2".  The messages are named by a message number and<br /> their MD5 checksum.<br /> <br /> The "obsolete" dir contains old versions of the corpus, for reference,<br /> in case you need to correlate test results using these older versions<br /> against the source messages.  The messages in those corpora are generally<br /> included in the fresher corpora.<br /> <br /> This corpus lives at <a href="http://spamassassin.org/publiccorpus/">http://spamassassin.org/publiccorpus/</a> .  Mail<br /> jm - public - corpus AT jmason dot org if you have questions, or to donate<br /> mail.<br /> <br /> (Apr 23 2003 jm)<br /> <br /> --------------- <a href="http://spamassassin.org/publiccorpus/README.txt">http://spamassassin.org/publiccorpus/README.txt</a> --------------- </p>
  <p>kind regards</p>
  <p>Andrea</p>
  <p>Zitat von "Jeroen van Meeuwen (Kolab Systems)" <vanmeeuwen@kolabsys.com>:<br /><br />> Largely inspired by the existing article on the wiki[1], and some new<br />> requirements that I learned of, I've created some documentation on the<br />> subject of combating spam[2].<br />><br />> It's not done yet, in that no fishing-for-spam and no safety-net for<br />> discarded messages is documented, but I would appreciate your feedback<br />> on what's in there so far.<br />><br />> [1] <a href="http://wiki.kolab.org/Fighting_spam" target="_blank">http://wiki.kolab.org/Fighting_spam</a><br />> [2]<br />> <a href="http://hosted.kolabsys.com/~vanmeeuwen/kolab-docs/en-US/Kolab_Groupware/2.4/html/Administrator_Guide/chap-Administrator_Guide-Combating_Spam.html" target="_blank">http://hosted.kolabsys.com/~vanmeeuwen/kolab-docs/en-US/Kolab_Groupware/2.4/html/Administrator_Guide/chap-Administrator_Guide-Combating_Spam.html</a><br />><br />> Kind regards,<br />><br />> Jeroen van Meeuwen<br />><br />> --<br />> Senior Engineer, Kolab Systems AG<br />><br />> e: vanmeeuwen at kolabsys.com<br />> t: +44 144 340 9500<br />> m: +44 74 2516 3817<br />> w: <a href="http://www.kolabsys.com/" target="_blank">http://www.kolabsys.com</a><br />><br />> pgp: 9342 BF08<br />><br />> _______________________________________________<br />> Kolab-devel mailing list<br />> Kolab-devel@kolab.org<br />> <a href="https://kolab.org/mailman/listinfo/kolab-devel" target="_blank">https://kolab.org/mailman/listinfo/kolab-devel</a><br />><br /><br /><br />Mit freundlichen Grüssen<br /><br />Andrea Soliva<br /><br />soliva@comcept.ch </p>