Read Message  

SUBJECT:Re: Bygga egen sökmotor, algoritmer?
FROM:Apachez <registered user>
INFO:http://www.apachez.net
DATE:2006-04-20 03:41
LINK:http://www.tbg.nu/news_show/84370/6

En liten uppföljning...

Som sagt med reversed index tog en viss "worstcase" sökning cirka 1.66 sekunder på p2 333MHz burken (tabellerna (data+index) tar cirka 1800 meg på disken där forumet i sig tar 755 meg).

Med vektorsökningen tar samma sökning (på p2 333MHz burken), håll i er nu... 0.023 sekunder 8-)

Storleken på disk (data+index) är 23.9 meg för 100k indexerade inlägg. Jag kan återkomma lite senare när jag löst problemen med indexeringsfasen för att ge en siffra på hur stort indexet blir för 900k inlägg (vilket reversed index metoden har fyllts med).

Ett problem som dykt upp är att det är stora mängder ramminne som behövs under indexeringsfasen. För att minimera "roundtrip" ner mot sqlservern så har jag försökt med att ha så mycket som möjligt i minnet på indexeringsmaskinen medan indexeringen sker.

Detta innebär att när indexeringen börjar så börjar den med att läsa in all data från sqlservern gällande vilka sökord som redan finns indexerade och dess bitvektorer. Bitvektorerna komprimeras snabbt och effektivt mha Compress::LZO som är designad för att komprimera snabbt. Compress::LZV1 har en del buggar som gör att den totalkraschar men Compress::LZO verkar vara bättre skriven. Och det är här problemet kommer... med 100k inlägg så har vi lite mer än 130k unika sökord. När dessa läggs upp i hashtabell i perl så sväller minnesanvändningen...

Så just nu klurar jag på att först testa med att öka roundtripparna ner mot sqlservern samt försöka att inte hålla allt för många sökord i hashtabellerna (dvs endast ha dom sökord som förekommer för varje chunk, tex 10k inlägg per chunk, och flusha ner förändringarna efter varje chunk ner mot sqlservern - blir visserligen mer trafik ner mot sqlen men minnesanvändningen på indexeringsmaskinen borde sjunka rät duktigt).

Något annat jag klurar på är att istället för att ha en bitvektor per sökord att istället har flera som var och en innehåller information för tex 50k inlägg. På så sätt borde indexeringsprocessen inte behöva 1.8 gig för att indexera 100k inlägg utan betydligt mindre...

Men jag ska prova först med första metoden att öka på kommunikationen ner mot sqlservern och om inte det hjälper prova att chunka upp även bitvektorerna i sig själva (tanken är att indexeringen ska kunna köras tex varje kvart som idag på p2 333MHz burken som inte har överdrivet med minne, men även om den hade det så vore 1.8 gig det saftigaste laget för att indexera "bara" 100k inlägg :P).

CURRENT THREAD FROMWHEN
Bygga egen sökmotor, algoritmer? Apachez 1570 days ago
   Re: Bygga egen sökmotor, algoritmer? Tapsa 1570 days ago
   Re: Bygga egen sökmotor, algoritmer? Apachez 1570 days ago
      Re: Bygga egen sökmotor, algoritmer? Apachez 1565 days ago
         Re: Bygga egen sökmotor, algoritmer? Anonymous 1565 days ago
         Re: Bygga egen sökmotor, algoritmer? Apachez 1563 days ago
         Re: Bygga egen sökmotor, algoritmer? Syntax 1563 days ago
         Re: Bygga egen sökmotor, algoritmer? Anonymous 1563 days ago
         Re: Bygga egen sökmotor, algoritmer? Anonymous 1563 days ago
         Re: Bygga egen sökmotor, algoritmer? Apachez 1563 days ago
         Re: Bygga egen sökmotor, algoritmer? Apachez 1562 days ago
            Re: Bygga egen sökmotor, algoritmer? Anonymous 1561 days ago
               Re: Bygga egen sökmotor, algoritmer? Apachez 1561 days ago
                  Re: Bygga egen sökmotor, algoritmer? Apachez 1559 days ago
                     Re: Bygga egen sökmotor, algoritmer? Apachez 1559 days ago
                        Re: Bygga egen sökmotor, algoritmer? Apachez 1559 days ago
                           Re: Bygga egen sökmotor, algoritmer? Fetta 1558 days ago
                           Re: Bygga egen sökmotor, algoritmer? Apachez 1558 days ago
                              Re: Bygga egen sökmotor, algoritmer? Apachez 1558 days ago
                                 Re: Bygga egen sökmotor, algoritmer? Samme 1558 days ago
                                 Re: Bygga egen sökmotor, algoritmer? Cruiser 1558 days ago
                                 Re: Bygga egen sökmotor, algoritmer? Apachez 1552 days ago
                                    Re: Bygga egen sökmotor, algoritmer? Apachez 1546 days ago
                                       Re: Bygga egen sökmotor, algoritmer? Apachez 1525 days ago
                                       Re: Bygga egen sökmotor, algoritmer? Anonymous 1525 days ago
                                       Re: Bygga egen sökmotor, algoritmer? Apachez 1525 days ago
                                          Re: Bygga egen sökmotor, algoritmer? Anonymous 1525 days ago
                                          Re: Bygga egen sökmotor, algoritmer? aps 1427 days ago
                                       Re: Bygga egen sökmotor, algoritmer? Samme 1525 days ago
                                       Re: Bygga egen sökmotor, algoritmer? Apachez 1518 days ago
                                          Re: Bygga egen sökmotor, algoritmer? Apachez 1517 days ago
                                             Re: Bygga egen sökmotor, algoritmer? Apachez 1474 days ago
                                                Re: Bygga egen sökmotor, algoritmer? Apachez 1472 days ago
                                                Re: Bygga egen sökmotor, algoritmer? Cruiser 1472 days ago
                                                   Re: Bygga egen sökmotor, algoritmer? Apachez 1449 days ago
                                                      Re: Bygga egen sökmotor, algoritmer? Cruiser 1449 days ago
                                                         Re: Bygga egen sökmotor, algoritmer? Apachez 1447 days ago
                                                            Re: Bygga egen sökmotor, algoritmer? Apachez 1437 days ago
                                                            Re: Bygga egen sökmotor, algoritmer? Samme 1437 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? Samme 1437 days ago
                                                                  Re: Bygga egen sökmotor, algoritmer? Apachez 1437 days ago
                                                                     Re: Bygga egen sökmotor, algoritmer? Samme 1437 days ago
                                                            Re: Bygga egen sökmotor, algoritmer? Apachez 1407 days ago
                                                            Re: Bygga egen sökmotor, algoritmer? Apachez 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? jnx 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? Cruiser 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? Samme 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? Aminion 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? Djur 1263 days ago
                                                               Re: Bygga egen sökmotor, algoritmer? aps 1263 days ago
                                                Re: Bygga egen sökmotor, algoritmer? Valrossen 1054 days ago
         Re: Bygga egen sökmotor, algoritmer? Anonymous 1562 days ago
            Re: Bygga egen sökmotor, algoritmer? Apachez 1562 days ago
               Re: Bygga egen sökmotor, algoritmer? Anonymous 1562 days ago
               Re: Bygga egen sökmotor, algoritmer? Apachez 1562 days ago
               Re: Bygga egen sökmotor, algoritmer? Anonymous 1560 days ago
                  Re: Bygga egen sökmotor, algoritmer? Apachez 1560 days ago
   Re: Bygga egen sökmotor, algoritmer? Bladet 1427 days ago
   Re: Bygga egen sökmotor, algoritmer? Anonymous 1426 days ago
   Re: Bygga egen sökmotor, algoritmer? Anonymous 1407 days ago
   Re: Bygga egen sökmotor, algoritmer? Anonymous 561 days ago
      Re: Bygga egen sökmotor, algoritmer? Apachez 561 days ago

Webmaster: Apachez