# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:
#
# The above copyright notice and this permission notice shall be included in
# all copies or substantial portions of the Software.
#
# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
# THE SOFTWARE
#
Aunq el codigo funciona, todavia quedaría muchas tecnicas por explorar y optimizar, aun así los resultados no son tan enriquecedores, por las siguientes razones:
-Requiere bajarse mogollon de archivos
-Hace falta bastante energia para procesar tanto
Para hacerlo funcionar:
1. instalar con `pip install -r requirements.txt`
2. ejectuar `python get_files_boe.py` (dentro de ese archivo podeis cambiar el rango de fechas)
3. ejecutar `python text_analyzer.py` (ahi estan hard-coded las palabras clave q se buscaran, cambiarlas si os parece)
4½. o ejecutar `python get_files_boe.py && python text_analyzer.py`
Hay 300.000.000.000 boes por día, os sugiero q probeis con un rango pequeño y o canceleis el get_files_boe.py (Ctrl + c)
y luego ejecuteis el analizador
Improvements/Next steps:
- Download all files
- Create server with all documents indexed, and an api to query against